Main Page: Porovnání verzí
| Řádka 1: | Řádka 1: | ||
| − | + | = Korpus textů o Šumavě = | |
| − | + | === O korpusech === | |
| − | == | + | Stránka sumava-corpus je prostředím, které sdružuje různé typy textových bank sdílejících shodné téma „Šumava“. |
| − | + | ||
| − | + | ==== MediaBank ==== | |
| − | + | ||
| − | + | Centrální bankou je MediaBank, která sestává z textů vzniklých v letech 1991 až 2010 a spadajících do shodného, mediálního (makro)žánru. Převážná většina sebraných textů pochází z českých tištěných médií nebo jejich internetových verzí. Nejfrekventovanějšími zdroji jsou regionální mutace velkých deníků a částečně větší měsíčníky, v menší míře se zde vyskytují také tiskové zprávy a několik textů pocházejících z on-line blogů. Korpus doplňují přepisy televizních a rozhlasových pořadů. Celkově obsahuje necelých 6800 textů o rozsahu 2,9 mil. slov. Ačkoli korpus jistě není kompletní, lze jej považovat za reprezentativní. | |
| + | |||
| + | Rozložení textů v čase je patrné z tabulky: | ||
| + | |||
| + | {| class="wikitable" | ||
| + | |Rok || 1991 || 1992 || 1993 || 1994 || 1995 || 1996 || 1997 || 1998 || 1999 || 2000 | ||
| + | |- | ||
| + | |Počet || 1 || 1 || 40 || 30 || 50 || 40 || 50 || 15 || 100 || 300 | ||
| + | |- | ||
| + | |Rok || 2001 || 2002 || 2003 || 2004 || 2005 || 2006 || 2007 || 2008 || 2009 || 2010 | ||
| + | |- | ||
| + | |Počet || 450 || 400 || 450 || 350 || 150 || 550 || 1000 || 1000 || 1000 || 800 | ||
| + | |- | ||
| + | |Celkem || 6800 | ||
| + | |} | ||
| + | |||
| + | Výběr textů do MediaBank byl podmíněn pouze nutným výskytem jednotky „Šumava. Výchozí materiál – v nejstarších obdobích novinové výstřižky, v těch mladších pak výsledky monitoringů médií – mi laskavě poskytl archiv Hnutí Duha; na zpracování materiálu se podíleli převážně studenti FF UK, jejichž práce byla hrazena prostřednictvím účelového stipendia, které mi FF UK na tvorbu korpusu poskytla. Webovou stránku realizoval Michal Mocňák a je součástí projektu Narra. | ||
Verze z 20. 8. 2015, 07:52
Korpus textů o Šumavě
O korpusech
Stránka sumava-corpus je prostředím, které sdružuje různé typy textových bank sdílejících shodné téma „Šumava“.
MediaBank
Centrální bankou je MediaBank, která sestává z textů vzniklých v letech 1991 až 2010 a spadajících do shodného, mediálního (makro)žánru. Převážná většina sebraných textů pochází z českých tištěných médií nebo jejich internetových verzí. Nejfrekventovanějšími zdroji jsou regionální mutace velkých deníků a částečně větší měsíčníky, v menší míře se zde vyskytují také tiskové zprávy a několik textů pocházejících z on-line blogů. Korpus doplňují přepisy televizních a rozhlasových pořadů. Celkově obsahuje necelých 6800 textů o rozsahu 2,9 mil. slov. Ačkoli korpus jistě není kompletní, lze jej považovat za reprezentativní.
Rozložení textů v čase je patrné z tabulky:
| Rok | 1991 | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 | 1998 | 1999 | 2000 |
| Počet | 1 | 1 | 40 | 30 | 50 | 40 | 50 | 15 | 100 | 300 |
| Rok | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | 2010 |
| Počet | 450 | 400 | 450 | 350 | 150 | 550 | 1000 | 1000 | 1000 | 800 |
| Celkem | 6800 |
Výběr textů do MediaBank byl podmíněn pouze nutným výskytem jednotky „Šumava. Výchozí materiál – v nejstarších obdobích novinové výstřižky, v těch mladších pak výsledky monitoringů médií – mi laskavě poskytl archiv Hnutí Duha; na zpracování materiálu se podíleli převážně studenti FF UK, jejichž práce byla hrazena prostřednictvím účelového stipendia, které mi FF UK na tvorbu korpusu poskytla. Webovou stránku realizoval Michal Mocňák a je součástí projektu Narra.