Main Page: Porovnání verzí
Řádka 1: | Řádka 1: | ||
− | + | = Korpus textů o Šumavě = | |
− | + | === O korpusech === | |
− | == | + | Stránka sumava-corpus je prostředím, které sdružuje různé typy textových bank sdílejících shodné téma „Šumava“. |
− | + | ||
− | + | ==== MediaBank ==== | |
− | + | ||
− | + | Centrální bankou je MediaBank, která sestává z textů vzniklých v letech 1991 až 2010 a spadajících do shodného, mediálního (makro)žánru. Převážná většina sebraných textů pochází z českých tištěných médií nebo jejich internetových verzí. Nejfrekventovanějšími zdroji jsou regionální mutace velkých deníků a částečně větší měsíčníky, v menší míře se zde vyskytují také tiskové zprávy a několik textů pocházejících z on-line blogů. Korpus doplňují přepisy televizních a rozhlasových pořadů. Celkově obsahuje necelých 6800 textů o rozsahu 2,9 mil. slov. Ačkoli korpus jistě není kompletní, lze jej považovat za reprezentativní. | |
+ | |||
+ | Rozložení textů v čase je patrné z tabulky: | ||
+ | |||
+ | {| class="wikitable" | ||
+ | |Rok || 1991 || 1992 || 1993 || 1994 || 1995 || 1996 || 1997 || 1998 || 1999 || 2000 | ||
+ | |- | ||
+ | |Počet || 1 || 1 || 40 || 30 || 50 || 40 || 50 || 15 || 100 || 300 | ||
+ | |- | ||
+ | |Rok || 2001 || 2002 || 2003 || 2004 || 2005 || 2006 || 2007 || 2008 || 2009 || 2010 | ||
+ | |- | ||
+ | |Počet || 450 || 400 || 450 || 350 || 150 || 550 || 1000 || 1000 || 1000 || 800 | ||
+ | |- | ||
+ | |Celkem || 6800 | ||
+ | |} | ||
+ | |||
+ | Výběr textů do MediaBank byl podmíněn pouze nutným výskytem jednotky „Šumava. Výchozí materiál – v nejstarších obdobích novinové výstřižky, v těch mladších pak výsledky monitoringů médií – mi laskavě poskytl archiv Hnutí Duha; na zpracování materiálu se podíleli převážně studenti FF UK, jejichž práce byla hrazena prostřednictvím účelového stipendia, které mi FF UK na tvorbu korpusu poskytla. Webovou stránku realizoval Michal Mocňák a je součástí projektu Narra. |
Verze z 20. 8. 2015, 07:52
Korpus textů o Šumavě
O korpusech
Stránka sumava-corpus je prostředím, které sdružuje různé typy textových bank sdílejících shodné téma „Šumava“.
MediaBank
Centrální bankou je MediaBank, která sestává z textů vzniklých v letech 1991 až 2010 a spadajících do shodného, mediálního (makro)žánru. Převážná většina sebraných textů pochází z českých tištěných médií nebo jejich internetových verzí. Nejfrekventovanějšími zdroji jsou regionální mutace velkých deníků a částečně větší měsíčníky, v menší míře se zde vyskytují také tiskové zprávy a několik textů pocházejících z on-line blogů. Korpus doplňují přepisy televizních a rozhlasových pořadů. Celkově obsahuje necelých 6800 textů o rozsahu 2,9 mil. slov. Ačkoli korpus jistě není kompletní, lze jej považovat za reprezentativní.
Rozložení textů v čase je patrné z tabulky:
Rok | 1991 | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 | 1998 | 1999 | 2000 |
Počet | 1 | 1 | 40 | 30 | 50 | 40 | 50 | 15 | 100 | 300 |
Rok | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | 2010 |
Počet | 450 | 400 | 450 | 350 | 150 | 550 | 1000 | 1000 | 1000 | 800 |
Celkem | 6800 |
Výběr textů do MediaBank byl podmíněn pouze nutným výskytem jednotky „Šumava. Výchozí materiál – v nejstarších obdobích novinové výstřižky, v těch mladších pak výsledky monitoringů médií – mi laskavě poskytl archiv Hnutí Duha; na zpracování materiálu se podíleli převážně studenti FF UK, jejichž práce byla hrazena prostřednictvím účelového stipendia, které mi FF UK na tvorbu korpusu poskytla. Webovou stránku realizoval Michal Mocňák a je součástí projektu Narra.