Obsah

1 Korpus textů o Šumavě

Korpus textů o Šumavě

O korpusech

Stránka sumava-corpus je prostředím, které sdružuje různé typy textových bank sdílejících shodné téma „Šumava“.

MediaBank

Centrální bankou je MediaBank, která sestává z textů vzniklých v letech 1991 až 2010 a spadajících do shodného, mediálního (makro)žánru. Převážná většina sebraných textů pochází z českých tištěných médií nebo jejich internetových verzí. Nejfrekventovanějšími zdroji jsou regionální mutace velkých deníků a částečně větší měsíčníky, v menší míře se zde vyskytují také tiskové zprávy a několik textů pocházejících z on-line blogů. Korpus doplňují přepisy televizních a rozhlasových pořadů. Celkově obsahuje přes 7000 textů o rozsahu téměř 3 mil. slov. Ačkoli korpus jistě není kompletní, lze jej považovat za reprezentativní.

Rozložení textů v čase je patrné z tabulky:

Rok	1991	1992	1993	1994	1995	1996	1997	1998	1999	2000
Počet	3	3	50	50	50	80	100	60	310	400
Rok	2001	2002	2003	2004	2005	2006	2007	2008	2009	2010
Počet	450	400	450	350	300	550	1000	1000	900	600
Celkem	7150

Výběr textů do MediaBank byl podmíněn pouze nutným výskytem jednotky „Šumava“. Výchozí materiál – v nejstarších obdobích novinové výstřižky, v těch mladších pak výsledky monitoringů médií – mi laskavě poskytl archiv Hnutí Duha; na zpracování materiálu se podíleli převážně studenti FF UK, jejichž práce byla hrazena prostřednictvím účelového stipendia, které mi FF UK na tvorbu korpusu poskytla. Webovou stránku realizoval Michal Mocňák a je součástí projektu Narra.

PrefBank

Je souborem předmluv, doslovů a částečně také kapitol týkajících se obecné charakteristiky pohoří vypsaných z průvodců, fotografických publikací, memoárů a dalších pramenů týkajících se Šumavy. Sestává z 65 textů vzniklých mezi roky 1878 a 2013. Účelem PrefBank je zastávat funkci referenčního materiálu MediaBank a zároveň reprezentovat materiál reflektující problematiku Šumavy dávno před vznikem národního parku.

KlosterBank

Je souborem předmluv a doslovů k především beletristickým dílům Karla Klostermanna. Celkem 23 textů odráží vývoj vnímání Šumavy od počátku 20. století. Stejně jako v případě PrefBank plní KlosterBank důležitou funkci referenčního materiálu.

Účel korpusů

Všechny tři textové banky vznikly jako materiálová báze pro můj výzkum, který se věnuje dynamice mediálního diskurzu o Národním parku Šumava. Zejména MediaBank využívám jako podklad pro kvantitativní analýzu, jejímž účelem je odhalovat frekventovaná sémanticky relevantní lexikálně-gramatická schémata. Zjednodušeně řečeno: s pomocí MediaBank je například dobře možné odkrývat komunikační stereotypy či argumentační strategie, které jsou pro debatu o Národním parku Šumava klíčové. Rozhraní, které jsme pro korpus zvolili, však také umožňuje například velmi rychle a pohodlně zjistit, v jakém období a v jakých médiích ten který aktér publikoval, s kým konkrétní deník rád dělá rozhovory nebo jednoduše, kdy se o Šumavě nejvíc psalo. Prostředí MediaWiki navíc nabízí komplexní vyhledávání na standardním „googlovském“ principu.

Jak vyhledávat

Nabídka v levém sloupci umožňuje prostým kliknutím přejít přímo do vyhledávače jakékoliv ze tří bank. Vyhledávač nabízí formulovat dotaz pomocí celkem sedmi polí rozdělených podle kategorií, pomocí nichž lze dotaz omezit. Jednotlivá pole jsou kombinovatelná (lze jich vyplnit více najednou): Kategorie nabízí možnost navolit kombinaci bank, v nichž chci vyhledávat.

Do pole Title contains string lze vložit slovo nebo řadu slov, která se nacházejí v titulku textu, který hledám. Pozor! pro dotaz jsou relevantní slovní tvary, např. voda proto nevyhledá vodu. Toto pole doporučuji vyplňovat pouze v případě, kdy vyhledávám konkrétní známý text.

Pole Author contains string slouží k zadání autora nebo autorů hledaného textu. Uživateli pomáhá rychlý našeptávač.

Pole Source contains string slouží k zadání zdroje (média, knihy ap.), v němž hodlám vyhledávat. Zdrojů lze zadat více zároveň. Uživateli pomáhá rychlý našeptávač.

Pole Genre contains string slouží k třídění pomocí žánru/ů. Uživateli pomáhá rychlý našeptávač.

Pole Respondent contains string umožňuje omezit dotaz pomocí respondenta; vyplním-li toto pole, vyhledávám výhradně v rozhovorech. Uživateli pomáhá rychlý našeptávač.

Dvě pole kategorie Date umožňují zacílit dotaz na konkrétní datum či časový rozsah.

Po vyplnění dotazu a zadání volby Run query zobrazí vyhledávač tabulku textů, které zvoleným kritériím vyhovují. Každý z nalezených textů je definován a opatřen všemi sedmi kategoriemi. Každou z kategorií lze v hlavičce tabulky uspořádat vzestupně či sestupně podle abecedy, datum podle chronologie. Pozor! na stránce lze zároveň zobrazit pouze omezený počet nálezů (maximálně 500). A abecedně či chronologicky lze třídit pouze aktuálně zobrazené texty!

Druhou možností tabulky nálezů je další proklikávání výsledků v jednotlivých kategoriích. Kliknutí plní stejnou funkci jako vyplnění pole ve výchozím vyhledávači. Kliknu-li v tabulce nálezů například na jméno (Author), vyhledávač zobrazí veškeré texty mající toto jméno v kategorii Author. Tyto texty lze dále třídit (omezovat) podle ostatních kategorií. Pozor! Po kliknutí na výsledek v jakékoliv z kategorií nabídne vyhledávač výsledky automaticky ve všech bankách. Omezení musí provést dodatečně uživatel. Kliknu-li na kategorii Date, výsledkem vyhledávání budou veškeré texty shodující se v datu. Chci-li následně výsledek rozšířit z data na období, je potřeba ve vyhledávači v kategorii Date přepsat hodnoty v obou polích „od do“.

Poslední důležitou možností třídění textů je googlovský vyhledávač v pravém horním rohu obrazovky. Jeho pomocí lze texty třídit zadáním slov či jejich řetězců; výsledkem je seznam článků tříděný podle relevance. Tento vyhledávač není v aktuální verzi šumavského korpusu propojený s jednotlivými kategoriemi, to znamená, že nelze googlovské vyhledávání zacílit pouze na skupinu konkrétních textů (např. na texty z konkrétních novin ap.).

Jak citovat

Hořejší, M. – Mocňák, M.: Korpus textů o Šumavě. Dostupné z <http://sumava-corpus.narra.eu>, [citováno dne 8. 8. 2016].

Sumava-corpus by měl sloužit nejen jako snadno dostupný materiál pro vysokoškolské studenty zabývající se (například ve svých diplomových pracích) analýzou diskurzu, mediální komunikací ap., ale také novinářům, kteří ve svých článcích o šumavské problematice zpravidla vykazují trapnou neznalost faktů a historie. Korpusy by však měly sloužit také těm, které jednoduše zajímá, jak se o Šumavě v minulosti mluvilo.

Michal Hořejší, mhorejsi(at)ujc.cas.cz

sumava-corpus:About

Obsah

Korpus textů o Šumavě

O korpusech

MediaBank

PrefBank

KlosterBank

Účel korpusů

Jak vyhledávat

Jak citovat

Navigační menu

Osobní nástroje

Jmenné prostory

Varianty

Zobrazení

Další

Hledat

Navigace

Banky

Nástroje