Main Page: Porovnání verzí

Z sumava-corpus
Přejít na: navigace, hledání
 
Řádka 1: Řádka 1:
<strong>MediaWiki has been successfully installed.</strong>
+
= Korpus textů o Šumavě =
  
Consult the [//meta.wikimedia.org/wiki/Help:Contents User's Guide] for information on using the wiki software.
+
=== O korpusech ===
  
== Getting started ==
+
Stránka sumava-corpus je prostředím, které sdružuje různé typy textových bank sdílejících shodné téma „Šumava“.
* [//www.mediawiki.org/wiki/Special:MyLanguage/Manual:Configuration_settings Configuration settings list]
+
 
* [//www.mediawiki.org/wiki/Special:MyLanguage/Manual:FAQ MediaWiki FAQ]
+
==== MediaBank ====
* [https://lists.wikimedia.org/mailman/listinfo/mediawiki-announce MediaWiki release mailing list]
+
 
* [//www.mediawiki.org/wiki/Special:MyLanguage/Localisation#Translation_resources Localise MediaWiki for your language]
+
Centrální bankou je MediaBank, která sestává z textů vzniklých v letech 1991 až 2010 a spadajících do shodného, mediálního (makro)žánru. Převážná většina sebraných textů pochází z českých tištěných médií nebo jejich internetových verzí. Nejfrekventovanějšími zdroji jsou regionální mutace velkých deníků a částečně větší měsíčníky, v menší míře se zde vyskytují také tiskové zprávy a několik textů pocházejících z on-line blogů. Korpus doplňují přepisy televizních a rozhlasových pořadů. Celkově obsahuje necelých 6800 textů o rozsahu 2,9 mil. slov. Ačkoli korpus jistě není kompletní, lze jej považovat za reprezentativní.
 +
 
 +
Rozložení textů v čase je patrné z tabulky:
 +
 
 +
{| class="wikitable"
 +
|Rok || 1991 || 1992 || 1993 || 1994 || 1995 || 1996 || 1997 || 1998 || 1999 || 2000
 +
|-
 +
|Počet || 1 || 1 || 40 || 30 || 50 || 40 || 50 || 15 || 100 || 300
 +
|-
 +
|Rok || 2001 || 2002 || 2003 || 2004 || 2005 || 2006 || 2007 || 2008 || 2009 || 2010
 +
|-
 +
|Počet || 450 || 400 || 450 || 350 || 150 || 550 || 1000 || 1000 || 1000 || 800
 +
|-
 +
|Celkem || 6800
 +
|}
 +
 
 +
Výběr textů do MediaBank byl podmíněn pouze nutným výskytem jednotky „Šumava. Výchozí materiál – v nejstarších obdobích novinové výstřižky, v těch mladších pak výsledky monitoringů médií – mi laskavě poskytl archiv Hnutí Duha; na zpracování materiálu se podíleli převážně studenti FF UK, jejichž práce byla hrazena prostřednictvím účelového stipendia, které mi FF UK na tvorbu korpusu poskytla. Webovou stránku realizoval Michal Mocňák a je součástí projektu Narra.

Verze z 20. 8. 2015, 07:52

Korpus textů o Šumavě

O korpusech

Stránka sumava-corpus je prostředím, které sdružuje různé typy textových bank sdílejících shodné téma „Šumava“.

MediaBank

Centrální bankou je MediaBank, která sestává z textů vzniklých v letech 1991 až 2010 a spadajících do shodného, mediálního (makro)žánru. Převážná většina sebraných textů pochází z českých tištěných médií nebo jejich internetových verzí. Nejfrekventovanějšími zdroji jsou regionální mutace velkých deníků a částečně větší měsíčníky, v menší míře se zde vyskytují také tiskové zprávy a několik textů pocházejících z on-line blogů. Korpus doplňují přepisy televizních a rozhlasových pořadů. Celkově obsahuje necelých 6800 textů o rozsahu 2,9 mil. slov. Ačkoli korpus jistě není kompletní, lze jej považovat za reprezentativní.

Rozložení textů v čase je patrné z tabulky:

Rok 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Počet 1 1 40 30 50 40 50 15 100 300
Rok 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Počet 450 400 450 350 150 550 1000 1000 1000 800
Celkem 6800

Výběr textů do MediaBank byl podmíněn pouze nutným výskytem jednotky „Šumava. Výchozí materiál – v nejstarších obdobích novinové výstřižky, v těch mladších pak výsledky monitoringů médií – mi laskavě poskytl archiv Hnutí Duha; na zpracování materiálu se podíleli převážně studenti FF UK, jejichž práce byla hrazena prostřednictvím účelového stipendia, které mi FF UK na tvorbu korpusu poskytla. Webovou stránku realizoval Michal Mocňák a je součástí projektu Narra.