Srovnávací frekvenční seznamy

Michal Křen

Důležité upozornění: tato stránka je aktualizovanou verzí původních srovnávacích frekvenčních seznamů z korpusů SYN2000 a SYN2005. Hlavním vylepšením oproti původní verzi je přidání dat z korpusu SYN2010 k datům z korpusů SYN2005 a SYN2000 tak, aby tyto seznamy usnadňovaly studium změn, kterými čeština prošla od roku 1990 do roku 2009. Přidání korpusu SYN2010 si ale vyžádalo kompletní přepracování těchto seznamů i pro korpusy SYN2005 a SYN2000, takže musely být aktualizovány všechny soubory nabízené ke stažení na této stránce v sekci Download. Tato aktualizace odráží vylepšení nástrojů použitých ke zpracování korpusů, zejména morfologické analýzy a desambiguace, které tak nyní jsou i pro starší korpusy na úrovni korpusu SYN2010. Důsledkem všech těchto nutných změn tedy je, že nové seznamy stažené z této stránky nejsou srovnatelné se soubory staženými ze stránky původní!

Obsah:
Popis údajů ve srovnávacích frekvenčních seznamech
Jak citovat srovnávací frekvenční seznamy
Download

SYN2000, SYN2005 a SYN2010 jsou synchronní reprezentativní korpusy současné psané češtiny, z nichž každý obsahuje 100 milionů textových slov (tokens). Tyto korpusy však mají kromě zmíněných shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování - stručný popis rozdílů najdete na stránkách korpusů SYN2005 a SYN2010. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat frekvence jednotlivých slov mezi jednotlivými korpusy a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty absolutní frekvence (tedy prostý součet všech výskytů daného slovního tvaru nebo lemmatu v korpusu) mohou totiž být rozdíly ve složení a zpracování korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z těchto korpusů, které uvádějí kromě absolutní frekvence i další údaje, které přímé srovnání umožňují. Protože jsou všechny korpusy lemmatizované, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat.

K rozdílům patří odlišný způsob tokenizace (rozdělení korpusu na jednotlivé slovní tvary - tokens), segmentace (rozdělení korpusu na věty), a samozřejmě také novější verze lemmatizace (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu). Aby bylo možné tento vliv pro srovnání korpusů eliminovat, bylo třeba starší korpusy přetokenizovat (tj. zpracovat novější verzí tokenizace a segmentace) a nově zlemmatizovat stejnými verzemi všech těchto programů, kterými byl zpracován také korpus SYN2010. Tato změna se nijak neprojevila ve vlastních korpusech SYN2000 a SYN2005, které jsou jako neměnné referenční entity veřejně přístupné pomocí webového rozhraní KonText. Spolu s korpusem SYN2010 však vznikla nová verze korpusu SYN s aktualizovanou tokenizací, segmentací a lemmatizací, k jejímž subkorpusům odpovídajícím korpusům SYN2000, SYN2005 a SYN2010 se vztahují veškeré dále uváděné frekvenční údaje. Tím byla na jedné straně zajištěna srovnatelnost korpusů SYN2000, SYN2005 a SYN2010 co se tokenizace, segmentace a lemmatizace týče, na straně druhé to však znamená, že se hodnoty absolutní frekvence ve srovnávacích frekvenčních seznamech pro korpusy SYN2000 a SYN2005 mohou lišit od frekvencí, které pro tyto korpusy udává rozhraní KonText. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho velikost; např. korpus SYN2000 se po přetokenizování "zmenšil" na 96,26 mil. slov. Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně dané, a že i ony závisejí na množství dalších faktorů. Rozdílnou velikost srovnávaných korpusů však bylo třeba vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz další odstavec) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.

Patrně nejpodstatnějším rozdílem mezi korpusem SYN2000 a korpusy SYN2005 a SYN2010 je odlišné pojetí reprezentativnosti a z toho plynoucí rozdíl v jejich složení (blíže opět zde). Vedle absolutní frekvence proto pro každé slovo v příslušném korpusu uvádíme také čtyři frekvence přepočítané, a to tři parciální (oborové) a jednu celkovou, která je vždy součtem parciálních (až na možný malý rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla absolutní frekvence daného slova ve 100 milionovém srovnávacím korpusu, ve kterém by byly všechny tři hlavní obory (beletrie, odborná literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každého hlavního oboru, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává absolutní frekvenci daného slova v příslušném hlavním oboru takového srovnávacího korpusu. Jde o podobné řešení jako v případě Frekvenčního slovníku češtiny, který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých hlavních oborech, pokud by tyto hlavní obory byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi jednotlivými korpusy navzájem.

Popis údajů ve srovnávacích frekvenčních seznamech

Výsledné frekvenční seznamy jsou uloženy v textových souborech, z jejichž názvů je patrné, zda uvádějí slovní tvary nebo lemmata a kterého korpusu se týkají; tyto soubory můžete najít na konci tohoto textu. Každý z nich se skládá ze sedmi sloupců oddělených tabelátory a zahrnuje v pořadí podle absolutní frekvence všechna slova, jejichž absolutní frekvence v příslušném korpusu byla větší nebo rovna deseti. Slovem je zde míněna taková pozice (slovní tvar nebo lemma), která obsahuje alespoň jeden alfabetický znak a neobsahuje žádnou číslici; to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka.

1. sloupec - rank (pořadí podle absolutní frekvence)
2. sloupec - slovo
3. sloupec - absolutní frekvence
4. sloupec - celková přepočítaná frekvence
5. sloupec - parciální přepočítaná frekvence pro beletrii
6. sloupec - parciální přepočítaná frekvence pro odbornou literaturu
7. sloupec - parciální přepočítaná frekvence pro publicistiku

Pro zájemce nyní uvádíme přesný vzorec pro výpočet přepočítaných frekvencí. Označme f absolutní frekvenci daného slova v příslušném korpusu a fa, fb, fc jeho parciální absolutní frekvence v hlavních oborech tohoto korpusu (beletrii, odborné literatuře a publicistice) tak, že fa + fb + fc = f. Označme dále a, b, c podíly velikostí hlavních oborů a velikosti celého korpusu; tyto podíly jsou tedy pro příslušný korpus konstantní a platí a + b + c = 1. Celková přepočítaná frekvence daného slova je potom dána vzorcem:

vzorec1

kde k je pro příslušný korpus normalizační konstanta, jejíž hodnotou je poměr 100 000 000 a přesné velikosti korpusu (pro korpus SYN2000 činí tato konstanta po zaokrouhlení 1,0388, pro korpus SYN2005 0,9997 a korpus SYN2010 1,0000). Jednotlivé parciální přepočítané frekvence jsou pro každý hlavní obor dány takto:

vzorec2 vzorec3 vzorec4

Chceme-li si ozřejmit význam vzorce pro parciální přepočítanou frekvenci, stačí si uvědomit, že první podíl (např. fa/a) udává, jaká by byla frekvence daného slova v korpusu, který by se skládal pouze z textů určitého oboru. Vydělíme-li tuto frekvenci třemi, dostaneme frekvenci daného slova ve třetině takového korpusu, tedy vlastně jeho parciální absolutní frekvenci v korpusu, ve kterém jsou všechny obory zastoupené právě jednou třetinou. Tato frekvence je konstantou k již pouze normalizována vzhledem ke stomilionovému korpusu. Součtem fpa + fpb + fpc = fp pak dostáváme vzorec pro výpočet celkové přepočítané frekvence.

Vezměme nyní jako příklad slovní tvar tebe, jehož absolutní frekvence v beletristické části korpusu SYN2005 je 9112, tedy fa = 9112. Protože beletrie v korpusu SYN2005 čítá 40 063 798 slovních tvarů a přesná velikost korpusu SYN2005 je 100 028 742, dostáváme a = 40 063 798 / 100 028 742 = 0,4005. Pokud by se tedy celý korpus SYN2005 skládal pouze z beletrie, byla by frekvence tohoto tvaru v korpusu fa/a = 22 752. Po vynásobení této frekvence zlomkem k/3 dostáváme parciální přepočítanou frekvenci tvaru tebe pro beletrii v korpusu SYN2005, která je 7581.

Závěrem této části textu považujeme za důležité zdůraznit, že celkové i parciální přepočítané frekvence jsou skutečné frekvence, byť v reálně neexistujícím srovnávacím korpusu, a je s nimi tedy možné pracovat podobně jako s frekvencemi absolutními. Například platí stejně jako pro absolutní frekvenci, že součet hodnot celkové přepočítané frekvence pro všechna slova v korpusu by měl být roven jeho velikosti, tedy v tomto případě 100 milionům (součet všech čísel ve 4. sloupci každého ze souborů však dává jenom mezi 96 až 98 miliony, což je způsobené tím, že v těchto souborech nejsou uvedena slova s frekvencí menší než 10). Analogicky by součet hodnot parciálních přepočítaných frekvencí pro všechna slova v korpusu měl být 33,33 milionů, součet všech čísel v 5., 6. nebo 7. sloupci každého ze souborů však ze stejného důvodu dává jenom okolo 32 milionů. Dále lze zjistit přepočítanou frekvenci celého lemmatu součtem příslušných přepočítaných frekvencí všech jeho tvarů; přitom je ovšem třeba dát pozor na možnou homonymii, která často nemusí být na první pohled zřejmá.

Jak citovat srovnávací frekvenční seznamy

Frekvenční seznamy uveřejněné na této stránce byly vytvořeny především s cílem umožnit široké odborné veřejnosti nový způsob práce s korpusy ČNK, který pomocí KonTextu není možný. Podobně jako jednotlivé korpusy jsou i tyto frekvenční seznamy výsledkem vědecké práce. Žádáme Vás proto, abyste je v bibliografii uváděli následujícím způsobem:

Český národní korpus: Srovnávací frekvenční seznamy. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupné z WWW: http://ucnk.ff.cuni.cz/srovnani10.php

Download

Popisované srovnávací frekvenční seznamy si můžete stáhnout ve dvou verzích: pro Linux a Windows. Obě verze se liší pouze kódováním češtiny a použitým kompresním formátem. Každý ze souborů slovních tvarů má okolo 3 MB, soubory lemmat okolo 1,2 MB. Na stránce Abecední a retrográdní slovníky jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně.Slovní tvary Lemmata
Verze pro Windows: SYN2000
SYN2005
SYN2010
SYN2000
SYN2005
SYN2010
Verze pro Linux: SYN2000
SYN2005
SYN2010
SYN2000
SYN2005
SYN2010