Abecední a retrográdní slovníky

Michal Křen

Důležité upozornění: tato stránka je aktualizovanou verzí původních abecedních a retrográdních slovníků lemmat a tvarů. Protože je však na rozdíl od původní verze založena na aktualizovaných srovnávacích frekvenčních seznamech s vylepšenou lemmatizací, žádný ze slovníků nabízených ke stažení na této stránce není shodný se slovníkem ze stránky původní!

Na této stránce najdete celkem dvě trojice slovníků (seznamů): tři slovníky lemmat a tři slovníky slovních tvarů. V každé trojici je vždy jeden slovník založený na korpusu SYN2000, druhý na korpusu SYN2005 a třetí na korpusu SYN2010. Všechny tyto slovníky jsou výsledkem zkrácení, zjednodušení a přetřídění srovnávacích frekvenčních seznamů, ve kterém se snažíme vyjít vstříc potřebám těch našich uživatelů, kteří nejsou příliš zběhlí v používání počítačů. Každý ze zmiňovaných slovníků vznikl z odpovídajícího srovnávacího frekvenčního seznamu takto:

  1. byly odstraněny sloupce s celkovou i parciální přepočítanou frekvencí (podrobnosti zde),
  2. byla vyřazena hesla, která se neskládají výhradně z alfabetických znaků a pomlčky,
  3. byla vyřazena hesla s absolutní frekvencí nižší než 100,
  4. takto vzniklý seznam hesel byl opatřen novými ranky (pořadím) podle absolutní frekvence,
  5. výsledný seznam byl setříděn podle znění hesla abecedně nebo retrográdně.

Celkový počet souborů se tím tedy zdvojnásobuje, protože každý z výše uvedených slovníků je dostupný v abecední i retrográdní verzi; obě verze se přitom liší pouze tímto výsledným tříděním. Slovníky lemmat mají každý necelých 40 000 hesel, slovníky tvarů pak více než 70 000 hesel.

Popis údajů ve slovnících

Podobně jako srovnávací frekvenční seznamy jsou i abecední a retrográdní slovníky uloženy v zazipovaných textových souborech v kódování CP1250, velikost zabaleného souboru je přibližně 300 kB nebo 500 kB. Z názvu souboru je zřejmé, zda obsahuje slovní tvary nebo lemmata, na kterém korpusu je založen i jeho setřídění. Každý soubor se skládá ze tří sloupců oddělených tabelátory:

  1. sloupec - rank (pořadí podle absolutní frekvence; mají-li dvě hesla stejnou absolutní frekvenci, je stejný i jejich rank)
  2. sloupec - heslo (slovní tvar nebo lemma)
  3. sloupec - absolutní frekvence (počet výskytů daného hesla v korpusu)

Jak citovat abecední a retrográdní slovníky

Podobně jako jednotlivé korpusy jsou i tyto slovníky výsledkem vědecké práce. Žádáme Vás proto, abyste je v bibliografii uváděli následujícím způsobem:

Český národní korpus: Abecední a retrográdní slovníky. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupné z WWW: http://ucnk.ff.cuni.cz/retrograd10.php

Download

Slovní tvary Lemmata
SYN2000 abecední
retrográdní
abecední
retrográdní
SYN2005 abecední
retrográdní
abecední
retrográdní
SYN2010 abecední
retrográdní
abecední
retrográdní