Korpus SYN

Korpus SYN je nereferenční spojení textů všech referenčních synchronních psaných korpusů řady SYN, tj. ve verzi 3 zpřístupněné v lednu 2014 zahrnuje korpusy SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010 a SYN2013PUB. Díky tomu, že jsou všechny tyto korpusy navzájem disjunktní, je celková velikost korpusu SYN dána součtem velikostí jednotlivých korpusů, a činí tedy (ve verzi 3) 2 232 mil. textových slov (tokens). Korpus SYN není reprezentativní, v jeho složení výrazně převažuje publicistika, což je samozřejmě dáno především začleněním korpusů SYN2006PUB, SYN2009PUB a SYN2013PUB.

Složení publicistické části korpusu SYN pokrývá po zařazení SYN2013PUB produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998–2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout zde, náhled složení publicistické části je vidět na následujícím grafu.

Každý z korpusů řady SYN je před zveřejněním zpracováván pomocí nejlepších nástrojů dostupných v době jeho vzniku: tokenizace (rozdělení textu na slova), segmentace (rozpoznávání konců vět), morfologické analýzy i desambiguace. Jak již ale bylo zmíněno výše, všechny korpusy řady SYN jsou zároveň referenční entity, které zůstávají po celou dobu neměnné. Z toho vyplývá, že jsou ve zveřejněných korpusech zakonzervovány výsledky zpracování staršími verzemi jednotlivých nástrojů, které dále zastarávají. Protože se samozřejmě liší i zpracování jednotlivých korpusů navzájem, ztěžuje se tím i srovnávání jakýchkoli na nich založených údajů. Vylepšení, kterými zpracování korpusů prošlo od roku 2000, přitom vůbec nejsou zanedbatelná: mnoho nově rozpoznaných slovních tvarů, spolehlivější desambiguace s pravidlovým komponentem, odlišné zpracování některých jazykových jevů, doplnění a sjednocení bibliografických údajů (strukturní značky a zdroje) atd. Všechna tato vylepšení přitom nebylo možné promítnout do již zveřejněných korpusů bez porušení referenčnosti nebo zavedení verzování, které by ale bylo pro většinu uživatelů nepřehledné. Proto byl vytvořen korpus SYN, který je možné si představit jako jakýsi "obal" všech synchronních psaných korpusů, které ovšem byly před zařazením do korpusu SYN jednotně zpracovány nejnovějšími nástroji včetně tokenizace, segmentace, morfologické analýzy a desambiguace, která je tak na úrovni korpusu SYN2013PUB.

Hledání v nově přepracovaných textech všech korpusů řady SYN je doplněno také možností vytváření subkorpusů, které svým složením odpovídají původním korpusům. To je možné pomocí atributu opus.syn, takže například subkorpus odpovídající korpusu SYN2005 lze v Bonitu 1 vytvořit zadáním podmínky syn="2005" na značku opus. Tuto podmínku lze samozřejmě dále kombinovat s dalšími podmínkami na typ textu, rok vydání apod., jak je popsáno v manuálu. Korpus SYN je tedy možné používat také pro práci se staršími reprezentativními korpusy, ovšem zpracovanými nejnovějšími nástroji. Je přirozené, že při srovnání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy podstatné změny způsobené rozdíly ve zpracování. Tyto změny se mohou projevovat nejenom odlišnou lemmatizací, ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno tokenizací.

Korpus SYN může být jako nereferenční korpus v budoucnu změněn. Důvody přitom mohou být různé, od zjištění závažných chyb ve stávajícím korpusu, přes výrazné vylepšení morfologické analýzy a/nebo desambiguace, až po zahrnutí budoucích, prozatím pouze plánovaných synchronních psaných korpusů. Tato aktualizace bude tedy nepravidelná, nebude k ní však docházet častěji než jednou ročně. Korpus SYN tak stále bude možné charakterizovat jako nereferenční spojení všech korpusů řady SYN zpracované nejnovějšími verzemi dostupných nástrojů, které přináší uživatelům ČNK především tyto výhody: