Korpus SYN2005

Korpus SYN2005 je synchronní reprezentativní korpus současné psané češtiny, obsahující 100 milionů textových slov (tokens). Tuto základní charakteristiku má tedy shodnou se svým předchůdcem, korpusem SYN2000. Kromě těchto shodných rysů však mezi oběma korpusy najdeme také velké množství rozdílů, které je nutné brát v úvahu mimo jiné také při srovnávání jakýchkoli údajů mezi oběma korpusy (viz níže), protože pouhé mechanické srovnávání frekvencí může při neznalosti těchto rozdílů vést k mylným závěrům. Dále považujeme za důležité zdůraznit, že žádný z textů korpusu SYN2005 nebyl již dříve použit v korpusu SYN2000, oba korpusy jsou tedy co se zařazených textů týče disjunktní a obsahují dohromady 200 milionů textových slov (tokens).

1. Reprezentativnost korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se tedy v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce:


SYN2005
SYN2000
beletrie
40 % 15 %
odborná literatura
27 % 25 %
publicistika
33 % 60 %

Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Jednak nyní platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu SYN2000 proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména Blesk. Nezměnilo se však vymezení synchronie v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.

Z výše uvedeného tedy vyplývá, že při srovnávání dat získaných z obou korpusů je třeba brát v úvahu také tyto rozdíly. Například výrazně vyšší frekvence určitého slova nemusí být způsobena novějším korpusem, ale pouze vyšším podílem beletrie v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí z obou korpusů, zveřejnili jsme srovnávací frekvenční seznamy slovních tvarů z korpusů SYN2000 a SYN2005. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi oběma korpusy srovnatelné. Srovnávací frekvenční seznamy včetně podrobného popisu údajů v nich můžete najít zde.

2. Od června 2006 je korpus SYN2005 lemmatizován a morfologicky označkován. Pro tento korpus byla použita oproti korpusu SYN2000 výrazně vylepšená verze lemmatizace a morfologického značkování. Vlastní systém morfologických značek však zůstává stejný, přibyla pouze pozice č. 16, vyjadřující slovesný vid.

S novou lemmatizací a morfologickým značkováním korpusu SYN2005 dále souvisí také ve srovnání s korpusem SYN2000 nová a vylepšená tokenizace (rozdělení korpusu na slova) a segmentace (rozdělení na věty). Například slovo česko-polský bylo v SYN2000 rozloženo na tři pozice (česko - polský), zatímco v SYN2005 jde již o pozici jedinou (česko-polský).

3. Konečně poslední závažná změna se týká zjišťování zdrojů; řada uživatelů korpusu SYN2000 oprávněně kritizovala nutnost dohledávat bibliografické informace na našich webových stránkách na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím rozhraní KonText.

Seznam zdrojů korpusu SYN2005

Srovnávací frekvenční seznamy

Složení korpusu SYN2005:

40
% 
beletrie
27 %
odborná literatura
33 %
publicistika

Složení odborné a další

specializované literatury
podle tematického zaměření:
počet slov (v mil.)

 
Složení publicistiky podle roku vydání: Složení publicistiky podle titulů:
počet slov (v mil.) počet slov (v mil.)