Korpus SYN2000

Korpus SYN2000 obsahuje 100 milionů textových slov. Veřejnosti byl představen v říjnu roku 2000. Tento korpus je vytvořený z celých textů, které do něj byly zařazeny na základě výzkumů recepce psaného jazyka tak, aby pokrývaly co nejširší žánrové rozvrstvení češtiny. SYN2000 je synchronní korpus, to znamená, že je v něm zachycen současný český jazyk. Najdeme zde tedy převážně texty, které vznikly v letech 1990 až 1999. Do korpusu jsou ovšem zařazena i významná díla české literatury, která vznikla před rokem 1990 (například Krakatit Karla Čapka, nebo Zbabělci Josefa Škvoreckého). Pro tyto starší texty platí zásada, že autor textu musí být narozený po roce 1880.

Korpus SYN2000 je lemmatizovaný a morfologicky označkovaný. To znamená, že u každého slova (tj. výskytu slova v textu) lze zobrazit morfologickou značku, která vyjadřuje jeho gramatické kategorie (slovní druh, číslo, pád atd.), a tzv. lemma, což je základní tvar slova (například u podstatných jmen první pád jednotného čísla, u sloves infinitiv). Kromě toho je možné zobrazit kód, který jednoznačně identifikuje text, ve kterém se vyhledané slovo vyskytlo.

Seznam všech zdrojových textů korpusu SYN2000 naleznete zde.

Složení korpusu SYN2000

60 publicistika
25 % odborná literatura
15 % beletrie

Srovnávací frekvenční seznamy


 
Složení publicistiky podle roku vydání: Složení publicistiky podle titulů: Složení odborné a další
specializované literatury
podle tematického zaměření:
počet slov (v mil.) počet slov (v mil.) počet slov (v mil.)