Korpus SYN2010

Korpus SYN2010 je synchronní reprezentativní korpus současné psané češtiny obsahující 100 milionů textových slov (tokens). Navazuje tak na korpusy SYN2000SYN2005 a tvoří s nimi řadu synchronních reprezentativních korpusů pokrývajících tři po sobě jdoucí časová období. Základní charakteristiky korpusu SYN2010 jsou shodné s korpusem SYN2005, což se týká zejména stejného pojetí reprezentativnosti založeného na recepci psaného jazyka a z něho vyplývajícího složení korpusu. Veškeré publicistické texty v korpusu SYN2010 jsou z let 2005 - 2009, přičemž každý rok má - stejně jako v korpusu SYN2005 - v rámci publicistiky stejné zastoupení, i když se samozřejmě změnil podíl jednotlivých titulů. Nezměnilo se ale vymezení synchronie v beletrii a odborné literatuře, v korpusu SYN2010 tak najdeme pouze odbornou literaturu publikovanou po roce 1989. Beletrie sice může být i starší, přesto však pro odbornou literaturu i beletrii obecně platí, že největší podíl na korpusu mají novější texty, zatímco zastoupení starších textů klesá.

Oproti korpusu SYN2005 byla v korpusu SYN2010 výrazně vylepšena lemmatizace a slovnědruhové značkování; obojí je až na drobná vylepšení v zásadě shodné se zpracováním korpusu SYN2009PUB. Ačkoli se tedy SYN2005 a SYN2010 navzájem neliší pojetím reprezentativnosti, při případném srovnávání lexikálních frekvencí mezi nimi je třeba brát v úvahu také tyto rozdíly. Proto jsme zveřejnili novou verzi srovnávacích frekvenčních seznamů slovních tvarů a lemmat, která obsahuje zcela nová data ze všech tří synchronních reprezentativních korpusů SYN2000, SYN2005 a SYN2010, zlemmatizovaných a morfologicky označkovaných na úrovni korpusu SYN2010. Tato data obsahují také údaje o tzv. přepočítaných frekvencích, které jsou navzájem přímo srovnatelné, a které tak umožňují studium změn, kterými čeština za posledních 20 let prošla.

Podrobný graf, který přehledně zachycuje žánrové složení korpusu SYN2010, naleznete zde.

Seznam zdrojů korpusu SYN2010

Srovnávací frekvenční seznamy

Složení korpusu SYN2010:

40
% 
beletrie
27 %
odborná literatura
33 %
publicistika

 

 
Složení publicistiky podle roku vydání: Složení publicistiky podle titulů: Složení odborné a další
specializované literatury
podle tematického zaměření:
Publicistika podle roku vydání publicistika podle titulů
počet slov (v mil.) počet slov (v mil.)počet slov (v mil.)