Korpus SYN2009PUB

Korpus SYN2009PUB je podobně jako korpus SYN2006PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku od roku 1995 do roku 2007, celková velikost korpusu je 700 milionů textových slov (tokens). I nadále platí, že všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy korpusy SYN2000, SYN2005, SYN2006PUB a SYN2009PUB obsahují 1 200 milionů textových slov (tokens).

Lemmatizace a morfologické značkování korpusu SYN2009PUB jsou oproti starším korpusům opět vylepšené. Toto vylepšení se týká hlavně lemmatizace osobních a přivlastňovacích zájmen, neurčování gramatických kategorií u zkratek a cizích slov, a také tokenizace (rozdělení korpusu na slova) - tady jde hlavně o zkratky a slova psaná se spojovníkem. Mírně zjednodušena byla také používaná sada morfologických značek, změny se týkaly odstranění některých hodnot, které souhrnně označovaly více kategorií.

Stejně jako korpus SYN2006PUB si ani SYN2009PUB v žádném ohledu nečiní nárok na reprezentativnost. Ačkoli do něj byly zařazeny desítky nezávislých regionálních novin a dalších titulů (také jako jistá protiváha k Deníkům Bohemia a Deníkům Moravia), jejich celkový podíl na korpusu je velice malý. Z přiložených grafů je zřejmé, že je nevyvážené jak složení korpusu podle roku vydání, tak podle titulů. Korpus SYN2009PUB tedy ocení především uživatelé, kteří potřebují pracovat s velkými objemy dat.

Složení korpusu podle roků Složení korpusu podle titulů
roky
   tituly
počet slov (v mil.) počet slov (v mil.)