Korpus SYN2013PUB

Korpus SYN2013PUB je podobně jako korpusy SYN2006PUB a SYN2009PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov (tokens). I nadále platí, že všechny korpusy řady SYN jsou disjunktní, tj. každý text může být zařazen pouze do jednoho z nich. Celkem tedy všechny korpusy řady SYN přesahují velikost 2 200 milionů textových slov (tokens).

Lemmatizace a morfologické značkování korpusu SYN2013PUB jsou oproti starším korpusům opět vylepšené. Kromě toho došlo k dalšímu zjednodušení používané sady morfologických značek v několika případech, kdy byla informace uváděná ve značce nadbytečná, v kontextu velice obtížně rozpoznatelná, a v důsledku toho nespolehlivá. Konkrétně se změny týkaly odstranění čísla u reflexivních zájmen, odstranění rodu posesora u zájmen jeho, jejich a odstranění osoby a čísla u tvaru by.

Stejně jako ostatní publicistické korpusy řady SYN si ani SYN2013PUB v žádném ohledu nečiní nárok na reprezentativnost. Hlavním důvodem jeho vzniku byla kromě zveřejnění dalšího velkého balíku dat především potřeba doplnit a vyrovnat složení publicistiky v korpusu SYN tak, aby ve verzi 3, tj. po zařazení korpusu SYN2013PUB, obsahoval kompletní ročníky 1998–2009 významných publicistických titulů vydávaných v ČR. Na doplnění nabídky synchronních psaných korpusů o novější data se již pracuje.

Složení korpusu podle roků

roky

Složení korpusu podle titulů

tituly