Korpus CzeSL-plain

Žákovský korpus CzeSL-plain (Czech as a Second Language,  plain = bez anotace) je jedním z výstupů projektu Inovace vzdělávání v oboru čeština jako druhý jazyk v rámci operačního programu Vzdělávání pro konkurenceschopnost s finanční podporou Strukturálních fondů EU (ESF) a státní rozpočtu České republiky.

Na vzniku korpusu se podílela Technická univerzita v Liberci jako příjemce podpory, Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka jako partneři a také řada základních a středních škol, občanských sdružení a dalších institucí i individuálních spolupracovníků.

Korpus obsahuje v revidované verzi 2 celkem asi 2,3 mil. pozic (podrobnější údaje viz tabulka). Důvodem revize bylo to, že do části ciz verze 1 bylo omylem zařazeno několik desítek slohových prací českých žáků; původní verzi 1 lze zájemcům zpřístupnit na požádání. Korpus zahrnuje tři subkorpusy rozlišené jako texty tří typů:

  1. ciz – přepisy písemných prací (esejů) nerodilých mluvčích, které vznikly v souvislosti s jazykovým vyučováním v kurzech různého druhu a úrovně;
  2. kval – odborné texty získané od nerodilých mluvčích studujících na českých vysokých školách v navazujícím magisterském či doktorském studiu;
  3. rom – přepisy školních písemných prací romských žáků z oblastí ohrožených sociálním vyloučením.

Ve všech třech skupinách jde o projevy mluvčích, kteří si češtinu (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího. Korpus má tedy povahu korpusu akvizičního a může sloužit jednak výzkumu v oblasti osvojování a vyučování jazyka, jednak pedagogickým účelům; první dva soubory dat se týkají češtiny jako jazyka druhého/cizího a řadí CzeSL typově k akvizičním korpusům L2 (tj. korpusům žákovským/studijním), třetí soubor dat k akvizičním korpusům L1 (v případě sledovaných romských žáků se o češtině neuvažuje jako o cizím jazyce). Jde o první veřejně přístupný korpus tohoto typu pro češtinu.

Texty byly sbírány v letech 2009–2012, vznikaly ve školním kontextu, tedy ve formálním prostředí; do korpusu byly zařazeny se souhlasem příslušných institucí a jednotlivců.

Eseje a školní písemné práce byly získávány v rukopisné podobě, skenovány a přepisovány do elektronické podoby. Odborné texty od nerodilých mluvčích byly získávány od autorů přímo v elektronické podobě a nebyly tvořeny v souvislosti s jazykovým vyučováním či přímo pro korpus; nelze tedy vyloučit, že jejich konečná podoba byla ovlivněna automatickým jazykovým korektorem.

Část textů z korpusu CzeSL-plain je opatřena morfosyntaktickou a chybovou anotací a bude zpřístupněna v jiném vyhledávacím rozhraní. Samotný korpus CzeSL-plain neobsahuje lingvistickou anotaci žádnou, v další verzi se však kromě doplnění některých dalších textů počítá s jeho automatickou anotací (identifikace a oprava chybných tvarů, morfosyntaktická anotace), jde tedy o korpus tzv. nereferenční. Vzhledem k přítomnosti některých kódů z přepisu rukopisných originálů a také kvůli způsobu kódování některých cizích a nestandardních znaků je někdy počet znaků v korpusu větší než v původním textu, např. řetězec stojí místo výpustky (...), &priv; označuje anonymizovaný údaj (vlastní jméno), &img; místo, kde byl v rukopisu obrázek, &unclear; nerozpoznané slovo nebo pasáž, &rdot; malé písmeno r s tečkou nad písmenem aj.

Typ textů Počet textů
(verze 2 / verze 1)
Počet pozic (slova + interpunkce)
(verze 2 / verze 1)
ciz – eseje cizinců 8 109 / 8 863 1 160 701 / 1 314 901
kval – odborné kvalifikační práce 174 / 176 731 816 / 731 816
rom –slohové práce romských žáků 4 105 / 4 420 428 161 / 428 161
CELKEM 12 388 / 13 459 2 320 678 / 2 474 878