Korpus mluvené češtiny ORAL2008

Korpus ORAL2008 představuje v rámci projektu Český národní korpus v pořadí již čtvrtý korpus mluvené češtiny. Zachycuje stejně jako ORAL2006 mluvu ve výhradně neformálních situacích. Jde však o první mluvený korpus ÚČNK, který je plně vyvážený v základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus ORAL2008 vychází ze stejné materiálové základny jako ORAL2006, avšak žádný z přepisů zařazených do korpusu ORAL2008 nebyl použitý v korpusu ORAL2006.

Korpus je sestaven z přepisů 297 nahrávek, které byly v letech 2002-2007 pořízeny na různých místech po celém území Čech (tj. ne Česka). Zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším smyslu. Vzhledem k postupu nivelizačních procesů jde v projevech nejčastěji o obecnou češtinu a její regionální varianty. Všem nahrávkám je společné to, že byly pořízeny výhradně v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah. Mluvčí nebyli předem informováni o účelu nahrávání, ten jim byl sdělen až po ukončení nahrávání. Všichni následně souhlasili s použitím nahrávky pro potřeby Českého národního korpusu. Nahrávky pro ORAL2008 představují 6 883 minut, tj. necelých 115 hodin, a v jejich rámci byly zaznamenány projevy 995 mluvčích. Celý korpus zahrnuje 1 000 097 slov.

Pořizování nahrávek, jejich přepisování a označování probíhalo v souladu s obecnými zásadami uplatňovanými při přípravě všech předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. Všechny korpusy se shodují v označování základních tři binárních sociolingvistických kategorií mluvčích. Pohlaví se zaznamenává zkratkami M (muž) a Z (žena), věk zkratkami I (do 35 let) a V (35 let a více), vzdělání zkratkami B (základní a středoškolské) a A (vysokoškolské včetně pouze započatého). U všech mluvčích jsou stejně jako v ORALu2006 navíc zpřístupněny i informace o jejich přesném věku, konkrétním dosaženém stupni vzdělání (ZŠ, SŠ, VŠ) a oblasti jejich převažujícího pobytu do 15 let (tedy v době, kdy se formoval základ jejich individuálního jazykového úzu). Tyto oblasti jsou vymezeny na základě tradičního nářečního členění podle Jaromíra Běliče (Nástin české dialektologie, SPN, Praha 1972) a dělení používaného v Českém jazykovém atlasu (Academia, Praha 1992-2005). Území Čech je tedy rozděleno na oblast středočeskou, severovýchodočeskou, jihozápadočeskou, přechodnou oblast česko-moravskou a české pohraničí. U každého přepisu je zaznamenán počet mluvčích účastnících se hovoru, rok pořízení nahrávky a neformálnost situace. Poslední označení zachováváme kvůli srovnatelnosti s ostatními korpusy přesto, že korpus ORAL2008 obsahuje pouze nahrávky neformálních situací.

Korpus ORAL2008 je plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií mluvčích zastoupeny přibližně stejným počtem slov. Každá z hodnot binárních kategorií pohlaví (M / Z), věková skupina (I / V) a skupina podle stupně dosaženého vzdělání (A / B) je tedy zastoupena polovinou všech slov v korpusu. Přibližně čtvrtinou slov jsou pak zastoupeny hodnoty kategorie oblast pobytu v dětství, tj. oblasti středočeská, severovýchodočeská, jihozápadočeská a české pohraničí, přičemž přechodná oblast česko-moravská je zařazena pouze doplňkově.

Na pořizování nahrávek, jejich přepisu a dalších úpravách se podíleli studenti pražských vysokých škol, především FF Univerzity Karlovy v Praze. Sběru materiálu se pod vedením svých pedagogů účastnili také studenti Univerzity Hradec Králové, Západočeské univerzity v Plzni, Jihočeské univerzity v Českých Budějovicích, PF Univerzity Karlovy v Praze, Univerzity Jana Evangelisty Purkyně v Ústí nad Labem a další spolupracovníci ÚČNK.

Martina Waclawičová
hlavní koordinátorka