Korpus neformální mluvené češtiny ORAL2013

Korpus mluvené spontánní češtiny ORAL2013 je dalším mluveným korpusem projektu Český národní korpus. Svou koncepcí navazuje na korpusy neformální mluvené češtiny ORAL2006 a ORAL2008, v mnoha podstatných ohledech ale doznal změn a vylepšení. Stejně jako stávající korpusy řady ORAL i tento korpus zachycuje spontánní konverzaci výhradně v neformálních komunikačních situacích. Nejzásadnějšími změnami je propojení přepisu se zvukovou stopou, zavedení pauzové interpunkce a pokrytí celého území České republiky.

Korpus ORAL2013 je koncipován tak, aby umožňoval zkoumat morfologii, syntax/syntagmatiku, lexikum a pragmatiku mluveného jazyka; vhodný je také pro výzkum struktury spontánního mluveného diskursu, nejedná se tedy o korpus určený primárně pro fonetický nebo dialektologický výzkum. Korpus ORAL2013 dosud není lemmatizován ani morfologicky označkován, obojí je však v plánu pro všechny korpusy řady ORAL.

Složení korpusu a sběr dat

Korpus ORAL2013 se skládá z 835 nahrávek z let 2008–2011 a obsahuje 2 785 189 textových slov, tj. celkem 3 285 508 pozic; v sondách vystupuje celkem 2 544 mluvčích, z toho 1 297 unikátních. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je 17 471 minut, tj. téměř 300 hodin. Podrobnější údaje o složení korpusu najdete zde.

Pro korpus byl sbírán výhradně materiál představující prototypický spontánní mluvený jazyk, který se používá při bezprostřední interakci mluvčích v neformálních komunikačních situacích. Hlavními kritérii pro získávání nahrávek byly:


Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.

Řada korpusů ORAL – v čem se ORAL2013 odlišuje?

ORAL2013 se od korpusů ORAL2006 a ORAL2008 liší v těchto rysech:

Program Transcriber
Obr. 1: Ukázka přepisu v Transcriberu. (Pro zvětšení klikněte.)

Co má ORAL2013 s korpusy ORAL2006 a ORAL2008 společného?

pohlaví M (muž) / Z (žena);
věk I (do 35 let) / V (35 let a více);
vzdělání
B (základní a středoškolské) / A (vysokoškolské, včetně pouze započatého).
 
U všech mluvčích jsou zpřístupněny také informace o:

Jednotliví mluvčí jsou v přepisech označeni čísly, nulou (00) je vždy odlišen mluvčí, který nahrávku pořizoval, a tudíž o nahrávání nutně věděl.

Poděkování

Děkujeme všem, kteří se podíleli na pořizování nahrávek, jejich přepisu a následných úpravách, především studentům Filozofické fakulty Univerzity Karlovy v Praze. Sběru materiálu se pod vedením svých pedagogů účastnila také řada studentů z Univerzity Hradec Králové, Západočeské univerzity v Plzni, Masarykovy univerzity a Univerzity Palackého v Olomouci. Zvláštní poděkování za skvělou spolupráci patří také Haně Voralové.


Lucie Benešová a Martina Waclawičová
hlavní koordinátorky