Korpus vyučovacích hodin SCHOLA2010

Řešitelem korpusu SCHOLA2010 je v rámci výzkumného záměru MSM 0021620825 (Jazyk jako lidská činnost, její produkt a faktor) Ústav českého jazyka a teorie komunikace (ÚČJTK) UK FF. Jedná se o sociologicky i didakticky jedinečný korpus, protože vychází ze školního prostředí a zaznamenává mluvený jazyk vyučovacích hodin (především standardních vyučovacích hodin s délkou cca 45 min.). Uživatelům se nabízí jazykový materiál, v němž je zachycena mluva učitelů i žáků během vyučování. Zatím je to jediný veřejně přístupný korpus tohoto typu. Uvedený korpus se od ostatních mluvených korpusů zveřejněných v Českém národním korpusu (ČNK) liší také tím, že obsahuje mluvu dětí a mládeže.

Korpus SCHOLA2010 tvoří 204 přepisů nahrávek vyučovacích hodin, pořízených v letech 2005–2008. Sondy pocházejí z různých míst České republiky, viz oddíl Statistiky ke korpusu Schola2010. 131 nahrávek bylo nahráno ve středočeské nářeční oblasti, 57 nahrávek ve východomoravské nářeční oblasti (vymezení nářečních oblastí se opírá o pojetí Běličovo, Nástin české dialektologie, 1972, a o členění nářečních oblastí v Českém jazykovém atlasu, 1992–2005, viz mapa nářečních oblastí ČR), jde tedy i o teritoriálně různorodý jazykový materiál. Přestože nahrávání probíhalo víceméně ve formálním prostředí, v korpusu SCHOLA2010 se vyskytují i rysy běžně mluveného jazyka. V přepisech vyučovacích hodin je vedle spisovné češtiny poměrně často přítomna obecná čeština a objevují se i regionální prvky. V projevech zaznamenaných ve východní části České republiky je zřejmý vliv dialektu (jsou zde i některé archaické nářeční prvky, např. infinitiv s ťzkúšať aj.).
Učitelé i žáci o nahrávání dopředu věděli, žáci (případně jejich rodiče) souhlasili s nahráváním i s využitím těchto nahrávek pro potřeby Českého národního korpusu a pro výzkumné účely. V korpusu vyučovacích hodin se vyskytuje 2410 jedinečných mluvčích (osob). Celková délka zaznamenaného zvukového materiálu činí 143 h 25 min. Korpus obsahuje 1 046 600 pozic, z toho je 792 764 slov (bez interpunkce a bez komentářů, které jsou v závorkách).

Pro budování korpusu SCHOLA2010 byly vybrány základní školy, gymnázia a střední odborné školy. Projektu se účastnilo celkem 27 škol (16 pražských a 11 mimopražských) a 115 tříd/skupin. Pokud jde o pedagogy, na nahrávání se podílelo 47 učitelů (20 mužů a 27 žen). V projevech bylo rozpoznáno 2347 jedinečných žáků (jsou v tom zahrnuti i 4 cizí žáci) a 16 cizích dospělých osob (převážně učitelů). U žáků byl zaznamenán věk od 6 do 23 let, věk učitelů se pohybuje od 23 let do 53 let, u cizích dospělých osob do 69 let, podrobněji viz oddíl Statistiky ke korpusu Schola2010.
 V korpusu jsou zastoupeny všechny třídy ZŠ kromě 4. třídy (nahrávání se zde nepodařilo zajistit), všechny třídy víceletých gymnázií, všechny ročníky čtyřletých gymnázií a středních odborných škol.
Do korpusu SCHOLA2010 byly podle rámcových vzdělávacích plánů (RVP) zařazeny základní vyučovací předměty (kromě cizích jazyků a tělocviku) a výběrově odborné předměty vyučované na středních odborných školách, viz Sociolingvistické značky a charakteristiky v korpusu SCHOLA2010. Korpus SCHOLA2010 je vyvážený především vzhledem ke skupinám vyučovacích předmětů (k počtu sond): první skupinu tvoří A český jazyk a literatura (60 sond) a B matematické a přírodovědné předměty (62 sond); druhá skupina je zastoupena C společenskovědními a výchovnými předměty (45 sond) a blokem D složeného z informatiky, technického a profesně–pracovního vyučování (37 sond), podrobněji viz oddíl Statistiky ke korpusu Schola2010.

Složení korpusu SCHOLA2010
A český jazyk a literatura
B matematické a přírodovědné předměty
C společenskovědní a výchovné předměty
D informatika, technické a profesně–pracovní vyučování

Zpracování nahrávek vyučovacích hodin a jejich přepisování vycházelo ze zásad uplatňovaných při přípravě předchozích mluvených korpusů v rámci Českého národního korpusu, zejména korpusu ORAL2006. Pravidla pro přepis vyučovacích hodin však byla upravena v závislosti na charakteru a koncepci tohoto projektu, viz Zásady pro přepis vyučovacích hodin.
Korpus SCHOLA2010 se shoduje s ostatními mluvenými korpusy v základních sociolingvistických proměnných. Kvůli srovnatelnosti s ostatními korpusy uvádíme situaci při nahrávání – v tomto případě formální (F). Pohlaví je u mluvčích označeno zkratkami M (muž) a Z (žena), věk zkratkami I (do 35 let) a V (35 let a více), vzdělání zkratkami B (základní a středoškolské – včetně započatého) a A (vysokoškolské – včetně započatého). U všech mluvčích jsou stejně jako v korpusu ORAL2006 zpřístupněny informace o jejich přesném věku a konkrétním dosahovaném stupni vzdělání (ZŠ, SŠ, VŠ).
Korpus SCHOLA2010 obsahuje navíc díky svému speciálnímu zaměření další užitečné sociolingvistické charakteristiky: informace o sondě, o škole, o třídě, o vyučovacím předmětu, o vyučovací hodině, doplňující údaje o mluvčím, podrobněji viz Sociolingvistické značky a charakteristiky v korpusu SCHOLA2010.

Tento korpus je sice určený především lingvistům a pedagogům, ale protože je pojímán interdisciplinárně, může poskytnout užitečné informace také speciálním pedagogům, psychologům, sociologům a dalším zájemcům. Potřebám výzkumu rovněž slouží databanka Akces na ÚČJTK UK FF, kde jsou zpřístupněny přepisy ve finální verzi (v přepisech zveřejněných v korpusu SCHOLA2010 byly provedeny kvůli prohlížeči Bonito drobné úpravy, viz Zásady pro přepis vyučovacích hodin). Badatelé si v této databance mohou prohlédnout celý přepis vyučovací hodiny (je v něm zajištěna naprostá anonymita konkrétních mluvčích, třídy, školy ad.) a vyhledávat si přepisy podle různých skupin nebo kritérií.

Korpus SCHOLA2010 by nemohl vzniknout bez výrazné pomoci učitelů a jejich cenné účasti v tomto projektu. Na přepisech vyučovacích hodin, na úpravách a jiných specifických úkolech se podíleli studenti z FF a z PedF Univerzity Karlovy v Praze a další spolupracovníci z ÚČJTK FF UK a z Ústavu českého národního korpusu (ÚČNK). Celému pracovnímu týmu tímto děkujeme.

vedoucí projektuahlavní koordinátorka
Karel Šebesta
Hana GoláňováOdkazy:
Zásady pro přepis vyučovacích hodin
Sociolingvistické značky a charakteristiky v korpusu SCHOLA2010
Statistiky ke korpusu Schola2010
Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů
Mapa nářečních oblastí ČR