Korpus vyučovacích hodin SCHOLA2010
Řešitelem korpusu SCHOLA2010 je v rámci výzkumného záměru MSM 0021620825 (Jazyk jako lidská činnost, její produkt a faktor) Ústav českého jazyka a teorie komunikace (ÚČJTK) UK FF. Jedná se o sociologicky i didakticky jedinečný korpus, protože vychází ze školního prostředí a zaznamenává mluvený jazyk vyučovacích hodin (především standardních vyučovacích hodin s délkou cca 45 min.). Uživatelům se nabízí jazykový materiál, v němž je zachycena mluva učitelů i žáků během vyučování. Zatím je to jediný veřejně přístupný korpus tohoto typu. Uvedený korpus se od ostatních mluvených korpusů zveřejněných v Českém národním korpusu (ČNK) liší také tím, že obsahuje mluvu dětí a mládeže.
Korpus SCHOLA2010 tvoří 204
přepisů nahrávek vyučovacích hodin,
pořízených v letech 2005–2008. Sondy
pocházejí z různých míst České republiky,
viz oddíl Statistiky ke korpusu Schola2010.
131 nahrávek bylo nahráno ve
středočeské
nářeční oblasti, 57 nahrávek ve
východomoravské nářeční oblasti
(vymezení nářečních oblastí se
opírá o pojetí Běličovo, Nástin české
dialektologie, 1972, a o členění nářečních
oblastí v Českém jazykovém atlasu, 1992–2005, viz
mapa nářečních
oblastí ČR),
jde tedy i o teritoriálně
různorodý jazykový
materiál. Přestože
nahrávání
probíhalo víceméně ve
formálním
prostředí, v korpusu SCHOLA2010 se
vyskytují i rysy běžně
mluveného jazyka. V přepisech
vyučovacích hodin je vedle
spisovné češtiny poměrně
často přítomna
obecná čeština a objevují se i
regionální prvky. V projevech zaznamenaných ve
východní části České republiky je
zřejmý
vliv dialektu (jsou zde i některé archaické
nářeční prvky, např. infinitiv s ť –
zkúšať aj.).
Učitelé
i žáci o
nahrávání dopředu věděli,
žáci (případně
jejich rodiče) souhlasili s
nahráváním i s
využitím těchto
nahrávek pro potřeby Českého
národního
korpusu a pro výzkumné účely.
V korpusu vyučovacích hodin se vyskytuje 2410 jedinečných mluvčích (osob).
Celková délka zaznamenaného zvukového
materiálu činí 143 h 25 min. Korpus obsahuje 1 046 600
pozic, z toho je 792 764 slov (bez interpunkce a bez
komentářů, které jsou v závorkách).
Pro
budování korpusu SCHOLA2010 byly vybrány
základní školy, gymnázia a střední
odborné školy. Projektu se účastnilo celkem 27
škol (16 pražských a 11 mimopražských) a 115
tříd/skupin. Pokud jde o pedagogy, na
nahrávání se podílelo 47 učitelů (20 mužů a
27
žen). V projevech bylo rozpoznáno 2347 jedinečných
žáků (jsou v tom zahrnuti i 4 cizí žáci) a 16
cizích dospělých osob (převážně učitelů). U
žáků byl zaznamenán věk od 6 do 23 let, věk učitelů se
pohybuje od 23 let do 53 let, u cizích dospělých osob do
69
let, podrobněji viz oddíl Statistiky ke korpusu Schola2010.
V
korpusu jsou zastoupeny
všechny třídy ZŠ kromě 4.
třídy
(nahrávání se zde nepodařilo
zajistit), všechny
třídy víceletých
gymnázií,
všechny ročníky čtyřletých
gymnázií a
středních odborných škol.
Do korpusu SCHOLA2010
byly podle rámcových
vzdělávacích plánů
(RVP) zařazeny
základní vyučovací předměty (kromě
cizích
jazyků a tělocviku) a výběrově odborné
předměty vyučované na středních odborných
školách, viz Sociolingvistické značky a charakteristiky v
korpusu SCHOLA2010. Korpus SCHOLA2010 je vyvážený
především vzhledem ke skupinám vyučovacích
předmětů (k počtu sond): první skupinu tvoří A
český jazyk a literatura (60 sond) a B matematické a
přírodovědné předměty (62 sond); druhá skupina je
zastoupena C společenskovědními a výchovnými
předměty (45 sond) a blokem D
složeného z informatiky,
technického a
profesně–pracovního
vyučování (37 sond),
podrobněji viz oddíl Statistiky ke korpusu Schola2010.
![]() | A
český jazyk a literatura B matematické a přírodovědné předměty C společenskovědní a výchovné předměty D informatika, technické a profesně–pracovní vyučování |
Zpracování
nahrávek
vyučovacích hodin a jejich
přepisování
vycházelo ze zásad
uplatňovaných při přípravě
předchozích
mluvených korpusů v rámci Českého
národního korpusu, zejména korpusu ORAL2006.
Pravidla
pro přepis vyučovacích hodin však byla upravena
v
závislosti na charakteru a koncepci tohoto projektu, viz Zásady pro přepis vyučovacích
hodin.
Korpus
SCHOLA2010 se shoduje s ostatními
mluvenými korpusy v
základních
sociolingvistických proměnných.
Kvůli srovnatelnosti s
ostatními korpusy uvádíme
situaci při
nahrávání – v tomto
případě
formální (F). Pohlaví je u
mluvčích označeno
zkratkami M (muž) a Z (žena), věk zkratkami I
(do 35 let) a V (35 let a
více), vzdělání
zkratkami B (základní a
středoškolské
– včetně započatého) a A
(vysokoškolské
– včetně započatého). U
všech mluvčích jsou
stejně jako v korpusu ORAL2006
zpřístupněny informace o jejich
přesném věku a
konkrétním dosahovaném
stupni vzdělání
(ZŠ, SŠ, VŠ).
Korpus
SCHOLA2010 obsahuje
navíc díky svému
speciálnímu
zaměření další
užitečné
sociolingvistické charakteristiky: informace o
sondě, o
škole, o třídě, o vyučovacím předmětu, o
vyučovací hodině, doplňující údaje o
mluvčím, podrobněji viz Sociolingvistické značky a charakteristiky v
korpusu SCHOLA2010.
Tento korpus je sice určený především lingvistům a pedagogům, ale protože je pojímán interdisciplinárně, může poskytnout užitečné informace také speciálním pedagogům, psychologům, sociologům a dalším zájemcům. Potřebám výzkumu rovněž slouží databanka Akces na ÚČJTK UK FF, kde jsou zpřístupněny přepisy ve finální verzi (v přepisech zveřejněných v korpusu SCHOLA2010 byly provedeny kvůli prohlížeči Bonito drobné úpravy, viz Zásady pro přepis vyučovacích hodin). Badatelé si v této databance mohou prohlédnout celý přepis vyučovací hodiny (je v něm zajištěna naprostá anonymita konkrétních mluvčích, třídy, školy ad.) a vyhledávat si přepisy podle různých skupin nebo kritérií.
Korpus SCHOLA2010 by nemohl vzniknout bez výrazné pomoci učitelů a jejich cenné účasti v tomto projektu. Na přepisech vyučovacích hodin, na úpravách a jiných specifických úkolech se podíleli studenti z FF a z PedF Univerzity Karlovy v Praze a další spolupracovníci z ÚČJTK FF UK a z Ústavu českého národního korpusu (ÚČNK). Celému pracovnímu týmu tímto děkujeme.
vedoucí projektu | a | hlavní koordinátorka |
Karel Šebesta | Hana Goláňová |
Odkazy:
Zásady pro přepis vyučovacích hodin
Sociolingvistické značky a charakteristiky v korpusu SCHOLA2010
Statistiky ke korpusu Schola2010
Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů
Mapa nářečních oblastí ČR