Pražský mluvený korpus

Pražský mluvený korpus (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tématicky nespecializovanou, resp. neomezovanou, z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. Magnetofonové nahrávky (v počtu 304), které jsou plně anonymní a byly postupně přepisovány do počítače, pocházejí z let 1988-1996 a odrážejí tedy jazyk jak konce předchozího společenského období tak začátek nového.

PMK byl pořizován tak, aby ve vyvážených proporcích zachycoval čtyři sociolingvistické proměnné, pohlaví mluvčího, věk, vzdělání a typ promluvy, všechny pro jednoduchost dělené pouze binárně (na dvě hodnoty). Pohlaví označují zkratky M-Z (Muž-Žena). Věk naznačují zkratky I-V (Iunior-Vetus), tj. mladší a starší, přičemž spodní hranicí bylo cca 20 let (jazyk dospívající mládeže není plně stabilizovaný) a předělem mezi nimi byl věk cca 35 let. Vzdělání signalizují zkratky B-A (Basis-Altus), tj. nižší, zahrnující jak základní školu tak vzdělání maturitní, a vyšší, vztahující se ke vzdělání vysokoškolskému. Konečně poslední proměnná, zastoupená zkratkami F-N, označuje  promluvu formální proti neformální. Formální promluva je monolog vytvářený sledem odpovědí na otázky kladené nahrávajícím (pro zamezení ovlivnění odpovědí, ať už kódem spisovným či nespisovným, měly smíšenou povahu nespisovně-spisovnou). Týkaly se takových širokých témat jako škola, mládež, zaměstnání ap. a nahrávány ani přepisovány nebyly (byly ve všech případech stejné). Neformální promluva je vlastně dialogický soubor promluv dvou mluvčích, kteří se znají; téma jejich rozhovoru nebylo nijak předem určováno, volili ho sami. Nahrávky usilovaly o proporční vyváženost desítek sociolingvistických kombinací (typu MIBF, MIAF, MIAN apod.) takto vzniklých a jsou tedy v tomto smyslu reprezentativní pro všechny proměnné. Nepřipravenost odpovědí a dialogů zaručuje maximální možnou spontánnost užitého jazyka.

Způsob přepisu nahrávek je vidět z textu, snažil se o širší zachycení mluveného jazyka co nejvěrnější a nejsrozumitelnější, ne však způsobem dialektologickým. Proto je v něm pochopitelně také více kolísání odrážející přirozenou variabilitu a někdy i individuální přístupy přepisovatelů.

V současné době se dosud dokončuje rozsáhlé manuální kódování a taggovaní PMK a lze tu proto zatím pracovat jen s jeho texty čistými. Co tedy lze z PMK zjistit a jak rozsáhlý je jeho materiál? Hledat lze v něm, jako v jiných korpusech, avšak bez lemmatizace a taggování; základním výstupem k dalšímu studiu je především zadaná konkordance s hledaným tvarem nebo kombinací tvarů slova. PMK obsahuje celkem 819267 pozic, což je počet všech jeho slovních tvarů a interpunkčních znamének; z toho je 674992 slov. Poziční atribut word uvádí číslo 49089, což je počet zaznamenaných různých slovních tvarů (tj. bez jejich opakování). Dále se lze dovědět i celkový počet souborů (304) a celkový počet promluv v PMK (15710). Promluvou se zde označuje souvislý projev jednoho mluvčího (nepřerušovaný jiným mluvčím); v dialogu (označený jako N na posledním místě čtyřmístného kódu) je takto pojatých promluv vztahujících se k jednomu mluvčímu pochopitelně vždy víc.

Autory PMK jsou v různých proporcích především Anna Adamovičová, František Čermák, Jiří Pešička, Josef Šimandl, Jitka Šonková, Petr Savický a Zdena Smetanová z UK FF; s nahrávkami pomáhala ovšem i řada studentů.

František Čermák
vedoucí projektu
Praha 2001