Uvedení do diachronní složky ČNK

Karel Kučera, Martin Stluka

Diachronní složka ČNK zahrnuje texty celkem ze sedmi století vývoje českého jazyka. První dokončená část (přibližně 700 000 slovních tvarů) diachronní složky Českého národního korpusu (dále DČNK) byla zpřístupněna veřejnosti v září roku 2005. Zpřístupňování DČNK dále průběžně pokračuje, a to tempem přibližně 250 000 slovních tvarů ročně.

DČNK obsahuje texty z období sahajícího od konce 13. století až k hranicím synchronní složky, tj. do roku 1989 včetně (u publicistických a odborných textů), resp. do roku 1944 včetně (u uměleckých textů). DČNK tedy zahrnuje texty zhruba ze sedmi století vývoje češtiny, texty původně zapsané či vytištěné různými pravopisnými systémy (tzv. jednoduchým, spřežkovým a diakritickým pravopisem) a jejich kombinacemi. Heterogennost textů vstupujících do DČNK si v korpusu nevyhnutelně vynucuje jejich poněkud jiné zpracování, než je obvyklé jak v edicích starších písemných památek (jejichž zásady jsou zpravidla výrazně přizpůsobeny specifickým jazykovým a pravopisným charakteristikám určitého období, popřípadě i charakteristikám jednoho autora nebo díla), tak v synchronních korpusech (jejichž zásady se orientují na současný jazykový stav a do značné míry se opírají o živé jazykové povědomí uživatelů korpusu).

Seznam textů korpusu DIAKORP

Základním cílem zpracování textů pro diachronní korpus je zajistit - přes zmíněnou různorodost - jednotné, co nejsnazší a nejvšestrannější prohledávání textů z celého sedmisetletého historického vývoje češtiny a současně zachovat co nejvíce relevantních lingvistických informací, které jsou v těchto textech obsaženy. K realizaci těchto dvou cílů jsou v diachronním korpusu aplikovány následující dva principy:

  1. Texty jsou transkribovány, nikoli transliterovány. Tato zásada umožňuje vyhledávat v diachronním korpusu výskyty konkrétních tvarů a podob jednotlivých slov stejným způsobem jako v korpusu synchronním.
  2. Texty jsou značkovány. Vedle různých informací o jednotlivých textech a jejich strukturaci umožňuje tato zásada zachovat i podstatnou část lingvistických informací, k jejichž ztrátě obvykle dochází při transkripci (podrobněji viz níže).

V budoucnu budou možnosti prohledávání diachronního korpusu výrazně rozšířeny lemmatizací využívající tzv. hyperlemmat, která uživateli korpusu umožní vyhledat všechny výskyty konkrétního lexému bez ohledu na různost jeho dobových aj. podob a tvarů (například: při vyhledávání pomocí hyperlemmatu kůň bude možno najít i starší české podoby kóň a kuoň).

Transkripce. Volba mezi transkripcí a úpravou znění textu

Starší české texty jsou v DČNK transkribovány v zásadě podle běžných zvyklostí (viz např. transkripční zásady v publikaci Staročeský slovník. Úvodní stati, soupis pramenů a zkratek. Praha, Academia 1968; J. Vintr: Zásady transkripce českých textů z barokní doby. Listy filologické, CXXI, 1998, 3-4, s. 341-346), avšak s některými omezeními (zejména užívání zvláštních znamének a znaků, např. znaků pro staročeské měkké retnice); tato omezení vyplývají ze současných možností elektronického kódování textů, s nímž pracuje korpusový manažer. Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla (který se objeví po kliknutí pravým tlačítkem myši na konkordanční řádek) uvedena značka (R). Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná ("normalizovaná"), a není tedy po fonologické stránce autentická.

Transkripci volíme v případech, kdy grafická podoba slovního tvaru v originálním textu v rámci ustálených dobových pravopisných zvyklostí odpovídá jeho fonologické podobě spolehlivě doložené v nové, střední nebo staré češtině (v případě staré češtiny se přitom vlastně někdy - zejména pokud jde o kvantitu - nevyhnutelně opíráme spíše o uznávané etymologicky podložené rekonstrukce a extrapolace než o spolehlivé a zcela jednoznačně interpretovatelné doklady). Daná grafická podoba je v takovém případě transkribována a informace o ní není v korpusovém textu zachována.

Úpravu znění textu volíme v případech, kdy grafická podoba slovního tvaru v originálním textu v rámci ustálených dobových pravopisných zvyklostí neodpovídá žádné fonologické podobě spolehlivě doložené v nové, střední nebo staré češtině, tj. v případech, kdy slovní tvar byl zapsán/vytištěn způsobem, který je v dané době nestandardní, popř. zjevně chybný. Transkribovaná podoba je v takovém případě přizpůsobena nejbližší a v dané době nejčastěji užívané spolehlivě doložené fonologické podobě a informace o původní grafické podobě v originálním textu je zachována pomocí kódů <e> a </e> (podrobněji viz níže).

Značkování

Primárním účelem značkování je:

  1. připojit ke korpusovému textu podstatné vnější informace (údaje o době vzniku textu, o jeho autorovi a názvu a o stránkování/foliaci); tyto údaje se objeví v dolním okně obrazovky, klikneme-li pravým tlačítkem myši na konkordanční řádek;
  2. naznačit strukturu korpusového textu, označit jeho zvláštní součásti a zachovat lingvisticky podstatné informace, k jejichž ztrátě by jinak došlo při transkripci. V diachronním korpusu jsou k tomuto cíli aplikovány značky uvedené v následujícím seznamu.
Kódy a zvláštní znaky obsažené v textu (a s ním automaticky zobrazované):

<e> </e> 

informují o grafické podobě předchozího slova (obvykle slova zapsaného nebo vytištěného způsobem, který je v dané době nestandardní, zjevně chybný, nejednoznačný, nezřetelný nebo nečitelný). Mezi kódy <e> </e> se uvádí původní grafická podoba v transliterované podobě (bez speciálních znaků, jako je tzv. dlouhé s), tj. např. ušima <e>vssijma</e>. Kódů <e> </e> se užívá k informaci:

  • o zjevných tiskových nebo písařských chybách (např. duha <e>dnha</e>),
  • o dobově neobvyklém nebo rozkolísaném způsobu psaní, u nějž se kloníme k názoru, že neobráží variantní výslovnost (tj. jinou výslovnost, než odpovídá dobově obvyklému způsobu zápisu), např. svatba <e>swadba</e>, set <e>seth</e>, Kristus <e>Krystus</e> ap.,
  • o případech, v nichž grafický záznam sice může odrážet více či méně odlišnou výslovnost než standardní zápis, avšak příslušný tisk či písemný záznam je jako celek natolik nedokonalý nebo nedůsledný, že je sporné, zda nestandardní grafika odlišnou výslovnost skutečně odráží; například: nějaký <e>negaký</e>, jináč <e>ginač</e>,
  • o nejednoznačném písemném záznamu, který by mohl být interpretován/transkribován více než jedním způsobem; například: ústa <e>vsta</e> (zápis je možno číst i jako usta), město <e>miesto</e> (zápis by v daném kontextu bylo možno číst i jako miesto) ap.,
  • o částečně nezřetelném, poškozeném ap. textu, který však bylo při transkripci možno na základě kontextu doplnit (původní záznam je uveden mezi kódy <e> </e>, přičemž nezřetelná, nečitelná nebo chybějící místa jsou označena pomocí <...>; například: námi <e>ná<...></e>, uslyšán <e>vsl<...>ssan</e>),
  • o užívání římských číslic (čísla zapsaná římskými číslicemi jsou v korpusu přepsána číslicemi arabskými a původní zápis je uveden mezi kódy <e> </e>, např. 123 <e>cxxiii</e>; do léta 1560ho <e>M.D.L.Xo.</e>).
<f> </f>

naznačují začátek a konec formátovaného textu, tj. graficky členěného textu, tabulky, grafické poezie, textu jako součásti vyobrazení ap.; nejazykové prvky takového textu (grafické symboly, obrázky ap.) se přitom bez poznámky vypouštějí.

<k> </k>

naznačují začátek a konec titulku, podtitulku, mezititulku, záhlaví, textu doplňující titul, název ap. Například: <k>Kapitola 5</k>; <k>U hrobu rekova. Z polštiny přeložil Alois Bydžovský. (Dokončení)</k>

<n> </n> 

naznačují začátek a konec poznámky (pod čarou aj.). Text poznámky se přitom v korpusovém textu vkládá přímo na místo, odkud se na poznámku odkazuje.

<o>  </o> 

naznačují citátové (gramaticky nezačleněné) cizí prvky, pasáže v cizím jazyce ap. Není-li mezi kódy <o></o> přepsán skutečný cizojazyčný text (např. proto, že je psán abecedou, s níž korpusový manažer nepracuje), uvádí se mezi kódy <o> </o> alespoň jazyk nepřepsaného textu, a to v závorkách, tedy např. <o>(řečtina)</o>.

<v> </v> 

naznačují začátek a konec veršovaného textu.

<x>  </x> 

naznačují části textu, které byly dodatečně přeškrtnuty (je-li pravděpodobné, že jde o škrt autorův, popř. písařův).

{ } 

naznačují začátek a konec marginálie; text marginálie ve složených závorkách se přitom umisťuje před začátek odstavce nebo věty (tj. na místo v textu, kam podle smyslu patří); např.: Příklady toho některé vizme. {Příklad na Adamovi v ráji} První člověk Adam rady u sebe nevěda, začal ji krom sebe hledati...

<+> 

naznačuje užití znaků (značek, symbolů ap.), které nemají ekvivalenty ve znakové sadě Windows, s níž pracuje korpusový manažer (např. astrologické, lékárnické ap. značky).

[ ]

naznačují, že znak (značka, symbol ap.), který nemá ekvivalent ve znakové sadě Windows, s níž pracuje korpusový manažer, byl přepsán dnešním ekvivalentem (značkou, zkratkou ap.) nebo rozepsán slovy, aby byl zachován smysl věty (např. náhrada astrologického znaku pro Slunce v zápisu Myslí, že jemu samému [Slunce] svítí.).

<...> 

naznačuje vynechaný, porušený nebo nečitelný text.