Korpus Jerome

Korpus Jerome je jednojazyčný srovnatelný korpus (monolingual comparable corpus) speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). Pozor, nejedná se o korpus paralelní, jenž obsahuje překlady a k nim zarovnané jejich originály neboli zdrojové texty; nepřekladová čeština zde hraje roli referenčního korpusu. Korpus je primárně určen translatologům a lingvistům, kteří se chtějí zabývat zkoumáním překladového jazyka – jeho vlastností a charakteristik. Korpus je možné využít i k ověřování teorií o platnosti tzv. překladových univerzálií.

Velikost

Korpus Jerome má více než 85 mil. tokenů, jež jsou rovnoměrně rozděleny mezi překlady a původní texty. Zahrnuje dva textové typy: beletrii a v menší míře odbornou literaturu.

Kritéria při vytváření korpusu

Korpus vznikl na základě databáze textů Českého národního korpusu, konkrétně pak řady SYN (synchronní čeština), z nichž byly ručně vybrány konkrétní texty na základě specifických, translatologicky relevantních kritérií. Mezi hlavní kritéria patří zásada, že v korpusu Jerome nemůže být žádný autor zastoupen více než třikrát, aby se předešlo vlivu autorského idiolektu. Podobné pravidlo platí i pro překladatele s tím rozdílem, že překladatel se může v korpusu objevit také max. třikrát, ovšem pokaždé s překladem jiného autora. Tím byla zajištěna dostatečná heterogennost korpusu. Dalším kritériem byla doba vydání textu – do korpusu jsou zařazeny překlady a původní díla vydané v období dvaceti let (1992–2009), aby mohla být zkoumána současná překladová čeština.

Korpus neobsahuje žádné neúplné texty, úryvky nebo texty na pokračování (např. první díl románu apod.).

Anotace

Korpus je lemmatizován a morfologicky značkován obdobně jako korpusy řady SYN. Kromě standardních informací o textu, jako je název, autor, rok a místo vydání, překladatel a zdrojový jazyk, byla anotace doplněna o údaje o tom, zda se jedná o překlad či originál, informace o prvním vydání textu, o pohlaví autora i překladatele. Na korpusu lze tedy např. provádět výzkum jazyka překladatelů a překladatelek, příp. kolektivu.

Složení

Korpus Jerome byl sestaven tak, aby odrážel skutečnou situaci překladové literatury u nás. Neobsahuje tedy stejné množství textů ze všech jazyků – což by bylo při této velikosti korpusu nemožné –, nýbrž odpovídá zhruba poměru překládaných jazyků, jak jej uvádí statistiky Národní knihovny a MŠMT. Z toho vyplývá, že např. knih přeložených z angličtiny se u nás vydá přibližně třikrát více než z druhého nejčastějšího jazyka; korpus Jerome tuto skutečnost svým složením reflektuje.

Aby však bylo možné korpus využít i pro výzkum překladových univerzálií, jenž vyžaduje vyvážený korpus z hlediska zdrojového jazyka, byl v rámci korpusu Jerome vytvořen subkorpus, který obsahuje přibližně stejný počet tokenů (cca 100 000) ze všech zahrnutých jazyků. Jeho velikost je nevyhnutelně menší, 5 mil. tokenů. Opět zahrnuje jak beletrii, tak odbornou literaturu. V beletristické části nalezneme texty přeložené ze 14 jazyků (vč. románských, germánských, slovanských i ugrofinských), v odborné literatuře jsou texty přeložené z 6 jazyků (EN, GE, FR, IT, PO, RU). K překladové části subkorpusu byla současně vybrána i srovnatelná část nepřekladová. Subkorpus (překladovou i nepřekladovou část) lze zobrazit jednoduchým vyfiltrováním textů, jež mají v anotaci vyplněnou hodnotu sub_balance (beletrie, odborná).

Lucie Chlumská