Archivní krátké zprávy (2000 - 2007)

Rozšíření DIAKORPu

Koncem roku 2007 byl rozšířen korpus DIAKORP na 1,64 milionu slovních tvarů. Podrobnosti budou zveřejněny na našich stránkách.


Zpřístupnění korpusu SYN

Od prosince 2007 je všem našim registrovaným uživatelům na požádání k dispozici nový korpus SYN. Jde o nereferenční spojení všech dosavadních synchronních psaných korpusů, tj. SYN2000, SYN2005 a SYN2006PUB.Celková velikost nového korpusu je tedy 500 milionů slovních tvarů, celý korpus navíc prošel nejnovější lemmatizací a morfologickým značkováním.Vyhovujeme tak potřebě mít k dispozici větší objem dat především pro výzkum. V této souvislosti však upozorňujeme, že se korpus SYN může v budoucnosti změnit co do rozsahu i značkování, takže je třeba počítat s tím, že každá citace z něho může mít jen časově omezenou platnost. Jste-li naším registrovaným uživatelem a máte zájem o přístup ke korpusu SYN, stačí poslat e-mailovou žádost o rozšíření Vaší stávající nabídky korpusů na adresu:


Michal Křen

Nové publikace

V průběhu listopadu a prosince 2007 byly vydány tyto publikace:


Slovník Karla Čapka
Frekvenční slovník mluvené češtiny
Vidová morfologie českého slovesa

Program Inverse Text Sort

Na naše stránky byl umístěn odkaz na program pro inverzní třídění Inverse Text Sort, jehož autorem je Zdeněk Velíšek.


Získali jsme doménu korpus.cz

Od poloviny října 2007 fungují naše stránky i na adrese www.korpus.cz.


Frekvenčníslovník stále k mání

Informace pro všechny, kteří nemohou sehnat Frekvenční slovník češtiny. Slovník je stále k dispozici v těchto prodejnách:

Knihkupectví Academia
Na Florenci 3
110 00 Praha 1
Vinohradské knihkupectví
Jana Masaryka 58
120 00 Praha 2

Přestěhováno!

Od 1. března 2007 sídlí Ústav Českého národního korpusu v paláci Platýz na Národní třídě 37. Korpusová pracovna na Filozofické fakultě bude v provozu do odvolání (předpokládáme do poloviny března).Výuka bude zde i nadále probíhat. Později bude pracovna přesunuta do Platýzu.


Ústav Českéhonárodního korpusu se stěhuje na Národní

Ústav Českého národního korpusu se koncem února 2007 stěhuje na Národní třídu 37 (Platýz).  Přístup ke korpusům ÚČNK zůstane i v průběhu stěhování zachován. Po přestěhování nebude možné dále využívat naši korpusovou pracovnu před aulou v hlavní budově FFUK.Uživatele pracovny žádáme o navrácení magnetických karet (obdržíte zpět zálohu 200kč).


Korpus SYN2006PUB a Bonito2

V prosinci roku 2006 byl všem uživatelům zpřístupněn korpus  SYN2006PUB. Jde o synchronní  nereprezentativní korpus psané publicistiky o rozsahu 300 milionů textových slov (tokens).

Současně byl spuštěn také testovací provoz nového webového přístupu ke korpusům ÚČNK na adrese  http://ucnk.ff.cuni.cz/corpora.Webové rozhraní se stejně jako korpusový manažer Bonito připojuje k serveru Manatee, práce s ním se však od původního Bonita poměrně výrazně liší. Webový přístup má z uživatelského hlediska několik významných výhod:

Testovací provoz byl zahájen jako reakce nažádosti mnohých uživatelů přesto, že dosud nejsou implementovány všechny funkce původního Bonita.Také rozhraní je k dispozici pouze v anglické verzi a s velice jednoduchým manuálem. Protože tedy nový webový přístup plně nenahrazuje původní Bonito, bude obojí v provozu paralelně. Všechna uživatelská hesla pro vstup do korpusu platí automaticky i pro nový webový přístup.


Český mluvený korpus ORAL2006

30. listopadu 2006 byl všem našim uživatelům zpřístupněn zatím největší a nejčerstvější korpus mluveného jazyka ORAL2006.

Obsahuje přepisy 221 nahrávek z let 2002 - 2006 v rozsahu jednoho milionu slov.


Konference Čeština v mluveném korpusu

Ústav Českého národního korpusu FF UK pořádá konferenci Čeština v mluveném korpusu, která se bude konat ve dnech 12.– 14. září 2007 v Praze.


Zveřejněny srovnávací frekvenční seznamy lemmat

V červenci 2006 byla v souvislosti s lemmatizací korpusu SYN2005 aktualizována stránka Srovnávacích frekvenčních seznamů, na které přibyly také seznamy lemmat.


Lemmatizace korpusu SYN2005

Od června 2006 je korpus SYN2005 lemmatizován a morfologicky označkován. Je však třeba zdůraznit, že se korpus SYN2005 v jiných ohledech nezměnil, došlo tedy pouze  k přidání anotace ke stávajícímu korpusu. Jsou použity stejné morfologické značky jako v korpusu SYN2000, ke kterým však přibyla další pozice vyjadřující slovesný vid.


Korpus soukromé korepondence

dopis

Nabídka dostupných korpusů se v červnu 2006 rozšiřuje o Korpus soukromé korespondence (KSK-DOPISY), který obsahuje přepisy2000 ručně psaných dopisů z let 1990-2004. Tento korpus byl vytvořen v Ústavu českého jazyka na Filozofické fakultě Masarykovy univerzity v Brně.


Srovnávací frekvenční seznamy

Na stránkách ÚČNK přibyly Srovnávací frekvenční seznamy, umožňující přímé srovnání frekvencí slovních tvarů v korpusech SYN2000 a SYN2005. Všem zájemcům o práci s nimi doporučujeme přečíst si jejich podrobný popis zde.


Korpus SYN2005

V prvních dnech roku 2006 byl všem uživatelům zpřístupněn korpus SYN2005. Jde odalší 100 miliónový reprezantativní korpus současné psané češtiny, který je ovšem zároveň také v lecčems jiný než jeho předchůdce, korpus SYN2000. Důrazně proto doporučujeme všem zájemcům o vážnější práci s novým korpusem, aby se nejprve seznámili s jeho podrobnějším popisem.


Přerušení provozu od 16. do 21. listopadu 2005

Upozorňujeme všechny uživatele korpusu, že z důvodu plánované výměny hlavního rozvaděče nepůjde na celé FF UK od 17. do 20. listopadu elektrický proud. Proto bude již od večerních hodin 16. listopadu do dopoledne 21. listopadu 2005 mimo provoz také server i webové stránky ÚČNK. V těchto dnech tedy nebude možné vyhledávat v korpusech ÚČNK.


Diachronní korpus

Začátkem října 2005 byl všem uživatelům ČNK zpřístupněn diachronní korpus DIAKORP, který obsahuje přibližně 700 tisíc slovních tvarů z textů pokryvajících období od konce 13. století až k hranicím synchronní složky. Další informace o tomto korpusu naleznete zde.


Jak využívat Český národní korpus

V polovině dubna 2005 vyšla v Nakladatelství Lidové noviny příručka Jak využívat Český národní korpus.

Více informací naleznete zde.


Technické problémy...

Omluvte prosím opakované výpadky korpusového serveru způsobené hardwarovými problémy. Na řešení se intenzívně pracuje. Korpuosvý manažer Bonito se nám již podařilo zprovoznit na náhradním počítači, ale stále nefunguje veřejný přístup ke korpusu PUBLIC prostřednictvím WWW.


Cena Jana Palacha

S potěšením oznamujeme, že se náš milý kolega Mgr. Václav Cvrček umístil na 1. místě v soutěži o Cenu Jana Palacha se svou diplomovou prací Vývoj polemických názorů na kodifikaci češtiny po roce 1945.


Jazyky a jazykověda

Při příležitosti 65. narozenin prof. Františka Čermáka vyšel sborník Jazyky a jazykověda.

Více informací o sborníku naleznete zde.


Mimořádná cena rektora UK

Dne 25. listopadu 2004 převzal náš milý kolega Mgr. Martin Stluka Mimořádnou cenu rektora UK za přípravu a dokončení elektronické verze Rosova slovníku. Internetovou verzi tohoto slovníku naleznete zde.


Korpusový manažer Bonito

1. listopadu 2004 byl spuštěn plný provoz nového korpusového manažeru Bonito. Grafické rozhraní Bonita se velmi podobá GCQP, Bonito však má pro uživatele několik významných výhod:

Upozorňujeme všechny uživatele na nutnost přejít na Bonito nejpozději do konce roku 2004, kdy bude provoz GCQP zastaven.

Všechna uživatelská hesla pro vstup do korpusu platí automaticky i pro Bonito, stačí tedy nový program pouze stáhnout a nainstalovat. Manuál k Bonitu spolu s instalačním programem najdete zde.


Frekvenční slovník češtiny

Koncem listopadu 2004 byl vydán v Nakladatelství Lidové noviny Frekvenční slovník češtiny. Je založen na korpusu FSC2000, jehož složení bylo proporčně vyváženo tak, aby věrně zachycovalo současný psaný jazyk. Korpus byl zpracován automatickými metodami, po kterých však následovaly rozsáhlé manuální korekce. Tento lingvistický vklad spolu s dostatečně velkým reprezentativním korpusem, na němž je slovník založen, zajišťují vysokou spolehlivost předkládaných dat.

Více informací o slovníku naleznete zde.


Korpus FSC2000

Korpus FSC2000, na němž je založen Frekvenční slovník češtiny, je pročištěnou verzí korpusu SYN2000 s převážně ručně opravenou (stále však nikoli bezchybnou!) lemmatizací, která přesně odpovídá lemmatizaci slovníku. Korpus FSC2000 je nyní přístupný všem uživatelům, tedy nejenom těm, kteří si koupili Frekvenční slovník češtiny. Další informace o tomto korpusu najdete zde.


Články ke stažení...

Na stránkách ÚČNK přibyla rubrika, kde jsou ke stažení texty našich pracovníků a kolegů.


Brněnský mluvený korpus

Od května 2002 se rozšiřuje nabídka korpusů o další korpus mluveného jazyka. Vedle Pražského mluveného korpusu je nyní k dispozici Brněnský mluvený korpus. Tento korpus obsahuje půl milionu slov a je možné s ním pracovat pomocí korpusového manažeru GCQP. Podmínky pro získání přístupu k BMK jsou stejné jako v případě korpusu SYN2000, tj. je nezbytné podepsat prohlášení o nekomerčním používání korpusu, na základě kterého vám bude přiděleno uživatelské jméno a heslo. Všichni uživatelé korpusů SYN2000 získávají přístup k tomuto korpusu automaticky.


Pražský mluvený korpus

Od čevence 2001 je pro všechny uživatele korpusu SYN2000 přístupný i Pražský mluvený korpus (PMK) s přepsanými nahrávkami mluveného jazyka. Tento korpus obsahuje 700 tisíc slov a je možné s ním pracovat pomocí korpusového manažeru GCQP. Podmínky pro získání přístupu k PMK jsou stejné jako v případě korpusu SYN2000, tj. je nezbytné podepsat prohlášení o nekomerčním používání korpusu, na základě kterého vám bude přiděleno uživatelské jméno a heslo. Všichni uživatelé korpusu SYN2000 získávají přístup k PMK automaticky.


Korpusová pracovna

Od poloviny listopadu 2000 je pro všechny, kteří chtějí pracovat s korpusem SYN2000, přístupná korpusová pracovna, kde je k dispozici 9 počítačů určených výhradně pro vyhledávání v korpusu.

Pracovnu najdete v prvním mezipatře patře FF UK (vedle vstupu do auly). Na toto pracoviště byly přesunuty konzultační hodiny většiny pracovníků ÚČNK. Pracovat s korpusem tedy můžete v těchto hodinách. Pokud ovšem chcete korpus využívat častěji a samostatně, můžete si zapůjčit čipovou kartu, se kterou budete mít do pracovny přístup každý pracovní den od 7 do 19 hodin. Kartu je možné získat v ÚČNK. Záloha činí 200 Kč. Před zapůjčením karty je nezbytné podepsat prohlášení o nekomerčním používání korpusových dat, na základě kterého vám bude přiděleno uživatelské jméno a heslo pro přístup ke korpusu.