Co je korpus
Uslyšíme-li slovo korpus, mnoho z nás v první řadě napadne dortový korpus, někdy myšlenkově zabrousíme do oblasti vojenství. Možná nás také napadne, že korpusem můžeme nazvat naši tělesnou schránku.
Chyba lávky! V dnešní době se slovem korpus především rozumí takzvaný textový nebo elektronický korpus. Co to je? Je to soubor elektronických textů, ve kterých můžeme vyhledávat s pomocí speciálního počítačového programu slovní tvary, slovní spojení a spoustu dalších věcí.
K čemu je vlastně takový soubor textů - který mimochodem může obsahovat až několik miliard slovních tvarů - vlastně dobrý? Především slouží jako jazykový materiál pro zpracování výkladových a překladových slovníků, mluvnic a dalších jazykových příruček. Lingvisté ho však využívají pro jazykový výzkum. V současné době už tak plně nahrazuje dřívější ručně vypisované doklady na kartotéčních lístcích.
První textové korpusy se začaly objevovat v šedesátých letech minulého století v Americe. Nejznámějším korpusem je dnes British National Corpus, tedy Britský národní korpus o rozsahu 100 milionů slov. Textové korpusy vznikají pro každý jazyk. Textový korpus má i čeština. Jeho iniciátorem byl profesor František Čermák, muž s velkým lingvistickým rozhledem, který mnoho let učil cizince češtinu na Univerzitě Karlově a tudíž věděl, že nejen Češi, ale i oni textový korpus češtiny potřebují. Profesor Čermák je také lexikografem a světově uznávaným frazeologem, ovládá nejméně osm jazyků, proto dokázal textový korpus pro češtinu v roce 1994 vybojovat.
A chcete-li toho vědět o korpusu víc, podívejte se na stránky www.korpus.cz.
|