Český národní korpus a jeho využití v překladatelské praxi
DESCRIPTION
Český národní korpus a jeho využití v překladatelské praxi. Lucie Chlumská ÚČNK FF UK JTP, 6. 11. 2010. Obsah dnešní přednášky a workshopu. Co je jazykový korpus a k čemu slouží Český národní korpus (ČNK) Dostupné druhy korpusů ČNK - PowerPoint PPT PresentationTRANSCRIPT
Lucie ChlumskáÚČNK FF UK
JTP, 6. 11. 2010
Co je jazykový korpus a k čemu slouží Český národní korpus (ČNK) Dostupné druhy korpusů ČNK
Základní práce s korpusem prostřednictvím korpusového manažeru Bonito
Pokročilejší funkce korpusového manažeru s ohledem na potřeby překladatele
Co lze v korpusu hledat, příklady užití Diskuze
rozsáhlý soubor počítačově uložených textů• anotovaný (autor, rok vydání, typ textu atd.)• lemmatizovaný (každému slovu přiřazeno lemma)• zpravidla morfologicky označkovaný (slovní druh, pád,
číslo, osoba, čas, rod atd.)
vzorek skutečného jazyka, nikoli kodifikace• reprezentativnost korpusu
slouží primárně k jazykovému výzkumu
1. korpus – Brown Corpus • 60. léta v USA, Henry Kučera a W. N. Francis, 1 mil. slov
korpusová velmoc – Velká Británie• Bank of English, 500 mil. slov, nakl. Cobuild• BNC – 90. léta, 100 mil. slov, i mluvený jazyk
ostatní jazyky – Německo, Holandsko… Česká republika patří mezi korpusovou špičku
Ústav Českého národního korpusu FF UK založen v roce 1994
kontinuální akademický projekt, jehož produkty (tj. jednotlivé korpusy) mapují a monitorují různé podoby českého jazyka
korpusy ČNK jsou přístupné široké veřejnosti • jedinou podmínkou je registrace a prohlášení uživatele• co se myslí „komerčními účely“ v prohlášení
korpusy současné psané češtiny: SYN
korpusy současné mluvené češtiny: ORAL
diachronní korpus (14.–20. století): DIAKORP
paralelní korpus (cca 20 evropských jazyků): InterCorp
SYN SYN2005: synchronní, psaný, 100 mil. slov
• složení: beletrie, publicistika, odborná literatura SYN2006PUB, SYN2009PUB:
• pouze publicistika, 300 mil. slov a 700 mil. slov
ORAL ORAL2006, ORAL2008: každý 1 mil. slov nepřipravené neformální dialogické promluvy
InterCorp paralelní korpus: základním jazykem je čeština složení: beletrie, Syndicate
korpus: texty seřazeny za sebou (BEL, ODB, PUB) korpusový manažer: vyhledává v korpusu
Základní a pokročilé funkce Bonita vyhledávání lexému či slovního tvaru (či spojení),
zobrazení kontextu a frekvence funkce frekvenční distribuce vyhledávání kolokací (souvýskyt dvou lexémů častější
než náhodný) třídění pomocí negativního a pozitivního filtru
Vyhledávání podle různého atributu word: slovní tvar, textové slovo (např. kočce, píše) lemma: slovníkový tvar (např. kočka, psát) tag: značka obsahující morfologickou informaci (slovní
druh, rod, pád, číslo, čas atd.)
Příklady: word: najde přesně ten tvar, na který se zeptám (např.
word „psa“ nenajde PSA, Psa, PsA atd.) lemma: vyhledá všechny tvary slova bez ohledu na velká,
malá písmena (např. lemma „pes“ najde tvary psům, psa, PES, pEs, Psovi atd.)
pomocí tagu je možné vyhledat např. jen substantiva v urč. pádě nebo slovesa v minulém čase atd.
instalace Bonita z http://korpus.cz/bonito/instalace.php
podrobný návod a manuál také k nalezení na www.korpus.cz
přihlašovací údaje pro potřeby workshopu:Uživatel: seminarHeslo: dohledala