paraleln´ı korpusy – uvod´
TRANSCRIPT
Paralelnı korpusy – uvodSeminar UCNK, 12. brezna 2015
Alexandr Rosen
Ustav teoreticke a komputacnı lingvistikyFilozoficke fakulty Univerzity Karlovy v Praze
[email protected]://utkl.ff.cuni.cz/˜rosen
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 1 / 69
1 UvodKorpusy a paralelnı korpusyK cemu je paralelnı korpus?Ukazky paralelnıch konkordancı
2 O InterCorpuZakladnı udajeObsah korpusu
3 Nektere podobne korpusy
4 Jak korpus pouzıvatDotazy on-linePoskytovanı uplnych textuStatistika prıstupu
5 Prıprava textuBibliograficka databazeZarovnanıLingvisticke znackovanı
6 Problemy a perspektivy
1 Uvod
2 O InterCorpu
3 Nektere podobne korpusy
4 Jak korpus pouzıvat
5 Prıprava textu
6 Problemy a perspektivy
Uvod Korpusy a paralelnı korpusy
Co je to paralelnı korpus?
Paralelnı korpus obsahuje stejna nebo srovnatelna data ve vıcepodobach, ktere se lisı jazykem nebo verzı prekladu.
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 5 / 69
Uvod Korpusy a paralelnı korpusy
Typy paralelnıch korpusu:
srovnatelne (texty ze stejneho oboru, nikoli preklady)prekladove
Vetsinou se paralelnı korpusy ztotoznujı s prekladovymi.
Dalsı faktoryvelikostjazykyzarovnanıanotacetypy textudostupnost
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 6 / 69
Uvod Korpusy a paralelnı korpusy
Podmınky pro rozumnou praci s paralelnımi korpusy:
zarovnanı po vetachparalelnı korpusovy manazer (concordancer)
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 7 / 69
Uvod Korpusy a paralelnı korpusy
Nevyhody paralelnıch korpusu:
texty nejsou autenticke, vetsinou jen prekladytexty nejsou reprezentativnı,paralelne lze zıskat jen nektere typy textupredpokladem rozumneho vyuzitı je spolehlive zarovnanı povetach, ale:
zarovnavat rucne je drinaautomaticke metody zarovnavanı nefungujı na 100 %
nenı snadne zıskat nastroje, ktere majı pozadovane funkce apritom nevyzadujı specialnı znalosti
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 8 / 69
Uvod K cemu je paralelnı korpus?
Rovnou pro lidi:
pro prekladateleparalelnı konkordanceprekladova pamet’(Translation Memory, v programech pro podporu prekladu)
pro ucitele a studenty cizıch jazykupro lexikografy
paralelnı konkordanceextrakce ekvivalentu slov nebo kolokacı
pro translatology, literarnı vedce, komparatisty, dialektologypro ostatnı lingvisty taky!
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 10 / 69
Uvod K cemu je paralelnı korpus?
Pro aplikace:
statisticky strojovy preklad(Statistical Machine Translation)strojovy preklad podle prıkladu(Example-based Machine Translation)vyhledavanı informacı ve vıce jazycıch(cross-language information retrieval)projekce anotace(interpretace textu v jednom jazycena zaklade jazyka druheho)
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 11 / 69
determined II
Ve slovnıku (Hais – Hodek, Academia 1991):determined
1 rozhodny, zaryty2 rozhodnuty, odhodlany, zamanuvsı3 v. determine
determine1 urcit, urcovat, stanovit, udat, udavat2 rozhodnout, ucinit rozhodnutı3 rozhodnout se4 zjistit, vysetrit, vypocıst5 primet6 zanikat, koncit, ukoncit7 vymezit, ohranicit
determined III
By now Les had engineered dozensof multiple-recorded discs and wasdetermined that the world hear them.
Les mel tou dobou uz desıtky vıce-stope nahranych desek a usiloval oto, aby je uslysel i svet.
Hackman returned to New York de-termined to succeed.
Hackman se vratil do New Yorkus predsevzetım, ze prorazı.
But Mr. Hill certainly had it, and I wasdetermined to see how it worked.
Pan Hill ji vsak zcela jiste vzbuzovala ja chtel videt, jak toho dociluje.
Steven was determined to make him-self understood.
Steven mel vsechny predpoklady proto, aby se naucil mluvit.
Now, however, as the trial progres-sed, Donna grew stronger and moredetermined.
Jak se vsak proces vyvıjel, Donna sezocelovala a odhodlavala.
Kallie rose slowly, determined to ple-ase her mistress.
Kallie se zvedala pomalu, ale s od-hodlanım potesit svou panı.
But that only made me more deter-mined.
Tım vsak jen posılili me odhodlanı.
determined IV
When a reunion of the Point Cruzcrew was organized for September1993, Bill was determined to have“George” there.
Kdyz se byvalı clenove posadky do-hodli, ze se v zarı 1993 zase po le-tech sejdou, zarekl se Bill, ze tam”George”nesmı chybet.
As a young factory worker, Sheetswas determined to give his three chil-dren summers they would always re-member.
Kdyz jeste zamlada pracoval vtovarne, umınil si, ze svym tremdetem dopreje letnı prazdniny, najake nikdy nezapomenou.
Eager to impress the head keeperwith my animal-handling expertise, Imade a determined grab.
Ale ja jsem chtel hlavnıhoosetrovatele ohromit svou zrucnostıpri manipulaci se zvıraty a raznejsem bazanta popadl.
If you find yourself going flat or tenta-tive, determined thoughts can makeall the difference.
Kdyz se vam zda, ze ochabujetenebo ze se cıtıte nejistı, vse muzounapravit pevne, vyhranene myslenky.
determined V
Even before the diagnosis was con-firmed, the Odones, both determi-ned, strong-willed people, had deci-ded they would learn all they couldabout the disease.
Jeste pred potvrzenım diagnozy seOdoneovi, oba cılevedomı a nezdolnılide, rozhodli, ze si o te chorobe zjistı,co se da.
I would close my eyes, determinednot to give him the satisfaction of se-eing me cry.
Jen mu neudelat radost, jen se ne-rozbrecet!
sophisticated I
Ve slovnıku (Hais – Hodek, Academia 1991):sophisticated
1 prılis zkuseny, znaly sveta, blazeovany, narocny, intelektualne navysi, vysoce kultivovany, prekultivovany
2 vylucny, exkluzivnı, vysoce narocny, pro uzky okruh3 (stroj) velmi slozity, komplikovany, (zbran) sofistikovany; (teorie)
slozity, subtilnı, rafinovany, vyspekulovany4 (auto) s poslednımi technickymi vymozenostmi5 klamny6 viz sophisticate, v.
sophisticated II
This led to the development of syn-chronized stereophonic tape, right upto the sophisticated present.
To vedlo k vyvoji synchronizovanestereofonnı nahravky v jejı dnesnıdokonalosti.
This technological marvel has be-come amazingly sophisticated.
Tato technicka hrıcka se totiz v po-slednı dobe podivuhodne zdokona-lila.
At the city’s Wat Nai Rong HighSchool, 17-year-old Wasana Wa-rathongchai says smoking makes herfeel ”sophisticated and cosmopoli-tan, like America.“
Sedmnactileta studentka strednıskoly Wasana Warathongchaivysvetluje, ze kdyz kourı, ”pripadasi modernı a kosmopolitnı jakoAmerika.“
I didn’t get a buzz, because I didn’tinhale, but just the fact I was actuallysmoking made me think I was coolsophisticated.
Nic to se mnou neudelalo, protozejsem neslukovala, ale pocit, ze do-opravdy kourım, byl fantasticky.
sophisticated III
Kids or teen-agers who thinksmoking is cool sophisticated or whowant to try it: don’t!
Vsem klukum a holkam, kterymkourenı pripada takove dospele aradi by to zkusili taky, chci rıct:Nedelejte to!
Today, after years of research, edu-cators are more sophisticated aboutdetecting learning disabilities and te-aching children how to compensatefor them.
Dnes, po mnohaletych vyzkumech,jsou ucitele o poruchach schopnostiucenı vıce informovani, umı je rozpo-znat a vedı, jak takove deti ucit.
Scientists had processed the imagesand additional ones from sophistica-ted Landsat satellites, which used anumber of light and radio wavelen-gths to detect surface details.
Odbornıci analyzovali snımky zvesmıru i fotografie zıskane z druzicLandsat, ktere k mapovanı povrchuZeme vyuzıvajı svetelne a radiovevlny.
I wanted my mother to be more so-phisticated, like my friends’ mothers.
Chtela jsem, aby moje matka bylaelegantnı jako matky mych ka-maradek.
sophisticated IV
And perhaps because, at still anotherlevel, we enjoy watching their glo-riously sophisticated competition forour favors.
Mozna i proto, ze na jeste jine urovnizalibne pozorujeme, jak rafinovanese uchazejı o nasi prızen.
Fleming secured sophisticated radiopagers that would keep the surve-illance teams in constant contact withthe Bexleyheath control center andalert them if the Ian and Nina Foxcash card was being used at an ATMmachine.
Fleming opatril vykonna radiofonickapojıtka, ktera umoznovala, aby sle-dovacı tymy byly v nepretrzitemkontaktu s rıdıcım strediskem vBexleyheathu a mohly je okamziteuvedomit, kdyby nekdo pouzil pla-tebnı kartu Foxovych.
In the near future, data collection willbecome even more sophisticated.
V blızke budoucnosti se sber datv supermarketech stane jestevyznamnejsı disciplınou.
1 Uvod
2 O InterCorpu
3 Nektere podobne korpusy
4 Jak korpus pouzıvat
5 Prıprava textu
6 Problemy a perspektivy
O InterCorpu Zakladnı udaje
Zakladnı udaje
InterCorp – vıcejazykovy paralelnı korpus zamereny na cestinusoucast Ceskeho narodnıho korpusuhttp://www.korpus.cz/intercorp/
* 2005 jako sluzba pro lingvisticka pracoviste FF UK+/− kazdy rok nove vydanıuz delsı dobu se hodne vyuzıva i mimo univerzitnı prostredıod roku 2012 financovan z programu Velke infrastruktury provyzkum, experimentalnı vyvoj a inovace
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 24 / 69
O InterCorpu Zakladnı udaje
Architektura korpusu InterCorp
zarovnanı: po vetach, udajeo zarovnanı oddelene od vlastnıhotextu
kazdy text je cesky a asponv jednom dalsım jazyce
zarovnanı mezi texty v cizıchjazycıch pres ceskou verzi
morfologicke znacky a lemmata– pokud na to mame nastroje
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 25 / 69
O InterCorpu Zakladnı udaje
Kriteria pro vyber textu
Text se da nejak zıskatKvalita predlohy (souboru) dostatecnaText je:
uplnyjeho clenenı odpovıda jinym verzımpreklad je dobry
Typ textu:reprezentativnostvyvazenı skladby korpusu
Stejny text uz je v jinych jazycıchJde o
original,preklad uz existujıcıho ceskeho originalu nebocesky preklad
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 26 / 69
O InterCorpu Zakladnı udaje
Kdo je za co odpovedny
Ustav Ceskeho narodnıho korpusu:management, financetechnicka podpora, skolenı, konzultacecentralnı datove ulozisteformatovanı textu, delenı vetautomaticke zarovnanı, morfosyntakticke znackovanı a lemmatizace
Koordinator pro dany jazyk:vyber a akvizice textukorektury textu a zarovnanı
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 27 / 69
O InterCorpu Zakladnı udaje
Spoluprace
Zıskavanı a prıprava textu:Univerzita Karlova v PrazeMasarykova Univerzita v BrneUniverzita Palackeho v OlomouciCeska akademie vedVarsavska univerzita
Pomoc ze zahranicı:texty (ASPAC, Parasol, OPUS, ...)nastroje pro lingvistickou anotaci (TreeTagger, ...)obecnejsı nastroje pro zpracovanı textu (HunAlign, Punkt, ...)
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 28 / 69
O InterCorpu Obsah korpusu
Obsah korpusu – 7. vydanı
Pocet jazyku: 38 + ceskyjen malo textu je k manı ve vıce nez 5 jazycıchjazyky se velmi lisı objemem textu
Celkova velikost – 1390/165 mil. slov (cizı/ceske)Jadro – 173/77 mil. slov: beletrie s manualne zkorigovanymzarovnanımKolekce – texty s automatickym zarovnanım:
Zurnalistika – 33/4 mil. slov:Project Syndicate http://www.project-syndicate.org/Presseurop http://www.presseurop.eu/Pravnicke texty – 430/20 mil. slov:Acquis Communautairehttp://langtech.jrc.ec.europa.eu/JRC-Acquis.htmlZapisy z jednanı parlamentu – 265/13 mil. slov:Europarl http://www.statmt.org/europarl/Filmove titulky – 488/51 mil. slov:Open Subtitles http://www.opensubtitles.org
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 30 / 69
O InterCorpu Obsah korpusu
Obsah korpusu podle jazyku a typu textu
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 31 / 69
O InterCorpu Obsah korpusu
Jadro (beletrie)
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 32 / 69
O InterCorpu Obsah korpusu
Kolekce (zurnalistika, pravnicke texty, titulky, ...)
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 33 / 69
O InterCorpu Obsah korpusu
Tituly s nejvyssım poctem verzı I
26 J. K. Rowlingova Harry Potter a kamen mudrcu24 A. de Saint-Exupery Maly princ21 Lewis Carroll Alenka v rısi divu20 Milan Kundera Nesnesitelna lehkost bytı20 J. K. Rowlingova Harry Potter a tajemna komnata19 Douglas Adams Stoparuv pruvodce po galaxii19 Milan Kundera Zert18 Dan Brown Sifra Mistra Leonarda18 Michail Bulgakov Mistr a Marketka18 Jaroslav Hasek Osudy dobreho vojaka Svejka18 A. A. Milne Medvıdek Pu18 J. K. Rowlingova Harry Potter a vezen z Azkabanu18 J. R. R. Tolkien Pan prstenu I–III17 Paolo Coelho Alchymista17 J. R. R. Tolkien Hobit
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 34 / 69
O InterCorpu Obsah korpusu
Tituly s nejvyssım poctem verzı II16 Umberto Eco Jmeno ruze16 Franz Kafka Proces16 George Orwell 198416 J. K. Rowling Harry Potter a ohnivy pohar15 Anna Frankova Denık14 Rudyard Kipling Kniha dzunglı14 Milan Kundera Nesmrtelnost14 Nikolaj Ostrovskij Jak se kalila ocel13 Bohumil Hrabal Prılis hlucna samota13 Milan Kundera Smesne lasky13 J. K. Rowling Harry Potter a Fenixuv rad12 F. S. Fitzgerald Velky Gatsby12 Bohumil Hrabal Obsluhoval jsem anglickeho krale12 Franz Kafka Zamek12 Franz Kafka Promena12 Milan Kundera Valcık na rozloucenouAlexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 35 / 69
O InterCorpu Obsah korpusu
Tituly s nejvyssım poctem verzı III
11 Ernest Hemingway Starec a more11 Stanisław Lem Solaris11 Astrid Lindgren Pipi Dlouha puncocha11 Astrid Lindgren Karkulın ze strechy11 G. G. Marquez Kronika ohlasene smrti11 George Orwell Farma zvırat11 Michal Viewegh Vychova dıvek v Cechach10 Karel Capek Valka s mloky10 Stieg Larsson Muzi, kterı nenavidı zeny10 Vladimir Nabokov Lolita10 H. G. Wells Stroj casu10 H. G. Wells Valka svetu
9 Vaclav Havel Dalkovy vyslech
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 36 / 69
1 Uvod
2 O InterCorpu
3 Nektere podobne korpusy
4 Jak korpus pouzıvat
5 Prıprava textu
6 Problemy a perspektivy
Nektere podobne korpusy
OPUS – an open source parallel corpushttp://logos.uio.no/opus/
Evropska centralnı banka (19 jazyku, c.: 1,4 mil. vet, 29,3 mil. slov)
EU Bookshop (48 jazyku, c.: 1 mil. vet, 16,3 mil. slov)
Evropska ustava (21 jazyku, c.: 11 tis. vet, 128 tis. slov)
jednanı Evropskeho parlamentu (21 jazyku, c.: 669 tis. vet, 13 mil. slov)
systemova hlasenı KDE (92 jazyku, c.: 134 tis. vet, 696 tis. slov)
manualy PHP (22 jazyku, c.: 63 tis. vet, 147 tis. slov)
dokumenty Evropske agentury pro leciva (EMEA)(22 jazyku, c.: 1,2 mil. vet, 14,2 mil. slov)
filmove titulky (30 jazyku, c.: 1,8 mil. vet, 11,2 mil. slov)
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 38 / 69
Nektere podobne korpusy
Kacenka: Korpus anglicko-cesky Katedry anglistiky FF MU Brno,celkem pres 3 mil. slovhttp://www.phil.muni.cz/angl/kacenka/kachna.html
PCEDT: Prague Czech-English Dependency Treebankhttp://ufal.mff.cuni.cz/pcedt/doc/PCEDT_main.htm
Wall Street Journal 22k vet, 488k slov – syntaxReader’s Digest 44k vet a 660k slov – jen text
Multext/East: 1984 (George Orwell) nl.ijs.si/ME/Acquis Communautaire:21 jazyku, c.: 6 mil. slov http://wt.jrc.it/lt/Acquis/
Parallel Corpus of Computer Terms – Slovensky narodny korpushttp://korpus.juls.savba.sk/pcct/index.sk.html
CzEng: Czech-English Parallel Corpus, syntakticky anotovany[Bojar & Zabokrtsky(2009)] http://ufal.mff.cuni.cz/czeng10/
zakony EU, projekt Navajo, technicka dokumentace, beletrie, zpravy,webove stranky, filmove titulky(c.: 15 mil. vet, 206 mil. slov)
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 39 / 69
Nektere podobne korpusy
ASPAC – the Amsterdam Slavic Parallel Corpusautor: Adrie BarentsenInterCorp ho obsahuje temer celycelkova velikost >4 mil. tokenu (slov vcetne interpunkce)49 textu alespon ve 4 slovanskych jazycıch10 textu alespon v 10 ruznych slovanskych jazycıch11 slovanskych jazyku ma aspon 15 textunektere preklady jsou ve vıce verzıch(6 ruskych a 4 polske preklady Alenky v rısi divu)obsahuje take hornı a dolnı luzickou srbstinu
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 40 / 69
Nektere podobne korpusy
ParaSol: A Parallel Corpus of Slavic and other languages
autori: Ruprecht von Waldenfels (Bern) a Roland Meyer(Regensburg)on-line na adrese http://parasol.unibe.ch
18 mil. tokenu (slovanske jazyky) + 7,6 mil. (ostatnı)rustina: 3,6 mil. tokenu, polstina 3,4 mil. tokenuvetsina jazyku je vybavena morfologickou anotacı a lemmaty
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 41 / 69
1 Uvod
2 O InterCorpu
3 Nektere podobne korpusy
4 Jak korpus pouzıvat
5 Prıprava textu
6 Problemy a perspektivy
Jak korpus pouzıvat Dotazy on-line
Dotazy on-line
KonTextjednotne prostredı pro hledanı v jednojazykovych i paralelnıchkorpusechzadny z jazyku nema privilegovane postavenıv jednotlivych jazycıch se da hledat jako v samostatnych korpusechvıce funkcı pro zpracovanı vysledku dotazu (trıdenı, frekvencnıdistribuce, kolokace)moznost zobrazenı vysledku i v prıpade, ze v nekterem z jazykudany text chybıhttps://kontext.korpus.cz
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 44 / 69
Jak korpus pouzıvat Dotazy on-line
treq – Lexikalnı ekvivalenty podle zarovnanı poslovech
https://trnka.ff.cuni.cz/˜vavrin/ic_slovnik/index.php
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 45 / 69
Jak korpus pouzıvat Poskytovanı uplnych textu
Poskytovanı uplnych textu
zachovanı autorskych pravtechnicka ochrana pred zneuzitım:nahodne poradı bloku prekladovych dvojic vetbloky dvojic vet o delce max. 100 slovlicence pro skolstvı a vyzkum, bez moznosti predavanı dalsımuzivatelum
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 47 / 69
Jak korpus pouzıvat Statistika prıstupu
Statistika prıstupu
Za rok 2012Podle jazykuPocıta se kazde kliknutı na jazyk
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 49 / 69
01 02 03 04 05 06 07 08 09 10be 0 0 0 0 0 1 3 10 0 7bg 103 16 16 8 22 102 77 111 301 37da 0 12 8 15 151 1 23 3 1 3de 1183 675 1249 1314 799 1155 972 2104 834 1592el 0 0 0 0 0 1 2 0 0 1en 689 800 1011 1611 1264 936 840 1197 886 2090es 14 98 222 67 246 68 58 8 12 88et 0 0 0 0 0 1 0 0 0 1fi 14 54 28 235 437 3 6 2 33 5fr 90 715 1142 1661 1737 488 320 171 300 957hr 4 41 120 0 33 33 73 76 46 17hu 0 1 12 6 22 7 0 2 0 3it 179 48 538 421 204 733 135 524 222 297lt 0 2 57 6 3 8 2 3 3 13lv 7 3 45 1 16 10 10 15 6 2mk 0 0 0 0 0 0 0 0 7 2mt 0 0 0 0 0 2 0 0 0 0nl 6 67 11 9 2 76 0 8 0 113no 26 110 5 11 21 2 0 0 0 29pl 102 37 220 111 256 55 76 364 24 684pt 14 97 290 202 38 2 30 0 7 1ro 6 0 1 1 1 44 0 0 1 0ru 202 61 117 213 216 57 61 379 80 52sk 9 7 8 4 33 7 14 10 37 41sl 0 2 74 10 24 23 3 7 13 5sr 0 11 26 1 4 9 2 67 36 87sv 6 2 13 15 11 8 2 66 11 59sy 0 0 3 3 1 0 1 0 0 1
1 Uvod
2 O InterCorpu
3 Nektere podobne korpusy
4 Jak korpus pouzıvat
5 Prıprava textu
6 Problemy a perspektivy
Prıprava textu
Prıprava textu
1 Akvizice2 Skenovanı a rozpoznavanı znaku (OCR)3 Korektury4 Segmentace (rozpoznanı hranic vet)5 Zarovnanı6 Kontrola segmentace a zarovnanı7 Morfosyntakticke znackovanı
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 52 / 69
Prıprava textu
Nastroje pouzıvane pri zpracovanı textu
1 Bibliograficka databaze2 Intertext – editor paralelnıch textu3 Punkt – vetny segmentator4 Hunalign – zarovnavac5 taggery pro nektere jazyky
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 53 / 69
Prıprava textu Bibliograficka databaze
Bibliograficka databaze
evidence vsech titulu – rozpracovanych i hotovychodkazy na dostupne ceske texty, pripravene k zarovnanısleduje postup kazdeho textu vsemi fazemi prıpravydata z databaze se pouzıvajı ve vyhledavaci
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 55 / 69
Prıprava textu Zarovnanı
InterText
editor paralelnıch textu k opravam:zarovnanı po vetachstruktury textu (segmentace na vety)preklepu apod.
obsahuje automaticky zarovnavac (hunalign)zmeny ve strukture ceskeho textu se promıtajı do vsech zarovnanıprotokolovanı zmen, export, hledanı, zalozkydve verze: serverova a lokalnıpodpora pro trıdy uzivatelu s odlisnymi pravomocemilicence GNU GPL v3: http://wanthalf.saga.cz/intertext
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 57 / 69
Prıprava textu Lingvisticke znackovanı
Lingvisticke znackovanı
Strategie pro lingvisticke znackovanı(lemmatizace a morfosyntakticke znackovanı)
Pouzıvat dostupne nastroje (taggery), vcetne:tokenizace (delenı na slova) obsazene v danem nastrojiruznych sad znacek, ktere vychazejı z ruznych koncepcı
Soucasny stav
Morphosyntakticke znacky pro cestinu + 19 cizıch jazykuLemmata pro cestinu + 16 cizıch jazyku
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 60 / 69
Prıprava textu Lingvisticke znackovanı
Nastroje pro lemmatizaci a znackovanıJazyk Zn. Lm. Nastroj Predl. Det. Adj. Subst.
bg X TT R Pde-os-n Ansi Ncnsics X X Morce RR--6 PDXP6 AAFP6----3A NNFP6-----Ade X X TT APPR ART ADJA NNen X X TT IN DT JJS NNSes X X TT PREP ART NC ADJet X X TT P---s3 A-p-s3 Nc-s3fr X X TT PRP DET:ART ADJ NOMhu X HunPos ART ADJ ADJ NOUN(CAS(ILL))it X X TT PRE PRO:demo NOM ADJlt X X V.D. prln jvrd bdvr dktvnl X TT 600 370 103 000no X X OB prep det adj substpl X X TaKIPI prep:loc:nwok adj:sg:loc:m3:pos
adj:sg:loc:m3:pos subst:sg:loc:m3pt X X TT SPS DA0 NCFS AQ0ru X X TT Sp-l P---pl Afp-plf Ncmplnsk X X Morce Eu6 PFfs6 AAfs6x SSfs6sl X X totale Sl Pd-nsg Agpfsg Ncnsl
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 61 / 69
1 Uvod
2 O InterCorpu
3 Nektere podobne korpusy
4 Jak korpus pouzıvat
5 Prıprava textu
6 Problemy a perspektivy
Problemy a perspektivy
Nektere problemyNelze pracovat s vıce verzemi jednoho textu v jednom jazyce
Technicky se korpus sklada z podkorpusu pro kazdy jazykNenı jasne, jak by melo vypadat zadavanı dotazu a zobrazovanıvysledku
Velke rozdıly mezi jednotlivymi jazyky: velikost, znackovanı, typytextuRuzna pravidla tokenizace a sady znacek pro ruzne jazykyTexty bez ceske verze
Zatım musı mıt kazdy cizı text cesky protejsek
Nelze vıce verzı prekladu jednoho textu
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 63 / 69
Problemy a perspektivy
Problemy s ruznymi sadami znacek
Hyperonymie / hyponymie
Znacka je obecnejsı nez jejı obdoba v druhem jazyceIN se v anglictine pouzıva pro
predlozky ipodradicı spojky,
ale v ostatnıch jazycıch jsou pro ne dve znacky.
Castecne se prekryvajıcı vyznam
Odpovıdajıcı znacky ze dvou znakovych sad se shodujı jencastecne
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 64 / 69
Problemy a perspektivy
Castecny prekryv – cs:PD × pl:adj
cs v tech nejodlehlejsıch zastavbachRR - - 6 PDXP6 AAFP6 - - - - 3A NNFP6 - - - - - A
pl w tym wspaniałym apartamencieprep:loc:nwok adj:sg:loc:m3:pos adj:sg:loc:m3:pos subst:sg:loc:m3
ceske tech se znackuje jako ukazovacı zajmeno, pricemz senerozlisuje, zda je uzito v pozici substantivnı nebo adjektivnıpolske tym se znackuje jako slovo s adjektivnım sklonovanım
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 65 / 69
Problemy a perspektivy
Perspektivy
Vyuzitı korpusu
vylepsovanı vyhledavacıho rozhranıintegrace s jinymi paralelnımi korpusy?
Obsahlepsı rovnovaha mezi jazyky a typy textuvıce jazyku: albanstina, cınstina, romstina, vietnamstina, luzickasrbstina ?
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 66 / 69
Problemy a perspektivy
Anotacezlepsovanı kvality zarovnanı a delenı na vety, take pomocıcrowdsourcingu (motivace uzivatelu k upozornovanı na chyby)zarovnanı po slovech, vıceslovnych vyrazech, vetnych clenechzkvalitnovanı lingvisticke anotace:
co nejlepsı nastroje pro co nejvıce jazykujednotne zasady tokenizace sprezek a vıceslovnych vyrazuharmonizace znackovych sad
Syntakticka anotace
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 67 / 69
Problemy a perspektivy
Dıky za pozornost!
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 68 / 69
Problemy a perspektivy
Bojar, O. & Zabokrtsky, Z. (2009).CzEng0.9: Large parallel treebank with rich annotation.Prague Bulletin of Mathematical Linguistics, 92.
Tiedemann, J. (2012).Parallel data, tools and interfaces in OPUS.In N. Calzolari, K. Choukri, T. Declerck, M. U. Dogan, B. Maegaard,J. Mariani, J. Odijk, and S. Piperidis, editors, Proceedings of theEight International Conference on Language Resources andEvaluation (LREC’12), Istanbul, Turkey. European LanguageResources Association (ELRA).
von Waldenfels, R. (2006).Compiling a parallel corpus of Slavic languages. Text strategies,tools and the question of lemmatization in alignment.In B. Brehmer, V. Zdanova, and R. Zimny, editors, Beitrage derEuropaischen Slavistischen Linguistik (POLYSLAV), volume 9,pages 123–138. Verlag Otto Sagner, Munchen.
Alexandr Rosen (UTKL FF UK ) Paralelnı korpusy – uvod 69 / 69