polukr polsko-ukraiński korpus równoległy corpus.domeczek.pl 2004 - …
DESCRIPTION
PolUKR Polsko-Ukraiński Korpus Równoległy http://corpus.domeczek.pl 2004 - …. Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008. Czy można mówić o lingwistyce korpusowej?. Metodologia, a nie osobna branża lingwistyki Rodzaje korpusów: - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/1.jpg)
PolUKRPolsko-Ukraiński Korpus Równoległy
http://corpus.domeczek.pl2004 - …
Natalia KotsybaZebranie naukowe IS PAN
2.XII.2008
![Page 2: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/2.jpg)
Czy można mówić o lingwistyce korpusowej?
• Metodologia, a nie osobna branża lingwistyki
Rodzaje korpusów:• „surowy/łysy” – adnotowany: morfosyntaktycznie,
semantycznie, banki drzew (składnia)• jednojęzyczny - dwu-/wielojęzyczne• równoległe - porównawcze• korpus referencyjny (benchmark korpus): BNC, ?IPI
PAN
![Page 3: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/3.jpg)
Czym jest korpus równoległy?
• Zbiór par tekstów (eng. bitexts) w dwóch językach
Proponowany model wygląda dość przekonująco...
Запропонована модель виглядає доволі переконливо...
![Page 4: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/4.jpg)
![Page 5: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/5.jpg)
Czemu służy korpus równoległy
• baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy
• baza danych dla konfrontatywnej analizy lingwistycznej
• punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych
![Page 6: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/6.jpg)
Statystyki
ogółem polskie ukraińskieTeksty 70 35 35Wyrazy 359 926 179 087 180 120Znaki 3 863 564 1 449 376 2 407 034kilobajty 3941 1492 2439
![Page 7: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/7.jpg)
![Page 8: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/8.jpg)
![Page 9: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/9.jpg)
Wyszukiwanie (obecnie)• Aktualny sposób wyszukiwania bazuje na wyrażeniach
regularnych PERL• Poszukiwany ciąg należy ująć w znaki "/". Np.: /zimna
wojna/ znajdzie wyłącznie akapity zawierające dokładnie tę frazę. Aby uelastycznić kryteria wyszukiwania, można skorzystać z następujących znaków specjalnych:
. odpowiada każdemu znakowi (z wyjątkiem znaku nowej linii)І alternatywa; ) koniec fragmentu ciągu[ i ] początek i koniec oznaczania klasy znaków? 1 albo 0 wystąpień; * 0 albo więcej wystąpień+ 1 albo więcej wystąpień \s dowolny znak spacji, interpunkcji\w dowolna litera, liczba, znak podkreślenia\b koniec wyrazu, \ escape
![Page 10: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/10.jpg)
Przykłady formuł wyszukiwania
/jako/ „jako”/jako\s/ „jako, niejako, dwojako”/\bjako/ „jakość’/norma\./ „norma” przed kropką
![Page 11: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/11.jpg)
![Page 12: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/12.jpg)
![Page 13: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/13.jpg)
![Page 14: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/14.jpg)
![Page 15: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/15.jpg)
Metodologia tworzenia korpusu• zbieranie tekstów (Katarzyna Kotyńska, Anna Łazar, Helena Krasowska)• jeżeli są w postaci papierowej, to: • skanowanie, czyszczenie skanów od obrazków i czarnych pasków,
numeracji stron; • OCRowanie, redakcja poOCRowa; • konwertowanie do tekstowego formatu (FineReader --> Word);
wyrównywanie kolumn, wyczyszczenie od znaków podziałów stron, przypisów dolnych, znaków przeniesienia wyrazów;
• jeszcze raz wyczytywanie błędów (FineReader wyświetla tylko miejsca, które są "podejrzane" dla niego samego);
• sprawdzenie podziału na akapity (czy w ogóle są, czy nie są podwójne);• konwertowanie czcionek do wspólnego formatu (przyjęliśmy
Unicode/UTF-8);• konwertowanie z MSWord .doc na .txt• dodawanie metadanych (tytuł, autor, tłumacz, rok napisania, rok i miejsce
wydania oryginału, gatunek literacki, itd. ok. 20 pozycji);• konwertowanie z .txt do .xml• dodawanie do serwera
![Page 16: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/16.jpg)
Co się dzieje na serwerze
• Metadane są wpisywane automatycznie do bazy danych MySQL i potem pobierane z niej przy korzystaniu z korpusu
• Wyrównywanie tekstów na poziomie akapitów, oznaczonych w tekstach <p>-</p>
• Dynamicznie, zakładając, że ilość akapitów w tekstach jest jednakowa i każdy akapit w tekście oryginalnym ma odpowiednik w tekście tłumaczonym
• Oprogramowanie: Magdalena Turska
![Page 17: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/17.jpg)
W opracowywaniu:a) Dodawanie informacji gramatycznych• polski• ukraiński• sprowadzanie do wspólnego formatu metadanych
gramatycznych (tagset)NB: stopnie porównania dla przymiotników i przysłówków
ukraińskich
b) Wyrównanie na poziomie zdań• problem podziału na zdania (skróty)• demonstracja programu Text Align 1.1.1.1• Hunalign (wymaga słownika oraz lematyzacji dla w miarę
akceptowalnych wyników)
![Page 18: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/18.jpg)
Źródła informacji morfosyntaktycznej
• Język polski: tager TаKIPI, IPI PAN + Politechnika Wrocławska, ok. 200 tys. słów (Marcin Woliński, Adam Radziszewski i in.)
• Lematyzator, morfologiczny analizator, ujednoznaczniacz (dezambiguator)
• Język ukraiński: słownik gramatyczny ULIF NANU, 250 tys. słów (Igor Szewczenko, Ołeksandr Rabulec)
• Lematyzator, morfologiczny analizator, brak ujednoznacznienia (dezambiguacji)
![Page 19: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/19.jpg)
![Page 20: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/20.jpg)
Ukraiński tekst nietagowany
• Львів розташований на етнічних українських землях і є одним з головних нервових вузлів ук раїнського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.
![Page 21: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/21.jpg)
Ukraiński: tagi wejściowe z lematamiЛьвів<JDJAJIJK><Львів 0|Львів 0|Лев 1|Лев 1|> розташований<BDBAV?><розташований 0|розташований 0|розташувати 0|> на<N0N0Z0PF><на 4|на 3|на 2|на 1|> етнічних<AVATAX><етнічний 0|етнічний 0|етнічний 0|> українських<AVATAXJIGIJKGKJMGM><український 0|український 0|український 0|Український 0|Український 0|Український 0|> землях<FM><земля 2|> і<SSSCN0Z0><і 1|і 3|і 2|> є<UPUOUNUKUMUL><бути 0|бути 0|бути 0|бути 0|бути 0|бути 0|> одним<HUHQHERQRERU><один 0|один 0|один 0|оден 0|оден 0|оден 0|> з<PE><з 0|> головних<AVATAX><головний 0|головний 0|головний 0|> нервових<AVATAX><нервовий 0|нервовий 0|нервовий 0|> вузлів<MIMI><вузол 2|вузол 1|> українського<ANADABJDJBKB><український 0|український 0|український 0|Український 0|Український 0|Українське 0|> народу<MBMCMBMC><народ 0|народ 0|нарід 0|нарід 0|>, найважливішим<AQAEAU><найважливіший 0|найважливіший 0|найважливіший 0|> клапаном<ME><клапан 0|> його<FGODOBODOB><йога 0|воно 0|воно 0|він 0|він 0|> серця<NKNHNBNN><серце 0|серце 0|серце 0|серце 0|>, вічним<AQAEAU><вічний 0|вічний 0|вічний 0|> збудником<MEME><збудник 1|збудник 2|> честолюбства<NB><честолюбство 0|>, гордості<FCFBFF><гордість 0|гордість 0|гордість 0|> й<SSSCZ0><й 1|й 2|> потягу<MFMCMGMBMCMFMGFDGD><потяг 2|потяг 2|потяг 2|потяг 1|потяг 1|потяг 1|потяг 1|потяга 0|Потяга 0|> до<NGNFNENDNCNBNANHNINJNKNLNMNNPB><до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 1|> волі<UOFCFBFFGCGBGFGFGCGBGHGNNFMF><воліти 0|воля 0|воля 0|воля 0|Воля 2|Воля 2|Воля 2|Воля 1|Воля 1|Воля 1|Воля 1|Воля 1|воло 0|віл 0|>.
![Page 22: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/22.jpg)
Przykłady kodów gramatycznych ULIF (384)
Znaczenie gramatyczne Kod (tag) Przykład
Czasownik, bezokolicznik, aspekt dokonany, strona czynna
VA прочитати
Imiesłów przymiotnikowy, rodzaj męski, liczba pojedyncza, mianownik, aspekt dokonany, czas przeszły, czynny
BA зрослий
Przymiotnik niezmienny AZ ультра
Rzeczownik, ogólny, rodzaj żeński, liczba pojedyncza, celownik
FC квітці
Predykatyw (słowo orzeczeniowe) X0 слід
![Page 23: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/23.jpg)
Polski tekst nietagowany
• W dzisiejszym posiedzeniu komisji uczestniczy ekspert komisji pan profesor Jan Gajewski.
![Page 24: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/24.jpg)
![Page 25: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/25.jpg)
![Page 26: PolUKR Polsko-Ukraiński Korpus Równoległy corpus.domeczek.pl 2004 - …](https://reader036.vdocuments.site/reader036/viewer/2022070502/56814bd9550346895db8b2eb/html5/thumbnails/26.jpg)
VERB infinitive participle I non-finite form finite form
aspect perfective imperfective
mood imperative indicative
person first second third
tense present future past
gender masculine feminine neutral
number singular plural
NOUN general proper name pro-noun 1-2 person pro-noun 3 person
case nominative genetive dative accusative instrumentative locative vocative
gender masculine feminina neutral pluralia tantum
number singular plural
ADJECTIVAL adjective, participle I
and cardinal numeral pro-adjective indeclinable adjective
case nominative genetive dative accusative instrumentative locative
gender masculine feminina neutral
number singular plural
NUMERAL genderic non-genderic
case nominative genetive dative accusative instrumentative locative
gender masculine feminina neutral
ADVERB PARTICLE PROPOSITION CONJUNCTION INTERJECTION