hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu...
TRANSCRIPT
![Page 1: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/1.jpg)
Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus
Autors: Matīss RiktersVadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa
![Page 2: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/2.jpg)
Saturs
• Mašīntulkošanas vēsture, pielietojums
• Galvenie virzieni, tulkojumu vērtēšana
• Hibrīdā mašīntulkošana
• Daudzsistēmu hibrīdā MT
• Daudzsistēmu hibrīdās MT eksperiments
• Daudzvārdu savienojumu apstrāde
![Page 3: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/3.jpg)
Mašīntulkošana
• 1947-1954 – Informācijas teorijā bāzēti MT pamatu pētījumi– Džordžtaunas IBM eksperiments
• 1954-1966 - Lielas divvalodu vārdnīcas + likumi• 1966-1980 - ALPAC ziņojums, pētījumi turpinājās
Eiropā un Kanādā• 1980 - 1990 – Jaunas MT metodes, uz piemēriem bāzētā MT• 1990 - 2000 – Pētījumi runas tulkošanā
![Page 4: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/4.jpg)
Mašīntulkošanas pielietojums
• Tulkošanas pakalpojumi – Google Translate, Bing Translator, ...– Apjomīgu dokumentu tulkošana
• Lokalizācija– Ebay, Adobe, ...
• Terorisma apkarošana
• Tulkošana no runas runā– Skype, ...
![Page 5: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/5.jpg)
Mašīntulkošanas pieejas
• Likumos bāzēta MT (LBMT)– Pārvietojumos bāzētā MT– Uz vārdnīcām bāzētā MT– Starpvalodu MT
• Datos bāzēta MT– Statistiskā MT (SMT)– Uz piemēriem bāzētā MT
• Hibrīdā MT
![Page 6: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/6.jpg)
Mašīntulkojuma vērtēšana
• BLEU– Vārdu un n-grammu atbilstība
• METEOR
• NIST
• WER
• Daudz citu
![Page 7: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/7.jpg)
Hibrīdā MT
• Daudzsistēmu hibrīdā MT
• Statistiskā likumu ģenerēšana
• Daudzkārtējā apstrāde (multi-pass)
![Page 8: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/8.jpg)
Daudzsistēmu hibrīdā MT
• Labākā veselā tulkojuma izvēle
• Labāko tulkojuma daļu kombinēšana
• Vienu MT sistēmu darbības principu apvienošana ar citām sistēmām
![Page 9: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/9.jpg)
Literatūras izpēte
Atslēgvārdi Atrastie rakstiCoupling machine translation
3
Coupling hybrid machine-translation
2
Machine-translation System combination
12
Multi-Engine machine translation
11
• Tika meklēti raksti par daudzsistēmu mašīntulkošanu
• Pēc anotāciju izlasīšanas atstāti14 raksti detalizētai analīzei
• Raksti izanalizēti un savstarpējisalīdzināti to rezultāti
![Page 10: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/10.jpg)
Literatūras izpēte
• Populārākie apvienošanas paņēmieni izmanto pārpratumu tīklus (confusion network)
• Pārsvarā apvienotas sistēmas, kas darbojas vienas iekārtas ietvaros
• Visbiežāk tiek apvienotas SMT un LBMT
• BLEU rezultāts vidēji pieaug par 5 – 10 %
![Page 11: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/11.jpg)
Daudzsistēmu MT metodes
• SMT + LBMT
• Pārpratumu tīkls (confusion network)
• Pārpratumu tīkls + uzlabojumi
• Stara meklēšana (beam search)
• Citas metodes
![Page 12: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/12.jpg)
SMT + LBMT
• Populārākais no sistēmu apvienošanas veidiem
• BLEU pieaug par 10-15%
Analizētie raksti:• Coupling Statistical Machine Translation with Rule-based Transfer and Generation• Hybrid architectures for multi-engine machine translation• Multi-engine machine translation with an open-source decoder for statistical machine translation• Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
![Page 13: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/13.jpg)
Pārpratumu tīkls
• Vienkāršākais sistēmu apvienošanas veids
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 4-10%
Analizētie raksti:• Lattice-based system combination for statistical machine translation• MANY: Open source machine translation system combination
![Page 14: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/14.jpg)
Pārpratumu tīkls + N-grammu balstītas iezīmes
• Uzlabo pārpratumu tīkla darbību
• BLEU pieaug par līdz pat 14%
Analizētie raksti:• Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
![Page 15: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/15.jpg)
Stara meklēšana
• Alternatīva pārpratumu tīklam
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 10-14%
Analizētie raksti:• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination• Combining Machine Translation Output with Open Source: The Carnegie Combining Machine Translation Output with Open Source: The Carnegie
Mellon Multi-Engine Machine Translation SchemeMellon Multi-Engine Machine Translation Scheme
![Page 16: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/16.jpg)
Citas MT apvienošanas metodes
• SMT+EBMT+TM+ NE• Rekursīvā teikumu dekompozīcija• Heiristiskā un statistiskā atlase
1-5% BLEU uzlabojums
Analizētie raksti:• USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014• Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching• Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition• First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation
![Page 17: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/17.jpg)
Daudzsistēmu hibrīdās MT eksperiments
Tīmekļa MT sistēmas latviešu – angļu valodām
•Google Translate
•Bing Translator
•Tildes Tulkotājs
•Pragma 6
•BabelXL
![Page 18: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/18.jpg)
Daudzvārdu savienojumu apstrāde
![Page 19: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/19.jpg)
Daudzvārdu savienojumu apstrāde
Metode BLEU
Bāzlīnija 62.23
Bāzlīnija + MWE treniņu datos 62.10
Bāzlīnija + 2. tulkošanas tabula 62.04
Bāzlīnija + papildus iezīme 62.37
![Page 20: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/20.jpg)
Līdz šim paveiktais
• Izlasīta pusotra grāmata par MT
• Pieveikts tiešsaistes kurss Barselonas universitātē - Approaches to Machine Translation
• Veikti eksperimenti ar daudzvārdu savienojumu apstrādi mašīntulkošanas kvalitātes uzlabošanai
• Veikta literatūras izpēte par mašīntulkošanu, hibrīdo MT un daudzsistēmu MT
![Page 21: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/21.jpg)
Turpmākie tuvie plāni
• Pabeigt rakstu par daudzsistēmu MT
• Īstenot,aprakstīt un nopublicēt daudzsistēmu hibrīdās MT eksperimentu
• Vadīt pāris kvalifikācijas darbu
• Izplānot citus tālākus plānus
![Page 22: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/22.jpg)
Izmantotie avoti
• Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of Mathematical Linguistics 93 (2010): 27-36.
• Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the Americas." Denver, Colorado (2010).
• Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005.
• Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008).
• He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.
• Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.
• Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155.
• Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006).
• Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics, 2005.
• Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007.
• Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014.
• Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008.
• Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009.
• Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022.
• Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013.
• Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks
• Commercial MT Users - http://www.amtaweb.org/commercial-mt-users/
![Page 23: Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija](https://reader033.vdocuments.site/reader033/viewer/2022051400/55b10364bb61eb182c8b456c/html5/thumbnails/23.jpg)
Jautājumi?