angol-magyar statisztikai gépi fordító rendszer minőségének javítása
DESCRIPTION
Angol-magyar statisztikai gépi fordító rendszer minőségének javítása. Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic. Tartalom. Statisztikai gépi fordítás - PowerPoint PPT PresentationTRANSCRIPT
Angol-magyar statisztikai gépi fordító rendszer minőségének javítása
Készítette: Laki László János PPKE Információs Technológiai Kar
Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic
Tartalom
• Statisztikai gépi fordítás– Bevezetés– Szótár hozzáadása a korpuszhoz– Hibridizáció– Cigány-magyar SMT
STATISZTIKAI GÉPI FORDÍTÁS
SMT formális leírása
E: The cat cought the m ouse.
C SATO R N A BEM EN ET : EZAJO S CSATO R N A
P(F |E )
G EN ER ATÍV IR ÁN Y
F: A m acska m egfogta az egeret.
C SATO R N A KIM EN ET F:
LEG JO BB C ÉLN YELVI M O N D AT: E FO RR ÁSNYELVI M O NDAT:
F
AR G M AX
*N YELVI M O D ELL
P(E)F M O D ELL
P( E)O R D ÍTÁSI
F |
D EKÓ D O LÓ IR ÁN Y
P(E)
–Zajos csatorna modell három komponensből áll:
•Nyelvi modell (folyékonyság)•Fordítási modell (tartalom-hűség)
•Dekódoló
–É=argmax P(E|F) = argmax P(E)*P(F|E)
–É: a legjobb fordítás–E: angol mondat (cél nyelv)
–F: idegen mondat (forrás nyelv)
Felhasznált keretrendszerek
• LitMag (Hunglish) korpusz – 654 939 mondat
• SMT keretrendszer:– Nyelvi modell: SRILM– Fordítási modell: IBM modellek– Dekódoló: MOSES
Kiértékelés• BLEU = BiLingual Evaluation Understudy• A javaslat az IBM-től származik (Papineni és mtsai,
2002)• A fő gondolat:
– Szavak pontos illeszkedése (PONTOSSÁG)– Illeszkedés egy referenciafordításra– Szópontosság-alapú „helyesség”-számítás– n-gram-pontosság alapú „folyamatosság”-számítás
(n=1,2,3,4)– Semmi fedéssel kapcsolatos szám, ui. nehéz a
többszörös referenciák miatt– A fedés hiányzó szerepének ellensúlyozására
bevezetik a BP-t (Brevity Penalty = rövidségi büntetés)– A végső szám az n-gram-eredmények súlyozott átlaga
(a hasonló hosszúságú szerkezetek: mondatok, tagmondatok, szószerkezetek, frázisok külön-külön kiszámolt súlyozott átlaga)
– Nagy teszthalmazon együttes eredmény
Szótár hozzáadása a korpuszhoz
• Szótár:– 344 924 mondat
Rendszer BLEU érték
1 Alaprendszer fordítása: 10.85%
2 Alap+1xszótár rendszer fordítása:
11.18%
3 Alap+2xszótár rendszer fordítása:
11.01%
4 Alap+3xszótár rendszer fordítása:
10.88%
5 Alap+4xszótár rendszer fordítása:
10.88%
6 Alap+5xszótár rendszer fordítása:
10.87%
1-gram
2-gram
3-gram
4-gram
5-gram
6-gram
7-gram
8-gram
9-gram
1 47.05 16.29 7.07 3.54 1.94 1.14 0.74 0.57 0.46
2 47.60 16.62 7.35 3.78 2.02 1.19 0.75 0.57 0.43
3 47.55 16.46 7.25 3.75 2.09 1.25 0.81 0.60 0.46
4 47.32 16.33 7.09 3.64 1.94 1.09 0.68 0.47 0.33
5 47.32 16.33 7.09 3.64 1.93 1.09 0.68 0.47 0.33
6 47.74 16.43 7.19 3.63 1.93 1.08 0.68 0.51 0.39
Példa (angol-magyar)Angol referencia mondat:
" i wonder who 'll be teaching us ? " said hermione as they edged into the chattering crowd .
Magyar referencia mondat:
- kíváncsi vagyok , ki tartja a tanfolyamot - morfondírozott hermione , miközben barátaival befurakodtak a tömegbe .
Alaprendszer fordítása:
- csak tudnám , ki lesz a tanítást ? - kérdezte hermione , mikor ő az .
Alap+1xszótár rendszer fordítása:
- csak tudnám , ki lesz tanított nekünk ? - szólt hermione , mikor elindult a jóvoltából .
Alap+2xszótár rendszer fordítása:
- kíváncsi vagyok , aki tanított nekünk ? - szólt hermione , mikor elindult a zsibongó tömeg .
Alap+3xszótár rendszer fordítása:
- kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen .
Alap+4xszótár rendszer fordítása:
- kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen .
Alap+5xszótár rendszer fordítása:
- kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen .
További hibridizáció• JOSHUA• Környezetfüggetlen nyelvtan
[S] ||| [X,1] ||| [X,1] ||| 0 0 0[S] ||| [S,1] [X,2] ||| [S,1] [X,2] ||| 0.434294482 0 0
tudta , hogy nem volna béke , ha utazásai közben állandóan az a gondolat , hogy boldogtalan volt .
JOSHUA rendszer eredményei
• Az eredmény javulása az egyszerű szabályok ellenére
Rendszer BLEU érték
Alaprendszer 10.85%
LitMag+JOSHUA+OOV
9.85%
LitMag+JOSHUA 11.06%Angol referenciamondat:" for a little while only , " said the voice quietly .Magyar referenciamondat:- csak egy kis ideig - mondta a hang csendesen .Alaprendszer fordítása:- egy darabig csak - mondta a hang . JOSHUA rendszer fordítása:- csak egy kis ideig nyugodtan - mondta a hang .
Cigány-magyar SMT
• Eredmény:– Sokkal magasabb BLEU– Olvashatóbb, érthetőbb fordítás
Rendszer BLEU érték
Cigány-magyar (MOSES)
30.53%
Cigány-magyar (JOSHUA)
29.20%
Magyar-cigány (MOSES)
30.38%
Magyar-cigány (JOSHUA)
35.88%
• Hasonló morfológiai gazdagságú nyelvpárok
• Korpusz:– Vesho-Farkas-féle
lovári nyelvű Újszövetség
– Káldi-féle (Neovulgáta) magyar Újszövetség
Példamondat (cigány-magyar)
• Cigány referenciamondat:le but manusha pale tele sharadine penge gada po drom , kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen .
• Magyar referenciamondat:a hatalmas tömeg pedig leterítette ruháit az útra , mások meg ágakat vagdostak a fákról és az útra szórták .
• MOSES fordítás:a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa , és az úton rispisarnaslen .
• JOSHUA fordítás:a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen .
Összefoglalás
• Angol-magyar SMT rendszer minőségének javítása szótár hozzáadásával
• Angol-magyar SMT rendszer minőségének javítása hibridizációval
• Létrehoztam egy cigány-magyar statisztikai gépi fordító rendszert
Köszönöm a figyelmet!