statistical phrased-based translation

50
Statistical Phrased- Based Translation GVHD: PGS. TS. Đinh Điền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng

Upload: eithne

Post on 22-Feb-2016

81 views

Category:

Documents


0 download

DESCRIPTION

Statistical Phrased-Based Translation. GVHD : PGS. TS. Đinh Điền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng. Mục lục. Phrase-based SMT. 1. Improve Phrase-based SMT. 2. Tools & Demo. 3. Động lực. Dịch theo ngữ là cách tốt nhất để thực hiện dịch máy thống kê - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Statistical Phrased-Based Translation

Statistical Phrased-Based Translation

GVHD: PGS. TS. Đinh ĐiềnHVTH:

• Lê Quốc Hưng• Nguyễn Hồng Bửu Long• Nguyễn Đức Hoàng

Page 2: Statistical Phrased-Based Translation

LOGOMục lục

Phrase-based SMT1

Improve Phrase-based SMT2

Tools & Demo3

Page 3: Statistical Phrased-Based Translation

LOGOĐộng lực

Dịch theo ngữ là cách tốt nhất để thực hiện dịch máy thống kê Độ thực thi tốt nhất trong các đánh giá

DARPA gần đây Khá đơn giản Đã có các công cụ miễn phí

Xây dựng một bảng dịch ngữ như thế nào?

Page 4: Statistical Phrased-Based Translation

LOGOMục tiêu

So sánh các cách tiếp cận học ngữ khác nhau

Xem xét các tính chất của dịch theo ngữ

Cú pháp và các ngữ

Page 5: Statistical Phrased-Based Translation

LOGOTổng quan

Đánh giá framework Mô hình hợp nhất Bộ giải mã Ngữ liệu

Ba phương pháp học ngữ Các ngữ cảm sinh liên kết từ (word-alignment

induced phrases) Các ngữ cú pháp (syntactic phrases) Liên kết ngữ (phrase alignment)

Thí nghiệm

Page 6: Statistical Phrased-Based Translation

LOGOMô hình

Morgen

fliege

ich

nach Kanada

Zur Konferenz

Tomorrow

Iwill fly

to the conference

in Canada

Page 7: Statistical Phrased-Based Translation

LOGOMô hình (2)

Luật Bayes:

Câu nước ngoài f được phân đoạn thành ngữ

Mỗi ngữ được dịch với Các ngữ được sắp xếp lại với Dùng mô hình ngôn ngữ và word

penalty

Page 8: Statistical Phrased-Based Translation

LOGOBộ giải mã: Tìm kiếm Beam

Xây dựng tiếng anh bằng việc mở rộng giả thuyết Từ trái sang phải Không gian tìm kiếm theo số mũ với chiều dài

câuÞgiảm bớt bằng cách lược bỏ giả thuyết yếu

nhờ ước lượng chi phí tương lai

Page 9: Statistical Phrased-Based Translation

LOGOBộ giải mã: Tìm kiếm Beam (2)

e:f: ----------p: 1

e: Maryf: *---------p: .534

e: witchf: --------*-p: .182

e: … didf: *---------p: .122

e: … slapf: *-***-----p: .043

Page 10: Statistical Phrased-Based Translation

LOGOĐánh giá trên ngữ liệu Europarl

Thu thập từ Các Vụ Kiện Nghị Sĩ Châu Âu Có sẵn trên http://www.isi.edu/~koehn/ 11 ngôn ngữ, 20 triệu từ mỗi ngôn ngữ

Tập kiểm nghiệm Đức-Anh 1755 câu có chiều dài 5-15

Page 11: Statistical Phrased-Based Translation

LOGOCác phương pháp học ngữ

Các ngữ cảm sinh liên kết từ Tương tự với các mẫu liên kết [Och et al.,

1999]Các ngữ cú pháp

Chỉ các ngữ cú pháp được học Cùng hạn chế với các mô hình chuyển đổi cú

pháp được đề xuất gần đâyLiên kết ngữ

Mô hình kết [Marcu and Wong, 2002]

Page 12: Statistical Phrased-Based Translation

LOGOCác ngữ cảm sinh liên kết từ

Liên kết từ được phát sinh bằng cách dùng mô hình IBM 4 Liên kết hai chiều ef, fe Liên kết phần giao Thêm các điểm liên kết bổ sung với heuristic

Thu thập các cặp ngữ phù hợp với liên kết từ

Đây là các mẫu liên kết mà không cần các lớp từ [Och et al., 1999]

Page 13: Statistical Phrased-Based Translation

LOGOCác ngữ cảm sinh liên kết từ (2)

(Maria, Mary), (no, did not), (slap, daba una bofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no daba una bofetada, did not slap), (daba una bofetada a la, slap the), (bruja verde, green witch)

Page 14: Statistical Phrased-Based Translation

LOGOCác ngữ cảm sinh liên kết từ (3)

(Maria no daba una bofetada, Mary did not slap), (no daba una bofetada a la, did not slap the), (a la bruja verde, the green witch), (Maria no daba una bofetada a la, Mary did not slap the),

Page 15: Statistical Phrased-Based Translation

LOGOCác ngữ cảm sinh liên kết từ (4)

(daba una bofetada a la bruja verde, slap the green witch), (no daba una bofetada a la bruja verde, did not slap the green witch), (Maria no daba una bofetada a la bruja verde, Mary did not slap the green witch)

Page 16: Statistical Phrased-Based Translation

LOGOCác ngữ cú pháp

Các ngữ cú pháp mở rộng toàn bộ thành phần trong cây phân tích

Động lực Chỉ những ngữ này được dùng các mô hình chuyển

đổi cú pháp• Vd: [Yamada and Knight, 2002]

Cú pháp lợi hay hại?Trích các cặp ngữ cú pháp

Phân tích cả hai phía (với các bộ phân tích thống kê) Sử dụng liên kết từ trước đó Giới hạn các ngữ thành các thành phần cú pháp trong

cây phân tích

Page 17: Statistical Phrased-Based Translation

LOGOLiên kết ngữ

Morgen

fliege

ich

nach Kanada

Zur Konferenz

Tomorrow

I will fly

to the conference

in Canada

1 2 3 4 5

Page 18: Statistical Phrased-Based Translation

LOGOLiên kết ngữ (2)

Liên kết ngữ trực tiếp của ngữ liệu song song [Marcu and Wong, 2002]

Generative Story Một số khái niệm được tạo ra Mỗi khái niệm phát sinh một ngữ tiếng anh và

ngoại ngữ

Page 19: Statistical Phrased-Based Translation

LOGOThí nghiệm

So sánh các phương pháp chínhChiều dài ngữ tối đaTrọng số từ vựngCác heuristic trích xuất ngữCác mô hình liên kết từ đơn giản hơnCác cặp ngôn ngữ khác

Page 20: Statistical Phrased-Based Translation

LOGOSo sánh các phương pháp chính

Cùng bộ giải mã, cùng dữ liệu huấn luyện, cùng mô hình ngôn ngữ Ngoại trừ mô hình IBM 4 sử dụng bộ giải mã

tham lam [Germann et al., 2001]

Page 21: Statistical Phrased-Based Translation

LOGOSo sánh các phương pháp chính (2)

WAIPh tốt nhất và các ngữ cú pháp rất tệ Các thí nghiệm tiếp theo chỉ trên WAIPh

Page 22: Statistical Phrased-Based Translation

LOGOChiều dài ngữ tối đa

Giới hạn tối đa cho chiều dài ngữGiới hạn càng cao bảng dịch ngữ

càng lớnTất cả các bảng vẫn còn phù hợp với

bộ nhớ của các máy hiện đại

Page 23: Statistical Phrased-Based Translation

LOGOChiều dài ngữ tối đa (2)

Tác động của giới hạn lên chất lượng dịch Cải thiện không quá nhiều nếu chiều dài tối

đa vượt quá 3 Độc lập với kích thước ngữ liệu huấn luyện

Page 24: Statistical Phrased-Based Translation

LOGOTrọng số từ vựng

Tăng xác suất dịch ngữ với dịch từ vựng

Trọng số từ vựng

la bruja verdethe ### --- ---

green --- --- ###witch --- ### ---

Page 25: Statistical Phrased-Based Translation

LOGOTrọng số từ vựng

Tăng chất lượng dịch

Page 26: Statistical Phrased-Based Translation

LOGOCác heuristic trích xuất ngữ

Nhắc lại: liên kết từ dựa trên giao của các liên kết mô hình IBM 4 hai chiều + heuristic

Marianodaba unabofetada

a labruja

verdeMary

didnot

greenthe

slap

witch

Page 27: Statistical Phrased-Based Translation

LOGOCác heuristic trích ngữ

Các ngữ khác nhau được học, nếu heuristic tạo ra liên kết từ được thay đổi

Những thay đổi trong các heuristic: Chỉ cho lân cận trực tiếp Cũng cho lân cận chéo Cũng cho không lân cận Thích Anh-Ngoại Ngữ hay Ngoại Ngữ-Anh Dùng xác suất hay tần số từ vựng Chỉ mở rộng cho những từ chưa được liên kết …

Page 28: Statistical Phrased-Based Translation

LOGOCác heuristic trích ngữ

Không có cải tiến rõ ràng đối với các chiến lược Chênh lệch lớn, nhưng … … phụ thuộc vào kích thước ngữ liệu … phụ thuộc vào cặp ngôn ngữ

Page 29: Statistical Phrased-Based Translation

LOGOCác mô hình liên kết từ đơn giản hơn

Sử dụng các mô hình IBM đơn giản hơn cho liên kết từ Không nhiều va chạm, nếu các mô hình đơn giản hơn

được dùng Các mô hình đơn giản hơn tính toán ít hơn nhiều

Page 30: Statistical Phrased-Based Translation

LOGOCác cặp ngôn ngữ khác

Cặp ngôn ngữ Mô hình 4 Ngữ Từ vựngAnh-Đức 0.2040 0.2361 0.2449Pháp-Anh 0.2787 0.3294 0.3389Anh-Pháp 0.2555 0.3145 0.3247Phần Lan-Anh 0.2178 0.2742 0.2806Thuỵ Điển-Anh 0.3137 0.3459 0.3554Trung Quốc-Anh 0.1190 0.1395 0.1418

Tìm ảnh hưởng cho các cặp ngôn ngữ khác, ngữ liệu khác Dịch ngữ tốt hơn mô hình IBM 4 Có sự trợ giúp từ vựng (+ khoảng 0.01 BLUE)

Page 31: Statistical Phrased-Based Translation

LOGOKết luận

Dịch theo ngữ tốt hơn dịch theo từGiới hạn ngữ cú pháp có hại rất nhiềuCác ngữ nhỏ (tăng tới 3 từ) đủ tốtTrọng số từ vựng hữu íchCác heuristic trích ngữ quan trọng,

nhưng các heuristic tốt nhất thay đổi trên kích thước ngữ liệu, cặp ngôn ngữ

Page 32: Statistical Phrased-Based Translation

LOGOMục lục

Phrase-based SMT1

Improve Phrase-based SMT2

Tools & Demo3

Page 33: Statistical Phrased-Based Translation

LOGOCải tiến Pharse-based SMT

Tinh chỉnh lại mô hình dịch phrase-based với 2 heuristic : Word penalty : cho phép điều chỉnh chiều dài

câu được dịch. Phrase penalty : cho phép điều chỉnh chiều

dài trung bình của những phrases được sử dụng trong quá trình dịch của mô hình dịch.

Page 34: Statistical Phrased-Based Translation

LOGOCải tiến Pharse-based SMT

Tinh chỉnh lại mô hình dịch phrase-based với Word-based Lexicon : Mục đích : Làm mượt xác suất dịch ngữ. Mô tả :

• Từ f của ngôn ngữ nguồn dịch thành ngữ trong ngôn ngữ đích.

• Ta có phép xấp xỉ sau :

Page 35: Statistical Phrased-Based Translation

LOGOCải tiến Pharse-based SMT

Monotone Search :• Q(j,e) : Xác suất lớn nhất của một ngữ kết thúc với

từ e và kéo dài từ vị trí 1 đến j của câu nguồn.• Q(J + 1, $) : Xác suất của phép dịch tối ưu

$ : là ký hiệu đánh dấu ranh giới câu• M : Chiều dài tối đa của ngữ trong ngôn ngữ nguồn• Ta có phép đệ quy :

Page 36: Statistical Phrased-Based Translation

LOGOCải tiến Pharse-based SMT

Monotone Search : Hiệu quả tính toán cao, độ phức tạp tuyến

tính với chiều dài câu

Đặc biệt rất hiệu quả khi dùng với những

ngôn ngữ có thứ tự từ tương tự nhau.

Ngược lại độ chính xác không tốt đối với

trường hợp phải sắp xếp lại vị trí ngữ sau

khi dịch.

Page 37: Statistical Phrased-Based Translation

LOGOMục lục

Phrase-based SMT1

Improve Phrase-based SMT2

Tools & Demo3

Page 38: Statistical Phrased-Based Translation

LOGOCông cụ hỗ trợ Phrase-based SMT

MosesGIZA++SRILMIRSTLM

Page 39: Statistical Phrased-Based Translation

LOGOGIZA++

GIZA++Parallelcorpus

Aligned words

sequences of words

Page 40: Statistical Phrased-Based Translation

LOGOSRILM, IRSTLM

Training corpus

Lexicon

Test data

ngram-count

ngram-count

ngram

count file

LM

ppl

step1

step2

step3

Page 41: Statistical Phrased-Based Translation

LOGOĐịnh dạng ARPA (SRILM, IRSTLM)

Page 42: Statistical Phrased-Based Translation

LOGOHuấn luyện LM

n-grams

f*(w | x y) và

p(w | x y) = f*(w | x y) + (x y)p(w | y)

xác suất của n-gram xyw tùy thuộc vào xy và yw

Page 43: Statistical Phrased-Based Translation

LOGOSmoothing

Witten Bell:

Absolute discounting:

Kneser-Ney:

, ,

Page 44: Statistical Phrased-Based Translation

LOGOHuấn luyện LM (Bước 1)

Page 45: Statistical Phrased-Based Translation

LOGOHuấn luyện LM (Bước 2)

Page 46: Statistical Phrased-Based Translation

LOGOHuấn luyện LM (Bước 3)

Page 47: Statistical Phrased-Based Translation

LOGOHuấn luyện LM (Bước 4)

Page 48: Statistical Phrased-Based Translation

LOGOHuấn luyện LM (Bước 5)

Page 49: Statistical Phrased-Based Translation

LOGODemo

Page 50: Statistical Phrased-Based Translation

Cảm ơn anh chị đã lắng nghe