ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hà Thị Oanh
PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT
DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin
Hà Nội – 2012
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hà Thị Oanh
PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT
DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS Phạm Quang Nhật Minh
Hà Nội – 2012
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Ha Thi Oanh
RECOGNIZING VIETNAMESE TEXTUAL
ENTAILMENT BASED ON LEXICAL AND
SYNONYM DICTIONARY
Major: Information Technology
Supervisor: Assoc. Prof. Ha Quang Thuy
Co-Supervisor: Masters. Pham Quang Nhat Minh
HA NOI – 2012
i
LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy,
ThS Phạm Quang Nhật Minh đã tận tình chỉ bảo và hướng dẫn em thực hiện khóa luận
tốt nghiệp.
Em xin cảm ơn các thầy, cô trong trường Đại học Công nghệ đã giảng dạy và cho
em những kiến thức quý báu, làm nền tảng để em hoàn thành khóa luận, cũng như
trong công việc tương lai.
Em xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong phòng thí nghiệm
KTLab: TS. Phan Xuân Hiếu, CN Lê Đức Trọng, CN Trần Xuân Tứ, Nguyễn Thị
Thùy Linh, … đã hỗ trợ em rất nhiều trong suốt quá trình làm khóa luận.
Em cũng xin được gửi lời tri ân tới các bạn trong lớp K53CLC, K53CC đã luôn
bên cạnh và ủng hộ em trong suốt quá trình học tập tại trường.
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc tới gia đình và bạn bè - những người
thân yêu luôn ở bên yêu thương che chở em để em vượt qua những khó khăn trong
cuộc sống cũng như trong học tập.
Em xin chân thành cảm ơn!
Hà Nội, tháng 5 năm 2012
Sinh viên
Hà Thị Oanh
ii
PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN
TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
Hà Thị Oanh
Khóa QH-2008-I/CQ, Ngành Công nghệ thông tin
Tóm tắt Khóa luận tốt nghiệp
Phát hiện quan hệ ngữ nghĩa (semantic relation) là một bài toán quan trọng trong lĩnh
vực xử lý ngôn ngữ tự nhiên và khai phá dữ liệu văn bản. Phát hiện kế thừa văn bản
(Recognizing Textual Entailment: RTE) là bài toán tìm mối quan hệ “kế thừa ngữ nghĩa” của
một văn bản T từ một văn bản giả thuyết H, là một bài toán có ý nghĩa khoa học – công nghệ
thời sự thu hút sự quan tâm của nhiều nhóm nghiên cứu trên thế giới. Nhiều công trình nghiên
cứu về RTE được công bố trên các tạp chí, tại các hội nghị khoa học quốc tế mà điển hình là
nhánh hội nghị khoa học về RTE trong dãy hội nghị thường niên về phân tích văn bản (Text
Analysis Conference: TAC) do Viện Tiêu chuNn và Công nghệ quốc gia Mỹ chủ trì.
Khóa luận tập trung nghiên cứu bài toán và các phương pháp phát hiện kế thừa văn
bản ti tại các hội nghị khoa học quốc tế RTE. Trên cơ sở tìm hiểu và so sánh các hướng tiếp
cận, khóa luận tập trung vào hướng tiếp cận xác định kế thừa văn bản dựa trên từ vựng và tri
thức miền.
Các nghiên cứu theo hướng tiếp cận này (Valentin Jijkoun và Maarten de Rijke, 2006
[20], Ken-ichi Yokote và cộng sự, 2012 [22]) cho thấy giá trị ngưỡng phán quyết kế thừa có ý
nghĩa quan trọng. Khóa luận đề xuất giải pháp xác định và tinh chỉnh ngưỡng phán quyết kế
thừa trong tiếp cận phát hiện kế thừa văn bản dựa trên từ vựng và đề nghị một mô hình phát
hiện kế thừa văn bản có tích hợp giải pháp xác định và tinh chỉnh ngưỡng phán quyết nói trên.
Thực nghiệm mô hình đề xuất trên dữ liệu tiếng Việt chứng tỏ giải pháp đề xuất có
tính hiệu quả: độ đo F1 của phán quyết sau khi tinh chỉnh trung bình tăng 3% so với chưa tinh
chỉnh...
Từ khóa: Kế thừa ngữ nghĩa, RTE, từ điển đồng nghĩa
iii
RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON
LEXICAL AND SYNONYM DICTIONARY
Oanh Ha Thi
QH-2008-I/CQ course, information technology faculty.
Abtract:
Recognizing semantic relation is an important task in the field of natural language
processing and data mining. Recoginzing textual entailment (RTE) is the task which finds the
“semantic inference” relationship of the text (T) from the hypothesis (H). RTE has the science
– technology meaning and attracts the attension of many research groups. Many research
projects in RTE were published in magazines in the international scientific conference which
has the typical branch about RTE in annual Text Analysis Conference. TAC was held by the
America national Institue of Standardization and Technology.
The thesis focused on researching and clarifying the RTE task and some methods to
recognize textual entailment on the conferences. On the basic of studying and comparing
some appoaches, the thesis proposed a model to RTE based on lexical combined domain
knowledge.
This appoach (Valentin Jijkoun and Maarten de Rijke, 2006 [20], Ken-ichi Yokote et
al [22]) showed the significant meaning of the thresold value of recognizing textual
entailment. The thesis proposed a solution and model to identify and refine the thresold in
recognizing textual entailment based on lexical.
Empirical by Vietnamese data shows that the proposed solution is effective: F1-measure of
recognization before and after refining threshold increases 3%.
Keywords: semantic inference, RTE, synonym dictionary.
iv
LỜI CAM ĐOAN
Em xin cam đoan mô hình phát hiện kế thừa văn bản dựa trên sự tương đồng tự
vựng với giải pháp xác định và chỉnh sửa ngưỡng phán quyết cũng như thực nghiệm
được trình bày trong khóa luận này là do em thực hiện dưới sự hướng dẫn của PGS.
TS. Hà Quang Thụy và ThS. Phạm Quang Nhật Minh.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo.
Hà Nội, ngày 17 tháng 05 năm 2012
Sinh viên
Hà Thị Oanh
v
Nội dung
LỜI CẢM ƠN………………………………………………………………………………………………………………………………i
PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN……………………………………………………………..ii
LỜI CAM ĐOAN………………………………………………………………………………………………………………………iv
Danh sách các từ viết tắt………………………………………………………………………………………………………….vii
Danh sách bảng biểu………………………………………………………………………………………………………………..viii
MỞ ĐẦU………………………………………………………………………………………………………………………………………1
Chương 1 : Giới thiệu chung……………………………………………………………………………………………………1
1.1. Động lực và mục tiêu nghiên cứu ................................................................................ 2
1.2. Khái niệm kế thừa văn bản ............................................................................................ 4
1.3. Bài toán phát hiện kế thừa văn bản ............................................................................. 5
1.4. Mối quan hệ giữa dịch máy và kế thừa văn bản ...................................................... 6
1.5. Dãy hội nghị RTE ............................................................................................................ 7
1.6. Bộ dữ liệu trong hội nghị RTE và ứng dụng của phát hiện kế thừa văn bản ... 9
1.7. Tóm tắt chương 1 ........................................................................................................... 11
Chương 2: Một số hướng tiếp cận giải quyết bài toán………………………………………………………12
2.1. Một số hướng tiếp cận giải quyết bài toán .............................................................. 12
2.2. Hướng tiếp cận dựa trên từ vựng ............................................................................... 13
2.2.1. Một số công trình nghiên cứu liên quan .......................................................... 14
2.3. Hướng tiếp cận dựa trên tri thức ................................................................................ 16
2.4. Kết luận ............................................................................................................................. 17
Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt……………………………………………….19
3.1. Cơ sở lý thuyết ................................................................................................................ 19
3.1.1. Thuật toán độ tương đồng từ vựng .................................................................... 19
3.1.2. Ngưỡng phán quyết kế thừa ................................................................................ 20
3.1.3. Trọng số của từ ....................................................................................................... 20
3.2. Độ đo độ tương đồng từ vựng (wordsim) ................................................................ 21
3.3. Tri thức miền từ điển đồng nghĩa tiếng Việt .......................................................... 22
3.4. Tinh chỉnh ngưỡng phán quyết kế thừa ................................................................... 23
3.4.1. Ngưỡng phán quyết ............................................................................................... 23
3.5. Phát biểu bài toán ........................................................................................................... 25
vi
3.6. Tóm tắt chương 3 ........................................................................................................... 28
Chương 4: Thực nghiệm……………………………………………………………..29
4.1. Môi trường thực nghiệm .............................................................................................. 29
4.1.1. Cấu hình phần cứng ............................................................................................... 29
4.1.2. Công cụ phần mềm ................................................................................................ 29
4.2. Dữ liệu thực nghiệm ...................................................................................................... 30
4.3. Thử nghiệm chương trình ............................................................................................ 31
4.4. Đánh giá hệ thống .......................................................................................................... 31
4.6. Đánh giá ............................................................................................................................ 35
Kết luận và định hướng nghiên cứu tiếp theo…………………………………………………………………….36
Tài liệu tham khảo……………………………………………………………………………………………………………………37
vii
Danh sách các từ viết tắt
Viết tắt Tiếng Anh Tiếng Việt
H Hypothesis Giả thuyết
IE Information Extraction Trích xuất thông tin
IR Information Retrieval Thu thập thông tin
MT Machine Translation Dịch máy
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
QA Question Answering Hệ hỏi đáp
RTE Recognizing Textual Entailment Phát hiện kế thừa văn bản
SUM Summarization Tóm tắt
T Text Văn bản
TE Textual Entailment Kế thừa văn bản
CD Comparison Documents Tài liệu so sánh
RC Reading Comprehension Đọc hiểu
PP Paraphrase Acquisition Thu thập diễn giải
viii
Danh sách bảng biểu
Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3........................................ 5 Bảng 2: Cấu hình phần cứng………………………………………………………… . 29 Bảng 3: Danh sách các phần mềm sử dụng ............................................................... 30 Bảng 4. Chú thích giá trị………………………………………………………..........32 Bảng 5: Kết quả thí nghiệm trước và sau tinh chỉnh ngưỡng ...................................... 33 Bảng 6: Đánh giá kết quả thực nghiệm trong các kỳ hội nghị RTE [18] ..................... 35
ix
Danh sách hình vẽ
Hình 1: Tam giác dịch máy……………………………………………………………6
Hình 2: Hình chữ nhật RTE……………………………………………………………7
Hình 3: Một số hướng tiếp cận giải quyết bài toán…………………………………..13
Hình 4: Mô hình giải quyết bài toán………………………………………………….26
Hình 5: Dữ liệu thực nghiệm……………………………………………………..…..30
Hình 6: Kết quả thí nghiệm với trường hợp chưa tinh chỉnh ngưỡng………………..34
Hình 7: Kết quả thí nghiệm với trường hợp đã tinh chỉnh ngưỡng…………………..34
1
MỞ ĐẦU
Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách
diễn đạt. Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa
trên sự thay đổi ngữ nghĩa. Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy
luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ
cảnh cụ thể. Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời
sống. Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu
và sử dụng ngôn ngữ tự nhiên. Thông thường khi nói chuyện, chúng ta không hiểu
theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy
nghĩ của bản thân theo cách tường minh nhất. Trong giao tiếp, con người xử lý rất tốt
vấn đề này. Tuy nhiên, máy tính thường khó suy luận và hiểu được những cuộc đối
thoại của con người. Do đó, nếu con người muốn xây dựng một hệ thống đối thoại thì
phải xử lý với sự ngụ ý hoặc sự kế thừa này như là một thách thức chính cần giải
quyết.
Ý thức được lợi ích của các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài
toán kế thừa văn bản nói riêng, em chọn hướng nghiên cứu nhằm giải quyết bài toán
phát hiện kế thừa văn bản cho tiếng Việt làm đề tài khóa luận của mình.
Cấu trúc của khóa luận được chia thành 4 chương:
• Chương 1: Giới thiệu khái quát về kế thừa văn bản, bài toán phát hiện quan hệ
kế thừa, mối quan hệ giữa kế thừa và dịch máy và ứng dụng của bài toán trong
thực tiễn.
• Chương 2: Trình bày một số hướng tiếp cận giải quyết bài toán trong các kỳ
hội nghị RTE 1-7. Trong đó, em đi sâu vào phân tích hướng tiếp cận dựa trên từ
vựng cùng một số thuật toán áp dụng trên từ vựng đã được cài đặt trong các hệ
thống RTE cho kết quả tốt.
• Chương 3: Giới thiệu và trình bày một thuật toán phát hiện quan hệ kế thừa
dựa trên từ vựng theo đề xuất của Valentin Jijkoun và cộng sự [20], khảo sát
một số đặc trưng tiêu biểu của miền dữ liệu thực nghiệm tiếng Việt. Em đề xuất
một mô hình giải quyết bài toán phát hiện quan hệ kế thừa văn bản tiếng Việt
dựa trên từ vựng kết hợp với tri thức miền từ điển đồng nghĩa tiếng Việt và giải
pháp tinh chỉnh ngưỡng.
• Chương 4: Mô tả quy trình thực nghiệm, kết quả đạt được và kết luận định
hướng nghiên cứu tiếp theo.
2
Chương 1 : Giới thiệu chung
Trong cuộc sống thường nhật, con người sử dụng rất nhiều cách diễn đạt khác
nhau đối với cùng một nội dung. Cơ sở để xác định các diễn đạt khác nhau cùng nói về
một nội dung hay không đó chính là đánh giá độ tương tự về ngữ nghĩa. Kế thừa văn
bản (TE) là mối quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một
biểu diễn này có thể suy luận được từ một biểu diễn khác của văn bản. Chương một
của khóa luận giới thiệu khái quát về các khái niệm liên quan tới kế thừa văn bản, bài
toán phát hiện quan hệ kế thừa cũng như ứng dụng thực tiễn của kế thừa văn bản trong
lĩnh vực xử lý ngôn ngữ tự nhiên.
1.1. Động lực và mục tiêu nghiên cứu
Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách
diễn đạt. Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa
trên sự thay đổi ngữ nghĩa. Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy
luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ
cảnh cụ thể. Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời
sống. Giả sử một ai đó đang tìm hiểu về một vấn đề, họ sẽ tìm kiếm câu trả lời qua
sách báo, bạn bè hay trên Web. Trong hầu hết các trường hợp, thông tin nhận được có
thể không chính xác mặc dù nó là đúng theo quan điểm của người nào đó. Chính vì
vậy, hậu quả của việc nắm bắt thông tin sai lệch là rất lớn. Do đó, suy luận đóng một
vài trò quan trọng trong việc xác nhận hoặc phủ nhận thông tin tìm kiếm ban đầu.
Xét ví dụ: An muốn biết liệu sông Amazon có phải là con sông dài nhất thế giới
hay không. Một cách tự nhiên, bạn ấy có thể tìm độ dài chính xác của sông Amazon và
các sông khác mà bạn ấy biết, sau đó so sánh chúng. Tuy nhiên, bạn ấy biết được rằng
Ai Cập là đất nước có con sông dài nhất thế giới chảy qua, trong khi đó Ai Cập và
Amazon không thuộc cùng một châu lục. Tương tự như vậy, John không biết chắc
chắn ai là tổng thống hiện tại của Mỹ. Bush hay Obama, khi mà John nhận được câu
trả lời do tìm kiếm là cả Bush và Obama đều là tổng thống của Mỹ. Nếu anh ấy thực
hiện một suy luận dựa trên tài liệu nhận được chứa câu: “George Bush đã về hưu”, câu
trả lời đúng sẽ là Obama.
Tóm lại, việc tìm được một thông tin hoàn toàn chính xác đối với câu hỏi đặt ra
là không phải luôn thực hiện được, nhưng suy luận có thể giúp rất nhiều. Trong cả hai
trường hợp trên, thông tin nhận được kế thừa (suy luận) từ câu trả lời thay vì là câu trả
lời chính xác.
3
Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu
và sử dụng ngôn ngữ tự nhiên. Thông thường khi nói chuyện, chúng ta không hiểu
theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy
nghĩ của bản thân theo cách tường minh nhất.
Xét đoạn hội thoại ngắn sau:
• A: Cậu đã nhìn thấy điện thoại Ipad mới của mình chưa?
• B: Ồ, đẹp! Mình cũng muốn có một cái.
• A: Bạn phải có một cái.
Đoạn hội thoại trên có vẻ không mạch lạc nếu chúng ta hiểu nó theo nghĩa đen và
đọc hiểu từng câu. A hỏi một câu hỏi có/không trong khi đó B lại trả lời theo một cách
khác. Tuy nhiên, người đọc và người nghe có thể thấy rõ ràng B đã đưa ra cho A một
câu trả lời mong muốn.
Nếu chúng ta giải thích theo nghĩa đen cuộc trò chuyện trên thì đây có thể là một khả
năng:
• A: Đây là điện thoại Ipad của mình.
• B: Mình chưa bao gờ nhìn thấy nó trước đó. Nó thật đẹp. Mình chưa có nhưng
mình muốn có một cái như vậy.
• A: Mình nghĩ bạn nên có nó.
Mặc dù phiên bản trên có thể dễ dàng hơn cho máy tính hiểu và xử lý các cuộc
đối thoại của con người. Tuy nhiên người đọc lại thấy nó có vẻ rất vụng về trong ngôn
ngữ giao tiếp và cuộc trò chuyện ban đầu xảy ra tự nhiên hơn trong cuộc sống hàng
ngày của chúng ta. Mỗi lời giải thích trong phiên bản trên là ngụ ý hoặc kế thừa một
cách chính xác những câu trong hội thoại ban đầu. Do đó, nếu con người muốn xây
dựng một hệ thống đối thoại thì phải xử lý với sự ngụ ý hoặc sự kế thừa này như là
một thách thức chính cần giải quyết [18].
Theo Chierchia và McConnell-Ginet (2000) [21], quan hệ giữa hai văn bản trên
là mối quan hệ kế thừa (Textual Entailment - TE). Hệ thống nhận dạng kế thừa văn
bản (Recognizing Textual Entailment - RTE) đòi hỏi phải xác định được mối quan hệ
kế thừa giữa hai văn bản được đưa ra, thường được khai báo như là văn bản (T) và giả
thuyết (H). Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phát hiện kế thừa văn bản được
xem như một modun xử lý ngữ nghĩa chung, phục vụ các tác vụ khác. Ví dụ, RTE đã
được sử dụng rất thành công trong hệ hỏi đáp giúp xác nhận câu trả lời hợp lệ, trong
4
trích chọn thông tin, đánh giá dịch máy. Về lâu dài, RTE giữ vai trò quan trọng trong
việc hiểu đối thoại trò chuyện, Nn dụ và thậm chí là giao tiếp người máy [18].
1.2. Khái niệm kế thừa văn bản
Kế thừa văn bản bắt nguồn từ kế thừa trong logic học. Kế thừa văn bản (TE) là mối
quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một biểu diễn có thể
suy luận được từ một biểu diễn khác của văn bản. Nói một cách chính xác hơn, kế thừa
văn bản có thể được hiểu là “một mối quan hệ giữa một văn bản nhất quán T với một
ngôn ngữ thể hiện của nó – giả thuyết H. Chúng ta nói T kế thừa H (H là một hệ quả
của T), ký hiệu là T=>H, nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể
suy ra được từ ý nghĩa của T.”
Hiện nay có khá nhiều cách tiếp cận về khái niệm kế thừa văn bản. Một cách
chung nhất thì văn bản T được gọi là kế thừa từ giả thuyết H nếu như sự thật về H có
thể suy luận được từ T. Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai.
Hình thức hơn, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp
(qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các
biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định.
Trong khóa luận này, em tiếp cận kế thừa văn bản theo cách định nghĩa của Iftene A
[11] trong hội nghị RTE4. Nội dung khái niệm được phát biểu như sau:
“T kế thừa H nếu như tính chất đúng của H có thể suy ra được từ T trong bối cảnh mà
T sinh ra.”
Dưới đây là một số ví dụ minh họa để hiểu rõ hơn về khái niệm kế thừa văn bản:
Văn bản Giả thuyết Kế
thừa
Blue Mountain Lumber là một chi
nhảnh của công ty lâm nghiệp đa quốc
gia Ernslaw One của Malaysia
Blue Mountain Lumber
sở hữu Ernlaw One.
No
Tập đoàn Boeing đặt tại Chicago đã
hủy bỏ ba đơn hàng vào năm 2006 mà
đã được đặt bởi Air Canada.
Trụ sở của tập đoàn
Boeing nằm ở Canada.
No
5
Mưa lớn 200 mm đã được ghi nhận ở
một số nơi ở British Columbia, trên bờ
biển phía tây của Canada từ thứ hai.
British Columbia nằm
ở Canada.
Yes
Khi các nhà lãnh đạo tập hợp ở
Argentina trước các buổi hội đàm trong
khu vực, Hugo Chavez, tổng thống
theo phái dân túy của Venezuela, đã sử
dụng lợi thế về năng lượng để tìm kiếm
đồng minh và tạo dựng hình ảnh của
mình trong chủ nghĩa xã hội của thế kỷ
21.
Chavez là một người
theo chủ nghĩa xã hội.
Yes
Chiếc xe hơi mà đã va vào hòm thư
thuộc về James Clark, 68 tuổi, một
người quen của gia đình James Jones.
Clark là một người họ
hàng của Jones.
No
Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3
1.3. Bài toán phát hiện kế thừa văn bản
Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa văn
bản T và giả thuyết H. Việc phân loại mối quan hệ kế thừa giữa văn bản và giả thuyết
có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp văn bản giả
thuyết.
Phân loại kế thừa 3 lớp bao gồm các nhãn :
• Kế thừa: Khi T kế thừa H.
• Mâu thuẫn: Khi T không kế thừa H.
• Không xác định: Khi không có đủ điều kiện để xác định xem T kế thừa H
hay không.
Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và
không xác định đều được phân vào lớp “Không kế thừa”. 2 lớp sử dụng là:
• Kế thừa: Khi T kế thừa H.
• Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong H hoặc
không xác định được quan hệ giữa T và H.
Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị phân
(hai nhãn). Việc phán quyết kế thừa được gán nhãn là YES/NO (YES: trong trường
6
hợp kế thừa và NO nếu ngược lại). Trong khóa luận này, em tiến hành thực nghiệm
theo nhãn nhị phân như trên.
Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau:
Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ đề.
Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp.
1.4. Mối quan hệ giữa dịch máy và kế thừa văn bản
Kế thừa văn bản và dịch máy có mối quan hệ với nhau [18]. Cấu trúc của chúng
có nhiều nét tương tự nhau. Nếu chúng ta tạo ra một minh họa tương tự như hình tam
giác trong cộng đồng dịch máy (Machine Translation - MT) (Hình 1) thì có thể hình
dung RTE như là một hình chữ nhật (Hình 2). Tam giác MT cho biết: văn bản được
dịch từ ngôn ngữ ban đầu sang ngôn ngữ đích, trong quá trình dịch tồn tại nhiều đường
đi có thể. Hệ thống có thể dịch trực tiếp dựa trên chuỗi biểu diễn hoặc trước khi dịch
áp dụng một số phân tích ngôn ngữ để có được ý nghĩa của hai văn bản. Ngoài ra, độ
sâu của phân tích ngôn ngữ là không cụ thể. Do đó biểu diễn ý nghĩa bản dịch có thể
thay đổi. Tương tự như vậy, hình chữ nhật RTE không yêu cầu một diễn đạt rõ ràng
hoặc đồng nghĩa. Tiêu chí là để xác thực kết luận hay mối quan hệ giả thiết giữa hai
bên.
Hình 1: Tam giác dịch máy
7
Hình 2: Hình chữ nhật RTE
Bên cạnh những điểm giống nhau thì MT và RTE có những điểm khác nhau như:
• Trong MT, với một văn bản ban đầu hệ thống phải tạo ra văn bản dịch tương
ứng với ngôn ngữ muốn chuyển đổi. Còn trong RTE, cả văn bản và giả thuyết
đều được đưa ra, hệ thống có nhiệm vụ phải xác định quan hệ kế thừa.
• Trong MT, văn bản nguồn và văn bản đích thuộc hai ngôn ngữ khác nhau.
Ngược lại, văn bản và giả thuyết trong RTE phải thuộc cùng một ngôn ngữ.
• Trong MT, hai văn bản cùng có một nội dung và ý nghĩa. Trong khi đó, RTE
có suy luận giữa hai ý nghĩa của văn bản và giả thuyết (có thể ở mức “sâu”
hơn). Nói cách khác, nếu một hệ thống dịch máy hiểu và biểu diễn nội dung
hoàn thiện của văn bản, thì chúng không cần những luật biến đổi. Còn trong
RTE phải có một quá trình so sánh cấu trúc nhận được từ những văn bản.
1.5. Dãy hội nghị RTE
Phát hiện kế thừa văn bản là bài toán mới trong lĩnh vực xử lý ngôn ngữ tự nhiên
(Natural Language Processing - NLP) và nhận được sự quan tâm rất lớn của các nhà
nghiên cứu. Đặc biệt, từ năm 2005 tới nay, hội thảo RTE được tổ chức hàng năm với
mục đích là tổng hợp các phương pháp phát hiện kế thừa văn bản cho kết quả tốt thông
qua các cuộc thi và nhận được sự quan tâm của nhiều nhóm nghiên cứu NLP trên thế
giới. Hội thảo RTE được tiến hành trong khuôn khổ các hội nghị thường niên Hiểu tài
liệu (DUC - Document Understanding Conference, 2001-2007) và Phân tích xử lý văn
8
bản (TAC - Text Analysis Conference, từ năm 2008 tới nay1). Tính tới nay, RTE đã
trải qua 7 kỳ hội nghị với hàng trăm bài báo với rất nhiều các công trình nghiên cứu
được công bố. Hội nghị RTE 7 được tổ chức tại Gaithersburg, Maryland, USA vào
tháng 12 năm 2011.
Theo tổng hợp của Dagan và cộng sự, 2005 [9], RTE-1 được tổ chức vào năm
2005 đã đưa ra chuNn đầu tiên cho bài toán phát hiện kế thừa văn bản. Tập dữ liệu
RTE-1 bao gồm tập các đoạn văn bản thông thường, bao gồm văn bản (T) gồm một
hoặc hai câu và giả thuyết (H) gồm một câu. Các hệ thống tham gia được yêu cầu đưa
ra phán quyết cho mỗi cặp (T,H) về việc có kế thừa hay không. Các cặp đại diện cho
sự phán quyết thành công hay thất bại của suy luận thuộc rất nhiều kiểu ứng dụng khác
nhau như: QA, IE, IR và MT.Trong cuộc thi này, hầu hết các nhóm tham gia đều tập
trung vào sự trùng lặp từ vựng giữa T và H, các hệ thống được xây dựng dựa trên
hướng logic, các mô hình xác suất hoặc mô hình học máy có giám sát. Bộ dữ liệu này
được chia thành 2 tập con, tập phát triển (development set) bao gồm 567 cặp và tập
kiểm tra (test set) bao gồm 800 cặp. Trong đó, số lượng các cặp tích cực (có kế thừa)
cân bằng với các cặp tiêu cực (không kế thừa).
Các hội nghị sau từ RTE-2 đến RTE-5 vẫn tiếp tục phát triển từ cuộc thi trước đó
với mục đích chính là nâng cao độ dài của văn bản đánh giá (nâng lên mức độ đoạn và
càng về sau thì độ dài trung bình của văn bản càng cao lên). Trong RTE-22 được tổ
chức vào năm 2006 với vấn đề trọng tâm là: làm sao để cung cấp nhiều hơn các ví dụ
thực tế của cặp văn bản-giả thuyết, chủ yếu dựa vào đầu ra của các hệ thống thực tiễn.
Tập dữ liệu của RTE-23 chứa 1600 cặp văn bản-giả thuyết và cũng được chia thành hai
tập: tập phát triển và tập kiểm tra với số lượng mỗi tập là 800 cặp. Các hệ thống cho
độ chính xác cao hơn, sử dụng thêm các thông tin về cú pháp và ngữ nghĩa từ rất nhiều
nguồn khác nhau.
Đặc biệt, các hội nghị RTE-6 và RTE-7 đã có sự khác biệt so với các hội nghị RTE
trước đây. Kế thừa văn bản được thực thi trên tập corpus thực sự và sử dụng tập hợp
cơ sở dữ liệu tri thức (knowledge base population: KBP) cho phát hiện kế thừa văn
bản. Cơ sở dữ liệu tri thức sẽ nâng cao kết quả cho bài toán phát hiện kế thừa văn bản.
Bài toán đặt ra là tập trung kế thừa dựa vào ngữ cảnh. Trong đó, việc quyết định kế
thừa dựa trên ngữ cảnh rộng hơn. RTE-7 tập trung vào kế thừa văn bản trong hai thiết
1http://www.nist.gov/tac/
2http://www.pascal-network.org/Challenges/RTE2
3RTE-2 data sets: http://pascallin.ecs.soton.ac.uk/Challenges/RTE2/Datasets/
9
lập ứng dụng: tóm tắt và tập hợp cơ sở tri thức. Bài toán chính trong RTE-7: Đưa ra
một tập corpus và một tập các câu ứng viên được lấy ra từ tập corpus từ Lucence (một
thư viện mã nguồn mở cho tìm kiếm toàn văn bản, được Dough Cutting phát triển.
Thư viện này cung cấp các hàm cơ bản hỗ trợ cho việc đánh chỉ mục và tìm kiếm), hệ
thống kế thừa văn bản được yêu cầu phải xác định các câu từ tập các câu ứng viên để
mà chúng kế thừa một giả thuyết đưa ra. Dựa trên bài toán chính, bài toán phụ sẽ tập
trung vào việc phát hiện tính mới, điều đó có nghĩa là các hệ thống kế thừa văn bản
được yêu cầu phải đánh giá thông tin chứa trong giả thuyết H liệu có mới so với thông
tin chứa trong tập corpus hay không. Nếu các câu kế thừa được tìm thấy trong câu giả
thuyết H được đưa ra thì nội dung của H là mới.
1.6. Bộ dữ liệu trong hội nghị RTE và ứng dụng của phát hiện kế thừa văn bản
Bộ dữ liệu trong hội nghị RTE được thu thập và chú thích bằng tay. Nó bao gồm 7
tập con tương ứng với các ví dụ điển hình trong các ứng dụng khác nhau. Đây là
những bộ dữ liệu văn bản – giả thuyết chuNn và được thực hiện bởi những người trong
ban tổ chức cuộc thi. Trong mỗi ứng dụng các cặp văn bản giả thuyết được chọn bao
gồm cả ví dụ kế thừa và không kế thừa. Thông thường, T chứa một (hai hoặc ba) câu,
H thường là một câu ngắn [18].
Tìm kiếm thông tin (Information Retrieval - IR): Các giả thuyết (H) được tạo ra
tương ứng với những câu truy vấn có nghĩa, biểu diễn một số quan hệ ngữ nghĩa cụ
thể. Những truy vấn này thường dài và cụ thể hơn so với một truy vấn từ khóa chuNn
và đại diện cho biến thể hướng ngữ nghĩa trong tìm kiếm thông tin. Các truy vấn được
lựa chọn bằng cách kiểm tra những câu nổi bật trong văn bản tin tức và sau đó được
tìm kiếm trên máy tìm kiếm web. Văn bản ứng viên (T) được lựa chọn từ những tài
liệu nhận được từ máy tìm kiếm. Trong đó, người ta chọn ra cả những trường hợp kế
thừa và không kế thừa để đảm bảo tính khách quan, bao trùm của dữ liệu. Vì vậy,
trong lĩnh vực IR, RTE chiếm một vị trí quan trọng trong việc tìm kiếm thông tin dựa
trên các nguồn dữ liệu có sẵn. Các hệ thống tìm kiếm thông tin nhận đầu vào là các từ
khóa và trả về tập dữ liệu chứa từ khóa đó. Kết quả trả về từ máy tìm kiếm thường rất
lớn. Người sử dụng muốn có được thông tin chính xác phải tự mình duyệt các câu trả
lời. Trong nhiều trường hợp, máy tìm kiếm trả về những kết quả không liên quan mấy
tới từ khóa hoặc bỏ qua những văn bản cần thiết. Một số tài liệu không chứa từ truy
vấn nhưng vẫn phù hợp. Ví dụ, một tài liệu về “orange” có thể phù hợp với những
truy vấn về “tropical fruit” , “tropical” hay “fruit” mặc dù những từ này không xuất
10
hiện trong tài liệu. RTE được sử dụng để xác định xem một tài liệu có phù hợp với câu
truy vấn hay không bất kể sự xuất hiện hay vắng mặt của từ truy vấn.
Tài liệu so sánh (Comparable Documents): Cặp T-H được xác định bằng cách kiểm
tra cụm những bài báo tin tức bao trùm một câu chuyện phổ biến. Sau đó con người
kiểm tra cặp câu “liên kết” có thành phần từ vựng trùng nhau một phần nhưng ngữ
nghĩa thì có hoặc không kế thừa. Một số cặp được lấy trên Web sử dụng Google news,
những cặp còn lại thu thập từ một nguồn có sẵn. Động lực của việc thu thập này là
việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng lặp ngữ nghĩa trong
các tài liệu so sánh, ví dụ tóm tắt nhiều tài liệu.
Đọc hiểu (Reading Comprehension - RC): RC tương ứng với bài kiểm tra đọc hiểu
tiêu biểu trong việc dạy ngôn ngữ trong trường học, trong đó sinh viên được yêu cầu
đánh giá khi nào thì một lời khẳng định cụ thể có thể suy ra từ một văn bản. Người chú
thích được yêu cầu tạo ra các giả thuyết liên quan tới văn bản lấy từ những câu chuyện
mới, coi như một bài đọc hiểu cho học sinh cấp 3.
Hệ hỏi đáp (Question Answering - QA): Người ta tạo ra cặp T-H bằng cách sử
dụng hệ hỏi đáp dựa trên Web và các văn bản trực tuyến có sẵn, sử dụng một nguồn
câu hỏi từ CLEF-QA5 và TREC6 nhưng cũng có thể xây dựng những câu hỏi của
chính họ. Với mỗi câu hỏi được đưa ra, người chú thích chọn đoạn văn bản liên quan
đầu tiên được đề xuất bởi hệ hỏi đáp chứa câu trả lời đúng. Sau đó chuyển câu hỏi
thành câu khẳng định và dùng làm giả thuyết. Ví dụ, với câu hỏi “Ai là Ariel Sharon?”
và câu trả lời ứng viên nhận được là: “Tổng thống Israel, Ariel Sharon đã tới thăm
Prague” (T). Khi đó câu hỏi được chuyển thành câu giả thuyết: “Ariel Sharon là tổng
thống của Israel” tạo nên cặp văn bản – giả thuyết. Do đó, trong hệ hỏi đáp, với cùng
một câu hỏi đưa ra, hệ thống sẽ tìm các câu trả lời có quan hệ kế thừa ứng với câu tìm
kiếm và đưa ra được những câu trả lời chính xác nhất.
Trích xuất thông tin (Information Extraction - IE): Nhiệm vụ này bắt nguồn từ ứng
dụng trích xuất thông tin, thích hợp với cặp văn bản hơn là một văn bản và một mẫu
cấu trúc. Trong ứng dụng này, người chú thích sử dụng một tập dữ liệu có sẵn được
gán nhãn cho mối quan hệ IE là “kill” và “birth place”, cũng như các câu chuyện tin
tức nói chung trong đó họ xác định bằng tay các mối quan hệ IE điển hình. Ví dụ, đưa
ra một trích chọn thông tin xác định các vụ giết hại người dân và một văn bản “Du
kích đã giết hại một nông dân ở thành phố Flores” , giả thuyết tương ứng “Du kích đã
giết chết một thường dân” sẽ tạo ra một cặp văn bản – giả thuyết kế thừa.
Dịch máy (Machine Translation - MT): Hai bản dịch của cùng một văn bản, một
được dịch tự động và một được dịch bởi con người, được so sánh và sửa đổi để có
11
được một cặp văn bản – giả thuyết. Bản dịch tự động được thay thế lần lượt bởi văn
bản hoặc giả thuyết, khi đó một bản dịch đúng sẽ tương ứng với quan hệ kế thừa. Các
bản dịch đôi khi được chỉnh về mặt ngữ pháp để có thể chấp nhận được.
Thu thập diễn giải (Paraphrase Acquisition - PP): Hệ thống thu thập diễn giải cố
gắng tiếp cận cặp (hoặc bộ) biểu thức từ vựng, cú pháp để truyền đạt những nghĩa
tương đương hoặc kế thừa. Người chú thích chọn một văn bản T từ một vài câu
chuyện tin tức chứa một mối quan hệ nhất định, một quy tắc diễn giải và một hệ thống
thu thập diễn giải. Kết quả của việc áp dụng các quy tắc diễn giải trên T được chọn
như là H. Giả thuyết diễn giải đúng được gợi ý bởi hệ thống, được áp dụng trong một
ngữ cảnh thích hợp để tạo ra cặp văn bản – giả thuyết, ngược lại là một ví dụ sai. Ví
dụ, với câu “Cô gái đã được tìm thấy trong Drummondville”, và bằng cách áp dụng
quy tắc diễn giải “X được tìm thấy trong Y = Y chứa X”, chúng ta sẽ có câu giả thuyết
là “Drummondville chứa các cô gái” (có thể không kế thừa một cách chắc chắn).
1.7. Tóm tắt chương 1
Trong chương này, khóa luận đã giới thiệu khái quát về kế thừa văn bản, bài toán phát
hiện kế thừa văn bản thông qua việc tìm hiểu các kết quả tổng hợp và quá trình tiến
hóa qua các kỳ hội nghị RTE-1-7. Chương 2 của khóa luận trình bày một số hướng
tiếp cận đã và đang được sử dụng trong bài toán phát hiện kế thừa văn bản trong các
kỳ hội nghị.
12
Chương 2: Một số hướng tiếp cận giải quyết bài toán
Qua các kỳ hội nghị RTE, rất nhiều kỹ thuật và phương pháp được sử dụng để giải
quyết bài toán phát hiện quan hệ kế thừa. Với mục đích tìm hiểu các phương thức phát
hiện kế thừa văn bản, chương 2 sẽ trình bày các hướng tiếp cận giải quyết bài toán và
một số phương pháp đã được sử dụng trong các hệ thống phát hiện kế thừa văn bản và
cho kết quả tốt theo đánh giá của các hội nghị RTE.
2.1. Một số hướng tiếp cận giải quyết bài toán
RTE đã trải qua 7 kỳ hội nghị với rất nhiều các hệ thống phát hiện kế thừa văn bản
được công bố. Hướng giải quyết bài toán mà các tác giả đưa ra là rất phong phú và đa
dạng. Nhìn chung, hướng tiếp cận mà các tác giả sử dụng trong những năm gần đây
bao gồm [3]:
• Hướng tiếp cận dựa trên thuật ngữ (Term-based): Hầu hết các hệ thống dựa trên
phương pháp này đều xét tới hình thái và các biến thể từ vựng của các thuật ngữ
trong văn bản và giả thuyết. Việc đưa ra các quan hệ kế thừa thường dựa trên
độ tương đồng từ vựng.
• Hướng tiếp cận dựa trên chứng minh logic (Logic-proving): Các hệ thống theo
phương pháp này áp dụng các yếu tố cổ điển (classical) hoặc logic đáng tin cậy
để suy luận ý nghĩa của văn bản có kế thừa giả thuyết hay không. Kỹ thuật dựa
trên logic là tên gọi của những thành phần đặc trưng của văn bản và giả thuyết
như mệnh đề hay hình thức logic khác.
• Hướng tiếp cận dựa trên cú pháp (Syntax-based): Một số hệ thống hiện có tiến
hành thực hiện một phân tích độ tương đồng giữa cây cú pháp được trích xuất
từ văn bản và giả thuyết để xác định các mối quan hệ kế thừa. Ngoài ra cũng có
những hệ thống cần phải có một chiến lược phát hiện các diễn giải (paraphrase)
để sinh ra một tập các biểu diễn khác nhau của giả thuyết với mục đích tìm
kiếm một tập con trong số đó xuất hiện trong văn bản.
• Hướng tiếp cận dựa trên vai trò ngữ nghĩa (Semantic role-based): Có những hệ
thống lưu ý tới các câu của văn bản và giả thuyết với vai trò ngữ nghĩa (sử dụng
trình phân tích ngữ nghĩa nông) và sau đó phân tích sự trùng lặp giữa hai tập
được gán vai trò ngữ nghĩa.
• Hướng tiếp cận dựa trên tri thức (Knowledge-based or Corpus-based): Việc sử
dụng tri thức thế giới trong những hệ thống này giúp dễ dàng nhận ra các mối
13
quan hệ kế thừa khi mà từ vựng hay tri thức ngữ nghĩa không đủ để đưa ra mối
quan hệ kế thừa chính xác.
Hình 3: Một số hướng tiếp cận giải quyết bài toán
Mỗi hướng tiếp cận trên thông thường đều chỉ giải quyết được một vài khía cạnh
của bài toán (từ vựng, ngữ nghĩa, cú pháp, …). Rất khó để có thể nhận xét được
phương pháp nào là tối ưu hơn phương pháp nào. Cách tốt nhất để có thể giải quyết tốt
bài toán RTE là kết hợp nhiều phương pháp theo nhiều khía cạnh giải quyết vấn đề.
Trong khóa luận này, em xây dựng một hệ thống phát hiện quan hệ kế thừa sử dụng
hướng tiếp cận dựa trên thuật ngữ (từ vựng) và tri thức miền từ điển để tạo ra kết luận
về mối quan hệ kế thừa trong văn bản tiếng Việt. Sau đây khóa luận sẽ đi sâu vào phân
tích hai hướng tiếp cận: dựa trên từ vựng và tri thức.
2.2. Hướng tiếp cận dựa trên từ vựng
Bài toán phát hiện kế thừa văn bản (RTE) đã được đưa ra lần đầu tiên vào năm
2005. Trong các hướng tiếp cận giải quyết bài toán như trên thì hướng tiếp cận dựa
trên thuật ngữ (từ vựng) là hướng nghiên cứu phổ biến nhất. Nó có mặt trong hầu hết
các hệ thống xuyên suốt từ hội nghị RTE1 tới RTE7. Cơ sở của sự tương đồng về nội
dung, ngữ nghĩa là sự tương đồng trong cách diễn đạt, sử dụng từ ngữ mà điển hình là
sự trùng lặp từ vựng hoặc các từ đồng nghĩa, cấu trúc giống nhau. Chính vì vậy, một
hệ thống phát hiện quan hệ kế thừa với dữ liệu thuộc ngôn ngữ nào thì hướng tiếp cận
dựa trên từ vựng cũng là hướng tiếp cận được quan tâm xử lý đầu tiên. Động lực của
phương pháp này là việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng
lặp ngữ nghĩa trong các cách diễn đạt, ví dụ trong tài liệu so sánh hay tóm tắt nhiều tài
liệu.
Số lượng các bài báo và công trình nghiên cứu về kế thừa văn bản dựa trên từ vựng
là rất lớn, các thuật toán mà các tác giả sử dụng là rất đa dạng. Tiêu biểu trong chuỗi
thuật toán từ vựng đó là các thuật toán liên quan tới việc chỉnh sửa xâu [11] [8] [14].
14
Cặp câu văn bản - giả thuyết được coi như là hai xâu đầu vào của các thuật toán. Sau
đó các tác giả sử dụng các thuật toán để tìm ra khoảng cách chỉnh sửa. Hệ thống đưa ra
phán quyết kế thừa bằng cách so sánh khoảng cách với một ngưỡng kế thừa. Bên cạnh
đó, việc sử dụng mô hình xác suất dựa trên từ vựng [18], học máy trường ngẫu nhiên
có điều kiện kết hợp với khoảng cách chuyển đổi xâu (Conditional Random Field for
Discriminatively-trained Finite-state String Edit Distance – CRF String Edit Distance)
[1] trong các hệ thống RTE cũng thu được kết quả tốt khi đưa ra phán quyết kế thừa.
2.2.1. Một số công trình nghiên cứu liên quan
Trong bài toán kế thừa văn bản, Glickman và cộng sự đề cập đến một mô hình
xác suất kế thừa từ vựng, tức là sẽ xác định khi nào thì các thành phần từ vựng của giả
thuyết được suy ra (kế thừa) từ một văn bản [18].
Trước tiên, các tác giả định nghĩa hai loại sự kiện thông qua không gian xác suất cho
T W:
I) Đối với mỗi giả thuyết h, ký hiệu Trh là biến ngẫu nhiên mà giá trị của nó là
giá trị chân lý được gán cho h. Trong đó, Trh =1 là sự kiện của h được gán
giá trị chân lý là 1 (đúng).
II) Với mỗi văn bản t, sử dụng chính t để khai báo những sự kiện mà các văn
bản được sinh ra là t (thông thường, đặt trong một bối cảnh, t có thể biểu
diễn một văn bản hoặc sự kiện tương ứng)
Xác suất để một văn bản kế thừa giả thuyết h (kí hiệu là t h) sẽ lớn hơn xác suất của
h nếu t làm tăng khả năng đúng sự thật của h, nói cách khác ta có P (Trh= 1| t) > P
(Trh= 1).
Để xây dựng một mô hình học không giám sát trên từ vựng, các tác giả gán ý
nghĩa về nội dụng của các từ trong giả thuyết h= {u1, u2,.. un} với một giá trị chân lý.
Giá trị chân lý có thể được hiểu là khái niệm của từ vựng được gán bằng chính nghĩa
của từ đó. Ví dụ, với câu văn bản t, ������ = 1 nếu từ book có trong câu văn bản t và
ngược lại = 0 nếu t không chứa nó. Một giả thuyết được giả định là mang giá trị chân
lý đúng khi và chỉ khi tất cả các thành phần từ vựng của nó là đúng. Trong quá trình
ước lượng xác suất kế thừa, các tác giả coi như xác suất của mỗi từ u trong giả thuyết
h là độc lập với các từ khác trong giả thuyết h. Vì vậy, xác suất kế thừa được ước
lượng theo công thức sau:
15
P (Trh= 1| t) = ∏ .�∈ P (Tru =1 |t) (1)
P (Trh= 1) = ∏ .�∈ P (Tru =1)
Đối với mỗi từ u, xác suất P(Tru = 1| t) có thể được tính theo chuNn naive bayes .
McCallum và cộng sự đã kết hợp việc sử dụng thuật toán trường ngẫu nghiên có
điều kiện (CRF - Conditional Random Field) với khoảng cách chuyển đổi xâu để đưa
ra phán quyết kế thừa [1]. Các tác giả sử dụng một mô hình đồ thị vô hướng cho
khoảng cách chuyển đổi xâu và phương pháp ước lượng tham số xác suất điều kiện tận
dụng cả cặp chuỗi phù hợp và không phù hợp. Căn cứ trên trường ngẫu nhiên có điều
kiện (CRFs), phương pháp tiếp cận sử dụng việc học phân biệt của mô hình xác suất
liên quan tới các biến số tiềm Nn về cấu trúc.
Dữ liệu đào tạo bao gồm các cặp xâu đầu vào, mỗi cặp kết hợp với một nhãn nhị
phân cho thấy cặp đó được coi là “phù hợp” hoặc “không phù hợp”. Những tham số
mô hình được ước tính từ cả những ví dụ tích cực và tiêu cực (tương ứng với cặp văn
bản – giả thuyết kế thừa và không kế thừa). Mô hình được cấu trúc như một máy hữu
hạn trạng thái (FSM) với một trạng thái khởi tạo duy nhất và có hai tập trạng thái
không khởi tạo tách rời nhau và không có quá trình chuyển đổi giữa chúng. Quá trình
chuyển đổi được gán nhãn bởi các toán tử chuyển đổi. Một trong hai tập không khởi
tạo biểu diễn điều kiện phù hợp, tập còn lại biểu diễn điều khiện không phù hợp. Bất
kỳ đường dẫn trạng thái không rỗng bắt đầu tại trạng thái khởi tạo xác định một chuỗi
chuyển đổi mà chứa toàn bộ trong một hoặc hai tập con. Bằng việc quan tâm tới tất cả
các chuỗi chuyển đổi trong một tập con, chúng ta có được xác suất phù hợp hoặc
không phù hợp. Chi phí chuyển đổi là hàm các toán tử chuyển đổi của nó, trạng thái
trước đó, trạng thái mới, hai xâu đầu vào và vị trí bắt đầu, kết thúc (vị trí của sự phù
hợp trước và sau khi thực hiện toán tử này) của mỗi xâu đầu vào. Ví dụ, hàm chi phí
có thể xem xét tới cả các phần của chuỗi đầu vào cả trước và sau vị trí phù hợp hiện
tại, nó cũng xem xét tới miền tri thức như từ vựng.
Phương pháp sử dụng giải thuật Tree Edit Distance được nhóm tác giả Al. I.
Cuza sử dụng trong hệ thống phát hiện kế thừa văn bản tham gia ở RTE-3 [11].
Các tác giả thiết kế hệ thống dựa trên phát hiện thực tế: xác suất của một mối
quan hệ kế thừa giữa T và H có liên quan tới khả năng ánh xạ toàn bộ nội dung của H
vào nội dung của T. Càng nhiều phép ánh xạ đơn giản có thể được thiết lập thì khả
năng tồn tại một mối quan hệ kế thừa càng cao. Việc ánh xạ giữa hai văn bản có thể
16
được diễn giải thông qua các phép toán chỉnh sửa để chuyển T thành H, mỗi phép
chỉnh sửa được gán cho một giá cố định. Dựa trên tổng số giá thu được, hệ thống gán
một quan hệ kế thừa cho cặp (T,H) nếu như tổng giá này thấp hơn một ngưỡng.
Theo như hướng tiếp cận nêu trên, T kế thừa H nếu tồn tại một bộ tuần tự các
phép chuyển đổi T và sau khi thực hiện thì thu được H với tổng số giá thu được nằm
dưới ngưỡng. Giả thuyết là các cặp có tồn tại mối quan hệ kế thừa thì sẽ tốn một giá
thấp của các phép chuyển đổi. Các phép biển đổi (xóa, chèn hoặc thay thế) được xác
định bởi một bộ quy tắc kế thừa định trước, các chi phí tương ứng cũng được cân nhắc
từ trước đối với mỗi phép chỉnh sửa này.
2.3. Hướng tiếp cận dựa trên tri thức
Như đã giới thiệu ở trên, việc sử dụng tri thức thế giới trong những hệ thống
phát hiện kế thừa văn bản giúp dễ dàng nhận ra các mối quan hệ kế thừa khi mà từ
vựng hay tri thức ngữ nghĩa không đủ để đưa ra mối quan hệ kế thừa chính xác.
Trong các hội nghị RTE gần đây, các hệ thống tham gia đòi hỏi phải có một tri
thức miền nhằm đưa ra phán quyết kế thừa chính xác hơn. Do đó, tác dụng của các tri
thức miền có thể nhận thấy rõ ràng trong việc làm tăng độ chính xác của hệ thống.
Trong hai hội nghị RTE 4 và RTE5, có ba nguồn tài nguyên tri thức được sử dụng
rộng rãi là [18]:
• WordNet4 và phần mở rộng của nó: Chúng được sử dụng để tìm từ đồng nghĩa,
quan hệ tổng thể - bộ phận (hyponyms) và những thuật ngữ liên quan tới từ
vựng khác.
• VerbOcean5 và DIRT: Hai tài nguyên này thường được sử dụng để phát hiện
các mối quan hệ giữa các động từ hoặc vị từ trong câu.
• Wikipedia6 và các gazetteers (danh sách tên các thực thể): sử dụng để nhận
dạng và giải quyết vấn đề tên thực thể.
WordNet một trong những từ điển tiếng Anh được sử dụng rộng rãi trong hầu hết các
hệ thống RTE. WordNet dùng phổ biến trong việc tính trọng số tương đồng của hai từ
sử dụng những liên kết ngữ nghĩa như: từ đồng nghĩa, quan hệ tổng thể - bộ phận
(hyponyms). Galanis và cộng sự (2009) đã tiến hành thực nghiệm với một danh sách
các độ đo tương tự, bao gồm cả độ đo Cosine, khoảng cách Oclit, khoảng cách
Levenshtein, …Clack và Harrison (2009) sử dụng WordNet để cải tiến độ mạnh cho
4 http://wordnet.princeton.edu/
5 http://demo.patrickpantel.com/demos/verbocean/ 6 http://www.wikipedia.org/
17
các suy luận logic cho độ chính xác tăng 4-6%. Tuy nhiên, theo thống kê, trong 19 hệ
thống tham gia trong RTE5 sử dụng từ điển WordNet thì chỉ có 9 hệ thống tăng độ
chính xác, 7 hệ thống thấy giảm độ chính xác và 3 hệ thống quan sát thấy không có
hiệu quả. Tóm lại, hệ thống muốn sử dụng một tài nguyên phù hợp đòi hỏi phải có sự
khảo sát và kiểm tra dữ liệu trước khi tiến hành thực nghiệm [18].
Balahur và cộng sự (2009) sử dụng VerbOcean và VerbNet7 để bắt những mối
quan hệ giữa các động từ. Hai động từ liên quan tới nhau nếu chúng thuộc về cùng một
lớp trong VerbNet hoặc thuộc lớp con của chúng. Ngoài ra, chúng có thể có một mối
quan hệ trong VerbOcean. Tương tự như vậy, Mehad cũng sử dụng VerbOcean trong
hệ thống của mình. Điểm khác biệt là tác giả biến đổi mối quan hệ giữa các động từ
dưới dạng luật và gán trọng số khác nhau cho luật dựa trên mô hình khoảng cách
chuyển đổi.
Shnarch (2008) tạo ra một tài nguyên mở rộng của những luật kế thừa từ
Wikipedia, sử dụng một số phương pháp trích rút. Tài nguyên này chứa tám triệu luật
được xây dựng một cách chính xác. BarHaim đã tích hợp những luật này vào trong hệ
thống của họ. Li và cộng sự (2009) sử dụng Wikipedia để nhận dạng tên thực thể trong
trường hợp có những tham chiếu khác nhau tới cùng một tên thực thể. Các tác giả kết
hợp thông tin từ wikipedia với đầu ra của một modun khác và xây dựng đồ thị thực thể
và mối quan hệ cho quá trình xử lý tiếp theo. Mehdad coi wikipedia như một nguồn
thay thế độ đo tương tự từ vựng (trước đó tác giả sử dụng mô hình chỉnh sửa và
phương pháp dựa trên hàm nhân). Một trong những hệ thống RTE hàng đầu của Iftene
và cộng sự (2009) [11] tích hợp tất cả các nguồn tài nguyên trên và xác định đóng góp
của nó trong hệ thống thông qua việc bớt sử dụng một trong số chúng trong quá trình
thực nghiệm. Bên cạnh đó, một số tác giả định nghĩa độ đo tương tự dựa trên
FrameNet.
Ngoài việc kiểm tra các hệ thống tham gia, Mirkin nghiên cứu các phương pháp
đánh giá hiệu quả của việc sử dụng nguồn tài nguyên từ vựng – ngữ nghĩa trong hội
nghị RTE. Các tác giả đề xuất hệ thống - ứng dụng – sự ước lượng độc lập và phân
tích phương pháp luận cho hiệu năng sử dụng nguồn tài nguyên và ứng dụng một cách
có hệ thống lên 7 tài nguyên nổi bật, trong đó có WordNet và Wikipedia. Sự đánh giá
và phân tích của tác giả cung cấp một sự ước lược so sánh số lượng của những tiện ích
riêng biệt trong phạm vi những tài nguyên nổi bật cho các luật kế thừa [18].
2.4. Kết luận
7 http://verbs.colorado.edu/~mpalmer/projects/verbnet.html
18
Trong quá trình tìm hiểu các hướng tiếp cận trên và khảo sát đặc trưng miền dữ liệu sử
dụng, em chọn hướng tiếp cận giải quyết bài toán dựa trên sự kết hợp giữa hai phương
pháp dựa trên từ vựng và tri thức miền. Chương 3 của khóa luận trình bày về hướng
giải quyết và đề xuất mô hình hệ thống với tiếng Việt.
19
Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt
3.1. Cơ sở lý thuyết
Như đã trình bày trong chương 2, việc phát hiện quan hệ kế thừa trong văn bản
tiếng Việt là một bài toán mới, chưa nhận được sự quan tâm của nhiều nhà nghiên cứu.
Vì vậy, dựa trên việc khảo sát và tham khảo một số phương pháp đã được sử dụng trên
dữ liệu tiếng Anh, em đề nghị một cài đặt dựa trên thuật toán tính độ tương đồng tự
vựng cho kế thừa văn bản tiếng Việt dựa theo giải thuật của Valentin Jijkoun và cộng
sự [20], đưa ra một công thức rõ ràng trong việc xác định quan hệ kế thừa. Qua khảo
sát, em thấy dữ liệu tiếng Việt có sự nhập nhằng đa nghĩa. Đặc biệt, số lượng từ đồng
âm, đồng nghĩa trong tiếng Việt là rất lớn. Vì vậy việc áp dụng thuật toán trên từ vựng
trong nhiều trường hợp đã đưa ra phán quyết kế thừa không chính xác. Do đó, trong
quá trình xử lý dữ liệu, em đã tích hợp thêm những cơ sở dữ liệu tri thức như từ điển
đồng nghĩa và giải pháp tinh chỉnh ngưỡng kế thừa. Thực nghiệm cho thấy thu được
kết quả khá tốt.
3.1.1. Thuật toán độ tương đồng từ vựng
Với mỗi cặp văn bản – giả thuyết (T, H), các tác giả coi mỗi câu như là một túi các từ
và tính toán trọng số tương tự giữa các câu. Hệ thống đưa ra phán quyết kế thừa bằng
cách so sánh trọng số tương tự đó với một ngưỡng kế thừa cho trước. Đầu tiên, các câu
văn bản giả thuyết được tiến hành tiền xử lý: tách câu, tách từ. Sau đó, các tác giả sử
dụng những chuỗi từ này làm đầu vào cho thuật toán. Độ chính xác của thuật toán
phần lớn phụ thuộc vào việc xác định các tham số như: trọng số của từ, độ đo tương
tự.
Input:
• Cặp văn bản – giả thuyết đã tách câu, tách từ.
• Ngưỡng phán quyết kế thừa.
Output:
• Nhãn kế thừa với từng cặp.
Sau đây là mã giả của thuật toán:
let T = (��, ��, . . ., ��)
let H = (��, ��, . . ., ��)
let totalSim =0
let totalWeight = 0
20
for j = 1…m do
let maxSim = ���� ������� (�� , � )
if maxSim = 0 then maxSim = -1
totalSim += maxSim * weight (� )
totalWeight += weight (� )
end for
let sim = totalSim/totalWeight
if sim >= threshold then return TRUE
return FALSE
Với mỗi từ trong giả thuyết, các tác giả tìm từ tương tự nhất với nó trong câu văn bản
dựa theo độ đo ������� (�� , � ). Nếu từ đó tồn tại (maxSim != 0), ta sẽ thêm giá trị
trọng số tương tự đó vào giá trị tổng. Ngược lại đặt maxSim = -1, ta trừ đi trọng số của
từ, coi như một giá trị phạt tương ứng với những từ trong T không phù hợp trong H.
3.1.2. Ngưỡng phán quyết kế thừa
Ngưỡng kiểm tra kế thừa cuối cùng được lựa chọn bằng cách sử dụng tập dữ liệu huấn
luyện. Độ tin cậy (confidence) của hệ thống được xác định bằng khoảng cách giữa giá
trị độ tương tự và ngưỡng. Ví dụ, với những phán quyết tích cực (kế thừa) sim >=
threshold:
"�#$��%#"% = ��� − �ℎ�%�ℎ�(�1 − �ℎ�%�ℎ�(�
Thuật toán được tham số hóa với hai hàm sau:
• weight(w): trọng số (độ quan trọng) của từ cho sự xác định độ tương đồng.
• wordsim (��, ��): độ tương tự giữa hai từ, trong đoạn [0,1].
3.1.3. Trọng số của từ
Trọng số của từ liên quan tới độ quan trọng dựa trên trực giác (quan sát) từ việc tìm
kiếm từ trong tìm kiếm thông tin. Trong đó độ đo IDF (Inverse Document Frequency)
thường được sử dụng là một độ đo độ quan trọng. IDF là độ đo nghịch đảo sự phổ
biến của một từ trong một tập hợp văn bản cho trước. IDF là độ đo toàn cục, vì vậy đòi
hỏi phải có một tập dữ liệu văn bản lớn cho trước để sử dụng độ đo toàn cục. Thời
gian gần đây, IDF còn được sử dụng trong kế thừa văn bản. Monz và De Rijke đã đề
xuất sử dụng IDF như một độ kiểm tra trọng số kế thừa [5]. Các tác giả đề xuất
phương pháp đơn giản hiệu quả để kiểm tra kế thừa dựa trên độ đo tương tự quen
thuộc trong tìm kiếm thông tin. Ý tưởng cơ bản bao gồm 2 bước. Đầu tiên, các tác giả
biểu diễn văn bản như một túi từ. Sau đó, với mỗi chủ đề, có một tập tài liệu liên quan,
21
đây chính là những tài liệu phải tính toán mối quan hệ kế thừa. Ngoài ra, để xác định
trọng số, các tác giả sử dụng N để khai báo tổng số các đoạn trong chủ đề và #� là số
đoạn mà có chứa từ ��. Khi đó trọng số của từ �� được đưa ra bởi công thức sau:
��$� = log ,#�
Những từ (thuật ngữ) xuất hiện nhiều như “the”, “some”, … sẽ nhận được idf-score
thấp hơn so với những từ chỉ xuất hiện trong một vài đoạn. Cảm giác trực quan đằng
sau idf-score là những từ với idf-score cao thì phù hợp hơn để phân biệt nội dung riêng
biệt của một đoạn so với những đoạn khác trong chủ đề, hay nếu đoạn đó được đặt
riêng nó sẽ mang nhiều nội dung thông tin hơn.
Cho hai tài liệu d, d’, với trọng số của từ được định nghĩa như trên, các tác giả
tính trọng số kế thừa: %#��"��%(��,- , � ,-′) của hai đoạn ��,- trong d và � ,-′ trong d’
bằng cách so sánh tổng trọng số từ xuất hiện trong cả hai đoạn với tổng trọng số của
tất cả các từ trong � ,-′ [5]:
%#��"��%(��,- , � ,-′) = ∑ �-/�0�∈(12,3∩ 15,3′)
∑ �-/�0�∈15,3′
Ngoài việc sử dụng độ đo idf-score như trên, chúng ta có thể dùng một độ đo khác
được đề xuất bởi Valentin Jijkoun và cộng sự [20]. Trong hệ thống phát hiện quan hệ
kế thừa văn bản tiếng Anh dựa trên từ vựng, các tác giả đã tiến hành thực nghiệm với
độ đo ICF (inverse collection frequency) được tính trên một tập lớn các văn bản. Với
mỗi từ w:
ICF (w) = # 788��9�89: 7/ ;
# 788��9�89: 7/ <== ;7�-:
Khi đó trọng số của từ w là:
weight (w) = 1 – >?@(;)A >?@B2C>?@BDEA >?@B2C
Giá trị cực đại và cực tiểu của tần số nghịch đảo được dùng để tạo cho các trọng số từ
nằm trong đoạn (0, 1).
3.2. Độ đo tương đồng từ vựng (wordsim)
Trong thuật toán trên, các tác giả sử dụng một độ đo tương đồng từ vựng (ký hiệu
wordsim). Với dữ liệu thực nghiệm là tiếng Anh, các tác giả sử dụng hai độ đo: độ
tương tự từ dựa trên phụ thuộc của Dekang Lin và độ đo dựa trên chuỗi từ vựng trong
WordNet [20][6]. Tuy nhiên đối với miền dữ liệu tiếng Việt, do thiếu các từ điển ứng
dụng như WordNet nên việc sử dụng độ đo từ vựng dựa trên từ điển là không khả thi.
22
Trong quá trình thực nghiệm, em đã tiến hành ước lượng độ đo tương tự của từ theo
công thức sau:
������� F�� , � G = H 1 #ếI �� = � 0 #ếI #Kượ" (ạ�L
3.3. Tri thức miền từ điển đồng nghĩa tiếng Việt
Qua khảo sát dữ liệu, với miền dữ liệu sử dụng dữ liệu tiếng Việt nên bài toán phát
hiện kế thừa văn bản có những điểm khác so với bài toán RTE trên miền dữ liệu tiếng
Anh. Đặc trưng của tiếng Việt là sự nhập nhằng, đa nghĩa. Bên cạnh đó, tiếng Việt còn
có nhiều biến thể như: đồng âm khác nghĩa, từ đồng nghĩa, từ nhiều nghĩa, từ Hán
Việt, từ địa phương, từ mượn. Tiếng Việt có sự nhập nhằng ranh giới từ. Do tiếng Việt
là ngôn ngữ đơn lập nên từ vựng chủ yếu là các từ ghép vì thế khoảng trắng không
phải luôn luôn là ranh giới chính xác. Giải quyết sự nhập nhằng ranh giới từ tiếng Việt
là rất quan trọng. Hệ thống RTE tiếng Việt cần tách câu, tách từ thật chính xác.
Đặc trưng lớn nhất của tiếng Việt là vấn đề giải quyết nhập nhằng từ đồng nghĩa.
Từ đồng nghĩa là từ có nghĩa giống nhau, nhưng cấu tạo nên chữ đó có thể khác nhau.
Đồng nghĩa thực ra là hiện tượng có mức độ khác nhau, về sự sở hữu những nét cơ bản
giống nhau về mặt nghĩa. Trong tiếng Việt, chỉ những từ có nghĩa mới có hiện tượng
đồng nghĩa từ vựng. Ví dụ: các từ “thiệt mạng”, “chết”, “hy sinh”, “đột tử”, “ngỏm”,
“nghẻo”, .. đều có cùng một nghĩa. Tuy nhiên, rõ ràng xét về mặt từ vựng thì chúng
hoàn toàn khác nhau. Chính sự nhập nhằng này mà trong nhiều trường hợp các từ
trong câu văn bản và giả thuyết biểu diễn cùng một nghĩa nhưng từ vựng thì hoàn toàn
khác nhau. Một hệ thống RTE đơn thuần dựa trên từ vựng sẽ đưa ra phán quyết sai
trong những trường hợp này. Vì vậy, trong khóa luận này em tiến hành thực nghiệm
dựa trên ngưỡng từ vựng kết hợp thêm việc sử dụng từ điển đồng nghĩa tiếng Việt
nhằm đưa ra những phán quyết kế thừa chính xác.
Bên cạnh đó việc tiền xử lý dữ liệu tiếng Việt còn gặp phải một số khó khăn như:
nhập nhằng từ đa nghĩa, nhập nhằng từ đồng âm. Bất cứ ngôn ngữ nào cũng có từ đa
nghĩa, nguyên nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy không hoàn
toàn trùng khớp nhau nhưng lại có nhiều nét tương đồng. Tuy nhiên trong tiếng Việt,
số lượng từ đã nghĩa là rất lớn. Ví dụ, từ “ăn” trong “ăn uống” và “ăn cướp” vừa có
những nét nghĩa giống và khác nhau, theo cuốn từ điển tiếng Việt thì từ ăn có đến 12
nghĩa.
23
Vì những lý do trên mà thông thường trong lĩnh vực xử lý ngôn ngữ tự nhiên, một
hệ thống có đầu vào là dữ liệu tiếng Việt thường thu được độ chính xác thấp hơn tiếng
Anh và đặc thù trong việc sử dụng phương pháp (có những phương pháp áp dụng hiệu
quả trên dữ liệu tiếng Anh nhưng lại không dùng được trong tiếng Việt).
3.4. Tinh chỉnh ngưỡng phán quyết kế thừa
Việc sử dụng ngưỡng để đưa ra phán quyết kế thừa là một ứng dụng điển hình
trong các hệ thống nhận dạng quan hệ kế thừa. Tuy nhiên, trong quá trình thực nghiệm
để xác định được một ngưỡng tối ưu nhất nhằm nâng cao độ chính xác của phán quyết
kế thừa thì lại là một thách thức lớn đối với các hệ thống. Trong thuật toán trình bày ở
trên, giá trị của các độ đo đều có giá trị tuyệt đối nằm trong [0,1]. Vì vậy, ta có:
totalSim ≤ ����(N%�Kℎ� → |��� = ����(Q��/����(N%�Kℎ�| ∈ [0, 1] Giá trị độ tuyệt đối của độ tương đồng từ vựng không vượt quá 1 là một điều kiện để
đưa ra tinh chỉnh ngưỡng kế thừa.
3.4.1. Ngưỡng phán quyết
Trong quá trình tính toán độ tương đồng từ vựng, nếu tính tương đồng giữa văn
bản T và giả thiết H càng cao thì phán quyết YES càng có độ tin cậy cao. Tuy nhiên,
nếu hệ thống đưa ra một ngưỡng có giá trị gần 1 sẽ dẫn đến việc bỏ sót các cặp mẫu T-
H nhãn YES nhưng có độ tương đồng thấp hơn ngưỡng. Ngược lại, nếu ngưỡng quá
thấp thì sẽ lấy cả các cặp mẫu NO nhưng có độ tương đồng cao hơn ngưỡng. Do đó, để
xác định giá trị ngưỡng threshold tốt nhất theo mẫu, bài toán tìm ngưỡng đưa về bài
toán tối ưu:
U V� ∗ ��K# (��� (��) − �ℎ�%�ℎ�(�) → ���X2 ∈Y�<����Z
Trong đó:
• Training là tập ví dụ học,
• xi = (Ti, Hi) cặp (văn bản, giả thuyết) trong ví dụ học,
• yi = chỉ số phán quyết kế thừa tương ứng với xi : nếu phán quyết YES
thì yi = 1, ngược lại yi = -1,
• sim (xi) là độ tương đồng giữa Ti với Hi được tính theo các phương
pháp tương đồng ngữ nghĩa,
• sign: là hàm dấu, nhận giá trị 1 nếu đối số dương, nhận giá trị -1 nếu
đối số âm,
24
• threshold là ngưỡng phán quyết.
Lời giải cho bài toán tối ưu nói trên tương đối rõ ràng: xếp dãy sim (xi) trên trục
số, đếm ngược từ 1 trở xuống (bộ đếm lúc đầu là 0), nếu gặp mẫu YES tăng bộ đếm
lên 1 còn nếu gặp mẫu NO thì giảm bộ đếm đi 1. Mỗi lần gặp một giá trị sim (xi) thì bộ
đếm có 1 giá trị nào đó. Trong quá trình đếm, tồn tại 1 (hoặc một vài giá trị sim (xi))
làm bộ đếm cực đại. Ngoài ra, tương ứng với 1 giá trị sim(xi) là cực đại hàm thì tồn tại
khoảng giá trị từ giá trị này tới giá trị sim(xi) nhỏ hơn và gần nó nhất. Dựa trên tính
chất này mà các hệ thống đòi hỏi phải có quá trình tinh chỉnh. Sự tinh chỉnh được tiến
hành theo 2 cách sau:
1) Tinh chỉnh theo bộ kiểm tra
Chia ngẫu nhiên bộ dữ liệu thành 5 phần: 3 phần làm dữ liệu học, 1 phần làm dữ
liệu tinh chỉnh ngưỡng và phần còn lại làm đánh giá phán quyết.
2) Tinh chỉnh độ đo tương tự của các từ trong từ điển đồng nghĩa
Tinh chính liên quan tới hai khía cạnh:
a. Độ tổn thất dùng từ đồng nghĩa
Ví dụ: các từ “thiệt mạng”, “chết”, “hy sinh”, “đột tử”, “ngỏm”, “nghẻo”, .. đều
có cùng một nghĩa. Tuy nhiên, trong những ngữ cảnh trang trọng người ta hay sử
dụng từ “hy sinh” thay cho từ chết. Do đó, các từ tuy đồng nghĩa song có luôn có
sự tổn thất nghĩa nhất định trong từng ngữ cảnh sử dụng phù hợp. Sử dụng tham
số α làm độ đo tổn thất dùng từ đồng nghĩa.
b. Độ đo tương tự giữa hai cặp từ đồng nghĩa
Các cặp từ đồng nghĩa không mang giá trị giống nhau phụ thuộc vào số lượng
nghĩa (synset) của hai từ đồng nghĩa này. Trong đó, nếu hai từ đồng nghĩa có số lượng
nghĩa ít thì tương tự nhiều hơn, ngược lại có số lượng nghĩa nhiều thì càng tương tự ít.
Với: (v, w) là hai từ đồng nghĩa trong từ điển đồng nghĩa thì độ tương tự giữa hai từ
này được xác định theo công thức:
��� ([, �) = \#] ∗ #;
25
Trong đó:
• nv và nw tương ứng là số nghĩa của v và w.
• α là tham số để tinh chỉnh.
Trong quá trình thực nghiệm, tham số \ là độ đo tổn thất từ đồng nghĩa được thay
đổi trong quá trình tinh chỉnh. Ban đầu khởi tạo \ = 1 ứng với trường hợp những từ
tiếng Việt không có từ đồng nghĩa.
3.5. Phát biểu bài toán
Dựa trên hướng tiếp cận trong phần cơ sở thực tiễn ở trên, em phát biểu bài toán phát
hiện kế thừa văn bản với tiếng Việt như sau:
Đầu vào: Tập các cặp văn bản-giả thuyết sử dụng trong hội nghị RTE-3 đã được dịch
ra tiếng Việt.
Đầu ra: Mô hình từ vựng và ngữ nghĩa để đưa ra phán quyết kế từa đối với từng cặp
văn bản-giả thuyết.
26
Hình 4: Mô hình giải quyết bài toán
Khóa luận cải tiến giải pháp phát hiện kế thừa văn bản tiếng Anh dựa trên độ
tương đồng từ vựng của Valentin Jijkoun và cộng sự theo hai khía cạnh như đã được
đề cập trong mục 3.4.1. Thứ nhất, khóa luận sử dụng tri thức từ từ điển đồng nghĩa
tiếng Việt song bổ sung thêm hai trọng số sử dụng từ đồng nghĩa là độ đo tổn thất khi
dùng từ đồng nghĩa và trọng số nghĩa giao nhau của hai từ đồng nghĩa. Thứ hai, khóa
luận tường minh việc xác định ngưỡng phán quyết kế thừa và cách thức tinh chỉnh
ngưỡng kế thừa. Mô hình phát hiên kế thừa văn bản tương ứng được trình bày trên
Hình 4.
Tập dữ liệu huấn luyện
Tập dữ liệu kiểm tra
Ngưỡng kế thừa
Nhãn kế thừa
Tinh chỉnh ngưỡng
kế thừa
Tập dữ liệu tinh chỉnh
Tiền xử lý
Tính độ tương đồng từ vựng
Từ điển
Ngưỡng kế thừa từ vựng
27
Các bước thực hiện dựa theo mô hình ở trên:
1) Tiền xử lý
Đầu vào: Tập các cặp câu văn bản giả thuyết
Đầu ra: Tập các cặp câu văn bản-giả thuyết đã được tách từ.
2) Xây dựng mô hình tính toán độ tương đồng từ vựng kết hợp với từ điển đồng
nghĩa tiếng Việt
Đầu vào: - Tập các cặp câu văn bản-giả thuyết đã được tách từ.
- Từ điển đồng nghĩa
Đầu ra: Độ tương đồng từ vựng của cặp câu văn bản – giả thuyết.
Xử lý:
� Tiến hành tính độ tương đồng từ vựng để xem câu giả thuyết h có kế thừa văn
bản t hay không. Việc tính độ tương đồng này sẽ dựa theo công thức và thuật
toán như đã trình bày ở trên. Ngoài ra, để đem lại độ chính xác cao hơn thì em
sử dụng thêm từ điển đồng nghĩa. Nếu có một từ u nào đó xuất hiện trong giả
thuyết và nó không xuất hiện trong văn bản, nhưng nếu trong văn bản xuất hiện
một từ đồng nghĩa với từ u thì cũng tính như từ u có xuất hiện trong văn bản.
� Kết hợp lại ta có một độ đo tương đồng.
3) Tinh chỉnh ngưỡng kế thừa
Dựa vào tập đầu vào là tập huấn luyện thì sau khi qua bước này sẽ tính được giá
trị độ đo. Sau đó, dựa vào nhãn đã được gán từ trước (Yes/No) cho tập huấn luyện
này và giá trị độ đo vừa tính được, hệ thống tạo ra ngưỡng kế thừa. Ngưỡng kế
thừa là giá trị độ tương đồng từ vựng sao cho với giá trị này thì tổng các cặp văn
bản-giả thuyết được gán giá trị đúng là lớn nhất.
Ngưỡng này được tính bởi quá trình thống kê toàn bộ độ tương đồng với mỗi
cặp T-H trong tập đào tạo. Giá trị ngưỡng được xác định sao cho có thể phân loại
tốt nhất các cặp văn bản – giả thuyết kế thừa và các cặp văn bản – giả thuyết
không kế thừa lấy từ tập đào tạo. Giá trị của ngưỡng được tinh chỉnh trong quá
trình huấn luyện để đưa ra phán quyết chính xác nhất có thể.
4) Phán quyết kế thừa
Đầu vào: Tập dữ liệu cần kiểm tra (tập các cặp văn bản – giả thuyết) và mô hình
vừa tính được ở bước 2.
Đầu ra : Tập các cặp văn bản- giả thuyết đã được gán nhãn kế thừa.
28
Xử lý:
� Từ mô hình ở trên, hệ thống tính được giá trị độ đo cho từng cặp văn bản-
giả thuyết. Nếu cặp văn bản – giả thuyết nào có giá trị này lớn hơn hoặc
bằng ngưỡng kế thừa thì cặp văn bản – giả thuyết đó sẽ được gán nhãn kế
thừa là “Yes”, ngược lại sẽ được gán nhãn kế thừa là “No”.
3.6. Tóm tắt chương 3
Chương ba của khóa luận trình bày cơ sở lý thuyết để xây dựng mô hình giải
quyết bài toán phát hiện quan hệ kế thừa trong văn bản tiếng Việt. Trong chương
này, dựa trên phân tích các đặc trưng của miền dữ liệu tiếng Việt, cũng như khảo
sát về mức độ hiệu quả trong việc áp dụng từ điển đồng nghĩa cho phát hiện kế
thừa văn bản, khóa luận đã đề xuất một mô hình giải pháp ứng dụng cho bài toán
phát hiện kế thừa văn bản trên miền dữ liệu Tiếng Việt, sử dụng giải thuật tính độ
tương đồng từ vựng kết hợp với tri thức miền từ điển đồng nghĩa và tinh chỉnh
ngưỡng. Kết quả thực nghiệm ở chương 4 cho thấy mô hình đã đề xuất là hoàn toàn
khả thi.
29
Chương 4: Thực nghiệm
Do tiếng Việt có sự nhập nhằng về ngữ nghĩa, nhiều từ đồng âm, đồng nghĩa nên
việc phát hiện quan hệ kế thừa trong văn bản tiếng Việt liên quan nhiều tới tri thức
miền. Vì vậy em đề nghị mô hình giải quyết bài toán như ở chương 3 và tiến hành thực
nghiệm trên 1600 cặp câu văn bản – giả thuyết được dịch từ tập dữ liệu tiếng Anh
trong hội nghị RTE3. Dựa trên kết quả thực nghiệm em tiến hành đánh giá hệ thống và
đưa ra hướng giải quyết trong tương lai. Trong quá trình thực nghiệm, em sử dụng bộ
công cụ mã nguồn mở tách câu tách từ dùng cho tiếng Việt vnTokenizer của Lê Hồng
Phương. Qua khảo sát, em thấy vnTokenizer là bộ tách từ tách câu có độ chính xác
cao và tốn ít thời gian chạy. Bên cạnh đó, em tiến hành thực nghiệm với 2 trường hợp
liên quan tới việc sử dụng từ điển đồng nghĩa trước và sau tinh chỉnh ngưỡng.
4.1. Môi trường thực nghiệm
4.1.1. Cấu hình phần cứng
Bảng 2: Cấu hình phần cứng
Thành phần Chỉ số
CPU Intel Core i3 M330 2.13Ghz
RAM 4GB
HDD 500GB
OS Windows 7 Ultimate 64 bits
4.1.2. Công cụ phần mềm
Hệ thống sử dụng các công cụ sau:
30
Bảng 3: Danh sách các phần mềm sử dụng
STT Tên phầm
mềm
Tác giả Nguồn
1 Eclipse-
SDK-3.4.0-
win64
http://www.eclipse.org/dowloads
2 vnTokenizer Lê Hồng
Phương
http://www.loria.fr/~lehong/tools/vnTo
kenizer.php
4.2. Dữ liệu thực nghiệm
Do đặc trưng của dữ liệu đầu vào trong hệ thống RTE đòi hỏi rất nhiều các giả thiết về
tri thức miền ứng dụng, ngữ cảnh. Các cặp câu văn bản – giả thuyết phải thuộc cùng
một chủ đề. Dữ liệu tiếng Anh thường được sử dụng trong các hệ thống RTE là dữ
liệu được cung cấp bởi hội nghị. Trong hội nghị RTE 3 bộ dữ liệu gồm 1600 cặp câu
T-H, RTE 4 dữ liệu gồm 1000 cặp, RTE5 bộ dữ liệu gồm 1200 cặp (dữ liệu huấn
luyện và kiểm tra).
Dữ liệu thực nghiệm em sử dụng là 1600 cặp câu văn bản – giả thuyết được dịch từ
bộ dữ liệu chuNn trong hội nghị RTE 3 (TAC-RTE 2007). Cả dữ liệu huấn luyện và
kiểm tra đều được gán nhãn kế thừa và đánh số cặp câu. Các cặp câu văn bản – giả
thuyết có bao gồm nhiều chủ đề, lĩnh vực nên rất đa dạng phong phú về nội dung. Dữ
liệu dùng trong thực nghiệm là dữ liệu chuNn nên việc đánh giá kết quả chương trình là
chính xác và khách quan. Dữ liệu được gán nhãn dưới định dạng file xml.
Hình 5: Dữ liệu thực nghiệm
31
4.3. Thử nghiệm chương trình
Các bước tiến hành thử nghiệm chương trình bao gồm:
Bước 1: Tiến hành loại bỏ các thẻ chứa nhãn và đánh số cặp câu để đưa dữ liệu về
dạng văn bản chỉ chứa các cặp câu văn bản và giả thuyết.
Bước 2: Sử dụng bộ công cụ tách câu tách từ Tokenizer để tiến hành tách câu tách từ
cho toàn bộ dữ liệu. Bộ công cụ tách từ mà em sử dụng là vnTokenizer của Lê Hồng
Phương, Nguyễn Thị Minh Huyền. vnTokenizer có thời gian chạy nhanh và độ chính
xác cao trong việc tách từ ghép.
Bước 3: Sau khi có các cặp câu văn bản – giả thuyết đã được tách từ, em sử dụng từ
điển đồng nghĩa tiếng Việt để so sánh sự tương đồng về mặt ngữ nghĩa của các từ
trong câu. Những từ trong câu được thay thế bởi các từ đồng nghĩa tương ứng để tạo ra
sự đồng nhất giữa các từ trong văn bản và giả thuyết.
Bước 4: Tiến hành tính toán độ tương đồng dựa trên từ vựng.
Bước 5: Tiến hành xác định ngưỡng và tinh chỉnh ngưỡng.
Bước 6: Từ kết quả thu được ở bước 5 và ngưỡng thu được ở bước 5, hệ thống sẽ ấn
định kế thừa cho các cặp văn bản-giả thuyết. Cặp văn bản-giả thuyết sẽ kế thừa nếu
xác suất của nó nhỏ hơn hoặc bằng ngưỡng kế thừa. Nếu ngược lại thì không kế thừa.
Bước 7: Áp dụng ngưỡng kế thừa đó với tập kiểm tra tiến hành hai thí nghiệm với
ngưỡng ban đầu và ngưỡng sau khi tinh chỉnh.
4.4. Đánh giá hệ thống
Hệ thống được đánh giá chất lượng thông qua ba độ đo: độ chính xác (precision), độ
hồi tưởng (recall), và độ đo F (F-measure). Ba độ đo này được tính theo các công thức
sau đây:
^�% = "���%"�_%�"���%"�_%� + �#"���%"�_%�
�%" = "���%"�_%�"���%"�_%� + �#"���%"�,�
32
a = 2 ∗ ^�% ∗ �%"^�% + �%"
Ý nghĩa của các giá trị được chú thích trong bảng 5:
Giá trị Ý nghĩa
"���%"�_%� Số các cặp văn bản-giả thuyết thực tế là kế thừa và hệ
thống cũng phán quyết là kế thừa.
�#"���%"�_%� Số các cặp văn bản-giả thuyết thực tế là kế thừa và hệ
thống phán quyết là không kế thừa.
"���%"�,� Số các cặp văn bản-giả thuyết thực tế là không kế
thừa và hệ thống cũng phán quyết là không kế thừa.
�#"���%"�,� Số các cặp văn bản-giả thuyết thực tế là không kế
thừa và hệ thống phán quyết là kế thừa.
Bảng 4. Chú thích giá trị
4.5. Kết quả thử nghiệm
Em thực hiện thử nghiệm trên 1600 cặp văn bản-giả thuyết. Đầu tiên, em tiến hành
chia ngẫu nhiên bộ dữ liệu thành 5 phần: 3 phần làm dữ liệu học, 1 phần làm dữ liệu
tinh chỉnh ngưỡng và phần còn lại làm đánh giá phán quyết. Dữ liệu dùng để tinh
chỉnh ngưỡng là hoàn toàn độc lập với dữ liệu học và dữ liệu kiểm tra. Dữ liệu học
trong quá trình huấn luyện sẽ thu được các giá trị ngưỡng thích hợp. Lấy từng ngưỡng
này chạy thực nghiệm với tập kiểm tra, sau đó qua bước tinh chỉnh ngưỡng và tiến
hành kiểm tra lại. Do hạn chế về thời gian thực hiện nên trong quá trình thực nghiệm,
hệ thống mới tiến hành tinh chỉnh ngưỡng theo hướng thứ nhất: tinh chỉnh theo tập
kiểm tra.
Lần lượt thực hiện 2 thí nghiệm
33
Thí nghiệm 1: Thực nghiệm với ngưỡng trước tinh chỉnh.
Thí nghiệm 2: Thí nghiệm với ngưỡng sau tinh chỉnh
Kết quả được thể hiện ở bảng dưới đây:
TN
Ngưỡng Precision Recall F-measure
TrướcTC Sau TC Trước TC Sau TC Trước TC Sau TC TrướcTC Sau TC
TN1 -0.306 -0.3 0.621 0.621 0.535 0.54 0.575 0.577
TN2 -0.309 -0.315 0.615 0.652 0.515 0.561 0.56 0.603
TN3 0.335 -0.350 0.69 0.74 0.5 0.515 0.58 0.638
TN4 -0.346 -0.321 0.525 0.691 0.584 0.585 0.553 0.635
TN5 -0.305 -0.3 0.636 0.692 0.495 0.518 0.556 0.593
TN6 0.537 0.52 0.728 0.706 0.573 0.57 0.641 0.631
TN7 0.721 0.758 0.642 0.742 0.426 0.426 0.512 0.541
TN8 0.717 0.758 0.655 0.695 0.597 0.597 0.637 0.642
TN9 -0.344 -0.320 0.618 0.718 0.51 0.51 0.56 0.596
TN10 0.725 0.71 0.626 0.636 0.583 0.589 0.604 0.6115
TB 0.6056 0.705 0.532 0.541 0.579 0.606
Bảng 5: Kết quả thí nghiệm trước và sau tinh chỉnh ngưỡng
34
Tổng hợp kết quả thực nghiệm
Hình 6: Kết quả thí nghiệm với trường hợp sau tinh chỉnh ngưỡng
Hình 7: Kết quả thí nghiệm với trường hợp trước tinh chỉnh ngưỡng
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
TN1 TN2 TN3 TN4 TN5 TN6 TN7 TN8 TN9 TN10
Precision
Recall
F-measure
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
TN1 TN2 TN3 TN4 TN5 TN6 TN7 TN8 TN9 TN10
Precision
Recall
F-measure
35
4.6. Đánh giá
Qua quá trình thực nghiệm, em nhận thấy rằng khi sử dụng mô hình độ tương đồng
từ vựng kết hợp với từ điển đồng nghĩa và tinh chỉnh ngưỡng, kết quả thu được có cải
tiến đáng kể. Trước và sau khi tinh chỉnh các độ đo thu được đều tăng, trong đó độ đo
F tăng 3%. Bước đầu thực nghiệm hệ thống phát hiện quan hệ kế thừa trong văn bản
tiếng Việt đã cho kết quả khá tốt. Trong thời gian tới, em sẽ tiếp tục hoàn chỉnh quá
trình tinh chỉnh ngưỡng theo hai cách: tinh chỉnh theo bộ kiểm tra và tinh chỉnh theo
độ đo tương tự của từ trong từ điển đồng nghĩa.
Bảng 7: Đánh giá kết quả thực nghiệm trong các kỳ hội nghị RTE [18]
Tuy nhiên, khóa luận chưa giải quyết được một số vấn đề bài toán gặp phải như:
• Chưa xét tới mặt cú pháp của câu thông qua cây cú pháp và nhận dạng thực thể
trong câu để đưa ra kết quả chính xác hơn trong những trường hợp mà có sự
nhập nhằng trong tên thực thể.
o Ví dụ: Obama, Barak Obama, tổng thống Mỹ đều chỉ tới một người.
• Đối những cặp văn bản-giả thuyết có độ nhập nhằng về ngữ nghĩa thì độ chính
xác của kết quả không cao
36
Kết luận và định hướng nghiên cứu tiếp theo
Trong khóa luận, ngoài việc giới thiệu khái quát về phát hiện kế thừa văn bản
và một số phương pháp tiếp cận giải quyết bài toán phát hiện kế thừa qua các kỳ hội
nghị RTE 1-7, em đề xuất một mô hình giải quyết bài toán áp dụng trên miền dữ liệu
tiếng Việt. Nội dung em đã thực hiện được bao gồm:
• Xây dựng hệ thống phát hiện kế thừa văn bản dựa trên tính toán độ tương đồng từ
vựng.
• Hệ thống đã có sự cải tiến về mặt ngữ nghĩa bằng cách sử dụng từ điển đồng nghĩa
để tăng thêm độ chính xác.
Em tiến hành thực nghiệm đối với 1600 cặp văn bản với 2 tình huống cùng 10
thí nghiệm: (i) chưa tinh chỉnh ngưỡng, (ii) đã tinh chỉnh ngưỡng. Kết quả thực
nghiệm cho thấy kết quả sử dụng từ điển và độ tương đồng từ vựng có tinh chỉnh
ngưỡng có lợi thế dù chưa thật đáng kể song cũng là tiềm năng cho phát triển hướng
nghiên cứu của bài báo.
Trong thời gian tới, em sẽ tiếp tục cải thiện hệ thống theo những hướng sau:
• Ngoài việc xét tới từ vựng, hệ thống sẽ tập trung vào việc phân tích câu về mặt cú
pháp để nâng cao độ chính xác với những trường hợp nhập nhằng về ngữ nghĩa.
• Sử dụng thêm những tri thức miền phức hợp như wikipedia, từ điển trái nghĩa,
phát hiện từ đồng âm khác nghĩa, …
37
Tài liệu tham khảo
[1] Andrew McCallum and Kedar Bellare, “A Conditional Random Field for
Discriminatively-trained Finite-state String Edit Distance”, Department of
Computer Science, University of Massachusetts Amherst, Department of
Computer and Information Science, University of Pennsylvania, pp. 2 - 4.
[2] Alvaro Rodrigo, Anselmo Penas, and Felisa Verdejo. “Towards an entity-based
recognition of textual entailment”. In Proceedings of the Fourth PASCAL
Challenges Workshop on Recognizing Textual Entailment. Gaithersburg,
Maryland, USA. 2008.
[3] Bahadorreza Ofoghi, John Yearwood, “From Lexical Entailment to
Recognizing Textual Entailment Using, Linguistic Resources”, Centre for
Informatics & Applied, Optimization, University of Ballarat, 2008, pp. 1-2
[4] Braz, Pazienza, Rodrigo, M. T. Pazienza, M. Pennacchiotti, and F. M. Zanzotto
“Textual entailment as syntactic graph distance:A rule based and a SVM based
approach” In Proceedings of the First PASCAL ChallengesWorkshop on
Recognizing Textual Entailment, 2005, pp. 25–28. Southampton,UK.
[5] Christof Monz and Maarten de Rijke. “Lightweight entailment checking for
computational semantics”. In Proceedings of the Workshop on Inference in
Computational Semantics (ICoS-3), 2001.
[6] Dekang Lin. “An information-theoretic definition of similarity”. In
ProceedingsofInternational Conferenceon Machine Learning, 1998.
[7] Erwin Marsi, Emiel Krahmer, and Wauter Bosma. “Dependency-based
paraphrasing for recognizing textual entailment”. In Proceedings of the ACL-
PASCAL Workshop on Textual Entailment and Paraphrasing, Prague, 2007.
[8] Erwin Marsi, Emiel Krahmer, Wauter Bosma. “Dependency-based
paraphrasing for recognizing textual entailment”. Proceedings of the Workshop
on Textual Entailment and Paraphrasing, c 2007 Association for
Computational Linguistics.
June 2007, pp. 83–88, Prague,.
[9] Gennaro Chierchia and Sally McConnell-Ginet. “Meaning and Grammar: An
Introduction to Semantics”. MIT Press, 2nd edition, March 2000, pp. 2-5
[10] Graeme Hirst and David St-Onge. “Lexical chains as representation of context
for the detection and correction of malapropisms”. In Fellbaum Christiane,
editor, WordNet: An electronic lexical database. TheMITPress. 1998.
38
[11] Iftene, A. “Textual Entailment”, PhD. Thesis (Technical Report). "Al. I. Cuza",
University, Romania, 2009, pp. 25-30.
[12] Ido Dagan, Bill Dolan, Bernardo Magnini, Dan Roth. “Recognizing textual
entailement: Rational, evaluation and approaches”. In Natural Language
Engineering15(4):i-xvii, Cambridge University Press 2009, pp. 5-8
[13] Marie Guegan and Nicolas Hernandez, “Recognizing Textual Parallelisms with
edit distance and similarity degree”, LIMSI-CNRS, Universit´e de Paris-Sud,
France
[14] Marta Tatu and Dan Moldovan. “A semantic approach to recognizing textual
entailment”. In Proceedings of the conference on Human Language Technology
and Empirical Methods in Natural Language Processing (HLT-EMNLP), 2005,
pp. 371–378.
[15] Milen Kouylekov and Bernardo Magnini, “Tree Edit Distance for Recognizing
Textual Entailment: Estimating the Cost of Insertion” , ITC-irst, Centro per la
Ricerca Scientifica e Tecnologica , University of Trento, 2005
[16] Oren Glickman, Ido Dagan, Moshe Koppel. “A Lexical Alignment Model for
Probabilistic Textual Entailment”, 2006.
[17] Peter Clark and Phil Harrison. “Recognizing textual entailment with logic
inference”. In Proceedings of the Fourth PASCAL Challenges Workshop on
Recognizing Textual Entailment. Gaithersburg, Maryland, USA. 2008
[18] Rui Wang, “Intrinsic and Extrinsic Approaches to Recognizing Textual
Entailment”, PhD. Thesis, March 2011, pp 38 -42, pp 124 -130.
[19] Rui Wang, Günter Neumann. “Recognizing Textual Entailment Using Sentence
Similarity based on Dependency Tree Skeletons”, 2007, pp. 1-3.
[20] Valentin Jijkoun and Maarten de Rijke, “Recognizing Textual Entailment
Using Lexical Similarity”, Informatics Institute, University of Amsterdam,
2006
[21] W.E. Bosma and C. Callison-Burch. “Paraphrase substitution for recognizing
textual entailment”. In Working Notes of CLEF, Alicante, Spain, 2006, pp. 1–8.
[22] Ken-ichi Yokote, Danushka Bollegala, Mitsuru Ishizuka, “Similarity is not
Entailment- Jointly Learning Similarity Transformations for Textual
39
Entailment” Proceedings of the 26th National Conference on Artificial
Intelligence (AAAI 2012), to appear in July, 2012"
[23] Masaaki Tsuchida and Kai Ishikawa, “A Method for Recognizing Textual
Entailment using Lexical-level and Sentence Structure-level features” ,
Proceeding of TAC 2011.