ĐẠi hỌc quỐc gia hÀ nỘi i h -...
TRANSCRIPT
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Mạnh Cường
XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: công nghệ thông tin
HÀ NỘI – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Mạnh Cường
XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: công nghệ thông tin
Cán bộ hướng dẫn: TS. Phan Xuân Hiếu
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
VIETNAM NATIONNAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Cuong Le Manh
EVENT – ORIENTED DOCUMENT GROUPING
Major: Information Technology
Supervisor: Dr. Hieu Phan Xuan
Co-Supervisor: M.s. Vu Tran Mai
HA NOI – 2013
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến PGS.TS. Hà Quang Thụy, TS.
Phan Xuân Hiếu, ThS. Trần Mai Vũ và cử nhân Nguyễn Minh Tiến, những người đã
tận tình hướng dẫn tôi trong quá trình thực hiện khóa luận tốt nghiệp.
Tôi cảm ơn các thầy, cô trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho
tôi học tập và nghiên cứu tại đây.
Tôi xin cảm ơn các anh chị và các bạn trong phòng thí nghiệm Công nghệ Tri
thức KT-Lab đã hỗ trợ tôi về mặt kiến thức chuyên môn cũng như thực nghiệm để tôi
hoàn thành khóa luận tốt hơn.
Tôi cũng xin cảm ơn các bạn trong lớp K54CD và K54C–CLC đã ủng hộ, giúp
đỡ tôi trong thời gian tôi học tập ở trường.
Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình và bạn bè, những người đã
khích lệ, động viên tôi giúp tôi vượt qua những khó khăn.
Tôi xin chân thành cảm ơn.
Hà Nội, ngày 15 tháng 5 năm 2013
Lê Mạnh Cường
XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN
Lê Mạnh Cường
Khóa QH-2009-I/CQ, ngành Công nghệ thông tin
Tóm tắt khóa luận tốt nghiệp
Dữ liệu đang bùng nổ một cách chóng mặt, nhu cầu trích chọn thông tin của con người
ngày một tăng. Bài toán xâu chuỗi văn bản là một trong những vấn đề lớn đang được quan
tâm hiện nay. Với mục tiêu giúp con người nắm được bức tranh toàn cảnh về các nguồn văn
bản trên mạng hay cụ thể ở đây là các văn bản dạng tin tức dựa trên chuỗi các sự kiện xảy ra
là sự ra đời của bài toán xâu chuỗi văn bản theo sự kiện. Trong phạm vi khóa luận tìm hiểu
về một số tiếp cận phát hiện sự kiện trong văn bản cũng như mốt số tiếp cận dùng để xâu
chuỗi các sự kiện trong văn bản. Với mục tiêu phát hiện sự kiện trong văn bản tìm hiểu về
hướng tiếp cận sử dụng độ đo TF – IDF, còn với mục tiêu là phát hiện chuỗi sự kiện dùng để
xâu chuỗi văn bản, tìm hiểu hai tiếp cận. Tiếp cận đầu tiên cũng sử dụng độ đo TF – IDF còn
tiếp cận thứ hai sử dụng độ tương đồng của các thông tin thời gian – địa điểm của sự kiện.
Về phần phương pháp đề xuất cho loại văn bản tin tức sử dụng phương pháp xâu chuỗi
dựa trên tiêu đề các trang tin tức vì thực tế là hầu hết tiêu đề của tin tức đã nêu rõ nội dung
của sự kiện. Tác giả xây dựng các từ điển danh từ, động từ, thực thể và các luật để bắt sự kiện
sau đó dùng độ tương đồng cô-sin giữa các từ/cụm từ để gom nhóm các sự kiện. Cuối cùng sử
dụng yếu tố thời gian để xâu chuỗi sự kiên. Từ chuỗi sự kiện phát hiện được trên các tiêu đề
ta tiến hành xâu chuỗi các văn bản tương ứng với các tiêu đề đó.
Từ khóa: xâu chuỗi văn bản, sự kiện, chuỗi sự kiện
EVENT – ORIENTED DOCUMENT GROUPING
Cuong Le Manh
QH-2009-I/CQ, Information Technology
Abstract
Nowadays data is booming, the development of information extraction is necessary.
Document grouping is the one of the major problems and it has become a hot trend of
academy community. To help people know clearly the background of on-line information is
motivation of event-oriented document grouping. It can divide into two stages: event
detection and event sequence detection. In this thesis the author have learned about three
approaches to deal with that problem. The first approach what uses TF – IDF measures aims
to detect events in a document. The second approach also uses TF – IDF measures but it aims
to group documents. The last approach uses time and place information to detect event
sequence.
In this thesis, the author proposes a method for on-line news documents. The method
uses title of these documents to group them. Firstly, the author builds a dictionary which
consists of noun phrases, verb phrases and entity names. Then author uses the dictionary and
rules to detect event. Afterwards the method uses cosine similar measure and time feature to
group documents by grouping their titles.
Keywords: document grouping, event, event sequence.
Lời cam đoan
Tôi xin cam đoan phương pháp tôi sử dụng để Xâu chuỗi văn bản theo sự kiện là
công trình nghiên cứu của tôi, có sự giúp đỡ từ hai người thầy hướng dẫn của tôi là TS.
Phan Xuân Hiếu và Th.S. Trần Mai Vũ. Các nội dung và kết quả trong đề tài này là do
tác giả thực hiện, không sao chép từ bất cứ nguồn nào có sẵn.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được trích dẫn một các
rõ ràng từ danh mục tài liệu tham khảo của khóa luận. Trong khóa luận, không có việc
sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu
tham khảo.
Hà Nội, ngày 15 tháng 5 năm 2013
Lê Mạnh Cường
Mục lục
Lời nói đầu .......................................................................................................................... 1
Chương 1: Tổng quan bài toán xâu chuỗi văn bản theo sự kiện ..................................... 3
1.1. Trích chọn thông tin ............................................................................................. 3
1.1.1. Bùng nổ dữ liệu ...................................................................................... 3
1.1.2. Trích chọn thông tin ............................................................................... 3
1.2. Sự kiện và trích chọn sự kiện................................................................................ 4
1.2.1. Định nghĩa sự kiện ................................................................................. 5
1.2.2. Trích chọn sự kiện .................................................................................. 5
1.3. Bài toán xâu chuỗi văn bản theo sự kiện ............................................................. 6
1.3.1. Tổng quan .............................................................................................. 6
1.3.2. Định nghĩa chuỗi sự kiện ........................................................................ 6
1.3.3. Bài toán xâu chuỗi văn bản theo sự kiện ................................................. 7
1.3.4. Phát hiện sự kiện khởi đầu và quyết định chuỗi ...................................... 8
1.4. Ý nghĩa của bài toán xâu chuỗi văn bản theo sự kiện ......................................... 8
1.5. Khó khăn và thách thức......................................................................................... 9
1.6. Tóm tắt chương.................................................................................................... 10
Chương 2: Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện ................................. 11
2.1. Hướng tiếp cận độ đo TF – IDF để phát hiện sự kiện ....................................... 11
2.2. Hướng tiếp cận độ đo TF – IDF để xâu chuỗi sự kiện ...................................... 12
2.3. Hướng tiếp cận sử dụng độ tương đồng các thông tin và địa điểm để xâu chuỗi
sự kiện ........................................................................................................................... 13
2.3.1. Thông tin về thời gian của sự kiện ........................................................ 13
2.3.2. Thông tin về địa điểm của sự kiện ........................................................ 13
2.4. Nhận xét và đánh giá ........................................................................................... 15
2.5. Tóm tắt chương.................................................................................................... 15
Chương 3: Phương pháp xâu chuỗi văn bản dựa trên độ tương đồng của cụm trên ngôn
ngữ tiếng Việt ................................................................................................................... 16
3.1. Mô tả bài toán ...................................................................................................... 16
3.2. Phương pháp đề xuất ........................................................................................... 16
3.2.1. Giai đoạn phát hiện sự kiện ................................................................. 16
3.2.2. Giai đoạn xâu chuỗi sự kiện ................................................................. 17
3.3. Mô hình đề xuất để giải quyết bài toán .............................................................. 19
3.4. Một số đánh giá về phương pháp giải quyết ...................................................... 21
3.5. Tóm tắt chương.................................................................................................... 22
Chương 4. Thực nghiệm và đánh giá .............................................................................. 23
4.1. Môi trường thực nghiệm ..................................................................................... 23
4.1.1. Cấu hình phần cứng .............................................................................. 23
4.1.2. Môi trường phần mềm .......................................................................... 23
4.2. Xây dựng từ điển và các luật nhận biết sự kiện ................................................. 24
4.2.1. Xây dựng từ điển .................................................................................. 24
4.2.2. Xây dựng các luật ................................................................................. 25
4.3. Thực nghiệm ........................................................................................................ 25
4.3.1. Dữ liệu thực nghiệm ............................................................................. 25
4.3.2. Quá trình thực nghiệm .......................................................................... 26
4.4. Kết quả và nhận xét kết quả ................................................................................ 27
4.4.1. Phần phát hiện sự kiện .......................................................................... 27
4.4.2. Phần xâu chuỗi sự kiện ......................................................................... 28
4.5. Đánh giá ............................................................................................................... 32
4.5.1. Phương pháp đánh giá .......................................................................... 32
4.5.2. Đánh giá ............................................................................................... 33
4.6. Tóm tắt chương.................................................................................................... 35
Tổng kết ............................................................................................................................ 36
Định hướng tương lai ....................................................................................................... 37
Tài liệu tham khảo ............................................................................................................ 38
Phụ lục ............................................................................................................................... 41
Danh sách hình vẽ
Hình 1. Sự tăng trưởng dung lượng dữ liệu giai đoạn 2004-2020 ........................... 4
Hình 2. Minh họa một chuỗi sự kiện ..................................................................... 7
Hình 3. Minh họa sự kiện khởi đầu ....................................................................... 8
Hình 4. Mô hình giải quyết bài toán .................................................................... 20
Hình 5. Mô tả một phần của dữ liệu ..................................................................... 26
Hình 6. Thống kê số sự kiện phát hiện được trên các chủ đề từ 6/3 đến 7/5 ......... 28
Hình 7. Thống kê các sự kiện được phát hiện từ 8/4 đến 7/5 ................................ 29
Hình 8. Số cụm phát hiện được khi sử dụng ba độ đo tương đồng ....................... 29
Hình 9. Số cụm và số sự kiện lớn nhất trong các cụm từ 8/4 đến 7/5 ................... 31
Hình 10. Thống kê trên bộ luật thứ hai ................................................................ 32
Hình 11. Tỉ lệ lỗi trên các chủ đề (theo tập luật thứ nhất) .................................... 34
Danh sách bảng biểu
Bảng 1. Cấu hình phần cứng ............................................................................. 23
Bảng 2. Môi trường phần mềm ......................................................................... 23
Bảng 3. So sánh giữa sự kiện nóng nhất giữa hệ thống với thực tế .................... 31
Bảng 4. Kết quả xâu chuỗi sự kiện .................................................................... 35
Các ký hiệu và từ viết tắt
Kí hiệu Ý nghĩa
ACE Automatic Content Extraction
LOC Location
k-NN k Nearest Neighbours
MUC Message Understanding Conference
NER Name Entity
NOAA National Oceanic and Atmospheric Administration
NP Noun Phrase
OBN Object name
ORG Organization
TDT Topic Detection and Tracking
TF–IDF Term Frequency–Inverse Document Frequency
TREC Text REtrieval Conference
VP Verb Pharse
1
Lời nói đầu
Xâu chuỗi văn bản theo sự kiện thực chất là bài toán phát hiện và theo dõi sự kiện
– một bài toán đã được cộng đồng khoa học quan tâm từ khá lâu. Bài toán được phát
biểu tường minh là xác định sự kiện trong các văn bản rồi từ những sự kiện đã phát
hiện quay trở lại xâu chuỗi văn bản. Hội nghị Message Understanding Conferences
MUC1 hay các chương trình phát hiện và theo dõi chủ đề TDT
2, trích xuất các nội
dung tự động ACE3 đã dày công nghiên cứu vấn đề này. Có nhiều hướng tiếp cận về
học máy (k – NN, cây quyết định…) cũng như thống kê (TF – IDF) được đưa ra trong
quá trình tìm hiểu và giải quyết bài toán. Hiện nay, trên thế giới có nhiều hệ thống xác
định sự kiện cũng như chuỗi sự kiện từ các văn bản dạng tin tức được cập nhập hàng
ngày, ví dụ như BioCaster (http://born.nii.ac.jp/), HealthMap (http://healthmap.org/)
hay hệ thống VnLoc của Việt Nam (http://vnloc.com/). Việc dữ liệu đang tăng trưởng
với một tốc độ chóng mặt trở thành động lực cũng như thách thức không nhỏ cho bài
toán.
Khóa luận Xâu chuỗi văn bản theo sự kiện khảo sát một số phương pháp phát
hiện sự kiện và chuỗi sự kiện. Dựa trên cơ sở đó, tác giả nghiên cứu và đề xuất phương
pháp xâu chuỗi văn bản hướng sự kiện thực hiện trên miền văn bản tin tức tiếng Việt.
Phương pháp được đề xuất bao gồm hai giai đoạn chính là phát hiện sự kiện và xâu
chuỗi các sự kiện đó. Ở giai đoạn thứ nhất, tác giả sử dụng hệ thống luật và từ điển do
tác giả nghiên cứu và xây dựng để phát hiện sự kiện. Ở giai đoạn thứ hai, các sự kiện
được đánh giá dưới ba độ đo tương đồng thử nghiệm với ngưỡng là 0.2 và dùng đặc
trưng thời gian để xâu chuỗi sự kiện. Quá trình thực nghiệm thu được kết quả tương
đối khả quan. Điều này chứng tỏ tính đúng đắn của phương pháp tác giả sử dụng cũng
như tính thực tiễn với miền tin tức tiếng Việt. Sử dụng tiêu đề để phát hiện và xâu
chuỗi sự kiện có thể không chính xác bằng việc xử lý cả đoạn văn nhưng lại rút ngắn
được nhiều thời gian. Bên cạnh đó nếu xây dựng các từ điển và bộ luật tốt hướng tới
từng chủ đề riêng thì phương pháp này sẽ có độ chính xác cao.
Khóa luận bao gồm bốn chương được mô tả như dưới đây.
Chương 1. Tổng quan bài toán xâu chuỗi văn bản theo sự kiện giới thiệu về trích
chọn thông tin trong giai đoạn dữ liệu bùng nổ mạnh mẽ, sau đó giới thiệu khái quát
1 http://www-nlpir.nist.gov/related_projects/muc/
2 http://projects.ldc.upenn.edu/TDT/
3 http://projects.ldc.upenn.edu/ace/
2
bài toán xâu chuỗi văn bản, ý nghĩa bài toán cũng như một số khó khăn thách thức mà
bài toán đối mặt.
Chương 2. Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện trình bày một
phương pháp để phát hiện sự kiện và hai phương pháp phát hiện chuỗi sự kiện dùng để
hỗ trợ cho bài toán mà tác giả hướng đến.
Chương 3. Phương pháp xâu chuỗi văn bản dựa trên độ tương đồng của cụm từ
trên ngôn ngữ tiếng Việt mô tả rõ ràng bài toán xâu chuỗi văn bản trên miền tin tức
tiếng Việt. Chương này cũng trình bày phương pháp giải quyết bài toán dựa trên hai
giai đoạn chính là phát hiện sự kiện và xâu chuỗi các sự kiện đã được phát hiện. Giai
đoạn phát hiện sự kiện dựa trên tập luật và tập dữ liệu mà tác giả đã xây dựng. Giai
đoạn sau sử dụng độ đo tương đồng giữa các cụm từ để xâu chuỗi sự kiện.
Chương 4. Thực nghiệm và đánh giá thể hiện quá trình thực hiện phương pháp đã
được nêu trong chương 3, sau đó đánh giá kết quả thực nghiệm.
Tiếp theo là phần tổng kết khóa luận cùng với định hướng tương lai. Phần này
khái quát lại toàn bộ công trình và đưa ra một số định hướng mới trong thời gian tiếp
theo.
Cuối cùng là danh mục Tài liệu tham khảo chỉ ra các tài liệu mà tác giả đã tham
khảo trong suốt quá trình thực hiện khóa luận. Việc sử dụng các tài liệu này trong khóa
luận được trích dẫn một cách rõ ràng.
3
Chương 1: Tổng quan bài toán xâu chuỗi văn bản theo sự kiện
1.1. Trích chọn thông tin
1.1.1. Bùng nổ dữ liệu
Dữ liệu do con người tạo ra đang tăng lên với một tốc độ chóng mặt. Theo thống
kê gần đây của tổ chức NOAA (National Oceanic and Atmospheric Administration),
dung lượng dữ liệu dữ liệu đạt gần 80,000 Terabytes tính đến tháng 4 năm 2013. Cũng
theo tổ chức này, dự báo đến năm 2020 sẽ tăng lên đến 160,000 Terabytes (chi tiết tại
hình 14).
Trong một cuốn sách mang tên Megatrends: Ten New Directions Transforming
Our Lives, tác giả John Naisbitt nhận định.
We are drowning in information, and starved for knowledge [11].
(Chúng ta đang chìm ngập trong thông tin nhưng lại thiếu thốn tri thức).
Điều đó có nghĩa có nhiều thông tin chưa chắc đã có nhiều tri thức. Quá trình
biến đổi từ dữ liệu thành tri thức là một quá trình mang tính bản chất và lâu dài. Bên
cạnh đó tri thức thường mang tính chất đặc riêng của từng miền, để thu thập và biến
đổi dữ liệu thành tri thức cần có những nghiên cứu và công cụ hỗ trợ cho quá trình
này.
1.1.2. Trích chọn thông tin
Như đã đề cập ở trên, thông tin không phải ngẫu nhiên mà nắm bắt được. Yêu
cầu đặt ra cho lĩnh vực trích chọn thông tin là có thể trích xuất các thông tin có ích từ
một tập dữ liệu lớn.
Với phạm vi văn bản, theo phân loại của Sunita Sarawagi, có nhiều mức trích
chọn thông tin chẳng hạn như nhận dạng thực thể, xác định thuộc tính thực thể, xác
định quan hệ giữa các thực thể, nhận dạng đồng tham chiếu… [15]. Tùy theo từng lĩnh
vực cụ thể, người ta xây dựng và áp dụng một số phương pháp để tăng hiệu quả trích
xuất. Có hai phương pháp điển hình đó là dựa trên luật hoặc dựa trên thống kê. Với
phương pháp dựa trên luật có thể kể đến như là luật nhận dạng đơn thực thể, luật nhận
dạng đa thực thể, luật đánh dấu biên thực thể, …) còn với phương pháp thống kê người
4 http://celebrating200years.noaa.gov/visions/data_mgmt/image14.html
4
ta hay sử dụng Mô hình Markov ẩn, mô hình Markov cực đại Entropy hay độ tương
đồng TF – IDF.
Bùng nổ dữ liệu vừa là thách thức vừa là động lực cho lĩnh vực trích chọn thông tin.
Việc xử lý lượng một dữ liệu lớn đòi hỏi ngoài một hiệu năng phần cứng lớn cần có
những phương pháp trích chọn thích hợp.
1.2. Sự kiện và trích chọn sự kiện
Trích chọn sự kiện được cộng đồng khoa học quốc tế đầu tư nghiên cứu từ khá
sớm. Hội nghị MUC5 được tổ chức lần đầu tiên năm 1987 dưới sự hỗ trợ của Quỹ
nghiên cứu bộ quốc phòng Hoa Kỳ là một trong những hội nghị tiêu biểu trong trích
chọn sự kiện. Hội nghị đã đưa ra phương pháp trích chọn sự kiện theo khung mẫu với
mục đích là trích chọn bằng cách lấy các thông tin liên quan đến sự kiện. Bên cạnh đó,
các chương trình TDT6 (Phát hiện và theo dõi chủ đề) được tổ chức hàng năm từ năm
1997 đã bước đầu giải quyết được bài toán phát hiện sự kiện mới, theo dõi và xâu
chuỗi sự kiện. Có nhiều nhóm nghiên cứu tham gia chương trình như nhóm BBN từ
công ty BBN Technologies, nhóm CMU của trường đại học Carnegie Mellon, nhóm
DRAGON của công ty Dragon Systems … Mỗi nhóm đều đưa ra những tiếp cận riêng
và góm phần nâng cao kết quả của lĩnh vực trích chọn sự kiện.
5 http://www-nlpir.nist.gov/related_projects/muc/
6 http://projects.ldc.upenn.edu/TDT/
Hình 1. Sự tăng trưởng dung lượng dữ liệu giai đoạn 2004-2020
5
1.2.1. Định nghĩa sự kiện
Tùy theo từng lĩnh vực và dữ liệu người ta có nhiều cách định nghĩa sự kiện. Trên
miền tin tức, Allan và cộng sự định nghĩa tin tức chứa sự kiện nếu nó có bốn yếu tố:
hành vi, chủ thể, thời gian và địa điểm [3]. Hội nghị MUC quan tâm đến các sự kiện về
khủng bố, quân sự, đầu tư mạo hiểm, tai nạn máy bay… Định nghĩa sự kiện mà hội
nghị đưa ra phải có đủ các yếu tố: tác nhân, thời gian, địa điểm và các tác động của nó.
Còn trong chương trình ACE7 (Automatic Content Extraction), sự kiện đơn giản là
một sự thay đổi trạng thái. Loại sự kiện và các thuộc tính sự kiện được quy định chặt
chẽ hơn. Có tám loại sự kiện được sử dụng bao gồm business (kinh tế), conflict (xung
đột), contact (liên lạc), justice (pháp lý), life (cuộc sống), movement (sự di chuyển),
personnel (nhân sự) và transaction (giao dịch). Mỗi loại sự kiện sau đó lại được chia
thành từng dạng con. Ví dụ như trong justice bao gồm một số dạng như arrest – jail
(bắt giữ – bỏ tù ), convict (kết án), fine (phạt)…[1] Hay như trong hệ thống VnLoc sự
kiện được định nghĩa là bộ bảy đặc trưng bao gồm tên sự kiên, loại sự kiện, thời gian
xảy ra sự kiện, nơi xảy ra sự kiện, nguồn đưa tin, liên kết và tóm tắt của sự kiện đó.
Cũng theo VnLoc thì sự kiện họ quan tâm thuộc một trong ba loại: tai nạn giao thông,
hình sự, cháy nổ.
Thông thường các nghiên cứu thường chỉ giải quyết vấn đề trong một lĩnh vực cụ
thể. Yoko Nishihara quan tâm sự kiện trong lĩnh vực mạng xã hội [13] trong khi Hong-
woo Chun hay K. Bretonnel Cohen lại tập trung vào sự kiện y sinh [5] [6]. Bên canh
đó người ta cũng quan tâm đến các mối nguy hiểm đe dọa [17], …
Trong phạm vi khóa luận, tác giả quan tâm đến sự kiện thuộc một trong mười chủ
đề thuộc mục thế giới trên một số trang tin tức tiếng Việt. Cụ thể là các chủ đề: bầu cử,
chiến tranh – quân sự, hàng không – vũ trụ, hạt nhân, khủng bố, khủng hoảng kinh tế,
ngoại giao, tham nhũng, tin tặc và tranh chấp chủ quyền. Sự kiện ở đây là sự thay đổi
trạng thái ứng với tác động của các cụm danh từ và cụm động từ.
1.2.2. Trích chọn sự kiện
Trích chọn sự kiện là lĩnh vực con của trích chọn thông tin. Nhiệm vụ của trích
chọn sự kiện là nhận biết và trích chọn được các thông tin về sự kiện từ tập dữ liệu. Cụ
thể hơn trích chọn sự kiện tập trung phát hiện sự kiện với miền lĩnh vực cho trước, sau
đó trích được ra các đặc trưng của sự kiện như thời gian, địa điểm…
7 http://projects.ldc.upenn.edu/ace/
6
Trích chọn sự kiện thực sự là một bài toán khó. Ngoài vấn đề về việc xây dựng
các bộ nhận dạng sự kiện thì nó còn phải đối mặt với các khó khăn chung về xử lý
ngôn ngữ tự nhiên, hay tính nhập nhằng ngữ cảnh.
1.3. Bài toán xâu chuỗi văn bản theo sự kiện
1.3.1. Tổng quan
Dưới góc nhìn sự kiện, bài toán xâu chuỗi văn bản chính là bài toán phát hiện
chuỗi sự kiện. Giám sát một tập dữ liệu để tìm ra các văn bản cùng nói về một sự kiện
và xâu chuỗi theo thứ tự thời gian chính là định nghĩa của chuỗi sự kiện. Chẳng hạn về
sự kiện “Khủng bố ở cuộc đua ma-ra-tông Boston”, chúng ta muốn theo dõi diễn biến
cũng như kết quả cho đến khi sự kiện kết thúc. Yêu cầu đặt ra là cần xâu chuỗi các văn
bản theo diễn biến của sự kiện từ nguồn thông tin trên các trang báo được cập nhật liên
tục.
Các trang báo mạng rất quan tâm đến vấn đề xâu chuỗi các văn bản cụ thể ở đây
là tin tức. Cách tiếp cận hiện nay của các trang báo mạng là cách làm thủ công, tức là
gắn văn bản với các sự kiện liên quan đã có bằng cách trỏ liên kết bằng tay. Cách làm
này không những bị động mà còn mang tính cục bộ, tức là trang báo mạng nào cũng
thực hiện nhưng lại không có liên kết với nhau. Một yêu cầu đặt ra cho miền Tiếng
Việt là cần có một hệ thống phát hiện và theo dõi sự kiện của văn bản, hay có thể nói
gọn là xâu chuỗi văn bản theo sự kiện.
1.3.2. Định nghĩa chuỗi sự kiện
Bài toán chuỗi sự kiện được cộng đồng khoa học quốc tế quan tâm từ khá sớm.
Như đã đề cập ở phần đầu, đây là một trong những nội dung chính của chương trình
TDT. Ở TDT–1, người ta chỉ tập trung vào hai dạng dữ liệu, đó là tin tức dưới dạng
văn bản và tin tức từ phát thanh, truyền hình. Bên cạnh đó, hội nghị TREC–68 (Text
REtrieval Conference) cũng quan tâm đến bài toán chuỗi sự kiện nhưng có đôi chút
khác biệt so với TDT–1. Trong khi TDT–1 quan tâm đến sự kiện và hướng phát hiện
chuỗi sự kiện thì TREC–6 xâu chuỗi văn bản theo cùng chủ đề.
Theo Heikki Mannila, một sự kiện được mô tả là cặp (A,t) với A là các thông tin
liên quan đến sự kiện, t là thời gian xảy ra sự kiện [10]. Tập sự kiện E cho trước và A
E.
8 http://trec.nist.gov/
7
Chuỗi sự kiện S là bộ ba giá trị (s, Ts, Te) với s =< (A1, t1), (A2, t2), …, (An, tn) >
Trong đó:
Ai E với i = 1, 2, …, n
Ai Ai+1 với i = 1, 2, …, n-1
ti ti+1 với i = 1, 2, …, n-1
Ts là thời gian bắt đầu chuỗi sự kiện
Te là thời gian kết thúc chuỗi sự kiện
Ts ti Te
Hình 2 [10] minh họa một ví dụ về chuỗi sự kiện S = (s, 29,67)
với s = < (E, 31), (D, 32), (F, 33), …, (D, 67)>
Hình 2. Minh họa một chuỗi sự kiện [10]
1.3.3. Bài toán xâu chuỗi văn bản theo sự kiện
Thực chất bài toán xâu chuỗi văn bản theo sự kiện chính là bài toán phát hiện
chuỗi sự kiện. Đầu vào yêu cầu là một tập văn bản còn đầu ra chính là tập văn bản đó
nhưng đã được xâu chuỗi theo sự kiện. Mỗi văn bản có một ứng viên sự kiện, đầu tiên
người ta tiến hành xâu chuỗi các sự kiện ứng viên, sau đó quay trở lại xâu chuỗi văn
bản. Như vậy theo hướng sự kiện, bài toán xâu chuỗi văn bản phụ thuộc vào bài toán
phát hiện chuỗi sự kiện.
Theo Yang Yiming, bài toán phát hiện chuỗi sự kiện là một bài toán học có giám
sát [19]. Đầu tiên người ta xây dựng dữ liệu học dựa vào các sự kiện đã xảy ra sau đó
sử dụng mô hình học máy dựa trên bộ dữ liệu này để phát hiện văn bản được thêm vào
có chứa sự kiện thuộc những sự kiện đã được xây dựng hay không. Có nhiều cách tiếp
cận được sử dụng để giải quyết bài toán này. Chẳng hạn các phương pháp học máy
như k người láng giềng gần nhất k–NN [2], cây quyết định [18], [19]. Các phương
pháp thống kê như sử dụng trọng số TF–IDF được đề cập ở [3] hay thống kê tần suất
xuất hiện của các cụm từ của nhóm Heikki Mannila [10]. Ngoài ra còn có một số cách
dựa trên mô hình ngôn ngữ như sử dụng mô hinh ngữ nghĩa của Ramesh Nallapati
[12], hay như của công ty Dragon Systems [2].
8
Bài toán xâu chuỗi văn bản theo sự kiện bao gồm hai giai đoạn. Giai đoạn thứ
nhất là phát hiện sự kiện trong các văn bản. Giai đoạn thứ hai là theo dõi và xâu chuỗi
các sự kiện. Một số vấn đề được quan tâm trong bài toán là phát hiện sự kiện khởi đầu,
đánh giá sự kiện tương đồng và quyết định chuỗi.
1.3.4. Phát hiện sự kiện khởi đầu và quyết định chuỗi
Chương trình TDT định nghĩa sự kiện khởi đầu là sự kiện chưa từng xảy ra và
được nhắc đến trong quá khứ. Hình 3 [4]dưới đây minh họa hai dạng sự kiện (hình thoi
và hình tròn) theo thứ tự tăng dần của thời gian. Với luồng tin tức thu được từ các
trang báo mạng chúng ta thu được rất nhiều sự kiện, nhiệm vụ của chúng ta là phải
gom nhóm các tin tức cùng nói về một sự kiện. Trong ví dụ này chúng ta cần đưa các
sự kiện hình thoi về một cụm và các sự kiện hình tròn về một cụm. Để đưa các văn bản
về được một cụm cần dựa trên độ tương đồng giữa hai văn bản hay cụ thể hơn là phải
dựa vào độ tương đồng giữa hai sự kiện. Bên cạnh đó cần phải xem xét và đánh giá
các sự kiện trùng lặp. Sau khi đưa được các sự kiện về các cụm chúng ta sử dụng yếu
tố thời gian để quyết định chuỗi sự kiện. Trong khóa luận tác giả quan tâm đến vấn đề
các sự kiện tương đồng phục vụ cho công việc xâu chuỗi.
Hình 3. Minh họa sự kiện khởi đầu [4]
1.4. Ý nghĩa của bài toán xâu chuỗi văn bản theo sự kiện
Về mặt khoa học, bài toán xâu chuỗi văn bản có ý nghĩa rất lớn. Đầu tiên, việc có
thể tập trung các văn bản có liên quan lại với nhau giúp con người có thể dễ dàng tìm
thông tin cần thiết một cách nhanh chóng. Bên cạnh đó, khi các văn bản được xâu
chuỗi theo sự kiện, bài toán có thể giúp chúng ta dự đoán xu hướng sự kiện, theo dõi
các xu hướng mà cộng đồng quan tâm. Việc nắm được diễn biến của sự kiện giúp con
9
người chủ động hơn trong tình hình cuộc sống hiện nay. Cuối cùng bài toán là một lĩnh
vực con của bài toán trích chọn thông tin. Giải quyết tốt bài toán là cơ sở để giải quyết
những bài toán liên quan, chẳng hạn như giám sát thông tin trong các bài toán quản lý
xã hội.
Bài toán xâu chuỗi văn bản theo sự kiện cũng có ý nghĩa rất lớn trong thực tiễn.
Với bối cảnh bùng nổ dữ liệu cụ thể trong mảng tin tức chúng ta có thể thấy thông tin
xuất hiện rất nhiều nhưng lại rất rời rạc. Người dùng không thể nắm được bước tranh
toàn cảnh về những gì đang diễn ra trong cuộc sống. Chẳng hạn một người quan tâm
đến sự kiện “Khủng bố ở Boston” vừa diễn ra trong tháng tư vừa qua thì với lượng tin
tức cập nhật liên tục nhưng lại không theo quy luật cụ thể nào có thể khiến người đó
gặp rất nhiều rắc rối trong việc nắm thông tin. Đơn giản người ta chỉ muốn xem diễn
biến của sự kiện trên nhưng họ buộc phải tìm kiếm tuần tự để thực hiện điều đó. Yêu
cầu đặt ra cho bài toán xâu chuỗi văn bản là cố gắng đưa các văn bản nói về một sự
kiện về cùng một nhóm sau đó trình bày theo thứ tự thời gian để người dùng có thể
nắm được rõ ràng diễn biến sự kiện. Trên thế giới hiện nay có rất nhiều hệ thống theo
dõi các sự kiện từ luồng tin tức. Điển hình có thể kể đến như HealthMap của Hoa Kỳ
hay BioCaster của Nhật Bản. Ở Việt Nam cũng có hệ thống VnLoc9 theo dõi các sự
kiện đời sống như tai nạn, hỏa hoạn, dịch bênh… Không những vậy các hệ thống
thường được thể hiện trực quan trên bản đồ giúp người dùng dễ dàng theo dõi.
1.5. Khó khăn và thách thức
Được nhận định là một bài toán khó vì phải trải qua bài toán xâu chuỗi sự kiện
nên dễ hiểu là bài toán phải đối mặt với nhiều khó khăn. Bài toán gặp một số khó khăn
trong cả giai đoạn phát hiện sự kiện trong văn bản cũng như là xâu chuỗi các sự kiện.
Về giai đoạn phát hiện sự kiện, bài toán gặp những khó khăn chung của lĩnh vực
xử lý ngôn ngữ tự nhiên trên Tiếng Việt. Bên cạnh đó, bài toán đối mặt với các khó
khăn về nhập nhăng ngữ cảnh, tính đa tham chiếu cũng như tính đa hình cấu trúc ngữ
pháp của văn bản. Chẳng hạn như “Tổng thống Mỹ sang thăm Nhật Bản”, “Ông
Barrack Obama trò chuyện với thủ tướng Nhật Bản”, … Vấn đề đồng tham chiếu cũng
như sự biến đổi của thông tin trở thành thách thức lớn. Trong khóa luận tác giả chưa
giải quyết được vấn đề đồng tham chiếu.
9 http://vnloc.com/
10
Về giai đoạn xâu chuỗi sự kiện, bài toán gặp khó khăn trong việc xác định sự
kiện khởi đầu cũng như đánh giá độ tương đồng giữa các sự kiện. Bên cạnh đó bài
toán phải đảm bảo tính đúng đắn của chuỗi sự kiện, tức là phải xác định được sự kiện
nào đi trước sự kiện nào theo sau.
Ngoài ra việc xây dựng được bộ phát hiện sự kiện gặp nhiều khó khăn. Tác giả
phải tìm hiểu rất nhiều bài báo và xây dựng được từ điển cũng như luật phục vụ cho
công việc phát hiện sự kiện. Việc này đòi hỏi tác giả phải can thiệp sâu vào dữ liệu, có
những phân tích đúng đắn và tỉ mỉ trên miền ứng dụng thực hiện. Trong khóa luận, tác
giả thực hiện xây dựng mười chủ đề thuộc chuyên mục Thế giới trên các trang báo
mạng. Việc xử lý với một lượng lớn dữ liệu đòi hỏi nhiều thời gian cũng như công sức.
1.6. Tóm tắt chương
Chương một đã nêu lên được một số vấn đề. Đầu tiên là việc bùng nổ dữ liệu
cũng như nhu cầu trích chọn thông tin. Nhiều phương pháp được đưa ra cho lĩnh vực
này. Tiếp đó là nêu được tổng quan về sự kiện, chuỗi sự kiện và bài toán xâu chuỗi văn
bản hướng sự kiện. Đồng thời chương một cũng nêu được ý nghĩa thực tiễn của bài
toán. Cuối cùng là khó khăn thách thức chung của bài toán cũng như một số khó khăn
của tác giả khi thực hiện trong một lĩnh vực cụ thể.
11
Chương 2: Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện
Trong chương một đã giới thiệu tổng quan về bài toán xâu chuỗi văn bản theo sự
kiên. Bài toán này phải trải qua hai giai đoạn là phát hiện sự kiện và xâu chuỗi sự kiên.
Ở chương này giới thiệu một phương pháp phát hiện sự kiện sử dụng độ đo TF – IDF
ở mục 2.1. Mục 2.2 và 2.3 sẽ trình bày hai phương pháp được sử dụng để xâu chuỗi sự
kiện. Phương pháp đầu tiên là hướng tiếp cận sử dụng độ đo TF – IDF còn phương
pháp thứ hai dựa trên độ tương đồng các thông tin về thời gian cũng như địa điểm.
2.1. Hướng tiếp cận độ đo TF – IDF để phát hiện sự kiện
Hướng tiếp cận sử dụng các độ đo TF – IDF là một trong những phương pháp
được sử dụng trong thời kỳ mở đầu của bài toán phát hiện sự kiện.
Để đánh giá khi so sánh văn bản d với tập đặc trưng q, Allan và cộng sự sử dụng
hàm đánh giá sau [14]
Trong đó:
wi là độ liên quan của đặc trưng qi
di là độ tin cậy được thể hiện ở công thức 2.2
Độ tin cậy được tính bởi công thức sau:
Trong đó:
được thể hiện ở công thức 2.3
được thể hiện ở công thức 2.4
là hằng số làm trơn, ở đây = 0.4
Độ đo TF được tính bởi công thức 2.3
Trong đó:
t là số lần xuất hiện của đặc trưng trong tin tức.
dl là độ dài của tin tức tính theo đơn vị từ.
avg_dl là số lượng trung bình đặc trưng trong một tin tức
Độ đo IDF được tính bởi công thức 2.4
12
Trong đó:
C là số tin tức trong bộ ngữ liệu đã được chuẩn hóa
df là số lượng tin tức có ít nhất một đặc trưng xuất hiện
2.2. Hướng tiếp cận độ đo TF – IDF để xâu chuỗi sự kiện
Ngoài việc sử dụng trọng số TF – IDF để phát hiện sự kiện, người ta cũng sử
dụng trọng số này để phát hiện chuỗi sự kiện. Tiếp cận này dựa trên quan điểm các sự
kiện trong cũng chuỗi thường có một số thuộc tính tương đồng hoặc trùng nhau. Các
sự kiện được vec-tơ hóa để có thể tính độ tương đồng giữa chúng [16].
Gọi K = { k1, k2, …, kn,} là tập đặc trưng.
Đối với mỗi tài liệu chứa sự kiện, độ đo TF và IDF được tính toán theo các công
thức
Trong đó:
là số lần xuất hiện của từ khóa ki trong văn bản
là số lần xuất hiện cực đại của tất cả các từ khóa trong văn bản.
Trong đó:
là số văn bản chứa đặc trưng ki.
N là tổng số văn bản được xét tới.
Tuy nhiên có một số trường hợp df(i) = 0 nên trong một số bài báo người ta có
thể lấy mẫu số là 1+df(i).
Cuối cùng độ tương đồng giữa hai văn bản được tính bởi công thức
Bên cạnh đó có một số cải tiến nhằm nâng cao tính đúng đắn của chuỗi sự kiện,
chẳng hạn có thể áp dụng các độ đọ TF – IDF ở phần 2.1 vào các công thức 2.3 và 2.4.
13
2.3. Hướng tiếp cận sử dụng độ tương đồng các thông tin và địa điểm để xâu
chuỗi sự kiện
Thông tin về thời gian và địa điểm là những đặc trưng cơ bản của sự kiện. Thông
thường người ta sử dụng thông tin địa điểm để xác định độ liên quan của các sự kiện.
Các sự kiện có địa điểm giống nhau thì khả năng cao là có độ tương đồng giữa chúng.
Trong khi thời gian là yếu tố cần thiết để xác định trình tự chuỗi sự kiện, sự kiện xảy
ra trước đi trước còn sự kiện xảy ra sau đi sau.
2.3.1. Thông tin về thời gian của sự kiện
Với khía cạnh thời gian có một số phương pháp đo độ tương đồng giữa thông tin
của hai địa điểm.
Juha Makkonen và cộng sự đưa ra công thức [9]:
Trong đó
covert(Xt, Yt) là độ bao phủ của Xt và Yt
Xt, Yt là các cụm tham chiếu sự kiện tương ứng của sự kiện X, Y.
RWS’(Xt, Yt) là trọng số xếp hạng.
Công thức cụ thể tác giả không đề cập chi tiết.
Trong khi đó Baoli Li và cộng sự lại dựa trên độ tương đồng Cô-sin [8].
Trong đó
x = (x1, x2, …, xm)
y = (y1, y2, …, ym)
m là số lượng đặc trưng.
2.3.2. Thông tin về địa điểm của sự kiện
Thông tin về địa điểm là một đặc trưng quan trọng của sự kiện. Tuy nhiên thông
tin địa điểm đôi khi gặp khó khăn trong quá trình trích xuất vì sự nhập nhằng cũng như
tính đa cấp của địa điểm. Do vậy tính toán độ tương đồng về địa điểm trở nên khó
khăn hơn.
Theo nghiên cứu của Yun Jin và cộng sự [7], độ tương đồng giữa thông tin về địa
điểm được nên dựa trên 3 đặc trưng.
Đặc trưng thứ nhất là độ tương đồng phân cấp:
14
Trong đó:
nt là từ điển địa điểm đã được làm giàu.
nd là tập địa điểm trong tin tức.
Đặc trưng thứ hai là độ đo vị trí của địa điểm:
Trong đó:
pos(nd) là vị trí câu chứa tên địa điểm tính từ 0.
d là số lượng câu trong tin tức.
Đặc trưng thứ ba là độ đo mức độ phù hợp của tên địa danh trong ngữ cảnh được
xét đến.
Trong đó:
nd là số lần xuất hiện của một địa điểm đang được xem xét trong tin tức
Nd là số lần tất cả địa điểm xuất hiện trong tin tức.
là một hằng số làm trơn. Trong [7], người ta lấy = 0.5.
Sử dụng ba đặc trưng ta được độ đo về mức độ tương đồng địa điểm
nếu , và
nếu , và
trong các trường hợp khác (2.13)
Kết hợp độ tương đồng địa điểm với độ tương đồng nội dung ta được độ tương
đồng cuối cùng:
Trong đó
là độ tương đồng nội dung giữa hai tin tức t và d.
là hệ số làm trơn, trong [7] người ta lấy
15
2.4. Nhận xét và đánh giá
Tuy vào từng lĩnh vực cũng như miền dữ liệu cụ thể người ta chọn cho mình
những phương pháp phù hợp để nâng cao độ chính xác của hệ thống. Đối với giai đoạn
phát hiện sự kiện ở phương pháp tiếp cận thứ nhất, trong [3] kết quả thu được cũng
khá khả quan (F1 = 48% với 400 đặc trưng). Ở bước xâu chuỗi sự kiện, trong phương
pháp sử dụng TF – IDF cũng cho kết quả tốt. Còn phương pháp tiếp cận cuối cùng sử
dụng thông tin thời gian – địa điểm kết quả đưa ra cũng khả quan nhưng còn tùy thuộc
vào độ chính xác thông tin được cung cấp trong tin tức.
Trong phương pháp đề xuất thực hiện trên miền tiếng Việt, tác giả đề xuất
phương pháp phát hiện sự kiện dựa trên từ điển và luật và sau đó xâu chuỗi các sự kiện
đó bằng cách tính độ tương đồng giữa các tiêu đề chứa sự kiện. Với phạm vi văn bản
phương pháp dựa trên độ đo TF – IDF tỏ ra thích hợp tuy nhiên việc tác giả chỉ sử
dụng tiêu đề để phát hiện sự kiện và xâu chuỗi chúng khiến việc sử dụng độ đo này
không phù hợp mà thay vào đó ở bước xâu chuỗi tác giả sử dụng độ tương đống cô-sin
giữa các đặc trưng (đặc trưng là các từ khóa trong từ điển hoặc các từ trong tiêu đề
hoặc kết hợp cả hai). Chi tiết của phương pháp đề xuất được giới thiệu cụ thể ở
chương 3.
2.5. Tóm tắt chương
Trong chương hai tác giả đã khảo sát một số phương pháp phát hiện cũng như
xâu chuỗi sự kiện. Điều này làm tiền đề cho việc giải quyết bài toán xâu chuỗi văn bản
theo hướng sự kiện. Hai phương pháp đầu tiên đều sử dụng trọng số TF – IDF, phương
pháp cuối cùng sử dụng các thông tin thời gian và địa điểm có thể làm tăng độ chính
xác của bài toán.
16
Chương 3: Phương pháp xâu chuỗi văn bản dựa trên độ tương đồng
của cụm trên ngôn ngữ tiếng Việt
3.1. Mô tả bài toán
Bài toán xâu chuỗi văn bản theo sự kiện là bài toán phát hiện sự kiện trên tập văn
bản đầu vào, sau đó thực hiện việc xâu chuỗi sự kiện và cuối cùng là dựa vào các
chuỗi sự kiện đó để xâu chuỗi các văn bản.
Theo khía cạnh toán học, bài toán được thể hiện như sau:
Đầu vào: Tập các văn bản
Đầu ra: Tập các văn bản đã được xâu chuỗi theo sự kiện
Trong khóa luận tác giả sử dụng tin tức trên mạng như các văn bản.
3.2. Phương pháp đề xuất
Bài toán xâu chuỗi văn bản theo sự kiện bao gồm hai giai đoạn chính. Giai đoạn
đầu tiên là phát hiện sự kiện trên văn bản cụ thể trong khóa luận của tác giả là tin tức.
Giai đoạn thứ hai là phát hiện chuỗi sự kiện trên các sự kiện đã được phát hiện. Tuy
nhiên để thực hiện được hai giai đó cần một giai đoạn không kém phần quan trọng đó
là xây dựng dữ liệu và các luật nhận biết sự kiện.
3.2.1. Giai đoạn phát hiện sự kiện
Với đầu vào là các tin tức, tác giả nhận thấy thông thường tiêu đề mang hầu hết
thông tin về sự kiện. Thực tế các trang báo mạng luôn đảm bảo tiêu đề chứa đủ thông
tin để có thể thu hút người đọc. Bên cạnh đó việc dùng tiêu đề của tin tức thay vì dùng
hết cả nội dung của tin tức làm giảm thời gian xử lý xuống rất nhiều. Đây có thể xem
là một ưu điểm của các tiếp cận này.
Giai đoạn này có thể phát biểu tường mình như sau:
Đầu vào: Danh sách các tiêu đề từ các tin tức.
Đầu ra: Tập các tiêu đề chứa sự kiện.
Trong khóa luận, tác giả quan tâm đến sự kiện thuộc một trong mười chủ đề: bầu
cử, chiến tranh – quân sự, hàng không – vũ trụ, hạt nhân, khủng bố, khủng hoảng kinh
tế, ngoại giao, tham nhũng, tin tặc và tranh chấp chủ quyền thuộc mục Thế giới của
các trang tin tức trên miền tiếng Việt. Nhãn được gắn tương ứng với các chủ đề là
17
BAUCU, QUANSU, HANGKHONG, HATNHAN, KHUNG BO, KINH TE,
NGOAIGIAO, THAMNHUNG, TINTAC và CHUQUYEN.
Tác giả định nghĩa một tiêu đề chứa sự kiện khi tiêu đề có cả danh từ/ cụm danh
từ và động từ/ cụm động từ. Các cụm danh từ NP (Noun Phrase) và cụm đồng từ VP
(Verb Phrase) được tác giả khảo sát trên 5000 tiêu đề để tìm ra các cụm từ hay xuất
hiện thuộc một trong mười chủ đề mà tác giả quan tâm. Chẳng hạn với tiêu đề “Ngoại
trưởng Mỹ thăm Pháp” tác giả có thể thu được NP là “ngoại trưởng” và VP là “thăm”.
Việc tác giả khảo sát thủ công mà không sử dụng các cụm danh từ, cụm động từ có sẵn
bởi vì văn phong các trang báo mạng, tác giả muốn lấy được các dữ liệu một cách gần
nhất với thực tế.
Các tiêu đề chứa sự kiện được nhận biết bởi các bộ từ điển và các luật được nêu ở
phần 4.2. Các tiêu đề chứa sự kiện sẽ được tách riêng để phục vụ cho các giai đoạn sau
3.2.2. Giai đoạn xâu chuỗi sự kiện
Việc tác giả sử dụng tiêu đề để xâu chuỗi văn bản làm công việc cho phần phát
hiện sự kiện dễ dàng nhưng lại gây khó cho giai đoạn xâu chuỗi sự kiện. Với phạm vi
toàn văn bản, trong tiếp cận liên quan mà tác giả đã nêu ở chương hai, người ta sử
dụng được trọng số TF – IDF vì số lượng từ, cụm từ nhiều nhưng với phạm vi chỉ là
tiêu đề thì không dùng được trọng số trên. Phương pháp tác giả đưa ra là sự dụng độ
tương đồng các cụm từ đã được phát hiện trong các sự kiện để đưa các sự kiện về theo
các cụm. Mỗi cụm sẽ chứa các sự kiện tương đồng với nhau. Cuối cùng tác giả dựa
vào yếu tố thời gian để xâu chuỗi các cụm sự kiện.
Giai đoạn này có thể phát biểu thành bài toán như sau
Đầu vào: Danh sách các tiêu đề chứa sự kiện.
Đầu ra: Danh sách các cụm tiêu đề chứa chuỗi sự kiện tương đồng.
Cho t1 và t2 là hai tiêu đề chứa sự kiện, tiến hành vector hóa các sự kiện e1, e2
tương ứng của t1 và t2 theo các cụm từ đã phát hiện được. Độ tương đồng của hai sự
kiện e1 và e2 được tính theo công thức cô-sin
Trong đó
x = (x1, x2, …, xn)
y = (y1, y2, …, yn)
18
n là số chiều của tập đặc trưng.
Với hai tiêu đề t1 và t2 ta tiến hành xác định tập các cụm từ xuất hiện trong hai
tiêu đề đó sau đó đối chiếu lại với các tiêu đề để xác định các vec-tơ.
Ví dụ so sánh độ tương đồng giữa hai tiêu đề “Tổng thống Mỹ công du Việt
Nam” và “Tổng thống Obama sang thăm Việt Nam”. Theo từ điển các cụm từ đã được
xây dựng ta thu được tập các cụm từ bao gồm {“Tổng thống”, ”Mỹ”, ”công du”, ”Việt
Nam”, ”Obama”, ”sang thăm”}, số chiều vec-tơ chính là số lượng các cụm từ. Sau đó
đối chiếu lại với hai tiêu đề ta thu được hai vec-tơ. Với tiêu đề thứ nhất ta thu được
vec-tơ e1 = (1, 1, 1, 1, 0, 0) và e2 = (1, 0, 0, 1, 1, 1) . Độ tương đồng lúc này sẽ là 0.5 (
= 2/4)
Gọi n1, n2 là số các cụm từ của t1, t2; n là số các cụm từ được tạo nên từ t1, t2. Do
tác giả quy ước các giá trị của các thành phần chỉ có 0 và 1 nên công thức 3.1 có thể
chuyển thành
Trong khóa luận tác giả dự định lấy ngưỡng tương đồng là , tức là nếu
thì xem như e1 và e2 là hai sự kiện tương đồng hay hai tiêu đề chứa sự
kiện tương đồng.
Bên cạnh đó tác giả cũng thử nghiệm dựa trên các từ chứ không ở mức cụm từ
như ở trên. Cụ thể lấy ví dụ trên “Tổng thống Mỹ công du Việt Nam” và “Tổng thống
Obama sang thăm Việt Nam” thì các từ thu được từ tiêu đề thứ nhất là {“Tổng”,
“thống”, “Mỹ”, “công”, “du”, “Việt”, “Nam”}, tiêu đề thứ hai thu được {“Tổng”,
“thống”, “Obama”, “sang”, “tham”, “Việt”, “Nam”}. Từ các từ thu được từ hai tiêu đề
ta gộp cả hai lại được {“Tổng”, “thống”, “Mỹ”, “công”, “du”, “Việt”, “Nam”,
“Obama”, “sang”, “tham”}. Vec-tơ e1 thu được từ tiêu đề t1 sẽ là e1 = (1, 1, 1, 1, 1, 1,
1, 0, 0, 0) trong khi của tiêu đề t2 là e2 = (1, 1, 0, 0, 0, 1, 1, 1, 1, 1). Độ tương đồng
tính theo công thức 3.1 là 4/7.
Gọi m1, m2 là số các từ của t1, t2; m là số các từ được tạo nên từ t1, t2. Do tác giả
quy ước các giá trị của các thành phần chỉ có 0 và 1 nên công thức 3.1 có thể chuyển
thành
19
Ngoài ra có thể kết hợp cả cụm từ và từ lại với nhau để tính toán độ tương đồng.
Lại lấy ví dụ trên các từ/cụm từ của tiêu đề t1 là {“Tổng thống”, “Tổng”, “thống”,
“Mỹ”, “công du”, “công”, “du”, “Việt Nam”, “Việt”, “Nam”}, tiêu đề t2 là {“Tổng
thống”, “Tổng”, “thống”, “Obama”,”sang thăm”, “sang”, “tham”, ”Việt Nam”, “Việt”,
“Nam”}. Từ các cụm từ và từ thu được từ hai tiêu đề ta tính được các vec-tơ e1 và e2.
Vec-tơ e1= (1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0) trong khi vec-tơ e2 = (1, 1, 1, 0, 0, 0, 0,
1, 1, 1, 1, 1, 1, 1). Độ tương đồng tính theo công thức 3.1 là 3/5.
Gọi p1, p2 là số các từ và cụm từ của t1 và t2; p là số các từ và cụm từ được tạo
nên từ t1, t2. Do tác giả quy ước các giá trị của các thành phần chỉ có 0 và 1 nên công
thức 3.1 có thể chuyển thành
Tùy theo điều kiện thực tế lúc thực nghiệm sẽ cho thấy công thức nào phù hợp
với dữ liệu tin tức nhất. Kết quả cũng như so sánh sẽ được trình bày vào phần sau của
khóa luận.
3.3. Mô hình đề xuất để giải quyết bài toán
20
Mô hình đề xuất để giải quyết bài toán xâu chuỗi văn bản được minh họa ở hình
3.1. Mô hình này bao gồm 6 thành phần: kho dữ liệu, mô-đun phát hiện sự kiện, mô-
đun tính toán độ tương đồng, mô-đun phát hiện chuỗi sự kiện và mô-đun xâu chuỗi
văn bản.
Kho dữ liệu: Kho dữ liệu chứa các ba loại dữ liệu là tập dữ liệu đầu vào, từ điển
NP, VP, NER và các luật, các tiêu đề đã được xâu chuỗi theo sự kiện.
Tập dữ liệu đầu vào: Tác giả thu thập dữ liệu trên các trang tin tức. Dữ
liệu đầu vào bao gồm ba đặc trưng là thời gian, liên kết và tiêu đề của tin
tức. Phần mình họa cho tập dữ liệu đầu vào sẽ được giới thiệu vào phần
sau của khóa luận.
Hình 4. Mô hình giải quyết bài toán
21
Từ điển NP, VP, NER và các luật bao gồm các từ điển cụm danh từ NP,
cụm động từ VP, các thực thể NER và các luật được xây dựng để bắt sự
kiện trong tiêu đề. Các bộ từ điển và các luật đã được nói trong phần 3.2.1.
Các tiêu đề đã được xâu chuỗi sự kiện: đây là kết quả của quá trình xâu
chuỗi văn bản. Do tác giả tiến hành xử lý trên các tiêu đề nên thu được các
chuỗi tiêu đề có liên quan với nhau.
Phát hiện sự kiện: Dựa trên các từ điển đã được xây dựng cùng với tập luật, mô-
đun có thể bắt được các tiêu đề chứa sự kiện thuộc một trong mười chủ đề đã giới
thiệu ở phần 3.2. Tập luật để bắt sự kiện có thể là tập luật dựa trên khảo sát hoặc tập
luật không dựa trên khảo sát, ví dụ như BAUCU_ [NP_CHUNG] [NER_LOC]
[VP_BAUCU] hoặc [NP][NER][VP]. Đây là thành phần rất quan trọng của bài toán.
Để có thể xâu chuỗi các văn bản theo sự kiện thì cần phải bắt sự kiện càng chính xác
càng tốt.
Tính toán độ tương đồng: Sau khi phát hiện được các tiêu đề chứa sự kiện,
chúng ta tiến hành tính toán độ tương đồng giữa các tiêu đề. Như đã giới thiệu ở phần
3.2 có ba cách để tính toán độ tương đồng giữa hai tiêu đề. Cách thứ nhất là tính toán
độ tương đồng dựa trên cụm từ bắt được ở công thức 3.2, cách thứ hai là tính toán dựa
trên các từ chứa trong hai tiêu đề minh họa ở công thức 3.3 và cách cuối cùng là kết
hợp hai cách trên, tức là dựa trên các cụm từ đã bắt được sau đó sử dụng cả các cụm
đó lẫn các từ tách ra từ các cụm đó để tính toán độ tương đồng.
Phát hiện chuỗi sự kiện: Mô-đun này dựa vào mức độ tương đồng của các tiêu
đề theo ngưỡng, hiện tại tác giả lấy ngưỡng tương đồng là 0.2, tức là nếu độ tương
đồng lớn hơn hoặc bằng 0.2 thì được xem là tương đồng. Các tiêu đề cùng độ tương
đồng được đưa về cùm một cụm. Sau đó sử dụng yếu tố thời gian để xâu chuỗi các
cụm. Các cụm sau khi xâu chuỗi trở thành các cụm chuỗi sự kiện.
Xâu chuỗi văn bản: Từ các cụm tiêu đề chứa các chuỗi sự kiện, ta tiến hành xâu
chuỗi văn bản. Do đối tượng làm việc của tác giả là các tiêu đề nên đầu ra không phải
là các văn bản đã xâu chuỗi mà là các tiêu đề đã được xâu chuỗi theo sự kiện. Tuy
nhiên liên kết bài viết được trích xuất kèm xem như là văn bản.
3.4. Một số đánh giá về phương pháp giải quyết
Phương pháp xâu chuỗi văn bản được đề xuất có khá nhiều khó khăn.
Khó khăn đầu tiên phải kể đến là việc tìm hiểu dữ liệu thực để xây dựng các từ
điển NP, VP và NER. Có tất cả mười chủ đề tương ứng có mười loại từ điển NP và VP
22
tương ứng. Với từ điển NER, từ điển LOC xây dựng khá đơn giản, từ điển ORG đòi
hỏi phải tìm hiểu sâu về các tổ chức trong các chủ đề, còn từ điển OBN thì cũng tương
đối khó khăn. Chẳng hạn như đối với chủ đề chiến tranh – quân sự, từ điển OBN có
chứa tên của các loại máy bay, tên lửa, tàu ngầm… thường được sử dụng trên các
trang báo mạng.
Khó khăn thứ hai là việc xây dựng luật. Về lý thuyết các luật thường tuân theo
các cấu trúc câu tuy nhiên trong thực tế khi các trang tin tức đưa bài viết lên thì họ đã
thay đổi cấu trúc rất nhiều. Chẳng hạn như tiêu đề “Nợ công: Thách thức lớn ở xứ
Sương mù”, “Đánh bom kinh hoàng ở Thái Lan”, …Chính vì điều này khiến số lượng
luật phải tăng lên nhiều để có thể bắt được. Bên cạnh đó có những từ có thể vừa làm
danh từ vừa làm động từ như “đình công”. Trong “Đình công khiến nền kinh tế Nhật
suy sụp” “đình công” nhận vai trò là danh từ còn trong “Công nhân đình công rầm rộ ở
Nhật Bản” thì “đình công” lại đóng vai trò là động từ.
Khó khăn thứ ba là việc một số trang tin tức sử dụng từ không chính xác nhằm
nhấn mạng cũng để “giật tít” nhằm thu hút được sự chú ý của người đọc, ví dụ “Phạm
Băng Băng "nặng nề" với giày "khủng bố"” hay “Tiêu diệt "khủng bố" ốc sên” có thể
gây hiểu nhầm là tiêu đề chứa tin tức thuộc mục khủng bố. Việc nhập nhằng là khó
tránh khỏi trong việc xây dựng dữ liệu.
Tuy nhiên không thể phủ nhận được một số ưu điểm của phương pháp này. Do
đối tượng làm việc chỉ là các tiêu đề nên cùng một thời gian số lượng sự kiện được xử
lý tăng lên rất nhiều, trong một thời gian ngắn có thể thống kê được các chuỗi sự kiện
được xảy ra trong những khoảng thời gian nhiều. Với mức độ văn bản phương pháp
đưa ra thường là dựa trên độ đo TF – IDF còn với mức độ chỉ một câu thì dựa trên độ
tương đồng từ hay cụm từ.
3.5. Tóm tắt chương
Chương 3 nêu bật được cụ thể bài toán mà tác giả giải quyết cùng với phương
pháp đề xuất để giải quyết bài toán của tác giả, tiếp đó là mô hình cụ thể tương ứng với
phương pháp đã đề ra. Cuối cùng là một số nhận xét và đánh giá của tác giả về phương
pháp tiếp cận trong quá trình thực hiện bài toán.
23
Chương 4. Thực nghiệm và đánh giá
Trong chương này tác giả thực hiện việc xây dựng dữ liệu và các luật để phát
hiện sự kiện, sau đó sẽ dùng độ tương đồng để xâu chuỗi các sự kiện. Dữ liệu được thu
thập chuyên mục Thế giới trên trang báo mới (http://baomoi.com/). Tác giả sẽ thực
hiện một số thực nghiệm dựa trên hai bộ luật tác giả xây dựng để đánh giá giai đoạn
phát hiện sự kiện. Sau đó dựa trên dữ liệu sự kiện thu được ở bước trên, tác giả cũng sẽ
thực hiện một số thực nghiệm trên cả ba độ đo tương đồng (công thức 3.2, 3.3, 3.4) với
ngưỡng tương đồng dự định . Việc lấy ngưỡng quá cao có thể khiến một số sự
kiện gần tương đồng lại ở khác cụm, ngược lại lấy ngưỡng quá thấp lại khiến nhiều
cụm không chính xác.
4.1. Môi trường thực nghiệm
4.1.1. Cấu hình phần cứng
Bảng 1. Cấu hình phần cứng
Thành phần
Thông số
Bộ xử lý
E7500 (2.93GHz x 2)
Bộ nhớ trong
2GB
Bộ nhớ ngoài
320GB
Hệ điều hành
Windows XP SP3
4.1.2. Môi trường phần mềm
Bảng 2. Môi trường phần mềm
STT
Tên phần mềm Sở hữu Mô tả chức năng
1
Eclipce Indigo Eclipse Foundation Môi trường lập trình
Java
2 Thư viện mã nguồn
mở headvances
Thư viện hỗ trợ xây
dựng từ điển
24
4.2. Xây dựng từ điển và các luật nhận biết sự kiện
4.2.1. Xây dựng từ điển
NP bao gồm các danh từ/ cụm danh từ thường xuất hiện cho các chủ đề. Có 11
loại NP được đề cập trong khóa luận của tác giả bao gồm 1 NP chung và 10 NP thuộc
riêng cho các chủ đề. VP bao gồm các động từ/ cụm đồng từ hay xuất hiện thuộc 10
chủ đề đã được chọn.
Bên canh việc xây dựng các cụm NP và VP tác giả cũng thu thập các từ điển thực
thể (NER). Thực thể trong khóa luận bao gồm tên địa điểm LOC (location), tên tổ
chức ORG (organization), tên người PER (person) và tên của một số đối tượng OBN
(object’name) thường xuất hiện trong các chủ đề.
Các cụm NP, VP, OBN được gán nhãn riêng cho từng chủ đề. Ví dụ với NP,
HATNHAN_nhà máy hạt nhân, trong đó HATNHAN là nhãn của chủ đề hạt nhân còn
“nhà máy điện hạt nhân” là cụm danh từ thuộc chủ đề này. Ví dụ về VP,
NGOAIGIAO_ hợp tác đa phương, thì NGOAIGIAO là nhãn của chủ đề, “hợp tác đa
phương” là cụm động từ thuộc chủ đề này. KHUNGBO_Al-Qaeda là ví dụ từ điển tên
đối tượng thuộc chủ đề khủng bố, thực tế Al-Qaeda là tên một tổ chức khủng bố tuy
nhiên lại gắn riêng với khủng bố nên tác giả lựa chọn là tên của đối tượng thuộc chủ đề
khủng bố. Ngoài ra còn có một danh sách NP chung cho các chủ đề.
Riêng từ điển thực thể NER thì có LOC, ORG và PER không được tác giả gán
nhãn chủ đề cho nó. LOC là danh sách các địa điểm ở mức độ quốc gia, vùng lãnh thổ
cũng như châu lục ví dụ Hoa Kỳ, châu Âu. Trong từ điển LOC cũng bao gồm tên khác
thường dùng cho các địa điểm, ví dụ ngoài Hoa Kỳ thì còn có Mỹ, Trung Quốc với
Trung…
Từ điển ORG là tập hợp tên một số tổ chức thường xuất hiện trong mười chủ đề
của , ví dụ WHO – tổ chức y tế thế giới, WTO – tổ chức kinh tế thế giới, tuy nhiên có
một số tổ chức tác giả lại đưa vào từ điển OBN vì tính đặc thù của từng chủ đề, ví dụ
nhắc đến Al-Qaeda là nhắc đến khủng bố hay nhắc đến Anonymous hay Lulz Security
là nhắc đến tin tặc.
Từ điển PER là tên một số nhân vật thường xuất hiện trong mười chủ đề, chẳng
hạn như Barrack Obama, Kim Jong-Un hay Tập Cận Bình… Bên cạnh đó cũng vì tính
đặc thù đã nói ở trên có một số tên nhân vật tác giả đưa và từ điển OBN, ví dụ như
nhắc đến Dzhokhar Tsarnaev (kẻ gây ra vụ khủng bố ở Boston hôm 15/4) chúng ta
nghĩ ngay đến chủ đề khủng bố.
25
Sau khi xây dựng xong các cụm từ cần thiết, tác giả dùng các cụm này để xác
định xem tiêu đề có chứa sự kiện thuộc các chủ đề đã được nhắc đến không.. Nếu là sự
kiện thì được thu thập để thực hiện cho giai đoạn thứ hai của bài toán.
4.2.2. Xây dựng các luật
Về việc xét xem tiêu đề có chứa sự kiện thuộc mười chủ đề đã nêu không tác giả
thực hiện việc tạo hai bộ luật.
Bộ luật thứ nhất dựa trên khảo sát dữ liệu trong lúc xây dựng các từ điển NP, VP
và NER. Các luật này chỉ ra dạng sự kiện là cấu trúc của sự kiện đó trong tiêu đề đầu
vào. Ví dụ, luật NGOAIGIAO_ [NP_chung] [NER_LOC]
[VP_NGOAIGIAO][NER_LOC] sẽ bắt được sự kiện trong tiêu đề như “Tổng thống
Pháp thăm Nga” hay “Thủ tướng Trung Quốc công du Ấn Độ”, … Luật
KHUNGBO_[OBN_KHUNGBO][VP_KHUNGBO][NER_LOC] sẽ bắt được sự kiện
có trong tiêu đề như “Al-Qaeda tiến hành đánh bom đẫm máu tại Trung Đông”… Số
lượng luật càng nhiều thì số sự kiện bắt được càng nhiều tuy nhiên vẫn không tránh
khỏi nhập nhằng vì một số chủ đề có chứa những cụm từ giống nhau. Ví dụ “phóng
thành công” có thể là VP thuộc chủ đề chiến tranh – quân sự hoặc cũng có thể là VP
thuộc chủ đề hạt nhân.
Bộ luật thứ hai không dựa trên khảo sát dữ liệu, mục đích của nó là bắt được càng
nhiều sự kiện càng tôt. Tuy nhiên bộ luật này vẫn đảm bảo tiêu đề chứa sự kiện thuộc
1 trong 10 chủ đề nêu trên. Các từ điển NP và VP lúc này không còn phân biệt chủ đề
mà được gộp chung là NP và VP, từ điển NER cũng được gộp lại. Luật
[NP][NER][VP] có thể bắt được rất nhiều sự kiện ví dụ như “Cử tri Venezuela đi bầu
cử”, “Tàu hải giám Trung Quốc vào vùng tranh chấp”, “Mạng máy tính Mỹ bị đánh
sập”, …
4.3. Thực nghiệm
4.3.1. Dữ liệu thực nghiệm
26
Dữ liệu được tác giả lấy từ mục Thế giới của trang tin tức Báo mới
(http://baomoi.com/) bao gồm 20,000 bài báo. Mỗi báo báo có 3 phần được sử dụng:
Tiêu đề, thời gian và liên kết. Thời gian có khuôn dạng là “DD/MM/YYYY HH:MM”,
liên kết có khuôn dạng là “http://www.baomoi.com/Home/TheGioi/...” còn tiêu đề
chính là tiêu đề của bài báo theo liên kết, ví dụ như “Ngoại trưởng Mỹ thăm Nga”.
Hình sau mô tả một đoạn dữ liệu.
4.3.2. Quá trình thực nghiệm
Ngay sau khi xây dựng các từ điển và các luật, tác giả thực hiện từng bước các
giai đoạn của bài toán.
Ở giai đoạn đầu tiên, tác giả thực hiện tìm các sự kiện trong các tiêu đề bài báo
(các sự kiện này thuộc một trong mười chủ đề mà tác giả đã nhắc từ chương trước).
Trong giai đoạn này tác giả thử nghiệm trên hai bộ luật mà tác giả định nghĩa. Việc
phát hiện này thực hiện trong khoảng thời gian một tháng từ 8/4 đến 7/5 (đây là thời
gian các bài báo được đưa lên mạng – tính theo thời gian trên trang baomoi.com).
Giai đoạn thứ hai tác giả tiến hành xâu chuỗi các văn bản dựa trên các sự kiện đã
phát hiện được ở giai đoạn thứ nhất. Trong giai đoạn này tác giả thực hiện một số thực
nghiệm trên cả ba độ đo tương đồng (độ tương đồng các đặc trưng, độ tương đồng các
từ và kết hợp của hai độ tương đồng).
Hình 5. Mô tả một phần của dữ liệu
27
4.4. Kết quả và nhận xét kết quả
4.4.1. Phần phát hiện sự kiện
Tác giả tiến hành thực nghiệm với 20,176 bài báo trong khoảng thời gian từ
6/3/2013 đến 7/5/2013 trên cả hai bộ luật đã nêu ở phần trước.
Với bộ luật thứ nhất, bộ chỉ rõ được chủ đề của sự kiện kết quả thu được là 4,524
sự kiện được bắt thuộc 10 chủ đề đã chọn. Hình 6 minh họa chi tiết kết quả khi chạy
bộ luật thứ nhất.
Với bộ luật thứ hai, bộ không chỉ rõ chủ đề mà chỉ bắt nếu tiêu đề chứa sự kiện
thuộc 1 trong 10 chủ đề. Kết quả thu được là 10,534 sự kiện.
Bộ luật thứ hai không chặt chẽ bằng bộ luật thứ nhất nên kết quả là bắt được
nhiều hơn gấp đôi so với bộ luật thứ nhất nhưng độ chính xác trên từng chủ đề thì lại
không bằng được.
Về kết quả thu được trên bộ luật thứ nhất, chủ đề nóng nhất bắt được nhiều sự
kiện nhất là chủ đề 8 (chiến tranh quân sự), so sánh với thực tiễn với khoảng thời gian
từ 6/3 đến 7/5 đã diễn ra nhiều sự kiện quân sự liên quan đến Syria, Triều Tiên, …
Chủ đề 9 (tham nhũng) bắt được ít sự kiện nhất, so sánh với thực tiễn trong khoảng
thời gian nêu trên có rất ít vụ bê bối tham nhũng. Chủ đề 1 (bầu cử) cũng bắt được rất
ít sự kiện (chỉ có 159) vì thực tế giai đoạn vừa qua chỉ có cuộc bầu cử ở Venezuela và
Malaysia là được quan tâm.
Một hướng đặt ra cho tương lai là tác giả nên bỏ các chủ đề như tin tặc hay bầu
cử mà nên nghiên cứu kĩ hơn dữ liệu để tìm được chủ đề phù hợp hơn với từng khoảng
thời gian.
28
Hình 6. Thống kê số sự kiện phát hiện được trên các chủ đề từ 6/3 đến 7/5
Các chủ đề trong hình 6 chính là 10 chủ đề tác giả quan tâm, theo thứ tự trình bày
tương ứng trên hình sẽ là bầu cử (Topic1), chiến tranh – quân sự (Topic2), hàng không
– vũ trụ (Topic3), hạt nhân (Topic4), khủng bố (Topic5), khủng hoảng kinh tế
(Topic6), ngoại giao (Topic7), tham nhũng (Topic8), tin tặc (Topic9) và tranh chấp
chủ quyền (Topic10).
Kết quả thu được trên bộ thứ hai tuy không chính xác về từng chủ đề một so với
bộ luật thứ nhất nhưng xét trên tổng thể thì kết quả cũng rất khả quan.
Các sự kiện bắt được trong phần này sẽ được làm đầu vào cho phần xâu chuỗi sự
kiện.
4.4.2. Phần xâu chuỗi sự kiện
Ở phần này tác giả thực hiện việc xâu chuỗi trên các sự kiện đã được trích chọn
từ phần phát hiện sự kiện. Với chiến lược là thực hiện với cả hai bộ sự kiện trên cả luật
thứ nhất và luật thứ hai đồng thời sử dụng cùng lúc cả ba độ đo tương đồng (độ tương
đồng cụm từ bắt được, độ tương đồng từ và kết hợp cả hai).
Sử dụng kết quả từ bộ luật thứ nhất:
Đầu tiên tác giả xét với bộ luật thứ nhất. Để có thể quan sát rõ hơn phần này, tác
giả đã thống kê kết quả các sự kiện bắt được trong vòng 1 tháng (từ 8/4 đến 7/5 – mỗi
cột là 3 ngày) trên cả 10 chủ đề. Hình 7 minh họa chi tiết phần thống kê này.
0
200
400
600
800
1000
1200
1400
1600
Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10
Sự kiện
29
Hình 7. Thống kê các sự kiện được phát hiện từ 8/4 đến 7/5
Sau đó tác giả tiến hành thực hiện trên cả ba độ đo tương đồng trong khoảng thời
gian nêu trên (từ 8/4 đến 7/5 – mỗi cột cũng là 3 ngày) (tác giả lấy ngưỡng tương đồng
là 0.2). Kết quả thu được minh họa bằng hình 8.
Hình 8. Số cụm phát hiện được khi sử dụng ba độ đo tương đồng
0
50
100
150
200
250
300
350
8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5
Sự kiện
0
10
20
30
40
50
60
70
80
90
100
8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5
Độ đo 1
Độ đo 2
Độ đo 3
30
Số cụm bắt được khi dùng độ đo thứ nhất (độ tương đồng giữa các cụm từ bắt
được) trong cả 10 khoảng thời gian đều cho kết quả bé nhất trong khi sử dụng độ đo
thứ hai (sử dụng độ tương đồng giữa các từ) lại cho kết quả lớn nhất. Sử dụng độ đo
thứ ba (kết hợp giữa hai độ đo) thì kết quả thu được ở mức trung bình.
Ở độ đo thứ nhất, mặc dù phải trích chọn đúng các cụm từ trong từ điển thì mới
có thể so sánh độ tương đồng nhưng do giai đoạn bắt sự kiện đã chọn ra các tiêu đề
chứa các cụm đó nên có thể dễ dàng thực hiện. Mặt khác, ở độ đo này tác giả bỏ qua
tất cả các từ không thuộc từ điển nên kết quả là nhiều sự kiện đều vào một cụm khiến
cho số cụm ít. Ví dụ, “Nga tập trận rầm rộ với tên lửa chiến lược” thì độ đo thứ nhất
chỉ sử dụng các cụm từ trong từ điển mà bỏ qua từ “rầm rộ”. Số lượng đặc trưng giảm
khiến kết quả tương đồng tăng.
Trường hợp độ đo thứ hai, với việc tác giả thử nghiệm để so sánh với độ đo thứ
nhất và độ đo thứ ba, kết quả thu được nhiều cụm hơn. Lý do là tất cả các từ được sử
dụng khiến tập đặc trưng tăng lên khiến độ tương đồng giảm. Có thể lấy một ví dụ như
sau, hai tiêu đề “Nhật Bản triển khai tên lửa Patriot tại Tokyo chống Triều Tiên” và
“Nhật triển khai lá chắn tên lửa đề phòng Triều Tiên”. Về trực quan ta có thể thấy
được hai tiêu đề này chưa thông tin tương đồng nhau nhưng việc sử dụng độ tương
đồng của các từ riêng lẻ khiến độ tương đồng của hai tin này giảm xuống mức thấp
(theo độ đo thứ hai thì kết quả là 0.26) trong khi nếu dùng độ đo thứ nhất thì kết quả
cao hơn (theo độ đo thứ nhất kết quả là 0.89).
Độ đo thứ ba kết hợp được cả hai độ đo trên giải quyết được trường hợp rút gọn
từ. Các trang tin tức thông thường hay rút gọn nhưng vẫn đảm bảo cung cấp đủ thông
tin. Ví dụ người ta thường dùng Trung, Ấn, Nhật thay cho Trung Quốc, Ấn Độ và
Nhật Bản…
Tác giả sử dụng kết quả xâu chuỗi bằng độ đo thứ ba để xem xét các sự kiện
được quan tâm trong vòng 30 ngày (từ 8/4 đến 7/5). Hình 9 mô tả số lượng cụm và số
sự kiện lớn nhất trong một cụm.
31
Hình 9. Số cụm và số sự kiện lớn nhất trong các cụm từ 8/4 đến 7/5
Kết quả là từ 8-10/4 sự kiện được quan tâm nhiều nhất là về vấn đề Triều Tiên, từ
11-13/4 vẫn là về vấn đề Triều Tiên. Tuy nhiên sang đến ngày 14-16/4 thì vấn đề lại là
vụ khủng bố ở Boston. So sánh kết quả với thực tế ta thấy điều đó là hoàn toàn phù
hợp. Ngoài nếu lấy thử nghiệm từ ngày 2-4/5, sự kiện được nhắc đến nhiều nhất là vụ
máy bay Mỹ rơi ở Kyrgyzstan, hay chiến sự Syria… Kết quả xâu chuỗi sự kiện có ý
nghĩa thực tế rất lớn, chúng ta có thể tìm ra sự kiện nóng nhất trong một khoảng thời
gian rất ngắn. Bảng 3 minh họa sự so sánh với thực tế các sự kiện nóng nhất giữa hệ
thống và thực tế.
Bảng 3. So sánh giữa sự kiện nóng nhất giữa hệ thống với thực tế
Ngày Sự kiện nóng nhất trong hệ
thống
Sự kiện nóng nhất trong thực tế
8-10/4 Triều Tiên đe dọa tấn công một
số nước như Nhật Bản, Hoa Kỳ
Triều Tiên đe dọa tấn công một số
nước như Nhật Bản, Hoa Kỳ
14-16/4
Vụ tấn công khủng bố ở
Boston – Hoa Kỳ
Vụ tấn công khủng bố ở Boston –
Hoa Kỳ
2-4/5 Máy bay Mỹ rơi ở Kyrgyzstan Máy bay Mỹ rơi ở Kyrgyzstan
Sử dụng kết quả từ bộ luật thứ hai:
0
20
40
60
80
100
120
140
160
180
8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5
Số cụm
Số sự kiện lớn nhất trong
cụm
32
Do số lượng sự kiện bắt được của bộ luật này rất nhiều nên tác giả chỉ lấy đầu
vào là sự kiện trong vòng 10 ngày (từ 15/4 đến 24/4). Ở đây tác giả chỉ thử nghiệm
trên độ đo thứ ba (độ tương đồng kết hợp). Tác giả cũng thống kê số lượng sự kiện bắt
được trong phạm vi thời gian đang xét. Phần thống kê được minh họa bằng hình 10.
Hình 10. Thống kê trên bộ luật thứ hai
Kết quả thu được một lẫn nữa cho thấy tính phù hợp với thực tế đang diễn ra. Các
vấn đề nóng như vụ khủng bố ở Boston – Hoa Kỳ hay vấn đề Triều Tiên, Syria… đều
xuất hiện trong các cụm có số sự kiện lớn nhất.
4.5. Đánh giá
4.5.1. Phương pháp đánh giá
Trong phần thực nghiệm, tác giả thực hiện cả hai phần phát hiện sự kiện và xâu
chuỗi sự kiện nên sẽ đánh giá kết quả ở cả hai phần.
Do tác giả không có bộ dữ liệu chuẩn và cũng không thể chia dữ liệu để học và
để kiểm tra như thông thường nên tác giả dùng hệ số lỗi.
Tác giả sử dụng công thức hệ số lỗi như sau:
Trong đó
0
50
100
150
200
250
300
350
15/4 16/4 17/4 18/4 19/4 20/4 21/4 22/4 23/4 24/4
Số sự kiện
Số cụm
Số sự kiện lớn nhất trong cụm
33
n là số trường hợp sai.
N là số trường hợp được xét ngẫu nhiên.
Bên cạnh đó, tác giả cũng sử dụng công thức hệ số lỗi micro và macro như công
thức 4.2 và 4.3:
Trong đó:
là tỉ lệ lỗi ở mỗi cụm.
M là số cụm xét ngẫu nhiên.
Trong đó:
là sô ví dụ lỗi trong cụm thứ i.
là số lượng trường hợp trong cụm.
M là số cụm được xét.
4.5.2. Đánh giá
Với giai đoạn phát hiện sự kiện, tác giả lấy ngẫu nhiên và thu được kết quả như
hình 11. (tỉ lệ lỗi trung bình là 37 %)
34
Hình 11. Tỉ lệ lỗi trên các chủ đề (theo tập luật thứ nhất)
Các chủ đề trong hình 11 chính là 10 chủ đề tác giả quan tâm, theo thứ tự trình
bày tương ứng trên hình sẽ là bầu cử (Topic1), chiến tranh – quân sự (Topic2), hàng
không – vũ trụ (Topic3), hạt nhân (Topic4), khủng bố (Topic5), khủng hoảng kinh tế
(Topic6), ngoại giao (Topic7), tham nhũng (Topic8), tin tặc (Topic9) và tranh chấp
chủ quyền (Topic10).
Tác giả cũng lấy ngẫu nhiên 100 sự kiện được phát hiện bộ luật mới để đo tỉ lệ
lỗi. Kết quả tỉ lệ lỗi đạt 10%.
Kết quả tập luật thứ nhất có vẻ tỉ lệ lỗi cao tuy nhiên hầu hết các trường hợp lỗi
đều do sự nhập nhằng gây ra. Trong khi đó tập luật thứ hai thì không bị ảnh hưởng
nhiều bởi sự nhập nhằng nên kết quả thu được cao hơn.
Với giai đoạn xâu chuỗi sự kiện, tác giả chọn ngẫu nhiên 10 cụm để đánh giá tỉ lệ
lỗi với kết quả phát hiện sự kiện từ bộ luật thứ hai. Kết quả được minh họa ở bảng 4.
0
10
20
30
40
50
60
70
80
Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10
Tỉ lệ lỗi
35
Bảng 4. Kết quả xâu chuỗi sự kiện
Tỉ lệ lỗi micro là:
Tỉ lệ lỗi macro là:
Có thể thấy rằng tỉ lệ lỗi micro và macro cho giai đoạn xâu chuỗi sự kiện là khá
thấp.
4.6. Tóm tắt chương
Trong chương 4 tác giả đã mô tả khá cụ thể cách thức xây dựng từ điển và các
luật. Tiếp theo, tác giả cũng thể hiện hướng thực nghiệm một cách rõ ràng. Các kết quả
cũng như nhận xét về kết quả cho thấy mức độ thực tiễn của bài toán. Cuối cùng là
phần đánh giá theo tỉ lệ lỗi cho hệ thống.
Số sự kiện trong cụm
Số sự kiện sai Tỉ lệ lỗi
Cụm 1 11 1 0.091
Cụm 2 33 2 0.061
Cụm 3 11 3 0.272
Cụm 4 8 3 0.375
Cụm 5 20 4 0.2
Cụm 6 37 5 0.135
Cụm 7 40 5 0.135
Cụm 8 27 3 0.11
Cụm 9 8 2 0.25
Cụm 10 7 1 0.143
Tổng 202 29
36
Tổng kết
Khóa luận nêu lên được bài toán Xâu chuỗi văn bản theo sự kiện, đồng thời khóa
luận đã xem xét được một số tiếp cận để phát hiện và xâu chuỗi sự kiện dưới mức độ
văn bản. Các phương pháp sử dụng trọng số TF – IDF và thông tin thời gian – địa
điểm chỉ thích hợp với toàn văn bản. Đối với đối tượng là tiêu đề thì các phương pháp
trên trở nên không phù hợp.
Tác giả đã đề xuất và thử nghiệm một phương pháp phát hiện và xâu chuỗi sự
kiện dựa trên việc xây dựng các từ điển, luật cũng như sử dụng độ tương đồng cô-sin ở
cả ba mức cụm từ, từ và kết hợp giữa cụm từ và từ.
Tác giả cũng đã trình bày một số ưu điểm của hướng sử dụng tiêu đề của văn bản.
Việc chỉ thực hiện trên tiêu đề khiến thời gian để phát hiện và xâu chuỗi sự kiện trở
nên ngắn đi, không những thế chúng ta có thể nhanh chóng nắm được một số sự kiện
nóng hổi mang tính thời sự. Thực nghiệm cho thấy kết quả hoàn toàn phù hợp với thực
tế đang diễn ra.
Việc tỉ lệ lỗi còn cao là điều khó tránh khỏi. Xử lý ngôn ngữ tự nhiên vốn dĩ đã là
một bài toán khó, bên cạnh đó trích chọn thống tin cũng là một bài toán khó khăn
không kém. Do thời gian có hạn nên bộ dữ liệu tác giả xây dựng được chưa nhiều, các
luật đưa ra vẫn còn rất lỏng lẻo.
37
Định hướng tương lai
Như tác giả đã đề cập trong các phần trước, tác giả gặp khá nhiều khó khăn. Nếu
xây dựng và hoàn thiện tiếp, tác giả dự định thực hiện một số công việc như sau:
Thứ nhất, tác giả sẽ xây dựng bộ dữ liệu đầy đủ hơn, mang tính thời sự hơn.
Thứ hai, tác giả cũng sẽ thiết lập các luật chặt chẽ hơn, tránh được càng nhiều
nhập nhằng càng tốt.
Thứ ba, tác giả sẽ tìm cách giải quyết vấn đề đồng tham chiếu.
Cuối cùng, trên cơ sở dữ liệu cũng như luật mới, tác giả sẽ thử nghiệm để tìm
ngưỡng tương đồng phù hợp nhất (hiện tại đang lấy 0.2) cùng với độ tương đồng thích
hợp nhất.
38
Tài liệu tham khảo
Tiếng Anh
[1] David Ahn. “The stages of event extraction”, in Proceedings of the Workshop
on Annotating and Reasoning about Time and Events, 2006, pp. 1-8.
[2] J. Allan, J. Carbonell, G. Doddington, J. Yamron, and Y. Yang. “Topic
detection and tracking pilot study: Final report”, in Proceedings of the DARPA
Broadcast News Transcription and Understanding Workshop, 1998, pp. 194-218.
[3] James Allan, Ron Papka, and Victor Lavrenko. “On-line new event detection
and tracking”, in Proceedings of the 21st annual international ACM SIGIR conference
on Research and development in information retrieval, 1998, pp. 37-45.
[4] Thorsten Brants, Francine Chen, Ayman Farahat. “A system for new event
detection”, in Proceedings of the 26th annual international ACM SIGIR conference on
Research and development in informaion retrieval, 2003, pp. 330-337.
[5] Hong-woo Chun, Young-sook Hwang, and Hae-Chang Rim. “Unsupervised
event extraction from biomedical literature using co-occurrence informationand basic
patterns”, in Proceedings of the First international joint conference on Natural
Language Processing, 2005, pp. 777-786.
[6] K. Bretonnel Cohen, Karin Verspoor, Helen L. Johnson, Chris Roeder, Philip
V. Ogren, William A. Baumgartner, Jr., Elizabeth White, Hannah Tipney, and
Lawrence Hunter. “High-precision biological event extraction with a concept
recognizer”, in Proceedings of the Workshop on Current Trends in Biomedical Natural
Language Processing: Shared Task, 2009, pp. 50-58.
[7] Baoli Li, Wenjie Li, and Qin Lu. “Enhancing topic tracking with temporal
information”, in Proceedings of the 29th annual international ACM SIGIR conference
on Research and development in information retrieval, 2006, pp. 667-668.
[8] Yun Jin, Sung Hyon Myaeng, Yuchul Jung. “Use of place information for
improved event tracking”. in Journal Information Processing and Management: an
International Journal - Special issue: AIRS2005: Information retrieval research in
Asia, volume 43 issue 2, 2007, pp. 365-378.
[9] Juha Makkonen, Helena Ahonen-Myka, and Marko Salmenkivi. “Topic
detection and tracking with spatio-temporal evidence”, in Proceedings of the 25th
European conference on IR research, 2003, pp 251-265.
39
[10] Heikki Mannila, Hannu Toivonen, and A. Inkeri Verkamo. “Discovery of
frequent episodes in event sequences”, in Data Mining and Knowledge Discovery,
1997, pp. 259-289.
[11] John Naisbitt. “Megatrends: Ten New Directions Transforming Our Lives”,
Grand Central Publishing, 1988.
[12] Ramesh Nallapati. “Semantic language models for topic detection and
tracking”, in Proceedings of the 2003 Conference of the North American Chapter of
the Association for Computational Linguistics on Human Language Technology,
volume 3, 1998, pp. 1-6.
[13] Yoko Nishihara, Keita Sato, and Wataru Sunayama. “Event extraction and
visualization for obtaining personal experiences from blogs”, in Proceedings ofthe
Symposium on Human Interface 2009 on Human Interface and the Management of
Information. Information and Interaction. Part II: Held as part of HCI International
2009, pp. 315–324.
[14] Ron Papka, James Allan. “On-Line New Event Detection using Single Pass
Clustering”, in Technical Report at University of Massachusetts Amherst, 1998, pp. 1-
10.
[15] Sunita Sarawagi. “Information extraction”, in Journal Foundations and
Trends in Databases, Volume 1 issue 3, 2008, pp. 261–377.
[16] J. M. Schultz and M. Liberman. “Topic detection and tracking using idf-
weighted cosine coefficient”, in Proceedings of the DARPA Broadcast News
Workshop, 1999, pp. 189–192.
[17] Hristo Tanev, Jakub Piskorski, and Martin Atkinson. “Real-Time News
Event Extraction for Global Crisis Monitoring”, in Proceedings of the 13th
international conference on Natural Language and Information Systems: Applications
of Natural Language to Information Systems, 2008, pp. 207-218.
[18] Yiming Yang, Jaime G. Carbonell, Ralf D. Brown, Thomas Pierce, Brian
T.Archibald, and Xin Liu. “Learning approaches for detecting and tracking news
events”, in Journal IEEE Intelligent Systems, volume 14 issue 4, 1999, pp. 32-43.
[19] Yiming Yang, Tom Pierce, and Jaime Carbonell. “A study of retrospective
and online event detection”, in Proceedings of the 21st annual international ACM
40
SIGIR conference on Research and development in information retrieval, 1998, pp.
28-36.
41
Phụ lục
Một số ví dụ về các luật được xây dựng và một số tiêu đề được phát hiện
Bộ luật thứ nhất:
BAUCU [NP_BAUCU][NER_LOC][VP_BAUCU]: Tân tổng thống Venezuela
nhậm chức.
HANGKHONG [NER_LOC][VP_HANGKHONG][NP_HANGKHONG]: Iran
thử thành công 2 tên lửa tầm ngắn.
QUANSU [NER_LOC][VP_QUANSU][NER_LOC]: Israel đã không kích Syria.
TINTAC [OBN_TINTAC][VP_TINTAC][NP_TINTAC][NER_LOC]:
Anonymous đánh sập 5 trang web Triều Tiên.
KHUNGBO
[NER_ORG][VP_KHUNGBO][NP_KHUNGBO][OBN_KHUNGBO]: FBI mở rộng
điều tra vụ đánh bom Boston.
…
Bộ luật thứ hai:
[NP][NER][VP][NP]: Thủ tướng Ai Cập thoát chết sau một vụ tấn công.
[NP][NER][VP][NER]: Ngoại trưởng Mỹ thăm Nga.
[NP][NER][NER][VP]: Đại sứ quán Pháp ở Libya bị đánh bom.
[NER][NER][VP][VP]: Mỹ: Thành phố Boston bị đánh bom khủng bố.
[NER][VP][NER][VP]: Mỹ phản đối Trung Quốc dọa dẫm láng giềng.
[NER][VP][NP][NER]: Ông Tập Cận Bình hội đàm với Tổng thống Palestine.
[NP][NER][VP][NER][NER]: Tổng thống Hàn Quốc tới thăm Mỹ về vấn đề
Triều Tiên.
[NP][NER][VP][NER][VP][NER] Thủ tướng Thổ Nhĩ Kỳ phản đối Israel không
kích ở Syria.
…