he thong tim_kiem_thong_tin_tieng_viet
TRANSCRIPT
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 1 Nguy n Trung Hi u - 0112216
I C M N
Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ã
n tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này.
Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,
ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng con
nghiên c u h c t p.
Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,
gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c
qua.
m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n
a chúng tôi.
c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót,
mong nh n c s thông c m và góp ý c a th y cô và các b n.
Tháng 7 n m 2005
Sinh viên
Nguy n Th Thanh Hà – Nguy n Trung Hi u
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 2 Nguy n Trung Hi u - 0112216
NH N XÉT C A GIÁO VIÊN H NG D N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……n m 2005
Ký tên
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 3 Nguy n Trung Hi u - 0112216
NH N XÉT C A GIÁO VIÊN PH N BI N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……n m 2005
Ký tên
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 4 Nguy n Trung Hi u - 0112216
C L C
DANH SÁCH CÁC B NG...................................................................................8DANH SÁCH CÁC HÌNH V ..............................................................................8
Ph n 1 : TÌM HI U LÝ THUY T ..........................................................................11
Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN ...................................111. Gi i thi u v tìm ki m thông tin ......................................................................11
1.1 Khái ni m v tìm ki m thông tin ................................................................111.2 M t s v n trong vi c tìm ki m thông tin: .............................................11
2. H tìm ki m thông tin – IRS ............................................................................123. Các thành ph n c a m t h tìm ki m thông tin [1.1] ........................................134. So sánh IRS v i các h th ng thông tin khác ...................................................14
4.1 H qu n tr c s d li u (DBMS)..............................................................154.2 H qu n lý thông tin (IMS) ........................................................................154.3 H h tr ra quy t nh (DSS)....................................................................164.4 H tr l i câu h i (QAS) ............................................................................164.5 So sánh IRS v i các h th ng thông tin khác..............................................17
Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN............181. Ki n trúc c a h tìm ki m thông tin. [1.3]........................................................182. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2]..........................19
2.1 Mô hình không gian vector ........................................................................192.2 Tìm ki m Boolean .....................................................................................212.3 Tìm ki m Boolean m r ng .......................................................................222.4 M r ng trong vi c thêm vào tr ng s c a câu h i .....................................23
2.4.1 M r ng cho s t tu ý ......................................................................232.4.2 Thêm toán t t ng ..........................................................................24
2.5 Mô hình xác su t........................................................................................242.6 ánh giá chung v các mô hình .................................................................25
3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]...................................253.1 Tách t t ng cho t p các tài li u............................................................253.2 L p ch m c cho tài li u .............................................................................253.3 Tìm ki m ...................................................................................................263.4 S p x p các tài li u tr v (Ranking) ..........................................................26
4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ngVi t .....................................................................................................................26
4.1 Khó kh n trong vi c tách t ti ng Vi t .......................................................274.2 V n b ng mã ti ng Vi t .........................................................................27
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 5 Nguy n Trung Hi u - 0112216
4.3 Các khó kh n khác .....................................................................................27
Ch ng 3: TÁCH T T NG........................................................................291. Tách t trong Ti ng Anh .................................................................................292. Tách t trong Ti ng Vi t .................................................................................29
2.1 M t s c m chính v t ti ng Vi t [2.2]..............................................292.1.1 Ti ng...................................................................................................292.1.2 T .......................................................................................................30
2.2 Tách t t ng ti ng Vi t .........................................................................303. Các ph ng pháp tách t ti ng Vi t.................................................................30
3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................303.1.1 Mô t ...................................................................................................303.1.2 Áp d ng tách t ti ng Vi t...................................................................31
3.2 Longest Matching [1.4]..............................................................................373.3 K t h p gi a fnTBL và Longest Matching.................................................37
Ch ng 4: L P CH M C ..................................................................................381. Khái quát v h th ng l p ch m c...................................................................382. Ph ng pháp l p ch m c [1.1] ........................................................................38
2.1 Xác nh các t ch m c.............................................................................382.2 Các ph ng pháp tính tr ng s c a t ........................................................40
2.2.1 T n s tài li u ngh ch o....................................................................402.2.2 nhi u tín hi u (The Signal – Noise Ratio) ......................................402.2.3 Giá tr phân bi t t (The Term Discrimination Value) .........................42
2.3 L p ch m c t ng cho tài li u ti ng Anh................................................433. L p ch m c cho tài li u ti ng Vi t ..................................................................454. T p tin ngh ch o tài li u ...............................................................................46
4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p ..................................464.2 T i sao s d ng t p tin ngh ch o l p ch m c .....................................47
Ph n 2 : PHÂN TÍCH VÀ THI T K ....................................................................49
Ch ng 5: PHÂN TÍCH.......................................................................................491. S UseCase h th ng ..................................................................................492. S L p........................................................................................................51
2.1 S các l p th hi n................................................................................512.2 S các l p x lý ....................................................................................52
3. Tách t ............................................................................................................533.1 S UseCase...........................................................................................533.2 S Tu n t ............................................................................................53
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 6 Nguy n Trung Hi u - 0112216
3.3 S C ng tác...........................................................................................543.4 S L p ..................................................................................................54
4. L p ch m c.....................................................................................................554.1 S UseCase...........................................................................................554.2 S Tu n t ............................................................................................56
4.2.1 T o m i ch m c .................................................................................564.2.2 C p nh t ch m c.................................................................................57
4.3 S C ng tác...........................................................................................584.3.1 T o m i ch m c .................................................................................584.3.2 C p nh t ch m c.................................................................................59
4.4 S L p ..................................................................................................605. Tìm ki m.........................................................................................................61
5.1 S UseCase...........................................................................................615.2 S Tu n t ............................................................................................615.3 S C ng tác...........................................................................................625.4 S L p ..................................................................................................63
Ch ng 6: THI T K VÀ CÀI T ..................................................................641. C u trúc l u tr d li u....................................................................................64
1.1 T p tin l u n i dung tài li u .......................................................................641.1.1 C u trúc DTD / XSD ...........................................................................641.1.2 Tài li u XML ......................................................................................66
1.2 T p tin sau khi tách t tài li u ....................................................................671.2.1 C u trúc DTD / XSD ...........................................................................671.2.2 Tài li u XML ......................................................................................68
1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list) ...........701.3.1 C u trúc DTD / XSD ...........................................................................701.3.2 Tài li u XML ......................................................................................71
1.4 T p tin ch m c o ( Inverted ). ................................................................711.4.1 C u trúc DTD / XSD ...........................................................................711.4.2 Tài li u XML ......................................................................................73
1.5 T p tin sau khi tách t câu h i....................................................................741.5.1 C u trúc DTD / XSD ...........................................................................741.5.2 Tài li u XML ......................................................................................75
1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sáchStopList ...........................................................................................................76
1.6.1 C u trúc DTD / XSD ...........................................................................761.6.2 Tài li u XML ......................................................................................77
1.7 T p tin ch a các t trong câu h i và các tài li u liên quan..........................771.7.1 C u trúc DTD / XSD ...........................................................................77
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 7 Nguy n Trung Hi u - 0112216
1.7.2 Tài li u XML ......................................................................................791.8 T p tin ch a t ng quan gi a câu h i và các tài li u .............................80
1.8.1 C u trúc DTD / XSD ...........................................................................801.8.2 Tài li u XML ......................................................................................82
2. Chi ti t các l p i t ng ................................................................................832.1 Các l p trong quá trình tách t ...................................................................83
2.1.1 S các l p......................................................................................832.1.2 L p tách t ghép..................................................................................832.1.3 L p tách t ..........................................................................................862.1.4 L p giao di n tách t ...........................................................................89
2.2 Các l p trong quá trình l p ch m c ...........................................................912.2.1 S các l p.......................................................................................912.2.2 L p l p ch m c...................................................................................922.2.3 L p giao di n t o m i ch m c ............................................................942.2.4 L p giao di n c p nh t ch m c ...........................................................96
2.3 Các l p trong quá trình tìm ki m................................................................982.3.1 S các l p.......................................................................................982.3.2 L p tìm ki m.......................................................................................992.3.3 L p giao di n tìm ki m .....................................................................105
3. M t s màn hình giao di n khác ....................................................................1093.1 Màn hình chính c a ch ng trình.............................................................1093.2 Màn hình tìm ki m nhi u câu h i .............................................................1103.3 Màn hình tìm ki m chính ( giao di n Web) ..............................................1123.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ............................1133.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)..................................114
Ph n 3 : T NG K T..............................................................................................1151. Ch ng trình th nghi m...............................................................................1152. ánh giá k t qu t c ............................................................................. 1153. H ng phát tri n............................................................................................116TÀI LI U THAM KH O .................................................................................1171. Sách............................................................................................................... 1172. Lu n v n........................................................................................................1173. Website ......................................................................................................... 117
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 8 Nguy n Trung Hi u - 0112216
DANH SÁCH CÁC B NG
ng 1-1 So sánh IRS v i các h th ng thông tin khác ..........................................................17ng 4-1 Cách t p tin ngh ch o l u tr ...............................................................................47ng 4-2 Cách t p tin tr c ti p l u tr ...................................................................................47ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o.........................................................48ng 5-1 Danh sách các Actor...............................................................................................50ng 5-2 Danh sách các UseCase ..........................................................................................50
DANH SÁCH CÁC HÌNH V
Hình 1-1 Môi tr ng c a h tìm ki m thông tin .....................................................................13Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin..........................................14Hình 2-1 H tìm ki m thông tin tiêu bi u...............................................................................18Hình 3-1 Quá trình h c..........................................................................................................35Hình 3-2 Giai n xác nh t cho tài li u m i.....................................................................36Hình 4-1 Các t c s p theo th t ....................................................................................39Hình 4-2 Quá trình ch n t làm ch m c................................................................................45Hình 5-1 S Use-case c a h th ng...................................................................................49Hình 5-2 S các l p th hi n.............................................................................................51Hình 5-3 S các l p x lý .................................................................................................52Hình 5-4 S Use-case tách t ............................................................................................53Hình 5-5 S tu n t tách t ...............................................................................................53Hình 5-6 S c ng tác tách t .............................................................................................54Hình 5-7 S l p tách t .....................................................................................................54Hình 5-8 S use-case l p ch m c .....................................................................................55Hình 5-9 S tu n t t o m i ch m c ................................................................................56Hình 5-10 S tu n t c p nh t ch m c ............................................................................57Hình 5-11 S c ng tác t o m i ch m c ............................................................................58Hình 5-12 S c ng tác c p nh t ch m c ...........................................................................59Hình 5-13 S l p l p ch m c ...........................................................................................60Hình 5-14 S use-case tìm ki m .......................................................................................61Hình 5-15 S tu n t tìm ki m..........................................................................................61Hình 5-16 S c ng tác tìm ki m .......................................................................................62Hình 5-17 S l p tìm ki m ...............................................................................................63Hình 6-1 S l p tách t .....................................................................................................83Hình 6-2 L p tách t ghép.....................................................................................................83
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 9 Nguy n Trung Hi u - 0112216
Hình 6-3 L p tách t .............................................................................................................86Hình 6-4 L p giao di n tách t ..............................................................................................89Hình 6-5 Màn hình tách t .....................................................................................................89Hình 6-6 Màn hình chi ti t tách t .........................................................................................90Hình 6-7 S l p l p ch m c .............................................................................................91Hình 6-8 L p l p ch m c......................................................................................................92Hình 6-9 L p giao di n t o m i ch m c................................................................................94Hình 6-10 Màn hình t o m i ch m c ....................................................................................95Hình 6-11 L p Màn hình c p nh t ch m c............................................................................96Hình 6-12 Màn hình c p nh t ch m c ...................................................................................97Hình 6-13 S l p tìm ki m ...............................................................................................98Hình 6-14 L p x lý tìm ki m ...............................................................................................99Hình 6-15 L p giao di n tìm ki m.......................................................................................105Hình 6-16 Màn hình tìm ki m .............................................................................................106Hình 6-17 Xem t khóa câu h i...........................................................................................106Hình 6-18 Xem t khóa tài li u ...........................................................................................107Hình 6-19 Màn hình chính...................................................................................................109Hình 6-20 Màn hình tìm ki m nhi u câu h i........................................................................110Hình 6-21 Giao di n tìm ki m trên Web ..............................................................................112Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m ......................................................113Hình 6-23 Giao di n chi ti t n i dung c a tài li u ................................................................114
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u - 0112216
U
Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máy
tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u i
i m i ng i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng
mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công c
tìm ki m (search engine) t t. Các h th ng tìm ki m thông tin thông d ng nh Google,
Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các h
th ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a
th t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t công c tìm
ki m “hi u” và x lý t t các v n b n tí ng Vi t.
Các h tìm ki m thông tin u ph i th c hi n giai n l p ch m c (indexing)
cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v n
n. Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ng
ngôn ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li u
ti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c.
Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thông
tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xác
nh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 11 Nguy n Trung Hi u - 0112216
Ph n 1 : TÌM HI U LÝ THUY T
Ch ng 1: NG QUAN V TÌM KI M THÔNG TIN
1. Gi i thi u v tìm ki m thông tin
1.1 Khái ni m v tìm ki m thông tin
Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà
ng i tìm ki m quan tâm.
1.2 t s v n trong vi c tìm ki m thông tin:
t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thông
tin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki m
chính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra i c a máy tính, r t
nhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh và
chính xác. Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t.
nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n. Gi s
có m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u
a mình. Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quan
và b i các tài li u không liên quan. Rõ ràng gi i pháp này không th c t b i vì t n r t
nhi u th i gian.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 12 Nguy n Trung Hi u - 0112216
i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho con
ng i trích ra các tài li u có liên quan trong toàn b t p d li u. Tuy nhiên v n
lúc này là làm sao xác nh c tài li u nào liên quan n câu h i. M c ích c a
t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quan
n yêu c u.
2. tìm ki m thông tin – IRS
Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1]
Salton (1989):
“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v
thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v
thông tin. Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a các
thông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c a
các thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.”
Kowalski (1997) :
“H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và
duy trì thông tin. Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình
nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”
Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ng i
d ng tìm ki m thông tin m t cách nhanh chóng và d dàng. Ng i s d ng có
th a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm
ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 13 Nguy n Trung Hi u - 0112216
tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n và
tr v cho ng i s d ng.
3. Các thành ph n c a m t h tìm ki m thông tin [1.1]
m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u
(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR)
xác nh các tài li u áp ng cho các yêu c u.
Hình 1-1 Môi tr ng c a h tìm ki m thông tin
Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m t
cách tr c ti p. Nh ng trên th c t thì u này không th c vì các câu h i và các t p
tài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên h
gi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh con
ng i c. Chính vì th xác nh c m i liên h gi a các câu h i và các t p tài
li u ph i qua m t b c trung gian.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 14 Nguy n Trung Hi u - 0112216
Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin
Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n i
dung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trong
các t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t
a câu h i và các t ch m c c a t p tài li u. Và t ó ta s d dàng h n xác nh
t ng quan gi a các câu h i và t p tài li u.
4. So sánh IRS v i các h th ng thông tin khác
th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tin
khác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u
(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i
(QAS) và h tìm ki m thông tin (IR).
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 15 Nguy n Trung Hi u - 0112216
4.1 qu n tr c s d li u (DBMS)
t c h th ng thông tin t ng nào c ng d a trên m t t p các m c c l u
tr (g i là s d li u) c n thi t cho vi c truy c p. Do ó h qu n tr c s d li u
n gi n là m t h th ng c thi t k nh m thao tác và duy trì u khi n c s d
li u.
DBMS t ch c l u tr các d li u c a mình d i d ng các b ng. M i m t c s
li u c l u tr thành nhi u b ng khác nhau. M i m t c t trong b ng là m t thu c
tính, và m i m t dòng là m t b d li u c th . Trong m i m t b ng có m t thu c tính
duy nh t i di n cho b ng, nó không c trùng l p và ta g i ó là khoá chính. Các
ng có m i liên h v i nhau thông qua các khoá ngo i. DBMS có m t t p các l nh
tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n n
CSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng c l i nó s cung c p
cho ta các d li u y và hoàn toàn chính xác. Hi n nay DBMS c s d ng r ng
rãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle.
4.2 qu n lý thông tin (IMS)
qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c
nh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u
ki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c v
cho vi c qu n lý thì ta g i nó là h qu n lý thông tin.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 16 Nguy n Trung Hi u - 0112216
4.3 h tr ra quy t nh (DSS)
h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h c
rút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t a
ra nh ng quy t nh thay cho con ng i.
th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óan
nh.
4.4 tr l i câu h i (QAS)
tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng t
nhiên. Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liên
quan n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng i dùng có
th d ng ngôn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truy
n c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liên
quan l i a ra câu tr l i thích h p.
Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác nh ý ngh a
a ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi h
th ng này.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 17 Nguy n Trung Hi u - 0112216
4.5 So sánh IRS v i các h th ng thông tin khác
IRS DBMS QAS MIS
Tìm ki m
i dung
trong các tài
li u.
Các ph n t
có ki u d
li u ã c
nh ngh a.
Các s ki n
rõ ràng.
u tr
Các v n b n
ngôn ng t
nhiên.
Các ph n t
li u
ng b ng.
Các s ki n
rõ ràng và các
ki n th c
ng quát.
lý
Các câu truy
n không
chính xác.
Các câu truy
n có c u
trúc.
Các câu truy
n không
gi i h n.
Gi ng DBMS
nh ng h tr
thêm nh ng
th t c( Tính
ng, tính
trung bình,
phép chi u…)
ng 1-1 So sánh IRS v i các h th ng thông tin khác
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 18 Nguy n Trung Hi u - 0112216
Ch ng 2: XÂY D NG M T H TH NG TÌM KI M
THÔNG TIN
1. Ki n trúc c a h tìm ki m thông tin. [1.3]
t h th ng thông tin tiêu bi u nh sau:
Hình 2-1 H tìm ki m thông tin tiêu bi u
th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n
n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 19 Nguy n Trung Hi u - 0112216
(1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n
n thu th p c thành các t riêng bi t. T ng t , khi ng i dùng nh p câu truy v n
thì câu truy v n c ng c phân tích thành các t riêng bi t.
(2) ph n l p ch m c : các t trích c t các v n b n thu th p c s
c b ph n này l a ch n làm các t ch m c. Các t ch m c ph i là các t th
hi n c n i dung c a v n b n.
(3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câu
truy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li u
liên quan n câu truy v n. M i tài li u có m t t ng quan v i câu h i. Các tài li u
này s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng.
2. t s mô hình xây d ng m t h tìm ki m thông tin [1.2]
c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liên
quan n câu h i càng t t. Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh m
tính toán m t cách chính xác t ng quan này. Sau ây là m t s mô hình tìm ki m
b n:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ng
cách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu
i [ Salton, 1875]. Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì ph
thu c vào các t c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó s
c tính toán xác nh t ng quan gi a chúng. t ng quan càng l n ch ng
tài li u ó càng liên quan n câu h i.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 20 Nguy n Trung Hi u - 0112216
Gi s m t t p tài li u ch g m có hai t là t1 và t2. Vector xây d ng c s
m có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph n
th hai bi u di n cho s xu t hi n c a t2. Cách n gi n nh t xây d ng vector là
ánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó không xu t
hi n. Gi s tài li u ch g m có 2 t t1. Ta bi u di n cho tài li u này b i vector nh
phân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu t
hi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c bi u di n nh
sau: <2,0>
i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i
p các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chính
là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t t
phân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch o
(Inverse Document Frequency) liên quan n các t c cho:
n: s t phân bi t trong t p tài li u
tfij : s l n xu t hi n c a t tj trong tài li u Di (t n s )
dfj : s tài li u có ch a t tj
idfj = 10logj
ddf
trong ó d là t ng s tài li u
Vector c xây d ng cho m i tài li u g m có n thành ph n, m i thành ph n là
giá tr tr ng s ã c tính toán cho m i t trong t p tài li u. Các t trong tài li u
c gán tr ng s t ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s
xu t hi n c a m i t trong m t tài li u riêng bi t. Tr ng s c a m t t t ng n u t ó
xu t hi n th ng xuyên trong m t tài li u và gi m n u t ó xu t hi n th ng xuyên
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 21 Nguy n Trung Hi u - 0112216
trong t t c các tài li u. tính tr ng s c a t th tj trong tài li u Di, d a vào công
th c:
dij = tfij * idfj
dij : là tr ng s c a t tj trong tài li u Di
i v i h th ng tìm ki m thông tin theo mô hình vector, m i tài li u là m t
vector có d ng : Di(di1, di2 , …, din ) . T ng t , câu truy v n Q c ng là m t vector có
ng : Q(wq1, wq2, …, wqn)
wqj : là tr ng s c a t tj trong câu truy v n Q.
t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u Di
c tính nh sau:
SC(Q,Di) = ij1
w *n
qjj
d=
∑
2.2 Tìm ki m Boolean
Mô hình tìm ki m Boolean khá n gi n. Câu h i a vào ph i d ng bi u th c
Boolean. Ngh a là ph i th a:
Ø Ng ngh a rõ ràng
Ø Hình th c ng n g n
Do các t ho c xu t hi n ho c là không xu t hi n, nên tr ng s wij ε {0,1}
Gi s a vào m t câu h i d ng bi u th c Boolean nh sau: t1 and t2. Sau khi tìm
ki m ta xác nh c các tài li u liên quan n t1 là { d1, d3, d5} và các tài li u liên
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 22 Nguy n Trung Hi u - 0112216
quan n t2 là {d3, d5, d7}. Nh v y v i phép and, các tài li u th a yêu c u c a ng i
dùng là {d3, d5}. Ph ng pháp này có m t s khuy t m nh sau:
Ø Các tài li u tr v không c s p x p (ranking)
Ø Câu h i tìm ki m òi h i ph i úng nh d ng c a bi u th c Boolean gây
khó kh n cho ng i dùng
Ø t qu tr v có th là quá ít ho c quá nhi u tài li u
2.3 Tìm ki m Boolean m r ng
Mô hình tìm ki m Boolean không h tr vi c s p x p k t qu tr v b i vì các
tài li u ho c th a ho c không th a yêu c u Boolean. T t c các tài li u th a mãn u
c tr v , nh ng không có s c l ng nào c tính toán cho s liên quan c a
chúng i v i câu h i.
Mô hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking)
t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i và
trong tài li u. Gi s m t câu h i yêu c u (t1 OR t2) và m t tài li u D có ch a t1 v i
tr ng s w1 và t2 v i tr ng s w2 . N u w1 và w2 u b ng 1 thì tài li u nào có ch a c
hai t này s có th t s p x p cao nh t. Tài li u nào không ch a m t trong hai t này
có th t s p x p th p nh t. Ý t ng n gi n là tính kho ng cách Eclide t m
(w1, w2) t i g c:
SC(Q,Di) = 2 21 2(w ) (w )+
i tr ng s 0.5 và 0.5, SC(Q,Di) = 2 2(0.5) (0.5)+ =0.707
SC cao nh t n u w1 và w2 u b ng 1. Khi ó:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 23 Nguy n Trung Hi u - 0112216
SC(Q,Di) = 2 = 1.414
a SC vào kho ng [0,1], SC c tính nh sau:
SC( Q t1 v t2 , di) =2 2
1 2(w ) (w )2+
Công th c này gi s là câu h i ch có toán t OR . i v i toán t AND, thay
vì tính kho ng cách t i g c, ta s tính kho ng cách n m (1,1). Câu h i nào càng
n n m (1,1) thì nó càng tho yêu c u c a toán t AND:
SC(Q t1 ^ t2, di) = 1-2 2
1 2(1-w ) (1 w )2
+ −
2.4 r ng trong vi c thêm vào tr ng s c a câu h i
u câu h i có tr ng s là q1 và q2 thì t ng quan s c tính nh sau:
SC(Q q1 v q2, di) =2 2 2 21 1 2 2
2 21 2
q w q w
q q
+
+
SC(Q q1 ^ q2, di) = 1- (2 2 2 21 1 2 2
2 21 2
q (1-w ) (1 )q w
q q
+ −
+)
2.4.1 r ng cho s t tu ý
tính kho ng cách Euclide trong không gian a chi u, tham s p c s
ng. Tham s p ch s bi n i t m quan tr ng c a tr ng s trong vi c ánh giá
thích h p.
t ng quan SC t ng quát nh sau:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 24 Nguy n Trung Hi u - 0112216
SC(D, Q ( q i v q j ) ) =
1p p p p pi i j j
p pi j
q wq q
q w +
+
SC(D, Q ( q i ^ q j ) ) = 1 -
1p p p p pi i j j
p pi j
q (1-w ) q (1 w )q q
+ −
+
u p → ∞ : chuy n v h th ng Boolean thông th ng (không có tr ng s )
u p = 1 : chuy n v h th ng không gian vector
2.4.2 Thêm toán t t ng
Các chi n l c tìm ki m không òi h i ng i dùng nh n bi t các toán t ph c
p. Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán t
OR vào gi a các t . B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s p
th t v i m t s m l n h n 0.
2.5 Mô hình xác su t
Mô hình tìm ki m xác su t tính toán t ng quan gi a câu h i và tài li u d a
vào xác su t mà tài li u ó liên quan n câu h i. Các lý thuy t v xác su t c áp
ng tính toán liên quan gi a câu h i và tài li u. Các t trong câu h i c xem
là u m i xác nh tài li u liên quan. Ý t ng chính là tính xác su t c a m i t
trong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu
i.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 25 Nguy n Trung Hi u - 0112216
2.6 ánh giá chung v các mô hình
Ø Mô hình Boolean c xem là mô hình y u nh t trong các mô hình b i vì
nh ã trình bày nó còn r t nhi u khuy t m.
Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mô hình vector
làm t t h n mô hình xác su t.
Lu n v n c a chúng em s d ng mô hình không gian vector xây d ng m t
th ng tìm ki m thông tin ti ng Vi t.
3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]
3.1 Tách t t ng cho t p các tài li u
i v i ti ng Anh, ta tách t d a vào kho ng tr ng. Tuy nhiên i v i ti ng
Vi t, giai n này t ng i khó kh n. C u trúc ti ng Vi t r t ph c t p, không ch n
thu n d a vào kho ng tr ng tách t . Hi n nay có r t nhi u công c dùng tách t
ti ng Vi t, m i ph ng pháp có u, khuy t m riêng. Các ph ng pháp này s c
trình bày chi ti t h n ch ng III : Tách t t ng.
3.2 p ch m c cho tài li u
Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c.
Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c. Các t có kh n ng i
di n cho tài li u s c ch n, các t này c g i là key word, do ó tr c khi l p ch
c s là giai n ti n x lý i v i các t trích c ch n ra các key word thích
p. Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 26 Nguy n Trung Hi u - 0112216
vào danh sách g i là stop list. i v i ti ng Anh hay ti ng Vi t u có danh sách stop
list. Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.
3.3 Tìm ki m
Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vào
ng s c x lý, ngh a là ta s tách t cho câu h i. Ph ng pháp tách t cho câu h i
ng nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ng
thích. Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liên
quan n câu h i c a ng i dùng.
3.4 p x p các tài li u tr v (Ranking)
Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s c
p x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi u
n. H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi u
nh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.
4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m
thông tin ti ng Vi t
Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki m
thông tin nh Google, Yahoo Search, AltaVista, …. Tuy nhiên, ây là các công c c a
ng i n c ngoài nên chúng ch gi i quy t t t i v i các yêu c u c a h . Chúng ta
ng có m t s công c h tr tìm ki m thông tin ti ng Vi t nh : Vinaseek,
NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìm
ki m c ng ch a c c i thi n. Nhìn chung, xây d ng m t h th ng tìm ki m thông
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 27 Nguy n Trung Hi u - 0112216
tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mã
ti ng Vi t.
4.1 Khó kh n trong vi c tách t ti ng Vi t
Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki m
thông tin ti ng Vi t. i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ng
tr ng tách t . Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student.
Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng. T có
th c ghép t m t hay nhi u ti ng. T ph i có ý ngh a hoàn ch nh và có c u t o n
nh. Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên. Trong
ó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.
Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t. Tuy
nhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t c
chính xác 100%. Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n
tranh cãi.
4.2 n b ng mã ti ng Vi t
Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý. M t
công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ng
mã (VNI, TCVN3, ViQR,…).
4.3 Các khó kh n khác
Ø Ti ng Vi t có các t ng ngh a nh ng khác âm. Các công c hi n nay không
tr vi c xác nh các t ng ngh a. Vì v y, k t qu tr v s không y .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 28 Nguy n Trung Hi u - 0112216
Ø Ng c l i, có nh ng t ng âm khác ngh a. Các h th ng s tr v các tài li u
có ch a các t ã c tách trong câu h i mà không c n xác nh chúng có th c
liên quan hay không. Vì v y, k t qu tr v s không chính xác.
Ø t s t xu t hi n r t nhi u nh ng không có ý ngh a trong tài li u. Các t nh :
và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào. N u tìm
cách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không
n thi t. Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 29 Nguy n Trung Hi u - 0112216
Ch ng 3: TÁCH T T NG
Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quan
tr ng trong m t h th ng tìm ki m thông tin. i v i ti ng Anh ch n gi n d a vào
kho ng tr ng tách t . Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng
c vì ti ng Vi t là ngôn ng n l p.
Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t,
nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t. Ch ng này s trình bày chi
ti t v m t s ph ng pháp tách t .
1. Tách t trong Ti ng Anh
Do c m ng pháp c a ti ng Anh, tách t ch n gi n d a vào kho ng
tr ng phân bi t t .
2. Tách t trong Ti ng Vi t
2.1 t s c m chính v t ti ng Vi t [2.2]
2.1.1 Ti ng
m t ng âm, ti ng là âm ti t. Âm ti t bao g m nh ng n v b c th p h n g i
là âm v . M i âm v c ghi b ng m t ký t g i là ch .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 30 Nguy n Trung Hi u - 0112216
m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ng
không có ngh a.
giá tr ng pháp, ti ng là n v c u t o t . S d ng ti ng t o thành t , ta có
hai tr ng h p nh sau:
Ø m t ti ng: g i là t n. Tr ng h p này m t t ch có m t ti ng. Ví d nh :
ông, bà, …
Ø hai ti ng tr lên: g i là t ph c. Tr ng h p này m t t có th có hai hay
nhi u ti ng tr lên. Ví d nh : xã h i, an ninh, h p tác xã,…
2.1.2
là n v nh nh t t o thành câu. Trong t câu, chúng ta dùng t ch
không dùng ti ng.
2.2 Tách t t ng ti ng Vi t
Tách t t ng ti ng Vi t d a trên m t s ph ng pháp có s n. Sau ây chúng
ta s nghiên c u m t s ph ng pháp c s d ng tách t cho các v n b n ti ng
Vi t.
3. Các ph ng pháp tách t ti ng Vi t
3.1 fnTBL (Fast Transformation-based learning) [3.1]
3.1.1 Mô t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 31 Nguy n Trung Hi u - 0112216
Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy t
t v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào cho
t qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra. Thu t toán k t
thúc khi không còn phép bi n i nào c ch n. H th ng fnTBL g m hai t p tin
chính:
Ø p tin d li u h c (Training): T p tin d li u h c c làm th công, òi h i
chính xác. M i m u (template) c t trên m t dòng riêng bi t. Ví d : t p
li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nh
sau:
Công ty danhtu
An ông danhturieng
dongtu
giám sát dongtu
Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n th
hai là t lo i t ng ng.
Ø p tin ch a các m u lu t (rule-template): M i lu t c t trên m t dòng, h
th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c. Ví d :
chunk_-2 chunk_-1 => chunk
Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , chunk_-
1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là
ng t và s t thì chuy n t lo i hi n hành thành danh t .
3.1.2 Áp d ng tách t ti ng Vi t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 32 Nguy n Trung Hi u - 0112216
Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng pháp
này tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.
Ø Xây d ng t p tin d li u h c: p tin d li u cho vi c tách t ti ng Vi t có d ng
nh sau:
Vì B
sao B
công B
ty I
Vi t B
Hà I
B
t B
vào B
tình B
tr ng I
….
Các ký t B, I g i là các chunk và có ý ngh a nh sau:
Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin)
Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)
Trong ví d trên, ta có c các t : Vì, sao, công ty, Vi t Hà, b , t, vào, tình
tr ng, …
Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,
chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau:
chunk_0 word_0 => chunk
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 33 Nguy n Trung Hi u - 0112216
chunk_0 word_-1 word_0 => chunk
chunk_0 word_0 word_1 => chunk
3.1.2.1 Quá trình h c
(1) T t p d li u h c xây d ng t n các t
(2) Kh i t o các t
(3) Rút ra t p lu t
b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta s
có t n các ti ng (Lexicon). Các ti ng có th xu t hi n trong các t v i các chunk
khác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng.
Ví d , i v i t “công ty” thì ti ng “công” có chunk=B nh ng trong t “c a công” thì
ti ng công có chunk=I.
b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cách
xóa h t các chunk t ng ng. T p d li u m i này s c s d ng kh i t o l i các
chunk thông d ng nh t d a vào t n.
b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m u
lu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ng
vào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v i
p d li u h c là t p d li u chu n). Ch n lu t có m cao nh t và l n h n m t
ng ng cho tr c a vào danh sách lu t c ch n.
t qu ta s c m t t p các lu t c ch n. Các lu t có d ng nh sau:
SCORE:414 RULE: chunk_0=B word_0=t => chunk=I
SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 34 Nguy n Trung Hi u - 0112216
SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I
SCORE:231 RULE: chunk_0=B word_0= ng => chunk=I
SCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I
SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I
SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I
SCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=I
SCORE:100 RULE: chunk_0=B word_0=th => chunk=I
dòng 2 ta có lu t: n u t hi n hành là “công” (word_0=công) và t tr c ó là
“c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk
a t hi n hành là I , ngh a là “c a công” ph i là m t t .
Toàn b quá trình h c c mô t nh sau:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 35 Nguy n Trung Hi u - 0112216
Hình 3-1 Quá trình h c
3.1.2.2 Xác nh t cho tài li u m i
(1) Tài li u m i a vào ph i có nh d ng gi ng nh t p tin d li u h c, ngh a
là m i ti ng trên m t dòng.
(2) D a vào t n, gán chunk thông d ng nh t cho các ti ng trong tài li u m i
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 36 Nguy n Trung Hi u - 0112216
(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s tách
c các t hoàn ch nh.
Giai n xác nh t cho tài li u m i c mô t nh sau:
Hình 3-2 Giai n xác nh t cho tài li u m i
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 37 Nguy n Trung Hi u - 0112216
3.2 Longest Matching [1.4]
Ph ng pháp Longest Matching tách t d a vào t n có s n.
Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t có
nhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h t
câu. V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| mua
bán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này s
tách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”,
“tr c | bàn là | m t | ly| n c”,…
3.3 t h p gi a fnTBL và Longest Matching
Chúng ta có th k t h p gi a hai ph ng pháp fnTBL và Longest Matching
có c k t qu tách t t t nh t. u tiên ta s tách t b ng Longest Matching, u ra
a ph ng pháp này s là u vào cho ph ng pháp fnTBL h c lu t.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 38 Nguy n Trung Hi u - 0112216
Ch ng 4: P CH M C
1. Khái quát v h th ng l p ch m c
t cách t ng t c tìm ki m thông tin lên là t o ch m c cho các tài li u.
Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i,
ph i c p nh t l i t p tin ch m c. Nh ng i v i h th ng tìm ki m thông tin, ch c n
p nh t l i t p tin ch m c vào m t kho ng th i gian nh k . Do ó, ch m c là m t
công c r t có giá tr .
p ch m c bao g m các công vi c sau:
Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u
Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a t
trong m t tài li u.
2. Ph ng pháp l p ch m c [1.1]
2.1 Xác nh các t ch m c
Ø Cho m t t p g m có n tài li u. V i m i tài li u, tính t n s c a m i t
riêng bi t trong tài li u ó. G i FREQik: là t n s xu t hi n c a t k trong tài li u i.
Ø Xác nh t n s c a t k trong t p tài li u, ký hi u là TOTFREQk b ng
cách tính t ng t n s xu t hi n c a k trong t t c n tài li u:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 39 Nguy n Trung Hi u - 0112216
TOTFREQK = ik1
FREQn
i=∑
Ø p x p các t gi m d n d a vào t n s xu t hi n c a nó trong t p tài
li u. Xác nh giá tr ng ng cao và lo i b t t c các t có t n s xu t hi n l n h n giá
tr này.
Ø ng t , lo i b các t có t n s th p . Ngh a là, xác nh ng ng th p
và lo i b t t c các t có t n s xu t hi n nh h n giá tr này. u này s lo i b các
ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng
n vi c th c hi n truy v n.
Ø Các t có t n s xu t hi n trung bình còn l i s c s d ng làm t ch
c.
Hình 4-1 Các t c s p theo th t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 40 Nguy n Trung Hi u - 0112216
2.2 Các ph ng pháp tính tr ng s c a t
Tr ng s c a m t t ph n ánh t m quan tr ng c a t ó trong tài li u. Ý t ng
chính là m t t xu t hi n th ng xuyên trong t t c các tài li u thì ít quan tr ng h n là
ch xu t hi n t p trung trong m t s tài li u.
2.2.1 n s tài li u ngh ch o
ây là ph ng pháp tính tr ng s mà mô hình không gian vector ã s d ng
tính tr ng s c a t trong tài li u.
n: s t phân bi t trong t p tài li u
FREQik : s l n xu t hi n c a t k trong tài li u Di (t n s t )
DOCFREQk : s tài li u có ch a t k
Khi ó, tr ng s c a t k trong tài li u Di c tính nh sau:
WEIGHTik = FREQik * [log (n) – log (DOCFREQk)]
Tr ng s c a t k trong tài li u Di t ng n u t n s xu t hi n c a t k trong tài
li u i t ng và gi m n u t ng s tài li u có ch a t k t ng.
2.2.2 nhi u tín hi u (The Signal – Noise Ratio)
t quan m t ng t c xem xét ó là d a vào thông tin ánh giá t m
quan tr ng c a t . Trong th c t , n i dung thông tin c a m t n hay m t t có th
xác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho. Rõ ràng, xác su t
xu t hi n c a m t t càng cao thì thông tin mà nó ch a càng ít.
i dung thông tin c a m t t c xác nh nh sau:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 41 Nguy n Trung Hi u - 0112216
INFORMATION= - log2 p
trong ó p là xác su t xu t hi n c a t .
Ví d : n u t “vi tính” xu t hi n 1 l n sau 10.000 t , xác su t xu t hi n c a nó là
0.0001, khi ó thông tin c a nó s là:
INFORMATION = - log2 (0.0001) = 13.278
Ng c l i, t “s ” xu t hi n 1 l n sau 10 t , xác su t xu t hi n c a nó là 0.1, khi
ó thông tin c a nó s là:
INFORMATION = -log2 (0.1) = 3.223
u m t tài li u có ch a t t , m i t có xác su t xu t hi n là pk, thông tin trung
bình c a tài li u s là:
AVERAGE INFORMATION = - 21
logt
k kk
p p=
∑
Ta nh ngh a nhi u NOISEk c a t k trong t p g m n tài li u nh sau:
NOISEk = 21
logn
ik k
i k ik
FREQ TOTFREQTOTFREQ FREQ=
∑
nhi u thay i ngh ch o v i “s t p trung” c a m t t trong t p tài li u.
Ngh a là, m t t có s phân ph i u trong t t c các tài li u thì nhi u c a nó càng
n, ng c l i m t t ch t p trung trong m t s tài li u nào ó thì nhi u c a nó càng
nh .
Gi s , t k xu t hi n m t l n trong m i tài li u (FREQik=1), khi ó nhi u
a nó b ng:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 42 Nguy n Trung Hi u - 0112216
NOISEk = 21
1 log1
n
i
nn=
∑ = log2 n
Ng c l i, gi s t k ch xu t hi n trong m t tài li u, khi ó nhi u c a nó
ng:
NOISEk = 2logk k
k k
TOTFREQ TOTFREQTOTFREQ TOTFREQ
= 0
Hàm s ngh ch o c a nhi u, g i là signal, c tính nh sau:
SIGNALk = log2 (TOTFREQk) – NOISEk
Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và
SIGNALk:
WEIGHTik = FREQik * SIGNALk
2.2.3 Giá tr phân bi t t (The Term Discrimination Value)
t ch c n ng khác xác nh t m quan tr ng c a m t t là tính giá tr phân
bi t c a t ó. G i SIMILAR(Di, Dj) là t ng quan gi a c p tài li u Di, Dj. Khi ó,
t ng quan trung bình c a t p tài li u là:
AVGSIM= CONSTANT1 1#
( , )n n
i ji ji j
SIMILAR D D= =
∑ ∑
G i AVGSIMk là t ng quan trung bình c a t p tài li u khi b t k. Rõ ràng,
u t k xu t hi n th ng xuyên trong t p tài li u thì khi b t k, t ng quan trung
bình s gi m. Ng c l i, n u t k ch t p trung trong m t s tài li u, khi b t k,
ng quan trung bình s t ng lên.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 43 Nguy n Trung Hi u - 0112216
Giá tr phân bi t DISCVALUEk c a t k c tính nh sau:
DISCVALUEk = (AVGSIM)k – AVGSIM
Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và
DISCVALUEk:
WEIGHTik = FREQik * DISCVALUEk
2.3 p ch m c t ng cho tài li u ti ng Anh
t quá trình n gi n l p ch m c cho tài li u có th c mô t nh sau:
Ø Tr c h t, xác nh t t c các t t o thành tài li u. Trong ti ng Anh, ch
n gi n là tách t d a vào kho ng tr ng.
Ø Lo i b các t có t n s xu t hi n cao. Nh ng t này chi m kho ng 40-
50% các t , nh ã c p tr c ây, chúng có phân bi t kém do ó không th s
ng i di n cho n i dung c a tài li u. Trong ti ng Anh, các t này có kho ng 250
, do ó, n gi n có th l u chúng vào t n, g i là stop list.
Ø Sau khi lo i b các t có trong stop list, xác nh các t ch m c “t t”.
Tr c h t c n lo i b các h u t a v t g c, ví d các t nh : analysis,
analyzing, analyzer, analyzed, analysing có th chuy n v t g c là “analy.” T g c s
có t n s xu t hi n cao h n so v i các d ng thông th ng c a nó. N u s d ng t g c
làm ch m c, ta có th thu c nhi u tài li u có liên quan h n là s d ng t ban u
a nó.
i v i ti ng Anh, vi c lo i b h u t có th c th c hi n d dàng b ng cách
d ng danh sách các h u t có s n (Suffix List).
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 44 Nguy n Trung Hi u - 0112216
Sau khi có c danh sách các t g c, s d ng ph ng pháp d a vào t n s
(frequency – based) xác nh t m quan tr ng c a các t g c này. Chúng ta có th s
ng m t trong các ph ng pháp ã c c p trên nh : t n s tài li u ngh ch o
(inverse document frequency), nhi u tín hi u (SIGNALk), phân bi t t
(DISVALUEk).
Trong h th ng ch m c có tr ng s , tr ng s c a m t t c s d ng xác
nh t m quan tr ng c a t ó. M i tài li u c bi u di n là m t vector :
Di = (di1, di2, …, dit) trong ó dij là tr ng s c a t j trong tài li u Di.
Gi s có 1033 tài li u nói v y h c. Quá trình l p ch m c n gi n c th c
hi n nh sau ( trong ó ch lo i b h u t t n cùng là s):
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 45 Nguy n Trung Hi u - 0112216
Hình 4-2 Quá trình ch n t làm ch m c
3. p ch m c cho tài li u ti ng Vi t
p ch m c cho tài li u ti ng Vi t c ng t ng t nh cho ti ng Anh. Tuy nhiên
có vài m khác bi t sau:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 46 Nguy n Trung Hi u - 0112216
Ø Giai n tách t trong ti ng Anh ch n gi n d a vào kho ng tr ng,
còn ti ng Vi t là ngôn ng n l p, m t t có th có nhi u ti ng. u này ã c
p chi ti t ch ng 3 (Tách t ). Gi s sau giai n tách t , ta s thu c m t danh
sách các t riêng bi t.
Ø i v i ti ng Vi t, không ph i qua giai n lo i b h u t .
Nói chung, l p ch m c cho tài li u ti ng Vi t g m các b c sau:
Ø Xác nh các t riêng bi t trong tài li u
Ø Lo i b các t có t n s cao. ( Trong ti ng Vi t, c ng nh ti ng Anh, ta
có m t danh sách Stop List ch a nh ng t không th là n i dung c a v n b n nh : và,
i, nh ng, gì, sao, nào, …).
Ø Lo i b các t có tr ng s th p
Ø Các t thu c s c ch n làm các t ch m c
4. p tin ngh ch o tài li u
4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p
p tin tr c ti p (direct file) là t p tin mà chính các m c thông tin ã cung c p th
chính c a t p tin.
Ng c l i, t p tin ngh ch o (inverted file) c s p x p theo ch , m i ch
i bao g m m t t p các m c thông tin.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 47 Nguy n Trung Hi u - 0112216
Gi s có m t t p các tài li u, m i tài li u ch a danh sách các t . N u m t t
xu t hi n trong m t tài li u, ghi s 1. Ng c l i, ghi 0. Khi ó, t p tin tr c ti p và t p
tin ngh ch o s l u tr nh sau:
Tài li u 1 Tài li u 2 Tài li u 3
1 1 0 1
2 1 1 0
3 0 1 1
4 1 1 1
ng 4-1 Cách t p tin ngh ch o l u tr
1 2 3 4
Tài li u 1 1 1 0 1
Tài li u 2 0 1 1 1
Tài li u 3 1 0 1 1
ng 4-2 Cách t p tin tr c ti p l u tr
4.2 i sao s d ng t p tin ngh ch o l p ch m c
Trong h th ng tìm ki m thông tin, t p tin ngh ch o có ý ngh a r t l n, giúp
vi c truy c p n các m c thông tin c nhanh chóng. Gi s khi ng i dùng nh p
t câu truy v n, h th ng s tách thành 2 t là “t 1” và “t 2”. D a vào t p tin
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 48 Nguy n Trung Hi u - 0112216
ngh ch o, ta d dàng xác nh c các tài li u có liên quan n 2 t này tr v
cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch o là khi thêm m t
tài li u m i, t t c các t có liên quan n tài li u này u ph i c c p nh t l i. Ví d
khi thêm tài li u 4 có ch a 2 t “t 3” và “t 4” vào t p tin ngh ch o:
Tài li u 1 Tài li u 2 Tài li u 3 Tài li u 4
1 1 0 1 0
2 1 1 0 0
3 0 1 1 1
4 1 1 1 1
ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o
Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch o r t l n. Trong th c
, t p tin ngh ch o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong các h
th ng tìm ki m thông tin, ng i ta ch c p nh t l i t p tin t i m t kho ng th i gian nh
. Vì v y, t p tin ngh ch o v n c s d ng l p ch m c.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 49 Nguy n Trung Hi u - 0112216
Ph n 2 : PHÂN TÍCH VÀ THI T K
Ch ng 5: PHÂN TÍCH
1. UseCase h th ng
Hình 5-1 S Use-case c a h th ng
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 50 Nguy n Trung Hi u - 0112216
STT ACTOR Ý NGH A
1 Admin Qu n tr h th ng
2 User Ng i s d ng ch ng trình
3 Cac tai lieu Các tài li u ã c tách t
4 Cac tai lieu lien quan cau hoi Các tài li u tr v khi ng i s d ng nh pvào câu h i
5 p tin chi muc p tin ch a các t khóa cùng v i các tàili u ch a t khóa ó
ng 5-1 Danh sách các Actor
STT USECASE Ý NGH A
1 Tach tu Tách v n b n thành các t riêng bi t
2 Tao moi t p tin chi muc o m i m t t p tin ch m c
3 Cap nhat t p tin chi muc p nh t thêm các tài li u m i vào t p tinch m c có s n
4 Tim kiem Gõ vào t khóa và ch c n ng tìm ki m str v m t t p các tài li u liên quan
ng 5-2 Danh sách các UseCase
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 51 Nguy n Trung Hi u - 0112216
2. L p
2.1 các l p th hi n
Hình 5-2 S các l p th hi n
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 52 Nguy n Trung Hi u - 0112216
2.2 các l p x lý
Hình 5-3 S các l p x lý
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 53 Nguy n Trung Hi u - 0112216
3. Tách t
3.1 UseCase
Hình 5-4 S Use-case tách t
3.2 Tu n t
Hình 5-5 S tu n t tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 54 Nguy n Trung Hi u - 0112216
3.3 C ng tác
Hình 5-6 S c ng tác tách t
3.4 L p
Hình 5-7 S l p tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 55 Nguy n Trung Hi u - 0112216
4. p ch m c
4.1 UseCase
Hình 5-8 S use-case l p ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 56 Nguy n Trung Hi u - 0112216
4.2 Tu n t
4.2.1 o m i ch m c
Hình 5-9 S tu n t t o m i ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 57 Nguy n Trung Hi u - 0112216
4.2.2 p nh t ch m c
Hình 5-10 S tu n t c p nh t ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 58 Nguy n Trung Hi u - 0112216
4.3 C ng tác
4.3.1 o m i ch m c
Hình 5-11 S c ng tác t o m i ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 59 Nguy n Trung Hi u - 0112216
4.3.2 p nh t ch m c
Hình 5-12 S c ng tác c p nh t ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 60 Nguy n Trung Hi u - 0112216
4.4 L p
Hình 5-13 S l p l p ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 61 Nguy n Trung Hi u - 0112216
5. Tìm ki m
5.1 UseCase
Hình 5-14 S use-case tìm ki m
5.2 Tu n t
Hình 5-15 S tu n t tìm ki m
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 62 Nguy n Trung Hi u - 0112216
5.3 C ng tác
Hình 5-16 S c ng tác tìm ki m
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 63 Nguy n Trung Hi u - 0112216
5.4 L p
Hình 5-17 S l p tìm ki m
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 64 Nguy n Trung Hi u - 0112216
Ch ng 6: THI T K VÀ CÀI T
Ø Ngôn ng l p trình : C#, ASP.NET
Ø Công c l p trình : Microsoft Visual Studio .NET
Ø u tr d li u : t p tin XML
Ø ng d ng : Xây d ng h th ng tìm ki m thông tin ti ng Vi t
th ng tìm ki m s c xây d ng theo mô hình không gian Vector.
Các tài li u ti ng Vi t và câu truy v n s c tách t theo ph ng pháp Longest
Matching.
1. u trúc l u tr d li u
t c t p tin v n b n, t p tin ch a các t ã c tách, t p tin ch m c o, t p
tin ch a các t không quan tr ng, t p tin l u tr t ng quan gi a câu truy v n và tài
li u … u c l u tr d i d ng Xml.
1.1 p tin l u n i dung tài li u
ây là t p tin Xml dùng l u n i dung c a các t p tin v n b n g c, m i t p tin
ch a kho ng 50 tài li u, có c u trúc c nh, trong ch ng trình nó c l u trong th
c “VanBanXML”.
1.1.1 u trúc DTD / XSD
• DTD
<!ELEMENT NEWSPAPERS (DOC*)>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 65 Nguy n Trung Hi u - 0112216
<!ELEMENT DOC (TITLE,AUTHOR,DATE,NEWS,CONTENT)>
<!ATTLIST DOC DOC_ID CDATA #REQUIRED>
<!ELEMENT TITLE (#PCDATA)>
<!ELEMENT AUTHOR (#PCDATA)>
<!ELEMENT DATE (#PCDATA)>
<!ELEMENT NEWS (#PCDATA)>
<!ELEMENT CONTENT (#PCDATA)>
• XSD
<?xml version='1.0'?>
<schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<ElementType name="TITLE" content="textOnly" dt:type="string"/>
<ElementType name="AUTHOR" content="textOnly" dt:type="string"/>
<ElementType name="DATE" content="textOnly" dt:type="string"/>
<ElementType name="NEWS" content="textOnly" dt:type="string"/>
<ElementType name="CONTENT" content="textOnly"
dt:type="string"/>
<AttributeType name="DOC_ID" dt:type="string"/>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 66 Nguy n Trung Hi u - 0112216
<ElementType name="DOC" content="eltOnly" order="seq">
<attribute type="DOC_ID"/>
<element type="TITLE"/>
<element type="AUTHOR"/>
<element type="DATE"/>
<element type="NEWS"/>
<element type="CONTENT"/>
</ElementType>
<ElementType name="NEWSPAPERS" content="eltOnly">
<element type="DOC" minOccurs="1" maxOccurs="*"/>
</ElementType>
</schema>
1.1.2 Tài li u XML
<NEWSPAPERS>
<DOC DOC_ID="1">
<TITLE>Thanh niên VN: ng l c cho nh ng t m nhìn m i</TITLE>
<AUTHOR>Tác gi : .Bình</AUTHOR>
<DATE>Ngày :01/12/2000</DATE>
<NEWS>Tên t báo : Tu i tr Th lo i : ,Trang : trang 1, 14</NEWS>
<CONTENT>Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn
i. (TT-Hà N i) - T i l khai m c Di n àn thanh niên (TN) VN v i ch
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 67 Nguy n Trung Hi u - 0112216
“S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN
VN ph i h p v i các c quan LHQ t i VN t ch c), ông Edouard Wattez,
u ph i viên th ng trú LHQ t i VN, TN VN có vai trò quan tr ng trong
quá trình m c a v i th gi i... . Bình.</CONTENT>
</DOC>
……
</NEWSPAPERS>
1.2 p tin sau khi tách t tài li u
ây là t p tin Xml l u các t tách c t các t p tin v n b n g c cùng v i các
ID tham chi u t i chúng. M i t p tin ch a các t c a 50 tài li u t ng ng trong t p tin
n b n g c, trong ch ng trình các t p tin này c l u th m c “TachTu”.
1.2.1 u trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)>
<!ELEMENT WORD (DOC+)>
<!ATTLIST WORD Name CDATA #REQUIRED>
<!ELEMENT DOC EMPTY>
<!ATTLIST DOC DOC_ID CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 68 Nguy n Trung Hi u - 0112216
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="DOC_ID" dt:type="string"/>
<AttributeType name="Name" dt:type="string"/>
<ElementType name="DOC" content="eltOnly">
<attribute type="DOC_ID"/>
</ElementType>
<ElementType name="WORD" content="eltOnly">
<attribute type="Name"/>
<element type="DOC" minOccurs="1" maxOccurs="*"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.2.2 Tài li u XML
<WORDS>
<WORD Name="thành l p">
<DOC DOC_ID="2051" />
<DOC DOC_ID="2063" />
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 69 Nguy n Trung Hi u - 0112216
<DOC DOC_ID="2091" />
</WORD>
<WORD Name="trung tâm">
<DOC DOC_ID="2091" />
<DOC DOC_ID="2092" />
<DOC DOC_ID="2099" />
</WORD>
<WORD Name=" ">
<DOC DOC_ID="2076" />
<DOC DOC_ID="2079" />
<DOC DOC_ID="2084" />
<DOC DOC_ID="2086" />
<DOC DOC_ID="2091" />
<DOC DOC_ID="2094" />
<DOC DOC_ID="2095" />
<DOC DOC_ID="2096" />
<DOC DOC_ID="2099" />
</WORD>
……
</WORDS>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 70 Nguy n Trung Hi u - 0112216
1.3 p tin ch a các t không th hi n n i dung c a v n b n (stop
list)
ây là t p tin Xml ch a các t không th hi n n i dung c a v n b n, g i là danh
sách StopList, trong ch ng trình t p tin này n m trong th m c “StopList”
1.3.1 u trúc DTD / XSD
• DTD
<!ELEMENT STOP_LIST (WORD*)>
<!ELEMENT WORD EMPTY>
<!ATTLIST WORD Name CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="Name" dt:type="string"/>
<ElementType name="WORD" content="eltOnly">
<attribute type="Name"/>
</ElementType>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 71 Nguy n Trung Hi u - 0112216
<ElementType name="STOP_LIST" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.3.2 Tài li u XML
<STOP_LIST>
<WORD Name=" i" />
<WORD Name=" ng" />
<WORD Name="và" />
<WORD Name="có" />
<WORD Name="nh ng" />
<WORD Name=" " />
<WORD Name=" i" />
</STOP_LIST>
1.4 p tin ch m c o ( Inverted ).
p tin ch m c o l u các t ch m c, m i t có các tham chi u n tài li u
ch a t ó kèm theo t n s , tr ng s c a t ó trong tài li u, trong ch ng trình t p tin
này c l u trong th m c “Inverted ”.
1.4.1 u trúc DTD / XSD
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 72 Nguy n Trung Hi u - 0112216
• DTD
<!ELEMENT Inverted_File (Term*)>
<!ELEMENT Term (DOC+)>
<!ATTLIST Term Name CDATA #REQUIRED>
<!ELEMENT DOC EMPTY>
<!ATTLIST DOC D CDATA #REQUIRED>
<!ATTLIST DOC F CDATA #REQUIRED>
<!ATTLIST DOC W CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="D" dt:type="string"/>
<AttributeType name="F" dt:type="int"/>
<AttributeType name="W" dt:type="fixed.14.4"/>
<AttributeType name="Name" dt:type="string"/>
<ElementType name="DOC" content="eltOnly">
<attribute type="D"/>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 73 Nguy n Trung Hi u - 0112216
<attribute type="F"/>
<attribute type="W"/>
</ElementType>
<ElementType name="Term" content="eltOnly">
<attribute type="Name"/>
<element type="DOC" minOccurs="1" maxOccurs="*"/>
</ElementType>
<ElementType name="Inverted_File" content="eltOnly">
<element type="Term" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.4.2 Tài li u XML
<Inverted_File>
<Term Name="nhân công">
<DOC D="378" F="1" W="2.5" />
<DOC D="879" F="3" W="7.49" />
<DOC D="1584" F="1" W="2.5" />
<DOC D="1627" F="1" W="2.5" />
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 74 Nguy n Trung Hi u - 0112216
<DOC D="1659" F="1" W="2.5" />
<DOC D="1708" F="1" W="2.5" />
<DOC D="2194" F="2" W="4.99" />
</Term>
<Term Name="gia truy n">
<DOC D="942" F="1" W="2.87" />
<DOC D="1670" F="1" W="2.87" />
<DOC D="2194" F="1" W="2.87" />
</Term>
……
</Inverted_File>
1.5 p tin sau khi tách t câu h i.
p tin này ch a các t tách c trong câu h i, trong ch ng trình nó c l u
trong th m c “CauHoi”
1.5.1 u trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)>
<!ELEMENT WORD EMPTY>
<!ATTLIST WORD Name CDATA #REQUIRED>
• XSD
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 75 Nguy n Trung Hi u - 0112216
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="Name" dt:type="string"/>
<ElementType name="WORD" content="eltOnly">
<attribute type="Name"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.5.2 Tài li u XML
<WORDS>
<WORD Name=" t n c" />
<WORD Name="và" />
<WORD Name="con ng i" />
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 76 Nguy n Trung Hi u - 0112216
<WORD Name="vi t nam" />
</WORDS>
1.6 p tin ch a các t c a câu h i sau khi lo i b các t trong
danh sách StopList
p tin này c l u trong th m c “CauHoi”, tên t p tin là
“CauHoiLoaiBoStopList.xml ”
1.6.1 u trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)>
<!ELEMENT WORD EMPTY>
<!ATTLIST WORD Name CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="Name" dt:type="string"/>
<ElementType name="WORD" content="eltOnly">
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 77 Nguy n Trung Hi u - 0112216
<attribute type="Name"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.6.2 Tài li u XML
<WORDS>
<WORD Name=" t n c" />
<WORD Name="con ng i" />
<WORD Name="vi t nam" />
</WORDS>
1.7 p tin ch a các t trong câu h i và các tài li u liên quan
p tin này ch a các t trong câu h i và các tham chi u n các tài li u ch a
các t này, kèm theo t n s , tr ng s c a m i t trong tài li u t ng ng, nó c l u
trong th m c “CauHoi” và tên t p tin là “CauHoiVaTaiLieu.xml”.
1.7.1 u trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)>
<!ELEMENT WORD (Doc)>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 78 Nguy n Trung Hi u - 0112216
<!ATTLIST WORD Name CDATA #REQUIRED>
<!ELEMENT Doc EMPTY>
<!ATTLIST Doc DOC_ID CDATA #REQUIRED>
<!ATTLIST Doc Frequence CDATA #REQUIRED>
<!ATTLIST Doc Weight CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="DOC_ID" dt:type="string"/>
<AttributeType name="Frequence" dt:type="int"/>
<AttributeType name="Weight" dt:type="fixed.14.4"/>
<AttributeType name="Name" dt:type="string"/>
<ElementType name="DOC" content="eltOnly">
<attribute type="DOC_ID"/>
<attribute type="Frequence"/>
<attribute type="Weight"/>
</ElementType>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 79 Nguy n Trung Hi u - 0112216
<ElementType name="WORD" content="eltOnly">
<attribute type="Name"/>
<element type="DOC" minOccurs="1" maxOccurs="*"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.7.2 Tài li u XML
<WORDS>
<WORD Name=" t n c">
<Doc DOC_ID="12" Frequence="2" Weight="2.48" />
<Doc DOC_ID="13" Frequence="1" Weight="1.24" />
<Doc DOC_ID="38" Frequence="1" Weight="1.24" />
<DOC DOC_ID="2446" Frequence="0" Weight="0" />
</WORD>
<WORD Name="con ng i">
<Doc DOC_ID="12" Frequence="2" Weight="3.48" />
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 80 Nguy n Trung Hi u - 0112216
<Doc DOC_ID="13" Frequence="0" Weight="0" />
<Doc DOC_ID="38" Frequence="0" Weight="0" />
<DOC DOC_ID="2446" Frequence="0" Weight="0" />
</WORD>
<WORD Name="vi t nam">
<Doc DOC_ID="12" Frequence="1" Weight="2.48" />
<Doc DOC_ID="13" Frequence="0" Weight="0" />
<Doc DOC_ID="38" Frequence="2" Weight="2.12" />
<DOC DOC_ID="2446" Frequence="1" Weight="1.25" />
</WORD>
</WORDS>
1.8 p tin ch a t ng quan gi a câu h i và các tài li u
p tin này ch a t t c các tài li u liên quan n câu h i, m i tài li u s có
ng quan t ng ng và s t trong câu h i mà tài li u ó ch a.
1.8.1 u trúc DTD / XSD
• DTD
<!ELEMENT CAU_HOI (Doc+)>
<!ATTLIST CAU_HOI Name CDATA #REQUIRED>
<!ELEMENT Doc EMPTY>
<!ATTLIST Doc DOC_ID CDATA #REQUIRED>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 81 Nguy n Trung Hi u - 0112216
<!ATTLIST Doc SIMILAR CDATA #REQUIRED>
<!ATTLIST Doc Words CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="DOC_ID" dt:type="string"/>
<AttributeType name="SIMILAR" dt:type="fixed.14.4"/>
<AttributeType name="Words" dt:type="int"/>
<AttributeType name="Name" dt:type="string"/>
<ElementType name="Doc" content="eltOnly">
<attribute type="DOC_ID"/>
<attribute type="SIMILAR"/>
<attribute type="Words"/>
</ElementType>
<ElementType name="CAU_HOI" content="eltOnly">
<attribute type="Name"/>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 82 Nguy n Trung Hi u - 0112216
<element type="Doc" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.8.2 Tài li u XML
<CAU_HOI Name=" t n c và con ng i Vi t Nam">
<Doc DOC_ID="12" SIMILAR="8.44" Words="3" />
<Doc DOC_ID="13" SIMILAR="1.24" Words="1" />
<Doc DOC_ID="38" SIMILAR="4.6" Words="2" />
<Doc DOC_ID="2446" SIMILAR="1.25" Words="1" />
</CAU_HOI>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 83 Nguy n Trung Hi u - 0112216
2. Chi ti t các l p i t ng
2.1 Các l p trong quá trình tách t
2.1.1 các l p
Hình 6-1 S l p tách t
2.1.2 p tách t ghép
Hình 6-2 L p tách t ghép
p tách t ghép s có nhi m v tách m t v n b n thành các t riêng bi t.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 84 Nguy n Trung Hi u - 0112216
u vào là m t chu i v n b n và u ra là m t chu i ch a các t , m i t s cách nhau
i d u xu ng dòng ( ‘\r\n’ ).
Ví d :
chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.”
chu i u ra = “Thanh niên\r\nVN\r\n ng l c\r\ncho\r\nnh ng\r\ný t ng\r\n
i\r\nt m nhìn\r\nm i\r\n”.
2.1.2.1 Ý ngh a c a các bi n thành ph n:
• ch : m ng các ký t c bi t (d u ch m, d u ph y, ch m than, ch m h i, hai
ch m,…) tách v n b n thành các c m t .
• hVietnamese : b ng b m l u t t c các t trong t n ti ng Vi t.
2.1.2.2 Các hàm chính :
- Hàm TachThanhCumTu( ) : tách chu i v n b n thành các c m t d a
vào các kí t c bi t nh : d u ch m, ph y, ch m h i, ch m than…
* Thu t toán :
void TachThanhCumTu (chu i v n b n)
{
while(g p t c bi t u tiên trong chu i v n b n)
{
// C t ph n u thành m t c m t .
// Gán chu i v n b n thành ph n sau.
}
}
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 85 Nguy n Trung Hi u - 0112216
Ví d :
chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.”
tr v ta s có 3 chu i c m t :
chu i 1 = “Thanh niên VN”
chu i 2 = “ ng l c cho nh ng ý t ng m i”
chu i 3 = “t m nhìn m i”
- Hàm TachMangTieng( ) : tách m t c m t thành t ng ti ng d a vào kh ang
tr ng.
* Thu t toán :
void TachMangTieng(c m t )
{
while(g p ký t kho ng tr ng u tiên trong c m t )
{
// C t ph n u thành m t ti ng.
// Gán c m t thành ph n sau.
}
}
Ví d :
chu i u vào = “ ng l c cho nh ng ý t ng m i” tr v là m ng chu i ch a các
ti ng = { ng”;”l c”;”cho” “nh ng”;”ý”;”t ng”;”m i”}
- Hàm XacDinhTu( ) : g p các ti ng l i thành t , so sánh trong t n ti ng
Vi t và ta s l u l i các t này vào m ng các t .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 86 Nguy n Trung Hi u - 0112216
* Thu t toán :
void XacDinhTu(m ng các ti ng)
{
B1 : gán t = ti ng u tiên.
B2 : so sánh t có trong t n hay không.
B3 : n u t có trong t n và có 2 ti ng tr lên thì ta s l u l i.
B4 : N u trong m ng ti ng v n còn thì t := t + ti ng ti p theo.
Ng c l i k t thúc hàm.
B5 : Quay l i B2
}
i các m ng ti ng c a ví d trên sau khi g i hàm này thì ta s có m ng các t
nh sau:
ng chu i các t ={” ng l c”;”cho” “nh ng”;”ý t ng”; ”m i”}
2.1.3 p tách t
Hình 6-3 L p tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 87 Nguy n Trung Hi u - 0112216
p tách t s có nhi m v t o t p tin v n b n Xml t t p tin v n b n g c, sau
ó s trích các t trong v n b n và cu i cùng l u l i các t trích c cùng v i các tài
li u ch a t ó thành t p tin Xml tách t .
2.1.3.1 Ý ngh a c a các bi n thành ph n:
• ttg : i t ng thu c l p CTachTuGhep
2.1.3.2 Các hàm chính :
- Hàm TaoXML( ) : chuy n m t t p tin v n b n có c u trúc thành t p tin XML
* Thu t toán :
void TaoXML (t p tin v n b n)
{
T o t p tin Xml l u l i n i dung t p tin v n b n.
// D ch con tr t p tin
while(ch a h t t p tin v n b n)
{
B1 : tìm t khóa DOC l y ph n giá tr .
B2 : tìm t khóa TITLE l y ph n giá tr .
B3 : tìm t khóa AUTHOR l y ph n giá tr .
B4 : tìm t khóa DATE l y ph n giá tr .
B5 : tìm t khóa NEW l y ph n giá tr .
B6 : tìm t khóa CONTENT l y ph n giá tr .
l u l i ph n giá tr vào t p tin Xml.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 88 Nguy n Trung Hi u - 0112216
}// ENDWHILE
}
- Hàm Tachtu( ) : c ph n n i dung c a t p tin XML v n b n và dùng i
ng thu c l p CTachTuGhep trích thành các t .
* Thu t toán :
string Tachtu (t p tin v n b n Xml)
{
- y ph n n i dung (CONTENT) trong t p tin Xml
- Dùng i t ng c a l p tách t ghép tách t .
- t qu tr v s là m t m ng ch a các t riêng bi t.
}
- Hàm KetQuaToXmlWord( ) : các t sau khi trích s c l u thành t p tin
XML m i g i là “t p tin sau khi tách t tài li u”
* Thu t toán :
void KetQuaToXmlWord(chu i ch a các t )
{
B1 : T o m t t p tin Xml
B2 : Tách ra t ng t trong chu i
B3 : Ki m tra t ó có l u trong t p tin Xml ch a ?
o u ch a : l u t ó và l u tài li u t ng ng
o u r i : ki m tra tài li u ó ã c l u trong t ó ch a.
u ch a ta m i l u tài li u ó.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 89 Nguy n Trung Hi u - 0112216
B4 : N u ch a h t chu i quay l i b c 2.
B5 : L u t p tin Xml l i.
}
2.1.4 p giao di n tách t
Hình 6-4 L p giao di n tách t
* Giao di n tách t :
Hình 6-5 Màn hình tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 90 Nguy n Trung Hi u - 0112216
- Ng i dùng có th ch n ng d n t i các t p tin v n b n c n tách t .
- ListBox1 ch a các t p tin v n b n trong ng d n ã ch n.
- ListBox2 ch a các t p tin v n b n c ch n tách t .
- ListBox3 ch a các t p tin xml ã c tách t .
- ListBox4 ch a các DocID trong t p tin xml ã c tách t . Vì m t t p tin v n b n
xml s ch a nhi u tài li u và m i tài li u s có 1 DocID. Ng i dùng có th ch n
DocID nào ó xem k t qu tách t và t n s c a m i t trong tài li u ó. Sau khi
ch n m t DocID s có giao di n nh sau :
Hình 6-6 Màn hình chi ti t tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 91 Nguy n Trung Hi u - 0112216
- Hàm x lý TachTu_Click( ) : hàm này s tách t t t c các t p tin c ch n trong
ListBox2.
2.2 Các l p trong quá trình l p ch m c
2.2.1 các l p
Hình 6-7 S l p l p ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 92 Nguy n Trung Hi u - 0112216
2.2.2 p l p ch m c
Hình 6-8 L p l p ch m c
u vào c a l p l p ch m c là các t p tin tài li u ã c tách t và u ra s là
p tin ch m c tài li u. Nó s làm nhi m v tính t n s , tr ng s c a t trong tài li u
sau ó s l u các thông tin này l i thành t p tin Xml ch m c tài li u.
2.2.2.1 Ý ngh a c a các bi n thành ph n :
• sl : i t ng thu c l p CstopList ki m tra t có n m trong danh
sách StopList hay không.
2.2.2.2 Các hàm chính :
- Hàm TinhTanSo( ) : tính s l n xu t hi n c a t trong tài li u.
* Thu t toán :
int TinhTanSo(string Tu, string MaTL)
{
- T mã tài li u xác nh c tên t p tin ch a n i dung c a tài
li u.
- Duy t t u n cu i v n b n ta tìm t khóa c n tìm, n u
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 93 Nguy n Trung Hi u - 0112216
tìm th y thì t ng bi n m lên m t n v .
- Tr v bi n m
}
- Hàm TinhTrongSo( ) : tính tr ng s c a t trong tài li u.
* Thu t toán :
double TinhTrongSo( int T ns )
{
return TanSo* log 10 (t ng s tài li u / s tài li u ch a t ó)
}
- Hàm ThemTaiLieuVaoInverted() : hàm này dùng c p nh t thêm t p
tin tài li u vào t p tin Inverted.
* Thu t toán :
void ThemTaiLieuVaoInverted( )
{
B1 : Duy t qua t ng t c a t p tin tài li u.
B2 : N u t ó có n m trong StopList thì quay l i B1.
B3 : Tính t n s c a t trong tài li u.
B3 : Ki m tra t ó có trong t p tin Inverted ch a ?
- N u ch a ta thêm t m i và thêm mã tài li u, t n s , tr ng s cho
ng 0.
- N u có r i ta ch c n thêm mã tài li u, t n s , tr ng s ( 0 ) vào
mà ta tìm th y trong t p tin Inverted.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 94 Nguy n Trung Hi u - 0112216
B4 : C p nh t l i tr ng s tòan b t p tin Inverted.
}
- Hàm CapNhatTrongSo() : Sau khi thêm tài li u m i vào tr ng s s
không còn chính xác n a nên ta ph i c p nh t l i tr ng s .
* Thu t toán :
void CapNhatTrongSo()
{
- Duy t qua t ng t trong t p tin Inverted.
- Tính s tài li u ch a t ó (s nút con c a nó)
- Tính t ng s tài li u.
- C p nh t l i thu c tính tr ng s (g i hàm TinhTrongSo)
}
2.2.3 p giao di n t o m i ch m c
Hình 6-9 L p giao di n t o m i ch m c
p này s có các i t ng h tr giao di n cho ng i s d ng l p ch m c,
o ra t p tin Inverted m i
2.2.3.1 Ý ngh a c a các bi n thành ph n :
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 95 Nguy n Trung Hi u - 0112216
• lcm : i t ng thu c l p l p ch m c.
2.2.3.2 Màn hình giao di n t o m i ch m c :
Hình 6-10 Màn hình t o m i ch m c
• txtDuongDan : ch a ng d n n các t p tin ã c tách t .
• btnDuongDan : ch n ng d n n các t p tin ã c tách t .
• ListBox1 : ch a các t p tin Xml trong ng d n c a txtDuongDan
• ListBox2 : ch a các t p tin Xml c ch n l p ch m c.
• btnLeft, btnRight : chuy n các t p tin qua l i gi a 2 ListBox
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 96 Nguy n Trung Hi u - 0112216
• chkSelectAll : ch n t t c các t p tin l p ch m c.
• chkRemoveAll : Lo i b t t c .
• btnThoat : tr l i Form chính.
• btnLapChiMuc : ch ng trình b t u l p ch m c.
- S ki n btnLapChiMuc_Click() : dùng i t ng lcm (c a l p l p ch m c)
l p ch m c cho t t c các t p tin trong ListBox2.
2.2.4 p giao di n c p nh t ch m c
Hình 6-11 L p Màn hình c p nh t ch m c
p MH_CapNhatChiMuc s làm nhi m v c p nh t các t p tin Xml ã c
tách t vào t p tin ã l p ch m c Inverted.
2.2.4.1 Ý ngh a c a các bi n thành ph n :
• lcm : i t ng thu c l p l p ch m c.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 97 Nguy n Trung Hi u - 0112216
2.2.4.2 Màn hình giao di n c p nh t ch m c :
Hình 6-12 Màn hình c p nh t ch m c
• txtDuongDan : ch a ng d n n các t p tin ã c tách t .
• btnDuongDan : ch n ng d n n các t p tin ã c tách t .
• ListBox1 : ch a các t p tin Xml trong ng d n c a txtDuongDan
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 98 Nguy n Trung Hi u - 0112216
• ListBox2 : ch a các t p tin Xml c ch n l p ch m c.
• ListBox3 : ch a các t p tin ã c l p ch m c.
• btnLeft, btnRight : chuy n các t p tin qua l i gi a ListBox1 và ListBox2
• chkSelectAll : ch n t t c các t p tin l p ch m c.
• chkRemoveAll : lo i b t t c .
• btnThoat : tr l i Form chính.
• btnCapNhat : ch ng trình b t u c p nh t ch m c.
- S ki n btnCapNhat_Click( ) : dùng i t ng lcm (c a l p l p ch m c)
p nh t ch m c cho t t c các t p tin trong ListBox2, các t p tin n u ã c
p ch m c r i thì ch ng trình t ng b qua.
2.3 Các l p trong quá trình tìm ki m
2.3.1 các l p
Hình 6-13 S l p tìm ki m
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 99 Nguy n Trung Hi u - 0112216
2.3.2 p tìm ki m
Hình 6-14 L p x lý tìm ki m
L p CTimKiem s có nhi m v tách t câu h i, lo i b các t trong danh sách
StopList, sau ó tìm các t khóa c a câu h i trong t p tin Inverted xác nh các tài
li u liên quan n câu h i, cu i cùng là tính t ng quan gi a các tài li u v i câu
i, s p x p t ng quan gi m d n và hi n th cho ng i s d ng.
2.3.2.1 Ý ngh a c a các bi n thành ph n:
• ttg : ây là i t ng c a l p tách t ghép dùng tách t câu h i.
• sl : ây là i t ng c a l p CstopList dùng ki m tra các t trong
câu h i có n m trong danh sách StopList không.
2.3.2.2 Các hàm chính :
- Hàm TachTuCauHoi( ) : hàm này nh m m c ích tách câu h i thành các t
riêng bi t. Ta dùng m t i t ng thu c l p CTachTuGhep tách t câu h i. K t qu
tr v là m t chu i ch a các t ã c tách ta s l u vào m t t p tin CauHoi.xml
trong th m c CauHoi.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 100 Nguy n Trung Hi u - 0112216
* Thu t toán :
void TachTuCauHoi(câu h i)
{
CTachTuGhep ttg = new CTachTuGhep
String str = ttg.TachTuGhep(câu h i)
L y t ng t trong chu i str a vào t p tin CauHoi.xml
}
Ví d : t p tin CauHoi.xml
<WORDS>
<WORD Name="tai n n" />
<WORD Name="giao thông" />
<WORD Name=" i" />
<WORD Name="tphcm" />
</WORDS>
- Hàm LoaiBoSLCauHoi( ) : hàm này nh m m c ích lo i b các t không
quan tr ng trong câu h i.
* Thu t toán :
void LoaiBoSLCauHoi()
{
- t p tin CauHoi.xml
- Duy t qua các t xem có n m trong StopList hay không ?
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 101 Nguy n Trung Hi u - 0112216
- u không a vào t p tin CauHoiLoaiBoSL.xml ( t p tin này c ng
m trong th m c CauHoi)
}
Ví d : t p tin CauHoiLoaiBoSL.xml
<WORDS>
<WORD Name="tai n n" />
<WORD Name="giao thông" />
<WORD Name="tphcm" />
</WORDS>
- Hàm ThemDocVaWeight( ) : hàm này nh m m c ích là tìm ki m trong t p
tin Inverted các tài li u liên quan n các t khóa c a câu h i.
* Thu t toán :
void ThemDocVaWeight()
{
- t p tin CauHoiLoaiBoST.xml và duy t qua t ng t .
- o t p tin CauHoiVaTaiLieu.xml
- i v i t ng t ta dùng công c XPath xác nh v trí t trong t p
tin Inverted
- a t khóa và các tài li u liên quan ( mã tài li u, t n s , tr ng s )
vào t p tin CauHoiVaTaiLieu.xml
}
Ví d : t p tin CauHoiVaTaiLieu.xml sau khi g i hàm ThemDocVaWeight
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 102 Nguy n Trung Hi u - 0112216
<WORDS>
<WORD Name="tai n n" />
<Doc DOC_ID="1" Frequence="2" Weight="3.63" />
</WORD>
<WORD Name="giao thông" />
<Doc DOC_ID="3" Frequence="1" Weight="1.32" />
</WORD>
<WORD Name="tphcm" />
<Doc DOC_ID="4" Frequence="1" Weight="1.08" />
</WORD>
</WORDS>
- Hàm BoSungCacDocThieu( ) : hàm này nh m m c ích b sung các tài li u
có trong t khóa này mà không có trong t khóa khác ( ph n t n s và tr ng s ta s
giá tr là 0 ).
Ví d : t p tin CauHoiVaTaiLieu.xml sau khi g i hàm BoSungCacDocThieu
<WORDS>
<WORD Name="tai n n" />
<Doc DOC_ID="1" Frequence="2" Weight="3.63" />
<DOC DOC_ID="3" Frequence="0" Weight="0" />
<DOC DOC_ID="4" Frequence="0" Weight="0" />
</WORD>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 103 Nguy n Trung Hi u - 0112216
<WORD Name="giao thông" />
<Doc DOC_ID="3" Frequence="1" Weight="1.32" />
<DOC DOC_ID="1" Frequence="0" Weight="0" />
<DOC DOC_ID="4" Frequence="0" Weight="0" />
</WORD>
<WORD Name="tphcm" />
<Doc DOC_ID="4" Frequence="1" Weight="1.08" />
<DOC DOC_ID="3" Frequence="0" Weight="0" />
<DOC DOC_ID="1" Frequence="0" Weight="0" />
</WORD>
</WORDS>
- Hàm TaoFileDoTuongQuan( ) : hàm này nh m m c ích t o ra t p tin
TuongQuan.xml ch a câu h i và các tài li u liên quan n câu h i kèm v i t ng
quan d a vào t p tin CauHoiVaTaiLieu.xml
Theo lý thuy t thì t ng quan gi a tài li u Di và câu h i Q s c tính theo
công th c :
SC(Q,Di) = ij1w *
n
qjj
d=
∑
i :
n : S t phân bi t trong t p tài li u.
dij : tr ng s c a t j trong tài li u di. (ta ã tính c tr c ó)
wqj : tr ng s c a t j trong câu truy v n Q. S có 2 giá tr nh sau :
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 104 Nguy n Trung Hi u - 0112216
wqj = 1 : N u t j có trong câu truy v n Q.
wqj = 0 : N u t j không có trong câu truy v n Q.
Th c ch t là ta ch c n c ng các t ng quan t ng t khóa c a câu h i là ta s có
ng quan c a câu h i v i tài li u.
Ví d : t p tin TuongQuan.xml sau khi g i hàm TaoFileDoTuongQuan
<CAU_HOI Name=”tai n n giao thông t i TPHCM”>
<Doc DOC_ID="1" SIMILAR="3.63" Words="1" />
<DOC DOC_ID="3" SIMILAR ="1.32" Words ="1" />
<DOC DOC_ID="4" SIMILAR ="1.08" Words ="1" />
</CAU_HOI>
- Hàm TinhDoTuongQuan( ) : hàm này nh m tính t ng quan gi a câu h i
và các tài li u có liên quan n nó. Trên th c t là ta g i 3 hàm v a nêu trên.
* Thu t toán :
void TinhDoTuongQuan()
{
ThemDocVaWeight();
BoSungCacDocThieu();
TaoFileDoTuongQuan();
}
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 105 Nguy n Trung Hi u - 0112216
2.3.3 p giao di n tìm ki m
Hình 6-15 L p giao di n tìm ki m
8.3.1. Ý ngh a c a các bi n thành ph n :
§ Term : m ng chu i ch a các t khóa c a câu h i.
§ DocID : m ng chu i ch a DocID liên quan n câu h i.
§ Sim : m ng s th c ch a các t ng quan c a câu h i v i các tài li u
(DocID t ng ng).
§Words : m ng s nguyên ch a s t c a câu h i có trong tài li u
(DocID t ng ng).
§ n : t ng s tài li u liên quan n câu h i.
§ tk : i t ng c a l p x lý tìm ki m.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 106 Nguy n Trung Hi u - 0112216
* Giao di n tìm ki m :
Hình 6-16 Màn hình tìm ki m
- Sau khi tìm ki m xong ng i s d ng có th xem t khóa c a câu h i. Ví d v i câu
i : an toàn giao thông t i Tp. HCM b n s có c t khóa nh sau :
Hình 6-17 Xem t khóa câu h i
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 107 Nguy n Trung Hi u - 0112216
- Xem t khóa c a tài li u : ngh a là khi ng i s d ng ch n m t tài li u nào ó và
ch n ch c n ng xem t khóa tài li u thì h s th y t khóa ó xu t hi n v i t n s bao
nhiêu và tr ng s t ng ng c a nó.
Hình 6-18 Xem t khóa tài li u
8.3.2. Các hàm chính c a l p :
- Hàm TimKiem_Click( ) : hàm này s dùng i t ng c a l p x lý tìm ki m
tách t câu h i r i tính t ng quan c a các tài li u v i câu h i
* Thu t toán :
void TimKiem_Click()
{
CtimKiem tk = new CtimKiem;
tk.TachTuCauHoi(câu h i)
tk.LoaiBoSLCauHoi(câu h i);
tk.TinhDoTuongQuan();
// Sau khi g i 3 hàm này ta s t o ra c t p tin TuongQuan.xml
c t p tin TuongQuan.xml ta a vào m ng các DocID, Sim, Words
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 108 Nguy n Trung Hi u - 0112216
SapXepUuTien();
HienThiTaiLieu();
}
- Hàm s p x p u tiên : dùng gi i thu t InterchangeSort s p x p tài li u nào
liên quan n câu h i nhi u nh t.
* Thu t toán :
void SapXepUuTien ()
{
// u tiên theo Words (s t c a câu h i trong tài li u)
// u tiên theo Sim ( t ng quan c a tài li u v i câu h i)
}
- Hàm hi n th tài li u : ta s hi n th tài li u lên Form cho ng i dùng xem.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 109 Nguy n Trung Hi u - 0112216
3. t s màn hình giao di n khác
3.1 Màn hình chính c a ch ng trình
Hình 6-19 Màn hình chính
Ch ng trình s có 6 ch c n ng :
• Tách t : tách t các tài li u.
• o m i ch m c : t o t p tin Inverted.
• p nh t ch m c : c p nh t thêm tài li u vào t p tin Inverted.
• Tìm ki m : gõ câu h i và nh n các tài li u tr v .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 110 Nguy n Trung Hi u - 0112216
• Thoát : thóat h th ng ch ng trình.
3.2 Màn hình tìm ki m nhi u câu h i
Hình 6-20 Màn hình tìm ki m nhi u câu h i
Các câu h i s c l u trong m t t p tin Xml và theo c u trúc.
Ví d t p tin CauHoi.xml sau :
<Cac_Cau_Hoi>
<Cau_Hoi ID="1">
<Noi_Dung>kinh t tri th c</Noi_Dung>
</Cau_Hoi>
<Cau_Hoi ID="2">
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 111 Nguy n Trung Hi u - 0112216
<Noi_Dung> án tham nh ng l n</Noi_Dung>
</Cau_Hoi>
</Cac_Cau_Hoi>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 112 Nguy n Trung Hi u - 0112216
3.3 Màn hình tìm ki m chính ( giao di n Web)
Hình 6-21 Giao di n tìm ki m trên Web
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 113 Nguy n Trung Hi u - 0112216
3.4 Màn hình tr v các tài li u tìm c ( giao di n Web)
Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 114 Nguy n Trung Hi u - 0112216
3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)
`
Hình 6-23 Giao di n chi ti t n i dung c a tài li u
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 115 Nguy n Trung Hi u - 0112216
Ph n 3 : NG K T
1. Ch ng trình th nghi m
th ng tìm ki m thông tin ti ng Vi t (Search4VN) c cài t trên máy có
u hình : Pentium IV, CPU 2.0 Ghz, b nh Ram 256 MB, a c ng 40 GB, s tài
li u c l p ch m c là 13.000 tài li u t ng dung l ng kho ng 35 MB. L p ch m c
cho toàn b d li u trên t o thành t p tin Inverted.xml có dung l ng là 40 MB.
Ch ng trình h tr 2 d ng giao di n : giao di n Web ch cho ng i s d ng tìm ki m,
và giao di n Window Application cho Admin s d ng, c hai giao di n trên u c
phát tri n trên môi tr ng Visual studio .NET.
2. ánh giá k t qu t c
Nhìn chung, lu n v n ã hoàn thành nh ng yêu c u ra:
Ø Nghiên c u c cách th c ho t ng c a m t h th ng tìm ki m thông tin.
Ø Tìm hi u c các mô hình xây d ng m t h tìm ki m thông tin.
Ø Tìm hi u các ph ng pháp tách t .
Ø Tìm hi u ph ng pháp l p ch m c cho tài li u.
Ø Áp d ng xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c
có c u trúc.
th ng có m t s u m nh sau:
Ø Tách t ti ng Vi t khá chính xác.
Ø Tham s hóa các y u t liên quan n l p ch m c và tra c u.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 116 Nguy n Trung Hi u - 0112216
Ø Tìm ki m khá nhanh. Các tài li u tr v c s p x p khá chính xác.
Ø Tóm t t c n i dung tài li u tr v
Ø Giao di n thân thi n, d s d ng
Tuy nhiên, h th ng còn m t s khuy t m c n c i thi n:
Ø Ch a t ng l y c các tài li u m i gi ng nh m t h th ng Search Engine.
Ø Ch a h tr b gõ
Ø Ch a h tr các ch c n ng tìm ki m nâng cao
3. ng phát tri n
Ø Tìm hi u k t h p các công c tách t cho k t qu tách t t t nh t
Ø tr các b gõ ti ng Vi t
Ø tr các ch c n ng tìm ki m nâng cao.
Ø ng t c c p nh t ch m c, tìm ki m.
Ø Thêm ch c n ng t ng l y các tài li u và c p nh t vào t p tin ch m c phát
tri n thành m t trang Web tìm ki m cho ti ng Vi t.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 117 Nguy n Trung Hi u - 0112216
TÀI LI U THAM KH O
1. Sách
[1.1] Gerard Salton/ Michael J.McGill; Introduction to Modern Information
Retrieval
[1.2] David A.Grossman/Ophir Frieder; Information Retrival: Algorithms and
Heuristics
[1.3] C.J van RIJSBERGEN Department of Computing Science University of
Glassgow; Information Retrival.
[1.4] inh n; lý ngôn ng t nhiên
2. Lu n v n
[2.1] Thành Giang. Lu n án th c s khoa h c. Tìm hi u v cách xác nh t lo i
và xây d ng công c xác nh t lo i. Giáo viên h ng d n : T.S H B o Qu c.
[2.2] Nguy n H i Quy n, L ng Th Hoàng Thuý. Lu n v n c nhân tin h c. o
khoá cho v n b n ti ng Vi t. GVHD: Chu T t Bích San.
[2.3] Lê Thúy Ng c, M Nhung. Lu n v n c nhân tin h c. Tìm hi u v
Search Engine và xây d ng ng d ng cho Search Engine ti ng Vi t. Giáo viên
ng d n : Th.S Nguy n Th Di m Tiên.
3. Website
[3.1] http://nlp.cs.jhu.edu/~rflorian/fntbl/tbl-toolkit/
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 118 Nguy n Trung Hi u - 0112216
[3.2] http://www.dcs.gla.ac.uk
[3.3] http://www.vinaseek.com
[3.4] http://www.google.com
[3.5] http://www.yahoo.com