he thong tim_kiem_thong_tin_tieng_viet

118
Xây dӵng hӋ thӕng tìm kiӃm thông tin tiӃng Vi Ӌt dӵa trên các chӍ mөc là các tӯ ghép NguyӉn Thӏ Thanh Hà - 0112215 1 Nguy Ӊn Trung HiӃu - 0112216 I CҦM ѪN Chúng em xin gӣi lӡi cҧm ѫn chân thành nhҩt ÿӃn thҫy Hӗ Bҧo Quӕc, ngѭӡi ÿã n tình hѭӟng dүn, giúp ÿӥ chúng em trong suӕt thӡi gian thӵc hiӋn luұn văn này. Chúng con cҧm ѫn Cha, Mҽ và gia ÿình, nhӳng ngѭӡi ÿã dҥy dӛ, khuyӃn khích, ÿӝng viên chúng con trong nhӳng lúc khó khăn, tҥo mӑi ÿLӅu kiӋn cho chúng con nghiên cӭu hӑc tұp. Chúng em cҧm ѫn các thҫy, cô trong khoa Công NghӋ Thông Tin ÿã dìu dҳt, giҧng dҥy chúng em, giúp chúng em có nhӳng kiӃn thӭc quý báu trong nhӳng năm hӑc qua. m ѫn chӏ Lê Thúy Ngӑc và các bҥn ÿã tұn tình ÿóng góp ý kiӃn cho luұn văn a chúng tôi. c dù rҩt cӕ gҳng nhѭng luұn văn cӫa chúng em không tránh khӓi sai sót, mong nhұn ÿѭӧc sӵ thông cҧm và góp ý cӫa thҫy cô và các bҥn. Tháng 7 năm 2005 Sinh viên NguyӉn Thӏ Thanh Hà – NguyӉn Trung HiӃu

Upload: viet-nam

Post on 07-Jul-2015

60 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 1 Nguy n Trung Hi u - 0112216

I C M N

Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ã

n tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này.

Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,

ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng con

nghiên c u h c t p.

Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,

gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c

qua.

m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n

a chúng tôi.

c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót,

mong nh n c s thông c m và góp ý c a th y cô và các b n.

Tháng 7 n m 2005

Sinh viên

Nguy n Th Thanh Hà – Nguy n Trung Hi u

Page 2: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 2 Nguy n Trung Hi u - 0112216

NH N XÉT C A GIÁO VIÊN H NG D N

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

…………………………………………………………………………………....

……………………………………………………………………………………

Ngày…… tháng……n m 2005

Ký tên

Page 3: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 3 Nguy n Trung Hi u - 0112216

NH N XÉT C A GIÁO VIÊN PH N BI N

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

…………………………………………………………………………………....

……………………………………………………………………………………

Ngày…… tháng……n m 2005

Ký tên

Page 4: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 4 Nguy n Trung Hi u - 0112216

C L C

DANH SÁCH CÁC B NG...................................................................................8DANH SÁCH CÁC HÌNH V ..............................................................................8

Ph n 1 : TÌM HI U LÝ THUY T ..........................................................................11

Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN ...................................111. Gi i thi u v tìm ki m thông tin ......................................................................11

1.1 Khái ni m v tìm ki m thông tin ................................................................111.2 M t s v n trong vi c tìm ki m thông tin: .............................................11

2. H tìm ki m thông tin – IRS ............................................................................123. Các thành ph n c a m t h tìm ki m thông tin [1.1] ........................................134. So sánh IRS v i các h th ng thông tin khác ...................................................14

4.1 H qu n tr c s d li u (DBMS)..............................................................154.2 H qu n lý thông tin (IMS) ........................................................................154.3 H h tr ra quy t nh (DSS)....................................................................164.4 H tr l i câu h i (QAS) ............................................................................164.5 So sánh IRS v i các h th ng thông tin khác..............................................17

Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN............181. Ki n trúc c a h tìm ki m thông tin. [1.3]........................................................182. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2]..........................19

2.1 Mô hình không gian vector ........................................................................192.2 Tìm ki m Boolean .....................................................................................212.3 Tìm ki m Boolean m r ng .......................................................................222.4 M r ng trong vi c thêm vào tr ng s c a câu h i .....................................23

2.4.1 M r ng cho s t tu ý ......................................................................232.4.2 Thêm toán t t ng ..........................................................................24

2.5 Mô hình xác su t........................................................................................242.6 ánh giá chung v các mô hình .................................................................25

3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]...................................253.1 Tách t t ng cho t p các tài li u............................................................253.2 L p ch m c cho tài li u .............................................................................253.3 Tìm ki m ...................................................................................................263.4 S p x p các tài li u tr v (Ranking) ..........................................................26

4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ngVi t .....................................................................................................................26

4.1 Khó kh n trong vi c tách t ti ng Vi t .......................................................274.2 V n b ng mã ti ng Vi t .........................................................................27

Page 5: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 5 Nguy n Trung Hi u - 0112216

4.3 Các khó kh n khác .....................................................................................27

Ch ng 3: TÁCH T T NG........................................................................291. Tách t trong Ti ng Anh .................................................................................292. Tách t trong Ti ng Vi t .................................................................................29

2.1 M t s c m chính v t ti ng Vi t [2.2]..............................................292.1.1 Ti ng...................................................................................................292.1.2 T .......................................................................................................30

2.2 Tách t t ng ti ng Vi t .........................................................................303. Các ph ng pháp tách t ti ng Vi t.................................................................30

3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................303.1.1 Mô t ...................................................................................................303.1.2 Áp d ng tách t ti ng Vi t...................................................................31

3.2 Longest Matching [1.4]..............................................................................373.3 K t h p gi a fnTBL và Longest Matching.................................................37

Ch ng 4: L P CH M C ..................................................................................381. Khái quát v h th ng l p ch m c...................................................................382. Ph ng pháp l p ch m c [1.1] ........................................................................38

2.1 Xác nh các t ch m c.............................................................................382.2 Các ph ng pháp tính tr ng s c a t ........................................................40

2.2.1 T n s tài li u ngh ch o....................................................................402.2.2 nhi u tín hi u (The Signal – Noise Ratio) ......................................402.2.3 Giá tr phân bi t t (The Term Discrimination Value) .........................42

2.3 L p ch m c t ng cho tài li u ti ng Anh................................................433. L p ch m c cho tài li u ti ng Vi t ..................................................................454. T p tin ngh ch o tài li u ...............................................................................46

4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p ..................................464.2 T i sao s d ng t p tin ngh ch o l p ch m c .....................................47

Ph n 2 : PHÂN TÍCH VÀ THI T K ....................................................................49

Ch ng 5: PHÂN TÍCH.......................................................................................491. S UseCase h th ng ..................................................................................492. S L p........................................................................................................51

2.1 S các l p th hi n................................................................................512.2 S các l p x lý ....................................................................................52

3. Tách t ............................................................................................................533.1 S UseCase...........................................................................................533.2 S Tu n t ............................................................................................53

Page 6: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 6 Nguy n Trung Hi u - 0112216

3.3 S C ng tác...........................................................................................543.4 S L p ..................................................................................................54

4. L p ch m c.....................................................................................................554.1 S UseCase...........................................................................................554.2 S Tu n t ............................................................................................56

4.2.1 T o m i ch m c .................................................................................564.2.2 C p nh t ch m c.................................................................................57

4.3 S C ng tác...........................................................................................584.3.1 T o m i ch m c .................................................................................584.3.2 C p nh t ch m c.................................................................................59

4.4 S L p ..................................................................................................605. Tìm ki m.........................................................................................................61

5.1 S UseCase...........................................................................................615.2 S Tu n t ............................................................................................615.3 S C ng tác...........................................................................................625.4 S L p ..................................................................................................63

Ch ng 6: THI T K VÀ CÀI T ..................................................................641. C u trúc l u tr d li u....................................................................................64

1.1 T p tin l u n i dung tài li u .......................................................................641.1.1 C u trúc DTD / XSD ...........................................................................641.1.2 Tài li u XML ......................................................................................66

1.2 T p tin sau khi tách t tài li u ....................................................................671.2.1 C u trúc DTD / XSD ...........................................................................671.2.2 Tài li u XML ......................................................................................68

1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list) ...........701.3.1 C u trúc DTD / XSD ...........................................................................701.3.2 Tài li u XML ......................................................................................71

1.4 T p tin ch m c o ( Inverted ). ................................................................711.4.1 C u trúc DTD / XSD ...........................................................................711.4.2 Tài li u XML ......................................................................................73

1.5 T p tin sau khi tách t câu h i....................................................................741.5.1 C u trúc DTD / XSD ...........................................................................741.5.2 Tài li u XML ......................................................................................75

1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sáchStopList ...........................................................................................................76

1.6.1 C u trúc DTD / XSD ...........................................................................761.6.2 Tài li u XML ......................................................................................77

1.7 T p tin ch a các t trong câu h i và các tài li u liên quan..........................771.7.1 C u trúc DTD / XSD ...........................................................................77

Page 7: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 7 Nguy n Trung Hi u - 0112216

1.7.2 Tài li u XML ......................................................................................791.8 T p tin ch a t ng quan gi a câu h i và các tài li u .............................80

1.8.1 C u trúc DTD / XSD ...........................................................................801.8.2 Tài li u XML ......................................................................................82

2. Chi ti t các l p i t ng ................................................................................832.1 Các l p trong quá trình tách t ...................................................................83

2.1.1 S các l p......................................................................................832.1.2 L p tách t ghép..................................................................................832.1.3 L p tách t ..........................................................................................862.1.4 L p giao di n tách t ...........................................................................89

2.2 Các l p trong quá trình l p ch m c ...........................................................912.2.1 S các l p.......................................................................................912.2.2 L p l p ch m c...................................................................................922.2.3 L p giao di n t o m i ch m c ............................................................942.2.4 L p giao di n c p nh t ch m c ...........................................................96

2.3 Các l p trong quá trình tìm ki m................................................................982.3.1 S các l p.......................................................................................982.3.2 L p tìm ki m.......................................................................................992.3.3 L p giao di n tìm ki m .....................................................................105

3. M t s màn hình giao di n khác ....................................................................1093.1 Màn hình chính c a ch ng trình.............................................................1093.2 Màn hình tìm ki m nhi u câu h i .............................................................1103.3 Màn hình tìm ki m chính ( giao di n Web) ..............................................1123.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ............................1133.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)..................................114

Ph n 3 : T NG K T..............................................................................................1151. Ch ng trình th nghi m...............................................................................1152. ánh giá k t qu t c ............................................................................. 1153. H ng phát tri n............................................................................................116TÀI LI U THAM KH O .................................................................................1171. Sách............................................................................................................... 1172. Lu n v n........................................................................................................1173. Website ......................................................................................................... 117

Page 8: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 8 Nguy n Trung Hi u - 0112216

DANH SÁCH CÁC B NG

ng 1-1 So sánh IRS v i các h th ng thông tin khác ..........................................................17ng 4-1 Cách t p tin ngh ch o l u tr ...............................................................................47ng 4-2 Cách t p tin tr c ti p l u tr ...................................................................................47ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o.........................................................48ng 5-1 Danh sách các Actor...............................................................................................50ng 5-2 Danh sách các UseCase ..........................................................................................50

DANH SÁCH CÁC HÌNH V

Hình 1-1 Môi tr ng c a h tìm ki m thông tin .....................................................................13Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin..........................................14Hình 2-1 H tìm ki m thông tin tiêu bi u...............................................................................18Hình 3-1 Quá trình h c..........................................................................................................35Hình 3-2 Giai n xác nh t cho tài li u m i.....................................................................36Hình 4-1 Các t c s p theo th t ....................................................................................39Hình 4-2 Quá trình ch n t làm ch m c................................................................................45Hình 5-1 S Use-case c a h th ng...................................................................................49Hình 5-2 S các l p th hi n.............................................................................................51Hình 5-3 S các l p x lý .................................................................................................52Hình 5-4 S Use-case tách t ............................................................................................53Hình 5-5 S tu n t tách t ...............................................................................................53Hình 5-6 S c ng tác tách t .............................................................................................54Hình 5-7 S l p tách t .....................................................................................................54Hình 5-8 S use-case l p ch m c .....................................................................................55Hình 5-9 S tu n t t o m i ch m c ................................................................................56Hình 5-10 S tu n t c p nh t ch m c ............................................................................57Hình 5-11 S c ng tác t o m i ch m c ............................................................................58Hình 5-12 S c ng tác c p nh t ch m c ...........................................................................59Hình 5-13 S l p l p ch m c ...........................................................................................60Hình 5-14 S use-case tìm ki m .......................................................................................61Hình 5-15 S tu n t tìm ki m..........................................................................................61Hình 5-16 S c ng tác tìm ki m .......................................................................................62Hình 5-17 S l p tìm ki m ...............................................................................................63Hình 6-1 S l p tách t .....................................................................................................83Hình 6-2 L p tách t ghép.....................................................................................................83

Page 9: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 9 Nguy n Trung Hi u - 0112216

Hình 6-3 L p tách t .............................................................................................................86Hình 6-4 L p giao di n tách t ..............................................................................................89Hình 6-5 Màn hình tách t .....................................................................................................89Hình 6-6 Màn hình chi ti t tách t .........................................................................................90Hình 6-7 S l p l p ch m c .............................................................................................91Hình 6-8 L p l p ch m c......................................................................................................92Hình 6-9 L p giao di n t o m i ch m c................................................................................94Hình 6-10 Màn hình t o m i ch m c ....................................................................................95Hình 6-11 L p Màn hình c p nh t ch m c............................................................................96Hình 6-12 Màn hình c p nh t ch m c ...................................................................................97Hình 6-13 S l p tìm ki m ...............................................................................................98Hình 6-14 L p x lý tìm ki m ...............................................................................................99Hình 6-15 L p giao di n tìm ki m.......................................................................................105Hình 6-16 Màn hình tìm ki m .............................................................................................106Hình 6-17 Xem t khóa câu h i...........................................................................................106Hình 6-18 Xem t khóa tài li u ...........................................................................................107Hình 6-19 Màn hình chính...................................................................................................109Hình 6-20 Màn hình tìm ki m nhi u câu h i........................................................................110Hình 6-21 Giao di n tìm ki m trên Web ..............................................................................112Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m ......................................................113Hình 6-23 Giao di n chi ti t n i dung c a tài li u ................................................................114

Page 10: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u - 0112216

U

Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máy

tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u i

i m i ng i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng

mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công c

tìm ki m (search engine) t t. Các h th ng tìm ki m thông tin thông d ng nh Google,

Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các h

th ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a

th t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t công c tìm

ki m “hi u” và x lý t t các v n b n tí ng Vi t.

Các h tìm ki m thông tin u ph i th c hi n giai n l p ch m c (indexing)

cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v n

n. Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ng

ngôn ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li u

ti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c.

Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thông

tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xác

nh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.

Page 11: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 11 Nguy n Trung Hi u - 0112216

Ph n 1 : TÌM HI U LÝ THUY T

Ch ng 1: NG QUAN V TÌM KI M THÔNG TIN

1. Gi i thi u v tìm ki m thông tin

1.1 Khái ni m v tìm ki m thông tin

Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà

ng i tìm ki m quan tâm.

1.2 t s v n trong vi c tìm ki m thông tin:

t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thông

tin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki m

chính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra i c a máy tính, r t

nhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh và

chính xác. Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t.

nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n. Gi s

có m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u

a mình. Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quan

và b i các tài li u không liên quan. Rõ ràng gi i pháp này không th c t b i vì t n r t

nhi u th i gian.

Page 12: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 12 Nguy n Trung Hi u - 0112216

i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho con

ng i trích ra các tài li u có liên quan trong toàn b t p d li u. Tuy nhiên v n

lúc này là làm sao xác nh c tài li u nào liên quan n câu h i. M c ích c a

t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quan

n yêu c u.

2. tìm ki m thông tin – IRS

Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1]

Salton (1989):

“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v

thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v

thông tin. Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a các

thông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c a

các thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.”

Kowalski (1997) :

“H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và

duy trì thông tin. Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình

nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”

Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ng i

d ng tìm ki m thông tin m t cách nhanh chóng và d dàng. Ng i s d ng có

th a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm

ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng

Page 13: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 13 Nguy n Trung Hi u - 0112216

tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n và

tr v cho ng i s d ng.

3. Các thành ph n c a m t h tìm ki m thông tin [1.1]

m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u

(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR)

xác nh các tài li u áp ng cho các yêu c u.

Hình 1-1 Môi tr ng c a h tìm ki m thông tin

Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m t

cách tr c ti p. Nh ng trên th c t thì u này không th c vì các câu h i và các t p

tài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên h

gi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh con

ng i c. Chính vì th xác nh c m i liên h gi a các câu h i và các t p tài

li u ph i qua m t b c trung gian.

Page 14: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 14 Nguy n Trung Hi u - 0112216

Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin

Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n i

dung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trong

các t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t

a câu h i và các t ch m c c a t p tài li u. Và t ó ta s d dàng h n xác nh

t ng quan gi a các câu h i và t p tài li u.

4. So sánh IRS v i các h th ng thông tin khác

th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tin

khác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u

(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i

(QAS) và h tìm ki m thông tin (IR).

Page 15: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 15 Nguy n Trung Hi u - 0112216

4.1 qu n tr c s d li u (DBMS)

t c h th ng thông tin t ng nào c ng d a trên m t t p các m c c l u

tr (g i là s d li u) c n thi t cho vi c truy c p. Do ó h qu n tr c s d li u

n gi n là m t h th ng c thi t k nh m thao tác và duy trì u khi n c s d

li u.

DBMS t ch c l u tr các d li u c a mình d i d ng các b ng. M i m t c s

li u c l u tr thành nhi u b ng khác nhau. M i m t c t trong b ng là m t thu c

tính, và m i m t dòng là m t b d li u c th . Trong m i m t b ng có m t thu c tính

duy nh t i di n cho b ng, nó không c trùng l p và ta g i ó là khoá chính. Các

ng có m i liên h v i nhau thông qua các khoá ngo i. DBMS có m t t p các l nh

tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n n

CSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng c l i nó s cung c p

cho ta các d li u y và hoàn toàn chính xác. Hi n nay DBMS c s d ng r ng

rãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle.

4.2 qu n lý thông tin (IMS)

qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c

nh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u

ki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c v

cho vi c qu n lý thì ta g i nó là h qu n lý thông tin.

Page 16: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 16 Nguy n Trung Hi u - 0112216

4.3 h tr ra quy t nh (DSS)

h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h c

rút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t a

ra nh ng quy t nh thay cho con ng i.

th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óan

nh.

4.4 tr l i câu h i (QAS)

tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng t

nhiên. Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liên

quan n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng i dùng có

th d ng ngôn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truy

n c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liên

quan l i a ra câu tr l i thích h p.

Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác nh ý ngh a

a ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi h

th ng này.

Page 17: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 17 Nguy n Trung Hi u - 0112216

4.5 So sánh IRS v i các h th ng thông tin khác

IRS DBMS QAS MIS

Tìm ki m

i dung

trong các tài

li u.

Các ph n t

có ki u d

li u ã c

nh ngh a.

Các s ki n

rõ ràng.

u tr

Các v n b n

ngôn ng t

nhiên.

Các ph n t

li u

ng b ng.

Các s ki n

rõ ràng và các

ki n th c

ng quát.

Các câu truy

n không

chính xác.

Các câu truy

n có c u

trúc.

Các câu truy

n không

gi i h n.

Gi ng DBMS

nh ng h tr

thêm nh ng

th t c( Tính

ng, tính

trung bình,

phép chi u…)

ng 1-1 So sánh IRS v i các h th ng thông tin khác

Page 18: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 18 Nguy n Trung Hi u - 0112216

Ch ng 2: XÂY D NG M T H TH NG TÌM KI M

THÔNG TIN

1. Ki n trúc c a h tìm ki m thông tin. [1.3]

t h th ng thông tin tiêu bi u nh sau:

Hình 2-1 H tìm ki m thông tin tiêu bi u

th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n

n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v .

Page 19: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 19 Nguy n Trung Hi u - 0112216

(1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n

n thu th p c thành các t riêng bi t. T ng t , khi ng i dùng nh p câu truy v n

thì câu truy v n c ng c phân tích thành các t riêng bi t.

(2) ph n l p ch m c : các t trích c t các v n b n thu th p c s

c b ph n này l a ch n làm các t ch m c. Các t ch m c ph i là các t th

hi n c n i dung c a v n b n.

(3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câu

truy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li u

liên quan n câu truy v n. M i tài li u có m t t ng quan v i câu h i. Các tài li u

này s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng.

2. t s mô hình xây d ng m t h tìm ki m thông tin [1.2]

c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liên

quan n câu h i càng t t. Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh m

tính toán m t cách chính xác t ng quan này. Sau ây là m t s mô hình tìm ki m

b n:

2.1 Mô hình không gian vector

Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ng

cách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu

i [ Salton, 1875]. Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì ph

thu c vào các t c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó s

c tính toán xác nh t ng quan gi a chúng. t ng quan càng l n ch ng

tài li u ó càng liên quan n câu h i.

Page 20: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 20 Nguy n Trung Hi u - 0112216

Gi s m t t p tài li u ch g m có hai t là t1 và t2. Vector xây d ng c s

m có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph n

th hai bi u di n cho s xu t hi n c a t2. Cách n gi n nh t xây d ng vector là

ánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó không xu t

hi n. Gi s tài li u ch g m có 2 t t1. Ta bi u di n cho tài li u này b i vector nh

phân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu t

hi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c bi u di n nh

sau: <2,0>

i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i

p các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chính

là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t t

phân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch o

(Inverse Document Frequency) liên quan n các t c cho:

n: s t phân bi t trong t p tài li u

tfij : s l n xu t hi n c a t tj trong tài li u Di (t n s )

dfj : s tài li u có ch a t tj

idfj = 10logj

ddf

trong ó d là t ng s tài li u

Vector c xây d ng cho m i tài li u g m có n thành ph n, m i thành ph n là

giá tr tr ng s ã c tính toán cho m i t trong t p tài li u. Các t trong tài li u

c gán tr ng s t ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s

xu t hi n c a m i t trong m t tài li u riêng bi t. Tr ng s c a m t t t ng n u t ó

xu t hi n th ng xuyên trong m t tài li u và gi m n u t ó xu t hi n th ng xuyên

Page 21: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 21 Nguy n Trung Hi u - 0112216

trong t t c các tài li u. tính tr ng s c a t th tj trong tài li u Di, d a vào công

th c:

dij = tfij * idfj

dij : là tr ng s c a t tj trong tài li u Di

i v i h th ng tìm ki m thông tin theo mô hình vector, m i tài li u là m t

vector có d ng : Di(di1, di2 , …, din ) . T ng t , câu truy v n Q c ng là m t vector có

ng : Q(wq1, wq2, …, wqn)

wqj : là tr ng s c a t tj trong câu truy v n Q.

t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u Di

c tính nh sau:

SC(Q,Di) = ij1

w *n

qjj

d=

2.2 Tìm ki m Boolean

Mô hình tìm ki m Boolean khá n gi n. Câu h i a vào ph i d ng bi u th c

Boolean. Ngh a là ph i th a:

Ø Ng ngh a rõ ràng

Ø Hình th c ng n g n

Do các t ho c xu t hi n ho c là không xu t hi n, nên tr ng s wij ε {0,1}

Gi s a vào m t câu h i d ng bi u th c Boolean nh sau: t1 and t2. Sau khi tìm

ki m ta xác nh c các tài li u liên quan n t1 là { d1, d3, d5} và các tài li u liên

Page 22: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 22 Nguy n Trung Hi u - 0112216

quan n t2 là {d3, d5, d7}. Nh v y v i phép and, các tài li u th a yêu c u c a ng i

dùng là {d3, d5}. Ph ng pháp này có m t s khuy t m nh sau:

Ø Các tài li u tr v không c s p x p (ranking)

Ø Câu h i tìm ki m òi h i ph i úng nh d ng c a bi u th c Boolean gây

khó kh n cho ng i dùng

Ø t qu tr v có th là quá ít ho c quá nhi u tài li u

2.3 Tìm ki m Boolean m r ng

Mô hình tìm ki m Boolean không h tr vi c s p x p k t qu tr v b i vì các

tài li u ho c th a ho c không th a yêu c u Boolean. T t c các tài li u th a mãn u

c tr v , nh ng không có s c l ng nào c tính toán cho s liên quan c a

chúng i v i câu h i.

Mô hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking)

t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i và

trong tài li u. Gi s m t câu h i yêu c u (t1 OR t2) và m t tài li u D có ch a t1 v i

tr ng s w1 và t2 v i tr ng s w2 . N u w1 và w2 u b ng 1 thì tài li u nào có ch a c

hai t này s có th t s p x p cao nh t. Tài li u nào không ch a m t trong hai t này

có th t s p x p th p nh t. Ý t ng n gi n là tính kho ng cách Eclide t m

(w1, w2) t i g c:

SC(Q,Di) = 2 21 2(w ) (w )+

i tr ng s 0.5 và 0.5, SC(Q,Di) = 2 2(0.5) (0.5)+ =0.707

SC cao nh t n u w1 và w2 u b ng 1. Khi ó:

Page 23: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 23 Nguy n Trung Hi u - 0112216

SC(Q,Di) = 2 = 1.414

a SC vào kho ng [0,1], SC c tính nh sau:

SC( Q t1 v t2 , di) =2 2

1 2(w ) (w )2+

Công th c này gi s là câu h i ch có toán t OR . i v i toán t AND, thay

vì tính kho ng cách t i g c, ta s tính kho ng cách n m (1,1). Câu h i nào càng

n n m (1,1) thì nó càng tho yêu c u c a toán t AND:

SC(Q t1 ^ t2, di) = 1-2 2

1 2(1-w ) (1 w )2

+ −

2.4 r ng trong vi c thêm vào tr ng s c a câu h i

u câu h i có tr ng s là q1 và q2 thì t ng quan s c tính nh sau:

SC(Q q1 v q2, di) =2 2 2 21 1 2 2

2 21 2

q w q w

q q

+

+

SC(Q q1 ^ q2, di) = 1- (2 2 2 21 1 2 2

2 21 2

q (1-w ) (1 )q w

q q

+ −

+)

2.4.1 r ng cho s t tu ý

tính kho ng cách Euclide trong không gian a chi u, tham s p c s

ng. Tham s p ch s bi n i t m quan tr ng c a tr ng s trong vi c ánh giá

thích h p.

t ng quan SC t ng quát nh sau:

Page 24: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 24 Nguy n Trung Hi u - 0112216

SC(D, Q ( q i v q j ) ) =

1p p p p pi i j j

p pi j

q wq q

q w +

+

SC(D, Q ( q i ^ q j ) ) = 1 -

1p p p p pi i j j

p pi j

q (1-w ) q (1 w )q q

+ −

+

u p → ∞ : chuy n v h th ng Boolean thông th ng (không có tr ng s )

u p = 1 : chuy n v h th ng không gian vector

2.4.2 Thêm toán t t ng

Các chi n l c tìm ki m không òi h i ng i dùng nh n bi t các toán t ph c

p. Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán t

OR vào gi a các t . B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s p

th t v i m t s m l n h n 0.

2.5 Mô hình xác su t

Mô hình tìm ki m xác su t tính toán t ng quan gi a câu h i và tài li u d a

vào xác su t mà tài li u ó liên quan n câu h i. Các lý thuy t v xác su t c áp

ng tính toán liên quan gi a câu h i và tài li u. Các t trong câu h i c xem

là u m i xác nh tài li u liên quan. Ý t ng chính là tính xác su t c a m i t

trong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu

i.

Page 25: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 25 Nguy n Trung Hi u - 0112216

2.6 ánh giá chung v các mô hình

Ø Mô hình Boolean c xem là mô hình y u nh t trong các mô hình b i vì

nh ã trình bày nó còn r t nhi u khuy t m.

Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mô hình vector

làm t t h n mô hình xác su t.

Lu n v n c a chúng em s d ng mô hình không gian vector xây d ng m t

th ng tìm ki m thông tin ti ng Vi t.

3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]

3.1 Tách t t ng cho t p các tài li u

i v i ti ng Anh, ta tách t d a vào kho ng tr ng. Tuy nhiên i v i ti ng

Vi t, giai n này t ng i khó kh n. C u trúc ti ng Vi t r t ph c t p, không ch n

thu n d a vào kho ng tr ng tách t . Hi n nay có r t nhi u công c dùng tách t

ti ng Vi t, m i ph ng pháp có u, khuy t m riêng. Các ph ng pháp này s c

trình bày chi ti t h n ch ng III : Tách t t ng.

3.2 p ch m c cho tài li u

Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c.

Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c. Các t có kh n ng i

di n cho tài li u s c ch n, các t này c g i là key word, do ó tr c khi l p ch

c s là giai n ti n x lý i v i các t trích c ch n ra các key word thích

p. Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a

Page 26: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 26 Nguy n Trung Hi u - 0112216

vào danh sách g i là stop list. i v i ti ng Anh hay ti ng Vi t u có danh sách stop

list. Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.

3.3 Tìm ki m

Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vào

ng s c x lý, ngh a là ta s tách t cho câu h i. Ph ng pháp tách t cho câu h i

ng nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ng

thích. Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liên

quan n câu h i c a ng i dùng.

3.4 p x p các tài li u tr v (Ranking)

Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s c

p x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi u

n. H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi u

nh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.

4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m

thông tin ti ng Vi t

Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki m

thông tin nh Google, Yahoo Search, AltaVista, …. Tuy nhiên, ây là các công c c a

ng i n c ngoài nên chúng ch gi i quy t t t i v i các yêu c u c a h . Chúng ta

ng có m t s công c h tr tìm ki m thông tin ti ng Vi t nh : Vinaseek,

NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìm

ki m c ng ch a c c i thi n. Nhìn chung, xây d ng m t h th ng tìm ki m thông

Page 27: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 27 Nguy n Trung Hi u - 0112216

tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mã

ti ng Vi t.

4.1 Khó kh n trong vi c tách t ti ng Vi t

Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki m

thông tin ti ng Vi t. i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ng

tr ng tách t . Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student.

Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng. T có

th c ghép t m t hay nhi u ti ng. T ph i có ý ngh a hoàn ch nh và có c u t o n

nh. Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên. Trong

ó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.

Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t. Tuy

nhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t c

chính xác 100%. Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n

tranh cãi.

4.2 n b ng mã ti ng Vi t

Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý. M t

công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ng

mã (VNI, TCVN3, ViQR,…).

4.3 Các khó kh n khác

Ø Ti ng Vi t có các t ng ngh a nh ng khác âm. Các công c hi n nay không

tr vi c xác nh các t ng ngh a. Vì v y, k t qu tr v s không y .

Page 28: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 28 Nguy n Trung Hi u - 0112216

Ø Ng c l i, có nh ng t ng âm khác ngh a. Các h th ng s tr v các tài li u

có ch a các t ã c tách trong câu h i mà không c n xác nh chúng có th c

liên quan hay không. Vì v y, k t qu tr v s không chính xác.

Ø t s t xu t hi n r t nhi u nh ng không có ý ngh a trong tài li u. Các t nh :

và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào. N u tìm

cách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không

n thi t. Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.

Page 29: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 29 Nguy n Trung Hi u - 0112216

Ch ng 3: TÁCH T T NG

Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quan

tr ng trong m t h th ng tìm ki m thông tin. i v i ti ng Anh ch n gi n d a vào

kho ng tr ng tách t . Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng

c vì ti ng Vi t là ngôn ng n l p.

Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t,

nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t. Ch ng này s trình bày chi

ti t v m t s ph ng pháp tách t .

1. Tách t trong Ti ng Anh

Do c m ng pháp c a ti ng Anh, tách t ch n gi n d a vào kho ng

tr ng phân bi t t .

2. Tách t trong Ti ng Vi t

2.1 t s c m chính v t ti ng Vi t [2.2]

2.1.1 Ti ng

m t ng âm, ti ng là âm ti t. Âm ti t bao g m nh ng n v b c th p h n g i

là âm v . M i âm v c ghi b ng m t ký t g i là ch .

Page 30: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 30 Nguy n Trung Hi u - 0112216

m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ng

không có ngh a.

giá tr ng pháp, ti ng là n v c u t o t . S d ng ti ng t o thành t , ta có

hai tr ng h p nh sau:

Ø m t ti ng: g i là t n. Tr ng h p này m t t ch có m t ti ng. Ví d nh :

ông, bà, …

Ø hai ti ng tr lên: g i là t ph c. Tr ng h p này m t t có th có hai hay

nhi u ti ng tr lên. Ví d nh : xã h i, an ninh, h p tác xã,…

2.1.2

là n v nh nh t t o thành câu. Trong t câu, chúng ta dùng t ch

không dùng ti ng.

2.2 Tách t t ng ti ng Vi t

Tách t t ng ti ng Vi t d a trên m t s ph ng pháp có s n. Sau ây chúng

ta s nghiên c u m t s ph ng pháp c s d ng tách t cho các v n b n ti ng

Vi t.

3. Các ph ng pháp tách t ti ng Vi t

3.1 fnTBL (Fast Transformation-based learning) [3.1]

3.1.1 Mô t

Page 31: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 31 Nguy n Trung Hi u - 0112216

Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy t

t v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào cho

t qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra. Thu t toán k t

thúc khi không còn phép bi n i nào c ch n. H th ng fnTBL g m hai t p tin

chính:

Ø p tin d li u h c (Training): T p tin d li u h c c làm th công, òi h i

chính xác. M i m u (template) c t trên m t dòng riêng bi t. Ví d : t p

li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nh

sau:

Công ty danhtu

An ông danhturieng

dongtu

giám sát dongtu

Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n th

hai là t lo i t ng ng.

Ø p tin ch a các m u lu t (rule-template): M i lu t c t trên m t dòng, h

th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c. Ví d :

chunk_-2 chunk_-1 => chunk

Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , chunk_-

1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là

ng t và s t thì chuy n t lo i hi n hành thành danh t .

3.1.2 Áp d ng tách t ti ng Vi t

Page 32: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 32 Nguy n Trung Hi u - 0112216

Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng pháp

này tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.

Ø Xây d ng t p tin d li u h c: p tin d li u cho vi c tách t ti ng Vi t có d ng

nh sau:

Vì B

sao B

công B

ty I

Vi t B

Hà I

B

t B

vào B

tình B

tr ng I

….

Các ký t B, I g i là các chunk và có ý ngh a nh sau:

Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin)

Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)

Trong ví d trên, ta có c các t : Vì, sao, công ty, Vi t Hà, b , t, vào, tình

tr ng, …

Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,

chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau:

chunk_0 word_0 => chunk

Page 33: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 33 Nguy n Trung Hi u - 0112216

chunk_0 word_-1 word_0 => chunk

chunk_0 word_0 word_1 => chunk

3.1.2.1 Quá trình h c

(1) T t p d li u h c xây d ng t n các t

(2) Kh i t o các t

(3) Rút ra t p lu t

b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta s

có t n các ti ng (Lexicon). Các ti ng có th xu t hi n trong các t v i các chunk

khác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng.

Ví d , i v i t “công ty” thì ti ng “công” có chunk=B nh ng trong t “c a công” thì

ti ng công có chunk=I.

b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cách

xóa h t các chunk t ng ng. T p d li u m i này s c s d ng kh i t o l i các

chunk thông d ng nh t d a vào t n.

b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m u

lu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ng

vào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v i

p d li u h c là t p d li u chu n). Ch n lu t có m cao nh t và l n h n m t

ng ng cho tr c a vào danh sách lu t c ch n.

t qu ta s c m t t p các lu t c ch n. Các lu t có d ng nh sau:

SCORE:414 RULE: chunk_0=B word_0=t => chunk=I

SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I

Page 34: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 34 Nguy n Trung Hi u - 0112216

SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I

SCORE:231 RULE: chunk_0=B word_0= ng => chunk=I

SCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I

SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I

SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I

SCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=I

SCORE:100 RULE: chunk_0=B word_0=th => chunk=I

dòng 2 ta có lu t: n u t hi n hành là “công” (word_0=công) và t tr c ó là

“c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk

a t hi n hành là I , ngh a là “c a công” ph i là m t t .

Toàn b quá trình h c c mô t nh sau:

Page 35: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 35 Nguy n Trung Hi u - 0112216

Hình 3-1 Quá trình h c

3.1.2.2 Xác nh t cho tài li u m i

(1) Tài li u m i a vào ph i có nh d ng gi ng nh t p tin d li u h c, ngh a

là m i ti ng trên m t dòng.

(2) D a vào t n, gán chunk thông d ng nh t cho các ti ng trong tài li u m i

Page 36: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 36 Nguy n Trung Hi u - 0112216

(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s tách

c các t hoàn ch nh.

Giai n xác nh t cho tài li u m i c mô t nh sau:

Hình 3-2 Giai n xác nh t cho tài li u m i

Page 37: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 37 Nguy n Trung Hi u - 0112216

3.2 Longest Matching [1.4]

Ph ng pháp Longest Matching tách t d a vào t n có s n.

Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t có

nhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h t

câu. V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| mua

bán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này s

tách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”,

“tr c | bàn là | m t | ly| n c”,…

3.3 t h p gi a fnTBL và Longest Matching

Chúng ta có th k t h p gi a hai ph ng pháp fnTBL và Longest Matching

có c k t qu tách t t t nh t. u tiên ta s tách t b ng Longest Matching, u ra

a ph ng pháp này s là u vào cho ph ng pháp fnTBL h c lu t.

Page 38: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 38 Nguy n Trung Hi u - 0112216

Ch ng 4: P CH M C

1. Khái quát v h th ng l p ch m c

t cách t ng t c tìm ki m thông tin lên là t o ch m c cho các tài li u.

Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i,

ph i c p nh t l i t p tin ch m c. Nh ng i v i h th ng tìm ki m thông tin, ch c n

p nh t l i t p tin ch m c vào m t kho ng th i gian nh k . Do ó, ch m c là m t

công c r t có giá tr .

p ch m c bao g m các công vi c sau:

Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u

Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a t

trong m t tài li u.

2. Ph ng pháp l p ch m c [1.1]

2.1 Xác nh các t ch m c

Ø Cho m t t p g m có n tài li u. V i m i tài li u, tính t n s c a m i t

riêng bi t trong tài li u ó. G i FREQik: là t n s xu t hi n c a t k trong tài li u i.

Ø Xác nh t n s c a t k trong t p tài li u, ký hi u là TOTFREQk b ng

cách tính t ng t n s xu t hi n c a k trong t t c n tài li u:

Page 39: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 39 Nguy n Trung Hi u - 0112216

TOTFREQK = ik1

FREQn

i=∑

Ø p x p các t gi m d n d a vào t n s xu t hi n c a nó trong t p tài

li u. Xác nh giá tr ng ng cao và lo i b t t c các t có t n s xu t hi n l n h n giá

tr này.

Ø ng t , lo i b các t có t n s th p . Ngh a là, xác nh ng ng th p

và lo i b t t c các t có t n s xu t hi n nh h n giá tr này. u này s lo i b các

ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng

n vi c th c hi n truy v n.

Ø Các t có t n s xu t hi n trung bình còn l i s c s d ng làm t ch

c.

Hình 4-1 Các t c s p theo th t

Page 40: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 40 Nguy n Trung Hi u - 0112216

2.2 Các ph ng pháp tính tr ng s c a t

Tr ng s c a m t t ph n ánh t m quan tr ng c a t ó trong tài li u. Ý t ng

chính là m t t xu t hi n th ng xuyên trong t t c các tài li u thì ít quan tr ng h n là

ch xu t hi n t p trung trong m t s tài li u.

2.2.1 n s tài li u ngh ch o

ây là ph ng pháp tính tr ng s mà mô hình không gian vector ã s d ng

tính tr ng s c a t trong tài li u.

n: s t phân bi t trong t p tài li u

FREQik : s l n xu t hi n c a t k trong tài li u Di (t n s t )

DOCFREQk : s tài li u có ch a t k

Khi ó, tr ng s c a t k trong tài li u Di c tính nh sau:

WEIGHTik = FREQik * [log (n) – log (DOCFREQk)]

Tr ng s c a t k trong tài li u Di t ng n u t n s xu t hi n c a t k trong tài

li u i t ng và gi m n u t ng s tài li u có ch a t k t ng.

2.2.2 nhi u tín hi u (The Signal – Noise Ratio)

t quan m t ng t c xem xét ó là d a vào thông tin ánh giá t m

quan tr ng c a t . Trong th c t , n i dung thông tin c a m t n hay m t t có th

xác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho. Rõ ràng, xác su t

xu t hi n c a m t t càng cao thì thông tin mà nó ch a càng ít.

i dung thông tin c a m t t c xác nh nh sau:

Page 41: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 41 Nguy n Trung Hi u - 0112216

INFORMATION= - log2 p

trong ó p là xác su t xu t hi n c a t .

Ví d : n u t “vi tính” xu t hi n 1 l n sau 10.000 t , xác su t xu t hi n c a nó là

0.0001, khi ó thông tin c a nó s là:

INFORMATION = - log2 (0.0001) = 13.278

Ng c l i, t “s ” xu t hi n 1 l n sau 10 t , xác su t xu t hi n c a nó là 0.1, khi

ó thông tin c a nó s là:

INFORMATION = -log2 (0.1) = 3.223

u m t tài li u có ch a t t , m i t có xác su t xu t hi n là pk, thông tin trung

bình c a tài li u s là:

AVERAGE INFORMATION = - 21

logt

k kk

p p=

Ta nh ngh a nhi u NOISEk c a t k trong t p g m n tài li u nh sau:

NOISEk = 21

logn

ik k

i k ik

FREQ TOTFREQTOTFREQ FREQ=

nhi u thay i ngh ch o v i “s t p trung” c a m t t trong t p tài li u.

Ngh a là, m t t có s phân ph i u trong t t c các tài li u thì nhi u c a nó càng

n, ng c l i m t t ch t p trung trong m t s tài li u nào ó thì nhi u c a nó càng

nh .

Gi s , t k xu t hi n m t l n trong m i tài li u (FREQik=1), khi ó nhi u

a nó b ng:

Page 42: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 42 Nguy n Trung Hi u - 0112216

NOISEk = 21

1 log1

n

i

nn=

∑ = log2 n

Ng c l i, gi s t k ch xu t hi n trong m t tài li u, khi ó nhi u c a nó

ng:

NOISEk = 2logk k

k k

TOTFREQ TOTFREQTOTFREQ TOTFREQ

= 0

Hàm s ngh ch o c a nhi u, g i là signal, c tính nh sau:

SIGNALk = log2 (TOTFREQk) – NOISEk

Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và

SIGNALk:

WEIGHTik = FREQik * SIGNALk

2.2.3 Giá tr phân bi t t (The Term Discrimination Value)

t ch c n ng khác xác nh t m quan tr ng c a m t t là tính giá tr phân

bi t c a t ó. G i SIMILAR(Di, Dj) là t ng quan gi a c p tài li u Di, Dj. Khi ó,

t ng quan trung bình c a t p tài li u là:

AVGSIM= CONSTANT1 1#

( , )n n

i ji ji j

SIMILAR D D= =

∑ ∑

G i AVGSIMk là t ng quan trung bình c a t p tài li u khi b t k. Rõ ràng,

u t k xu t hi n th ng xuyên trong t p tài li u thì khi b t k, t ng quan trung

bình s gi m. Ng c l i, n u t k ch t p trung trong m t s tài li u, khi b t k,

ng quan trung bình s t ng lên.

Page 43: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 43 Nguy n Trung Hi u - 0112216

Giá tr phân bi t DISCVALUEk c a t k c tính nh sau:

DISCVALUEk = (AVGSIM)k – AVGSIM

Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và

DISCVALUEk:

WEIGHTik = FREQik * DISCVALUEk

2.3 p ch m c t ng cho tài li u ti ng Anh

t quá trình n gi n l p ch m c cho tài li u có th c mô t nh sau:

Ø Tr c h t, xác nh t t c các t t o thành tài li u. Trong ti ng Anh, ch

n gi n là tách t d a vào kho ng tr ng.

Ø Lo i b các t có t n s xu t hi n cao. Nh ng t này chi m kho ng 40-

50% các t , nh ã c p tr c ây, chúng có phân bi t kém do ó không th s

ng i di n cho n i dung c a tài li u. Trong ti ng Anh, các t này có kho ng 250

, do ó, n gi n có th l u chúng vào t n, g i là stop list.

Ø Sau khi lo i b các t có trong stop list, xác nh các t ch m c “t t”.

Tr c h t c n lo i b các h u t a v t g c, ví d các t nh : analysis,

analyzing, analyzer, analyzed, analysing có th chuy n v t g c là “analy.” T g c s

có t n s xu t hi n cao h n so v i các d ng thông th ng c a nó. N u s d ng t g c

làm ch m c, ta có th thu c nhi u tài li u có liên quan h n là s d ng t ban u

a nó.

i v i ti ng Anh, vi c lo i b h u t có th c th c hi n d dàng b ng cách

d ng danh sách các h u t có s n (Suffix List).

Page 44: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 44 Nguy n Trung Hi u - 0112216

Sau khi có c danh sách các t g c, s d ng ph ng pháp d a vào t n s

(frequency – based) xác nh t m quan tr ng c a các t g c này. Chúng ta có th s

ng m t trong các ph ng pháp ã c c p trên nh : t n s tài li u ngh ch o

(inverse document frequency), nhi u tín hi u (SIGNALk), phân bi t t

(DISVALUEk).

Trong h th ng ch m c có tr ng s , tr ng s c a m t t c s d ng xác

nh t m quan tr ng c a t ó. M i tài li u c bi u di n là m t vector :

Di = (di1, di2, …, dit) trong ó dij là tr ng s c a t j trong tài li u Di.

Gi s có 1033 tài li u nói v y h c. Quá trình l p ch m c n gi n c th c

hi n nh sau ( trong ó ch lo i b h u t t n cùng là s):

Page 45: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 45 Nguy n Trung Hi u - 0112216

Hình 4-2 Quá trình ch n t làm ch m c

3. p ch m c cho tài li u ti ng Vi t

p ch m c cho tài li u ti ng Vi t c ng t ng t nh cho ti ng Anh. Tuy nhiên

có vài m khác bi t sau:

Page 46: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 46 Nguy n Trung Hi u - 0112216

Ø Giai n tách t trong ti ng Anh ch n gi n d a vào kho ng tr ng,

còn ti ng Vi t là ngôn ng n l p, m t t có th có nhi u ti ng. u này ã c

p chi ti t ch ng 3 (Tách t ). Gi s sau giai n tách t , ta s thu c m t danh

sách các t riêng bi t.

Ø i v i ti ng Vi t, không ph i qua giai n lo i b h u t .

Nói chung, l p ch m c cho tài li u ti ng Vi t g m các b c sau:

Ø Xác nh các t riêng bi t trong tài li u

Ø Lo i b các t có t n s cao. ( Trong ti ng Vi t, c ng nh ti ng Anh, ta

có m t danh sách Stop List ch a nh ng t không th là n i dung c a v n b n nh : và,

i, nh ng, gì, sao, nào, …).

Ø Lo i b các t có tr ng s th p

Ø Các t thu c s c ch n làm các t ch m c

4. p tin ngh ch o tài li u

4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p

p tin tr c ti p (direct file) là t p tin mà chính các m c thông tin ã cung c p th

chính c a t p tin.

Ng c l i, t p tin ngh ch o (inverted file) c s p x p theo ch , m i ch

i bao g m m t t p các m c thông tin.

Page 47: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 47 Nguy n Trung Hi u - 0112216

Gi s có m t t p các tài li u, m i tài li u ch a danh sách các t . N u m t t

xu t hi n trong m t tài li u, ghi s 1. Ng c l i, ghi 0. Khi ó, t p tin tr c ti p và t p

tin ngh ch o s l u tr nh sau:

Tài li u 1 Tài li u 2 Tài li u 3

1 1 0 1

2 1 1 0

3 0 1 1

4 1 1 1

ng 4-1 Cách t p tin ngh ch o l u tr

1 2 3 4

Tài li u 1 1 1 0 1

Tài li u 2 0 1 1 1

Tài li u 3 1 0 1 1

ng 4-2 Cách t p tin tr c ti p l u tr

4.2 i sao s d ng t p tin ngh ch o l p ch m c

Trong h th ng tìm ki m thông tin, t p tin ngh ch o có ý ngh a r t l n, giúp

vi c truy c p n các m c thông tin c nhanh chóng. Gi s khi ng i dùng nh p

t câu truy v n, h th ng s tách thành 2 t là “t 1” và “t 2”. D a vào t p tin

Page 48: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 48 Nguy n Trung Hi u - 0112216

ngh ch o, ta d dàng xác nh c các tài li u có liên quan n 2 t này tr v

cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch o là khi thêm m t

tài li u m i, t t c các t có liên quan n tài li u này u ph i c c p nh t l i. Ví d

khi thêm tài li u 4 có ch a 2 t “t 3” và “t 4” vào t p tin ngh ch o:

Tài li u 1 Tài li u 2 Tài li u 3 Tài li u 4

1 1 0 1 0

2 1 1 0 0

3 0 1 1 1

4 1 1 1 1

ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o

Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch o r t l n. Trong th c

, t p tin ngh ch o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong các h

th ng tìm ki m thông tin, ng i ta ch c p nh t l i t p tin t i m t kho ng th i gian nh

. Vì v y, t p tin ngh ch o v n c s d ng l p ch m c.

Page 49: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 49 Nguy n Trung Hi u - 0112216

Ph n 2 : PHÂN TÍCH VÀ THI T K

Ch ng 5: PHÂN TÍCH

1. UseCase h th ng

Hình 5-1 S Use-case c a h th ng

Page 50: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 50 Nguy n Trung Hi u - 0112216

STT ACTOR Ý NGH A

1 Admin Qu n tr h th ng

2 User Ng i s d ng ch ng trình

3 Cac tai lieu Các tài li u ã c tách t

4 Cac tai lieu lien quan cau hoi Các tài li u tr v khi ng i s d ng nh pvào câu h i

5 p tin chi muc p tin ch a các t khóa cùng v i các tàili u ch a t khóa ó

ng 5-1 Danh sách các Actor

STT USECASE Ý NGH A

1 Tach tu Tách v n b n thành các t riêng bi t

2 Tao moi t p tin chi muc o m i m t t p tin ch m c

3 Cap nhat t p tin chi muc p nh t thêm các tài li u m i vào t p tinch m c có s n

4 Tim kiem Gõ vào t khóa và ch c n ng tìm ki m str v m t t p các tài li u liên quan

ng 5-2 Danh sách các UseCase

Page 51: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 51 Nguy n Trung Hi u - 0112216

2. L p

2.1 các l p th hi n

Hình 5-2 S các l p th hi n

Page 52: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 52 Nguy n Trung Hi u - 0112216

2.2 các l p x lý

Hình 5-3 S các l p x lý

Page 53: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 53 Nguy n Trung Hi u - 0112216

3. Tách t

3.1 UseCase

Hình 5-4 S Use-case tách t

3.2 Tu n t

Hình 5-5 S tu n t tách t

Page 54: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 54 Nguy n Trung Hi u - 0112216

3.3 C ng tác

Hình 5-6 S c ng tác tách t

3.4 L p

Hình 5-7 S l p tách t

Page 55: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 55 Nguy n Trung Hi u - 0112216

4. p ch m c

4.1 UseCase

Hình 5-8 S use-case l p ch m c

Page 56: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 56 Nguy n Trung Hi u - 0112216

4.2 Tu n t

4.2.1 o m i ch m c

Hình 5-9 S tu n t t o m i ch m c

Page 57: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 57 Nguy n Trung Hi u - 0112216

4.2.2 p nh t ch m c

Hình 5-10 S tu n t c p nh t ch m c

Page 58: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 58 Nguy n Trung Hi u - 0112216

4.3 C ng tác

4.3.1 o m i ch m c

Hình 5-11 S c ng tác t o m i ch m c

Page 59: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 59 Nguy n Trung Hi u - 0112216

4.3.2 p nh t ch m c

Hình 5-12 S c ng tác c p nh t ch m c

Page 60: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 60 Nguy n Trung Hi u - 0112216

4.4 L p

Hình 5-13 S l p l p ch m c

Page 61: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 61 Nguy n Trung Hi u - 0112216

5. Tìm ki m

5.1 UseCase

Hình 5-14 S use-case tìm ki m

5.2 Tu n t

Hình 5-15 S tu n t tìm ki m

Page 62: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 62 Nguy n Trung Hi u - 0112216

5.3 C ng tác

Hình 5-16 S c ng tác tìm ki m

Page 63: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 63 Nguy n Trung Hi u - 0112216

5.4 L p

Hình 5-17 S l p tìm ki m

Page 64: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 64 Nguy n Trung Hi u - 0112216

Ch ng 6: THI T K VÀ CÀI T

Ø Ngôn ng l p trình : C#, ASP.NET

Ø Công c l p trình : Microsoft Visual Studio .NET

Ø u tr d li u : t p tin XML

Ø ng d ng : Xây d ng h th ng tìm ki m thông tin ti ng Vi t

th ng tìm ki m s c xây d ng theo mô hình không gian Vector.

Các tài li u ti ng Vi t và câu truy v n s c tách t theo ph ng pháp Longest

Matching.

1. u trúc l u tr d li u

t c t p tin v n b n, t p tin ch a các t ã c tách, t p tin ch m c o, t p

tin ch a các t không quan tr ng, t p tin l u tr t ng quan gi a câu truy v n và tài

li u … u c l u tr d i d ng Xml.

1.1 p tin l u n i dung tài li u

ây là t p tin Xml dùng l u n i dung c a các t p tin v n b n g c, m i t p tin

ch a kho ng 50 tài li u, có c u trúc c nh, trong ch ng trình nó c l u trong th

c “VanBanXML”.

1.1.1 u trúc DTD / XSD

• DTD

<!ELEMENT NEWSPAPERS (DOC*)>

Page 65: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 65 Nguy n Trung Hi u - 0112216

<!ELEMENT DOC (TITLE,AUTHOR,DATE,NEWS,CONTENT)>

<!ATTLIST DOC DOC_ID CDATA #REQUIRED>

<!ELEMENT TITLE (#PCDATA)>

<!ELEMENT AUTHOR (#PCDATA)>

<!ELEMENT DATE (#PCDATA)>

<!ELEMENT NEWS (#PCDATA)>

<!ELEMENT CONTENT (#PCDATA)>

• XSD

<?xml version='1.0'?>

<schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<ElementType name="TITLE" content="textOnly" dt:type="string"/>

<ElementType name="AUTHOR" content="textOnly" dt:type="string"/>

<ElementType name="DATE" content="textOnly" dt:type="string"/>

<ElementType name="NEWS" content="textOnly" dt:type="string"/>

<ElementType name="CONTENT" content="textOnly"

dt:type="string"/>

<AttributeType name="DOC_ID" dt:type="string"/>

Page 66: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 66 Nguy n Trung Hi u - 0112216

<ElementType name="DOC" content="eltOnly" order="seq">

<attribute type="DOC_ID"/>

<element type="TITLE"/>

<element type="AUTHOR"/>

<element type="DATE"/>

<element type="NEWS"/>

<element type="CONTENT"/>

</ElementType>

<ElementType name="NEWSPAPERS" content="eltOnly">

<element type="DOC" minOccurs="1" maxOccurs="*"/>

</ElementType>

</schema>

1.1.2 Tài li u XML

<NEWSPAPERS>

<DOC DOC_ID="1">

<TITLE>Thanh niên VN: ng l c cho nh ng t m nhìn m i</TITLE>

<AUTHOR>Tác gi : .Bình</AUTHOR>

<DATE>Ngày :01/12/2000</DATE>

<NEWS>Tên t báo : Tu i tr Th lo i : ,Trang : trang 1, 14</NEWS>

<CONTENT>Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn

i. (TT-Hà N i) - T i l khai m c Di n àn thanh niên (TN) VN v i ch

Page 67: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 67 Nguy n Trung Hi u - 0112216

“S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN

VN ph i h p v i các c quan LHQ t i VN t ch c), ông Edouard Wattez,

u ph i viên th ng trú LHQ t i VN, TN VN có vai trò quan tr ng trong

quá trình m c a v i th gi i... . Bình.</CONTENT>

</DOC>

……

</NEWSPAPERS>

1.2 p tin sau khi tách t tài li u

ây là t p tin Xml l u các t tách c t các t p tin v n b n g c cùng v i các

ID tham chi u t i chúng. M i t p tin ch a các t c a 50 tài li u t ng ng trong t p tin

n b n g c, trong ch ng trình các t p tin này c l u th m c “TachTu”.

1.2.1 u trúc DTD / XSD

• DTD

<!ELEMENT WORDS (WORD*)>

<!ELEMENT WORD (DOC+)>

<!ATTLIST WORD Name CDATA #REQUIRED>

<!ELEMENT DOC EMPTY>

<!ATTLIST DOC DOC_ID CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

Page 68: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 68 Nguy n Trung Hi u - 0112216

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="DOC_ID" dt:type="string"/>

<AttributeType name="Name" dt:type="string"/>

<ElementType name="DOC" content="eltOnly">

<attribute type="DOC_ID"/>

</ElementType>

<ElementType name="WORD" content="eltOnly">

<attribute type="Name"/>

<element type="DOC" minOccurs="1" maxOccurs="*"/>

</ElementType>

<ElementType name="WORDS" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.2.2 Tài li u XML

<WORDS>

<WORD Name="thành l p">

<DOC DOC_ID="2051" />

<DOC DOC_ID="2063" />

Page 69: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 69 Nguy n Trung Hi u - 0112216

<DOC DOC_ID="2091" />

</WORD>

<WORD Name="trung tâm">

<DOC DOC_ID="2091" />

<DOC DOC_ID="2092" />

<DOC DOC_ID="2099" />

</WORD>

<WORD Name=" ">

<DOC DOC_ID="2076" />

<DOC DOC_ID="2079" />

<DOC DOC_ID="2084" />

<DOC DOC_ID="2086" />

<DOC DOC_ID="2091" />

<DOC DOC_ID="2094" />

<DOC DOC_ID="2095" />

<DOC DOC_ID="2096" />

<DOC DOC_ID="2099" />

</WORD>

……

</WORDS>

Page 70: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 70 Nguy n Trung Hi u - 0112216

1.3 p tin ch a các t không th hi n n i dung c a v n b n (stop

list)

ây là t p tin Xml ch a các t không th hi n n i dung c a v n b n, g i là danh

sách StopList, trong ch ng trình t p tin này n m trong th m c “StopList”

1.3.1 u trúc DTD / XSD

• DTD

<!ELEMENT STOP_LIST (WORD*)>

<!ELEMENT WORD EMPTY>

<!ATTLIST WORD Name CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="Name" dt:type="string"/>

<ElementType name="WORD" content="eltOnly">

<attribute type="Name"/>

</ElementType>

Page 71: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 71 Nguy n Trung Hi u - 0112216

<ElementType name="STOP_LIST" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.3.2 Tài li u XML

<STOP_LIST>

<WORD Name=" i" />

<WORD Name=" ng" />

<WORD Name="và" />

<WORD Name="có" />

<WORD Name="nh ng" />

<WORD Name=" " />

<WORD Name=" i" />

</STOP_LIST>

1.4 p tin ch m c o ( Inverted ).

p tin ch m c o l u các t ch m c, m i t có các tham chi u n tài li u

ch a t ó kèm theo t n s , tr ng s c a t ó trong tài li u, trong ch ng trình t p tin

này c l u trong th m c “Inverted ”.

1.4.1 u trúc DTD / XSD

Page 72: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 72 Nguy n Trung Hi u - 0112216

• DTD

<!ELEMENT Inverted_File (Term*)>

<!ELEMENT Term (DOC+)>

<!ATTLIST Term Name CDATA #REQUIRED>

<!ELEMENT DOC EMPTY>

<!ATTLIST DOC D CDATA #REQUIRED>

<!ATTLIST DOC F CDATA #REQUIRED>

<!ATTLIST DOC W CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="D" dt:type="string"/>

<AttributeType name="F" dt:type="int"/>

<AttributeType name="W" dt:type="fixed.14.4"/>

<AttributeType name="Name" dt:type="string"/>

<ElementType name="DOC" content="eltOnly">

<attribute type="D"/>

Page 73: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 73 Nguy n Trung Hi u - 0112216

<attribute type="F"/>

<attribute type="W"/>

</ElementType>

<ElementType name="Term" content="eltOnly">

<attribute type="Name"/>

<element type="DOC" minOccurs="1" maxOccurs="*"/>

</ElementType>

<ElementType name="Inverted_File" content="eltOnly">

<element type="Term" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.4.2 Tài li u XML

<Inverted_File>

<Term Name="nhân công">

<DOC D="378" F="1" W="2.5" />

<DOC D="879" F="3" W="7.49" />

<DOC D="1584" F="1" W="2.5" />

<DOC D="1627" F="1" W="2.5" />

Page 74: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 74 Nguy n Trung Hi u - 0112216

<DOC D="1659" F="1" W="2.5" />

<DOC D="1708" F="1" W="2.5" />

<DOC D="2194" F="2" W="4.99" />

</Term>

<Term Name="gia truy n">

<DOC D="942" F="1" W="2.87" />

<DOC D="1670" F="1" W="2.87" />

<DOC D="2194" F="1" W="2.87" />

</Term>

……

</Inverted_File>

1.5 p tin sau khi tách t câu h i.

p tin này ch a các t tách c trong câu h i, trong ch ng trình nó c l u

trong th m c “CauHoi”

1.5.1 u trúc DTD / XSD

• DTD

<!ELEMENT WORDS (WORD*)>

<!ELEMENT WORD EMPTY>

<!ATTLIST WORD Name CDATA #REQUIRED>

• XSD

Page 75: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 75 Nguy n Trung Hi u - 0112216

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="Name" dt:type="string"/>

<ElementType name="WORD" content="eltOnly">

<attribute type="Name"/>

</ElementType>

<ElementType name="WORDS" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.5.2 Tài li u XML

<WORDS>

<WORD Name=" t n c" />

<WORD Name="và" />

<WORD Name="con ng i" />

Page 76: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 76 Nguy n Trung Hi u - 0112216

<WORD Name="vi t nam" />

</WORDS>

1.6 p tin ch a các t c a câu h i sau khi lo i b các t trong

danh sách StopList

p tin này c l u trong th m c “CauHoi”, tên t p tin là

“CauHoiLoaiBoStopList.xml ”

1.6.1 u trúc DTD / XSD

• DTD

<!ELEMENT WORDS (WORD*)>

<!ELEMENT WORD EMPTY>

<!ATTLIST WORD Name CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="Name" dt:type="string"/>

<ElementType name="WORD" content="eltOnly">

Page 77: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 77 Nguy n Trung Hi u - 0112216

<attribute type="Name"/>

</ElementType>

<ElementType name="WORDS" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.6.2 Tài li u XML

<WORDS>

<WORD Name=" t n c" />

<WORD Name="con ng i" />

<WORD Name="vi t nam" />

</WORDS>

1.7 p tin ch a các t trong câu h i và các tài li u liên quan

p tin này ch a các t trong câu h i và các tham chi u n các tài li u ch a

các t này, kèm theo t n s , tr ng s c a m i t trong tài li u t ng ng, nó c l u

trong th m c “CauHoi” và tên t p tin là “CauHoiVaTaiLieu.xml”.

1.7.1 u trúc DTD / XSD

• DTD

<!ELEMENT WORDS (WORD*)>

<!ELEMENT WORD (Doc)>

Page 78: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 78 Nguy n Trung Hi u - 0112216

<!ATTLIST WORD Name CDATA #REQUIRED>

<!ELEMENT Doc EMPTY>

<!ATTLIST Doc DOC_ID CDATA #REQUIRED>

<!ATTLIST Doc Frequence CDATA #REQUIRED>

<!ATTLIST Doc Weight CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="DOC_ID" dt:type="string"/>

<AttributeType name="Frequence" dt:type="int"/>

<AttributeType name="Weight" dt:type="fixed.14.4"/>

<AttributeType name="Name" dt:type="string"/>

<ElementType name="DOC" content="eltOnly">

<attribute type="DOC_ID"/>

<attribute type="Frequence"/>

<attribute type="Weight"/>

</ElementType>

Page 79: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 79 Nguy n Trung Hi u - 0112216

<ElementType name="WORD" content="eltOnly">

<attribute type="Name"/>

<element type="DOC" minOccurs="1" maxOccurs="*"/>

</ElementType>

<ElementType name="WORDS" content="eltOnly">

<element type="WORD" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.7.2 Tài li u XML

<WORDS>

<WORD Name=" t n c">

<Doc DOC_ID="12" Frequence="2" Weight="2.48" />

<Doc DOC_ID="13" Frequence="1" Weight="1.24" />

<Doc DOC_ID="38" Frequence="1" Weight="1.24" />

<DOC DOC_ID="2446" Frequence="0" Weight="0" />

</WORD>

<WORD Name="con ng i">

<Doc DOC_ID="12" Frequence="2" Weight="3.48" />

Page 80: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 80 Nguy n Trung Hi u - 0112216

<Doc DOC_ID="13" Frequence="0" Weight="0" />

<Doc DOC_ID="38" Frequence="0" Weight="0" />

<DOC DOC_ID="2446" Frequence="0" Weight="0" />

</WORD>

<WORD Name="vi t nam">

<Doc DOC_ID="12" Frequence="1" Weight="2.48" />

<Doc DOC_ID="13" Frequence="0" Weight="0" />

<Doc DOC_ID="38" Frequence="2" Weight="2.12" />

<DOC DOC_ID="2446" Frequence="1" Weight="1.25" />

</WORD>

</WORDS>

1.8 p tin ch a t ng quan gi a câu h i và các tài li u

p tin này ch a t t c các tài li u liên quan n câu h i, m i tài li u s có

ng quan t ng ng và s t trong câu h i mà tài li u ó ch a.

1.8.1 u trúc DTD / XSD

• DTD

<!ELEMENT CAU_HOI (Doc+)>

<!ATTLIST CAU_HOI Name CDATA #REQUIRED>

<!ELEMENT Doc EMPTY>

<!ATTLIST Doc DOC_ID CDATA #REQUIRED>

Page 81: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 81 Nguy n Trung Hi u - 0112216

<!ATTLIST Doc SIMILAR CDATA #REQUIRED>

<!ATTLIST Doc Words CDATA #REQUIRED>

• XSD

<?xml version='1.0'?>

<Schema xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!-- contents of XML Schema document goes here -->

<AttributeType name="DOC_ID" dt:type="string"/>

<AttributeType name="SIMILAR" dt:type="fixed.14.4"/>

<AttributeType name="Words" dt:type="int"/>

<AttributeType name="Name" dt:type="string"/>

<ElementType name="Doc" content="eltOnly">

<attribute type="DOC_ID"/>

<attribute type="SIMILAR"/>

<attribute type="Words"/>

</ElementType>

<ElementType name="CAU_HOI" content="eltOnly">

<attribute type="Name"/>

Page 82: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 82 Nguy n Trung Hi u - 0112216

<element type="Doc" minOccurs="1" maxOccurs="*"/>

</ElementType>

</Schema>

1.8.2 Tài li u XML

<CAU_HOI Name=" t n c và con ng i Vi t Nam">

<Doc DOC_ID="12" SIMILAR="8.44" Words="3" />

<Doc DOC_ID="13" SIMILAR="1.24" Words="1" />

<Doc DOC_ID="38" SIMILAR="4.6" Words="2" />

<Doc DOC_ID="2446" SIMILAR="1.25" Words="1" />

</CAU_HOI>

Page 83: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 83 Nguy n Trung Hi u - 0112216

2. Chi ti t các l p i t ng

2.1 Các l p trong quá trình tách t

2.1.1 các l p

Hình 6-1 S l p tách t

2.1.2 p tách t ghép

Hình 6-2 L p tách t ghép

p tách t ghép s có nhi m v tách m t v n b n thành các t riêng bi t.

Page 84: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 84 Nguy n Trung Hi u - 0112216

u vào là m t chu i v n b n và u ra là m t chu i ch a các t , m i t s cách nhau

i d u xu ng dòng ( ‘\r\n’ ).

Ví d :

chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.”

chu i u ra = “Thanh niên\r\nVN\r\n ng l c\r\ncho\r\nnh ng\r\ný t ng\r\n

i\r\nt m nhìn\r\nm i\r\n”.

2.1.2.1 Ý ngh a c a các bi n thành ph n:

• ch : m ng các ký t c bi t (d u ch m, d u ph y, ch m than, ch m h i, hai

ch m,…) tách v n b n thành các c m t .

• hVietnamese : b ng b m l u t t c các t trong t n ti ng Vi t.

2.1.2.2 Các hàm chính :

- Hàm TachThanhCumTu( ) : tách chu i v n b n thành các c m t d a

vào các kí t c bi t nh : d u ch m, ph y, ch m h i, ch m than…

* Thu t toán :

void TachThanhCumTu (chu i v n b n)

{

while(g p t c bi t u tiên trong chu i v n b n)

{

// C t ph n u thành m t c m t .

// Gán chu i v n b n thành ph n sau.

}

}

Page 85: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 85 Nguy n Trung Hi u - 0112216

Ví d :

chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.”

tr v ta s có 3 chu i c m t :

chu i 1 = “Thanh niên VN”

chu i 2 = “ ng l c cho nh ng ý t ng m i”

chu i 3 = “t m nhìn m i”

- Hàm TachMangTieng( ) : tách m t c m t thành t ng ti ng d a vào kh ang

tr ng.

* Thu t toán :

void TachMangTieng(c m t )

{

while(g p ký t kho ng tr ng u tiên trong c m t )

{

// C t ph n u thành m t ti ng.

// Gán c m t thành ph n sau.

}

}

Ví d :

chu i u vào = “ ng l c cho nh ng ý t ng m i” tr v là m ng chu i ch a các

ti ng = { ng”;”l c”;”cho” “nh ng”;”ý”;”t ng”;”m i”}

- Hàm XacDinhTu( ) : g p các ti ng l i thành t , so sánh trong t n ti ng

Vi t và ta s l u l i các t này vào m ng các t .

Page 86: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 86 Nguy n Trung Hi u - 0112216

* Thu t toán :

void XacDinhTu(m ng các ti ng)

{

B1 : gán t = ti ng u tiên.

B2 : so sánh t có trong t n hay không.

B3 : n u t có trong t n và có 2 ti ng tr lên thì ta s l u l i.

B4 : N u trong m ng ti ng v n còn thì t := t + ti ng ti p theo.

Ng c l i k t thúc hàm.

B5 : Quay l i B2

}

i các m ng ti ng c a ví d trên sau khi g i hàm này thì ta s có m ng các t

nh sau:

ng chu i các t ={” ng l c”;”cho” “nh ng”;”ý t ng”; ”m i”}

2.1.3 p tách t

Hình 6-3 L p tách t

Page 87: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 87 Nguy n Trung Hi u - 0112216

p tách t s có nhi m v t o t p tin v n b n Xml t t p tin v n b n g c, sau

ó s trích các t trong v n b n và cu i cùng l u l i các t trích c cùng v i các tài

li u ch a t ó thành t p tin Xml tách t .

2.1.3.1 Ý ngh a c a các bi n thành ph n:

• ttg : i t ng thu c l p CTachTuGhep

2.1.3.2 Các hàm chính :

- Hàm TaoXML( ) : chuy n m t t p tin v n b n có c u trúc thành t p tin XML

* Thu t toán :

void TaoXML (t p tin v n b n)

{

T o t p tin Xml l u l i n i dung t p tin v n b n.

// D ch con tr t p tin

while(ch a h t t p tin v n b n)

{

B1 : tìm t khóa DOC l y ph n giá tr .

B2 : tìm t khóa TITLE l y ph n giá tr .

B3 : tìm t khóa AUTHOR l y ph n giá tr .

B4 : tìm t khóa DATE l y ph n giá tr .

B5 : tìm t khóa NEW l y ph n giá tr .

B6 : tìm t khóa CONTENT l y ph n giá tr .

l u l i ph n giá tr vào t p tin Xml.

Page 88: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 88 Nguy n Trung Hi u - 0112216

}// ENDWHILE

}

- Hàm Tachtu( ) : c ph n n i dung c a t p tin XML v n b n và dùng i

ng thu c l p CTachTuGhep trích thành các t .

* Thu t toán :

string Tachtu (t p tin v n b n Xml)

{

- y ph n n i dung (CONTENT) trong t p tin Xml

- Dùng i t ng c a l p tách t ghép tách t .

- t qu tr v s là m t m ng ch a các t riêng bi t.

}

- Hàm KetQuaToXmlWord( ) : các t sau khi trích s c l u thành t p tin

XML m i g i là “t p tin sau khi tách t tài li u”

* Thu t toán :

void KetQuaToXmlWord(chu i ch a các t )

{

B1 : T o m t t p tin Xml

B2 : Tách ra t ng t trong chu i

B3 : Ki m tra t ó có l u trong t p tin Xml ch a ?

o u ch a : l u t ó và l u tài li u t ng ng

o u r i : ki m tra tài li u ó ã c l u trong t ó ch a.

u ch a ta m i l u tài li u ó.

Page 89: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 89 Nguy n Trung Hi u - 0112216

B4 : N u ch a h t chu i quay l i b c 2.

B5 : L u t p tin Xml l i.

}

2.1.4 p giao di n tách t

Hình 6-4 L p giao di n tách t

* Giao di n tách t :

Hình 6-5 Màn hình tách t

Page 90: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 90 Nguy n Trung Hi u - 0112216

- Ng i dùng có th ch n ng d n t i các t p tin v n b n c n tách t .

- ListBox1 ch a các t p tin v n b n trong ng d n ã ch n.

- ListBox2 ch a các t p tin v n b n c ch n tách t .

- ListBox3 ch a các t p tin xml ã c tách t .

- ListBox4 ch a các DocID trong t p tin xml ã c tách t . Vì m t t p tin v n b n

xml s ch a nhi u tài li u và m i tài li u s có 1 DocID. Ng i dùng có th ch n

DocID nào ó xem k t qu tách t và t n s c a m i t trong tài li u ó. Sau khi

ch n m t DocID s có giao di n nh sau :

Hình 6-6 Màn hình chi ti t tách t

Page 91: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 91 Nguy n Trung Hi u - 0112216

- Hàm x lý TachTu_Click( ) : hàm này s tách t t t c các t p tin c ch n trong

ListBox2.

2.2 Các l p trong quá trình l p ch m c

2.2.1 các l p

Hình 6-7 S l p l p ch m c

Page 92: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 92 Nguy n Trung Hi u - 0112216

2.2.2 p l p ch m c

Hình 6-8 L p l p ch m c

u vào c a l p l p ch m c là các t p tin tài li u ã c tách t và u ra s là

p tin ch m c tài li u. Nó s làm nhi m v tính t n s , tr ng s c a t trong tài li u

sau ó s l u các thông tin này l i thành t p tin Xml ch m c tài li u.

2.2.2.1 Ý ngh a c a các bi n thành ph n :

• sl : i t ng thu c l p CstopList ki m tra t có n m trong danh

sách StopList hay không.

2.2.2.2 Các hàm chính :

- Hàm TinhTanSo( ) : tính s l n xu t hi n c a t trong tài li u.

* Thu t toán :

int TinhTanSo(string Tu, string MaTL)

{

- T mã tài li u xác nh c tên t p tin ch a n i dung c a tài

li u.

- Duy t t u n cu i v n b n ta tìm t khóa c n tìm, n u

Page 93: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 93 Nguy n Trung Hi u - 0112216

tìm th y thì t ng bi n m lên m t n v .

- Tr v bi n m

}

- Hàm TinhTrongSo( ) : tính tr ng s c a t trong tài li u.

* Thu t toán :

double TinhTrongSo( int T ns )

{

return TanSo* log 10 (t ng s tài li u / s tài li u ch a t ó)

}

- Hàm ThemTaiLieuVaoInverted() : hàm này dùng c p nh t thêm t p

tin tài li u vào t p tin Inverted.

* Thu t toán :

void ThemTaiLieuVaoInverted( )

{

B1 : Duy t qua t ng t c a t p tin tài li u.

B2 : N u t ó có n m trong StopList thì quay l i B1.

B3 : Tính t n s c a t trong tài li u.

B3 : Ki m tra t ó có trong t p tin Inverted ch a ?

- N u ch a ta thêm t m i và thêm mã tài li u, t n s , tr ng s cho

ng 0.

- N u có r i ta ch c n thêm mã tài li u, t n s , tr ng s ( 0 ) vào

mà ta tìm th y trong t p tin Inverted.

Page 94: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 94 Nguy n Trung Hi u - 0112216

B4 : C p nh t l i tr ng s tòan b t p tin Inverted.

}

- Hàm CapNhatTrongSo() : Sau khi thêm tài li u m i vào tr ng s s

không còn chính xác n a nên ta ph i c p nh t l i tr ng s .

* Thu t toán :

void CapNhatTrongSo()

{

- Duy t qua t ng t trong t p tin Inverted.

- Tính s tài li u ch a t ó (s nút con c a nó)

- Tính t ng s tài li u.

- C p nh t l i thu c tính tr ng s (g i hàm TinhTrongSo)

}

2.2.3 p giao di n t o m i ch m c

Hình 6-9 L p giao di n t o m i ch m c

p này s có các i t ng h tr giao di n cho ng i s d ng l p ch m c,

o ra t p tin Inverted m i

2.2.3.1 Ý ngh a c a các bi n thành ph n :

Page 95: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 95 Nguy n Trung Hi u - 0112216

• lcm : i t ng thu c l p l p ch m c.

2.2.3.2 Màn hình giao di n t o m i ch m c :

Hình 6-10 Màn hình t o m i ch m c

• txtDuongDan : ch a ng d n n các t p tin ã c tách t .

• btnDuongDan : ch n ng d n n các t p tin ã c tách t .

• ListBox1 : ch a các t p tin Xml trong ng d n c a txtDuongDan

• ListBox2 : ch a các t p tin Xml c ch n l p ch m c.

• btnLeft, btnRight : chuy n các t p tin qua l i gi a 2 ListBox

Page 96: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 96 Nguy n Trung Hi u - 0112216

• chkSelectAll : ch n t t c các t p tin l p ch m c.

• chkRemoveAll : Lo i b t t c .

• btnThoat : tr l i Form chính.

• btnLapChiMuc : ch ng trình b t u l p ch m c.

- S ki n btnLapChiMuc_Click() : dùng i t ng lcm (c a l p l p ch m c)

l p ch m c cho t t c các t p tin trong ListBox2.

2.2.4 p giao di n c p nh t ch m c

Hình 6-11 L p Màn hình c p nh t ch m c

p MH_CapNhatChiMuc s làm nhi m v c p nh t các t p tin Xml ã c

tách t vào t p tin ã l p ch m c Inverted.

2.2.4.1 Ý ngh a c a các bi n thành ph n :

• lcm : i t ng thu c l p l p ch m c.

Page 97: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 97 Nguy n Trung Hi u - 0112216

2.2.4.2 Màn hình giao di n c p nh t ch m c :

Hình 6-12 Màn hình c p nh t ch m c

• txtDuongDan : ch a ng d n n các t p tin ã c tách t .

• btnDuongDan : ch n ng d n n các t p tin ã c tách t .

• ListBox1 : ch a các t p tin Xml trong ng d n c a txtDuongDan

Page 98: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 98 Nguy n Trung Hi u - 0112216

• ListBox2 : ch a các t p tin Xml c ch n l p ch m c.

• ListBox3 : ch a các t p tin ã c l p ch m c.

• btnLeft, btnRight : chuy n các t p tin qua l i gi a ListBox1 và ListBox2

• chkSelectAll : ch n t t c các t p tin l p ch m c.

• chkRemoveAll : lo i b t t c .

• btnThoat : tr l i Form chính.

• btnCapNhat : ch ng trình b t u c p nh t ch m c.

- S ki n btnCapNhat_Click( ) : dùng i t ng lcm (c a l p l p ch m c)

p nh t ch m c cho t t c các t p tin trong ListBox2, các t p tin n u ã c

p ch m c r i thì ch ng trình t ng b qua.

2.3 Các l p trong quá trình tìm ki m

2.3.1 các l p

Hình 6-13 S l p tìm ki m

Page 99: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 99 Nguy n Trung Hi u - 0112216

2.3.2 p tìm ki m

Hình 6-14 L p x lý tìm ki m

L p CTimKiem s có nhi m v tách t câu h i, lo i b các t trong danh sách

StopList, sau ó tìm các t khóa c a câu h i trong t p tin Inverted xác nh các tài

li u liên quan n câu h i, cu i cùng là tính t ng quan gi a các tài li u v i câu

i, s p x p t ng quan gi m d n và hi n th cho ng i s d ng.

2.3.2.1 Ý ngh a c a các bi n thành ph n:

• ttg : ây là i t ng c a l p tách t ghép dùng tách t câu h i.

• sl : ây là i t ng c a l p CstopList dùng ki m tra các t trong

câu h i có n m trong danh sách StopList không.

2.3.2.2 Các hàm chính :

- Hàm TachTuCauHoi( ) : hàm này nh m m c ích tách câu h i thành các t

riêng bi t. Ta dùng m t i t ng thu c l p CTachTuGhep tách t câu h i. K t qu

tr v là m t chu i ch a các t ã c tách ta s l u vào m t t p tin CauHoi.xml

trong th m c CauHoi.

Page 100: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 100 Nguy n Trung Hi u - 0112216

* Thu t toán :

void TachTuCauHoi(câu h i)

{

CTachTuGhep ttg = new CTachTuGhep

String str = ttg.TachTuGhep(câu h i)

L y t ng t trong chu i str a vào t p tin CauHoi.xml

}

Ví d : t p tin CauHoi.xml

<WORDS>

<WORD Name="tai n n" />

<WORD Name="giao thông" />

<WORD Name=" i" />

<WORD Name="tphcm" />

</WORDS>

- Hàm LoaiBoSLCauHoi( ) : hàm này nh m m c ích lo i b các t không

quan tr ng trong câu h i.

* Thu t toán :

void LoaiBoSLCauHoi()

{

- t p tin CauHoi.xml

- Duy t qua các t xem có n m trong StopList hay không ?

Page 101: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 101 Nguy n Trung Hi u - 0112216

- u không a vào t p tin CauHoiLoaiBoSL.xml ( t p tin này c ng

m trong th m c CauHoi)

}

Ví d : t p tin CauHoiLoaiBoSL.xml

<WORDS>

<WORD Name="tai n n" />

<WORD Name="giao thông" />

<WORD Name="tphcm" />

</WORDS>

- Hàm ThemDocVaWeight( ) : hàm này nh m m c ích là tìm ki m trong t p

tin Inverted các tài li u liên quan n các t khóa c a câu h i.

* Thu t toán :

void ThemDocVaWeight()

{

- t p tin CauHoiLoaiBoST.xml và duy t qua t ng t .

- o t p tin CauHoiVaTaiLieu.xml

- i v i t ng t ta dùng công c XPath xác nh v trí t trong t p

tin Inverted

- a t khóa và các tài li u liên quan ( mã tài li u, t n s , tr ng s )

vào t p tin CauHoiVaTaiLieu.xml

}

Ví d : t p tin CauHoiVaTaiLieu.xml sau khi g i hàm ThemDocVaWeight

Page 102: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 102 Nguy n Trung Hi u - 0112216

<WORDS>

<WORD Name="tai n n" />

<Doc DOC_ID="1" Frequence="2" Weight="3.63" />

</WORD>

<WORD Name="giao thông" />

<Doc DOC_ID="3" Frequence="1" Weight="1.32" />

</WORD>

<WORD Name="tphcm" />

<Doc DOC_ID="4" Frequence="1" Weight="1.08" />

</WORD>

</WORDS>

- Hàm BoSungCacDocThieu( ) : hàm này nh m m c ích b sung các tài li u

có trong t khóa này mà không có trong t khóa khác ( ph n t n s và tr ng s ta s

giá tr là 0 ).

Ví d : t p tin CauHoiVaTaiLieu.xml sau khi g i hàm BoSungCacDocThieu

<WORDS>

<WORD Name="tai n n" />

<Doc DOC_ID="1" Frequence="2" Weight="3.63" />

<DOC DOC_ID="3" Frequence="0" Weight="0" />

<DOC DOC_ID="4" Frequence="0" Weight="0" />

</WORD>

Page 103: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 103 Nguy n Trung Hi u - 0112216

<WORD Name="giao thông" />

<Doc DOC_ID="3" Frequence="1" Weight="1.32" />

<DOC DOC_ID="1" Frequence="0" Weight="0" />

<DOC DOC_ID="4" Frequence="0" Weight="0" />

</WORD>

<WORD Name="tphcm" />

<Doc DOC_ID="4" Frequence="1" Weight="1.08" />

<DOC DOC_ID="3" Frequence="0" Weight="0" />

<DOC DOC_ID="1" Frequence="0" Weight="0" />

</WORD>

</WORDS>

- Hàm TaoFileDoTuongQuan( ) : hàm này nh m m c ích t o ra t p tin

TuongQuan.xml ch a câu h i và các tài li u liên quan n câu h i kèm v i t ng

quan d a vào t p tin CauHoiVaTaiLieu.xml

Theo lý thuy t thì t ng quan gi a tài li u Di và câu h i Q s c tính theo

công th c :

SC(Q,Di) = ij1w *

n

qjj

d=

i :

n : S t phân bi t trong t p tài li u.

dij : tr ng s c a t j trong tài li u di. (ta ã tính c tr c ó)

wqj : tr ng s c a t j trong câu truy v n Q. S có 2 giá tr nh sau :

Page 104: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 104 Nguy n Trung Hi u - 0112216

wqj = 1 : N u t j có trong câu truy v n Q.

wqj = 0 : N u t j không có trong câu truy v n Q.

Th c ch t là ta ch c n c ng các t ng quan t ng t khóa c a câu h i là ta s có

ng quan c a câu h i v i tài li u.

Ví d : t p tin TuongQuan.xml sau khi g i hàm TaoFileDoTuongQuan

<CAU_HOI Name=”tai n n giao thông t i TPHCM”>

<Doc DOC_ID="1" SIMILAR="3.63" Words="1" />

<DOC DOC_ID="3" SIMILAR ="1.32" Words ="1" />

<DOC DOC_ID="4" SIMILAR ="1.08" Words ="1" />

</CAU_HOI>

- Hàm TinhDoTuongQuan( ) : hàm này nh m tính t ng quan gi a câu h i

và các tài li u có liên quan n nó. Trên th c t là ta g i 3 hàm v a nêu trên.

* Thu t toán :

void TinhDoTuongQuan()

{

ThemDocVaWeight();

BoSungCacDocThieu();

TaoFileDoTuongQuan();

}

Page 105: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 105 Nguy n Trung Hi u - 0112216

2.3.3 p giao di n tìm ki m

Hình 6-15 L p giao di n tìm ki m

8.3.1. Ý ngh a c a các bi n thành ph n :

§ Term : m ng chu i ch a các t khóa c a câu h i.

§ DocID : m ng chu i ch a DocID liên quan n câu h i.

§ Sim : m ng s th c ch a các t ng quan c a câu h i v i các tài li u

(DocID t ng ng).

§Words : m ng s nguyên ch a s t c a câu h i có trong tài li u

(DocID t ng ng).

§ n : t ng s tài li u liên quan n câu h i.

§ tk : i t ng c a l p x lý tìm ki m.

Page 106: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 106 Nguy n Trung Hi u - 0112216

* Giao di n tìm ki m :

Hình 6-16 Màn hình tìm ki m

- Sau khi tìm ki m xong ng i s d ng có th xem t khóa c a câu h i. Ví d v i câu

i : an toàn giao thông t i Tp. HCM b n s có c t khóa nh sau :

Hình 6-17 Xem t khóa câu h i

Page 107: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 107 Nguy n Trung Hi u - 0112216

- Xem t khóa c a tài li u : ngh a là khi ng i s d ng ch n m t tài li u nào ó và

ch n ch c n ng xem t khóa tài li u thì h s th y t khóa ó xu t hi n v i t n s bao

nhiêu và tr ng s t ng ng c a nó.

Hình 6-18 Xem t khóa tài li u

8.3.2. Các hàm chính c a l p :

- Hàm TimKiem_Click( ) : hàm này s dùng i t ng c a l p x lý tìm ki m

tách t câu h i r i tính t ng quan c a các tài li u v i câu h i

* Thu t toán :

void TimKiem_Click()

{

CtimKiem tk = new CtimKiem;

tk.TachTuCauHoi(câu h i)

tk.LoaiBoSLCauHoi(câu h i);

tk.TinhDoTuongQuan();

// Sau khi g i 3 hàm này ta s t o ra c t p tin TuongQuan.xml

c t p tin TuongQuan.xml ta a vào m ng các DocID, Sim, Words

Page 108: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 108 Nguy n Trung Hi u - 0112216

SapXepUuTien();

HienThiTaiLieu();

}

- Hàm s p x p u tiên : dùng gi i thu t InterchangeSort s p x p tài li u nào

liên quan n câu h i nhi u nh t.

* Thu t toán :

void SapXepUuTien ()

{

// u tiên theo Words (s t c a câu h i trong tài li u)

// u tiên theo Sim ( t ng quan c a tài li u v i câu h i)

}

- Hàm hi n th tài li u : ta s hi n th tài li u lên Form cho ng i dùng xem.

Page 109: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 109 Nguy n Trung Hi u - 0112216

3. t s màn hình giao di n khác

3.1 Màn hình chính c a ch ng trình

Hình 6-19 Màn hình chính

Ch ng trình s có 6 ch c n ng :

• Tách t : tách t các tài li u.

• o m i ch m c : t o t p tin Inverted.

• p nh t ch m c : c p nh t thêm tài li u vào t p tin Inverted.

• Tìm ki m : gõ câu h i và nh n các tài li u tr v .

Page 110: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 110 Nguy n Trung Hi u - 0112216

• Thoát : thóat h th ng ch ng trình.

3.2 Màn hình tìm ki m nhi u câu h i

Hình 6-20 Màn hình tìm ki m nhi u câu h i

Các câu h i s c l u trong m t t p tin Xml và theo c u trúc.

Ví d t p tin CauHoi.xml sau :

<Cac_Cau_Hoi>

<Cau_Hoi ID="1">

<Noi_Dung>kinh t tri th c</Noi_Dung>

</Cau_Hoi>

<Cau_Hoi ID="2">

Page 111: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 111 Nguy n Trung Hi u - 0112216

<Noi_Dung> án tham nh ng l n</Noi_Dung>

</Cau_Hoi>

</Cac_Cau_Hoi>

Page 112: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 112 Nguy n Trung Hi u - 0112216

3.3 Màn hình tìm ki m chính ( giao di n Web)

Hình 6-21 Giao di n tìm ki m trên Web

Page 113: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 113 Nguy n Trung Hi u - 0112216

3.4 Màn hình tr v các tài li u tìm c ( giao di n Web)

Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m

Page 114: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 114 Nguy n Trung Hi u - 0112216

3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)

`

Hình 6-23 Giao di n chi ti t n i dung c a tài li u

Page 115: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 115 Nguy n Trung Hi u - 0112216

Ph n 3 : NG K T

1. Ch ng trình th nghi m

th ng tìm ki m thông tin ti ng Vi t (Search4VN) c cài t trên máy có

u hình : Pentium IV, CPU 2.0 Ghz, b nh Ram 256 MB, a c ng 40 GB, s tài

li u c l p ch m c là 13.000 tài li u t ng dung l ng kho ng 35 MB. L p ch m c

cho toàn b d li u trên t o thành t p tin Inverted.xml có dung l ng là 40 MB.

Ch ng trình h tr 2 d ng giao di n : giao di n Web ch cho ng i s d ng tìm ki m,

và giao di n Window Application cho Admin s d ng, c hai giao di n trên u c

phát tri n trên môi tr ng Visual studio .NET.

2. ánh giá k t qu t c

Nhìn chung, lu n v n ã hoàn thành nh ng yêu c u ra:

Ø Nghiên c u c cách th c ho t ng c a m t h th ng tìm ki m thông tin.

Ø Tìm hi u c các mô hình xây d ng m t h tìm ki m thông tin.

Ø Tìm hi u các ph ng pháp tách t .

Ø Tìm hi u ph ng pháp l p ch m c cho tài li u.

Ø Áp d ng xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c

có c u trúc.

th ng có m t s u m nh sau:

Ø Tách t ti ng Vi t khá chính xác.

Ø Tham s hóa các y u t liên quan n l p ch m c và tra c u.

Page 116: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 116 Nguy n Trung Hi u - 0112216

Ø Tìm ki m khá nhanh. Các tài li u tr v c s p x p khá chính xác.

Ø Tóm t t c n i dung tài li u tr v

Ø Giao di n thân thi n, d s d ng

Tuy nhiên, h th ng còn m t s khuy t m c n c i thi n:

Ø Ch a t ng l y c các tài li u m i gi ng nh m t h th ng Search Engine.

Ø Ch a h tr b gõ

Ø Ch a h tr các ch c n ng tìm ki m nâng cao

3. ng phát tri n

Ø Tìm hi u k t h p các công c tách t cho k t qu tách t t t nh t

Ø tr các b gõ ti ng Vi t

Ø tr các ch c n ng tìm ki m nâng cao.

Ø ng t c c p nh t ch m c, tìm ki m.

Ø Thêm ch c n ng t ng l y các tài li u và c p nh t vào t p tin ch m c phát

tri n thành m t trang Web tìm ki m cho ti ng Vi t.

Page 117: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 117 Nguy n Trung Hi u - 0112216

TÀI LI U THAM KH O

1. Sách

[1.1] Gerard Salton/ Michael J.McGill; Introduction to Modern Information

Retrieval

[1.2] David A.Grossman/Ophir Frieder; Information Retrival: Algorithms and

Heuristics

[1.3] C.J van RIJSBERGEN Department of Computing Science University of

Glassgow; Information Retrival.

[1.4] inh n; lý ngôn ng t nhiên

2. Lu n v n

[2.1] Thành Giang. Lu n án th c s khoa h c. Tìm hi u v cách xác nh t lo i

và xây d ng công c xác nh t lo i. Giáo viên h ng d n : T.S H B o Qu c.

[2.2] Nguy n H i Quy n, L ng Th Hoàng Thuý. Lu n v n c nhân tin h c. o

khoá cho v n b n ti ng Vi t. GVHD: Chu T t Bích San.

[2.3] Lê Thúy Ng c, M Nhung. Lu n v n c nhân tin h c. Tìm hi u v

Search Engine và xây d ng ng d ng cho Search Engine ti ng Vi t. Giáo viên

ng d n : Th.S Nguy n Th Di m Tiên.

3. Website

[3.1] http://nlp.cs.jhu.edu/~rflorian/fntbl/tbl-toolkit/

Page 118: He thong tim_kiem_thong_tin_tieng_viet

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Nguy n Th Thanh Hà - 0112215 118 Nguy n Trung Hi u - 0112216

[3.2] http://www.dcs.gla.ac.uk

[3.3] http://www.vinaseek.com

[3.4] http://www.google.com

[3.5] http://www.yahoo.com