nghiÊn cỨu khai phÁ dỮ liỆu web
Post on 19-Oct-2015
54 Views
Preview:
TRANSCRIPT
-
B GIO DC V O TO
I HC NNG
NGUYN NH BNH
NGHIN CU KHAI PH D LIU WEB V
NG DNG TM KIM TRCH CHN THNG TIN
THEO CH
Chuyn ngnh: KHOA HC MY TNH
M s: 60.48.01
TM TT LUN VN THC S K THUT
Nng - Nm 2012
-
Cng trnh c hon thnh ti
I HC NNG Ngi hng dn khoa hc: PGS.TS. L Vn Sn
Phn bin 1: PGS.TS. V Trung Hng
Phn bin 2: GS.TS. Nguyn Thanh Thy
Lun vn c bo v ti Hi ng chm Lun vn tt nghip
Thc s K thut hp ti i hc Nng vo ngy 19 thng
01 nm 2013.
* C th tm hiu Lun vn ti:
- Trung tm Thng tin - Hc liu, i hc Nng
- Trung tm Hc liu, i hc Nng.
-
-1-
M U
1. L do chn ti
Hn bn thp nin k t khi Internet ra i cho n nay, n
mang li rt nhiu tin ch hu dng cho ngi s dng nh: h
thng th in t (Email), tr chi (Game), tr chuyn trc tuyn
(Chat), my truy vn d liu (Search engine), cc dch v thng
mi, y t v gio dc S pht trin nhanh chng ca mng Internet
sinh ra mt khi lng khng l cc d liu dng siu vn bn (d
liu Web). Cc ti liu siu vn bn cha ng vn bn v thng
nhng cc lin kt n cc ti liu khc phn b trn Web. Ngy nay,
Web bao gm hng t ti liu ca hng triu tc gi c to ra v
c phn tn qua hng triu my tnh c kt ni qua ng hu
tuyn (dy in thoi, cp quang) v ng v tuyn (sng radio, bc
x hng ngoi hay sng truyn qua v tinh) . Web ang ngy cng
c s dng ph bin trong nhiu lnh vc nh bo ch, pht thanh,
truyn hnh, h thng bu in, trng hc, cc t chc thng mi,
chnh phChnh v vy lnh vc Web mining hay tm kim cc
thng tin ph hp c gi tr trn Web l mt ch quan trng trong
Data Mining v l vn quan trng ca mi n v, t chc c nhu
cu thu thp v tm kim thng tin trn Internet. Cc h thng tm
kim thng tin hay ni ngn gn l cc my tm kim Web thng
thng tr li mt danh sch cc ti liu c phn hng m ngi
dng s phi tn cng chn lc trong mt danh sch rt di c
c nhng ti liu ph hp. Ngoi ra cc thng tin thng rt
phong ph, a dng v lin quan n nhiu i tng khc nhau.
iu ny to nn s nhp nhng gy kh khn cho ngi s dng
trong vic ly c cc thng tin cn thit.
C nhiu hng tip cn khc nhau gii quyt vn ny,
cc hng ny thng ch gim s nhp nhng bng cc phng
-
-2-
php tm kim trch chn thng tin hay thm cc ty chn ct bt
thng tin v hng biu din cc thng tin tr v bi cc my tm
kim thnh tng cm, lp cho ngi dng c th d dng tm
c thng tin m h cn. c nhiu thut ton phn cm, phn
lp tm kim thng tin. Tuy nhin vic tp hp ti liu ca cc
my tm kim l qu ln v lun thay i c th phn cm ngoi
tuyn. Do , vic phn cm phi c ng dng trn tp cc ti liu
nh hn c tr v t cc truy vn v thay v tr v mt danh sch
rt di cc thng tin gy nhp nhng cho ngi s dng cn c mt
phng php t chc li cc kt qu tm kim mt cch hp l. Do
nhng vn cp thit c cp trn nn em chn ti:
"Nghin cu khai ph d liu Web v ng dng tm kim trch chn
thng tin theo ch .
2. Mc tiu v nhim v nghin cu
Mc ch ca ti l nghin cu p dng tm kim v trch
chn mu mi, hu ch, hiu c, tim n trong Web. Nhng thng
tin theo ch nhanh, chnh xc v y , thng tin tim n bn
trong ni dung trang Web v nhng thng tin quan trng hay
nhng lung thng tin tt nht trn trang Web tm kim tr v kt
qu ph hp vi yu cu ngi dng.
Mc tiu c th nh sau:
Nghin cu tm kim
Nghin cu k thut tm kim trn Web.
Hiu qu tm kim mt cch nhanh chng v chnh xc trn
Web.
Thng tin tm kim trn Web y nguyn vn, c ng.
Nghin cu v trch chn
Nhng thng tin cn khai thc cn tm n trong mt cu, mt
vng vn bn v mt phn vng ca trang Web .
-
-3-
Nhng vn kho khn khi thc hin v vic trch chn
thng tin ch n trn trang Web.
a ra nhng lung thng tin theo ch tt nht p ng
yu cu ngi s dng.
ng dng thc t
S dng quy trnh khai ph d liu Web trong v ic tm kim
trch chn thng tin theo ch trn nhng trang Web vo thc t
p ng theo yu cu ngi dng.
Ly c nhng thng tin qu gi tm n bn trong trang Web
, p ng c nhu cu tm kim ti u cho ngi dng.
Tm kim trch chn cc mu hoc tri thc hp dn (khng
tm thng, n, cha bit v hu dng tim nng) t mt tp hp ln
d liu. kt qu t c p ng yu cu x hi hin nay.
3. i tng v phm vi nghin cu:
i tng d liu l khai ph kho d liu Web.
Cu trc i tng l CSDL quan h, CSDL a phng tin,
D liu dng Text v d liu Web.
Phm vi nghin cu lun vn ny, ti ch p dng thut ton
Viterbi, Crawling, Markov, Apriori
Cng c h tr d liu vi ngn ng Java trong h quan tr c
s d liu MySQL, my tm kim Google, Yahoo.
xut khai ph d liu Web da trn l thuyt xc sut (
in hnh l m hnh xc sut Bayes, m hnh Markov n, m hnh
trng ngu nhin c iu kin) trong vic tm kim, trch chn v
th nghim thc t vi cc mt c s d liu co sn trn Web.
ti thuc loi hnh khai ph d liu.
4. Phng php nghin cu
Phng php thng k - phn tch.
Phng php lch s.
-
-4-
Phng php so snh - i chiu.
Phng php cu trc - h thng.
Thu thp v phn tch cc ti liu v thng tin lin quan n
ti.
Tho lun, la chn phng hng gii quyt vn .
Trin khai xy dng khai ph d liu.
Kim tra, th nghim v nh gi kt qu trong qu trnh khai
ph.
5. B cc lun vn
Sau phn m u, gii thiu, ni dung chnh ca lun vn
c chia thnh 3 chng nh sau:
Chng 1, Tng quan v khai ph d liu Web, trnh by c
s l thuyt lm nn tng xy dng ng dng, bao gm: Khai ph
d liu v ph hin tri thc, cc m hnh ton hc thng dng trong
cc bi ton khai ph d liu Web.
Chng 2, H thng tm kim v trch chn thng tin trn
Web, tm hiu, gii thiu v phn tch h thng my tm kim
Vietseek, kin trc Google mc cao v h thng trch chn thng
tin d trn m hnh phn cm, gn nhn,CRFs, LDA v thut ton
Viterbi, nu nhng vn hn ch v xut gii php khc phc,
l gii php ng dng tm kim trch chn thng tin theo ch
nhm gii quyt bi ton t ra.
Chng 3, trnh by chi tit v m hnh kin trc tng th ca
h thng v phng php xy dng ng dng. Tin hnh kch bn
th nghim trn s liu thc t, sau nh gi kt qu t c v
kh nng trin khai ng dng trn ton h thng.
Cui cng l phn nh gi, kt lun v hng pht trin ca
ti.
-
-5-
CHNG 1
TNG QUAN V KHAI PH D LIU WEB
1.1. KHAI PH D LIU V PHT HIN TRI THC
1.1.1. Ti sao li khai ph d liu
1.1.2. nh ngha khai ph d liu
nh ngha 1: (Frawley, Piatetski Shapiro v Matheus)
Pht hin tri thc trong c s d liu (i khi cn c gi l
khai ph d liu) l mt qu trnh khng tm thng nhn ra nhng
mu c gi tr, mi, hu ch tim nng v hiu c trong d liu.
nh ngha 2: Khai ph d liu (datamining)
Khai ph d liu l qu trnh trch ra nhng thng tin dng
c, ng v cha bit trc t c s d liu ln, ri dng thng
tin ny ra cc quyt nh.
Gio s Tom Mitchell a ra nh ngha ca KPDL nh
sau: KPDL l vic s dng d liu lch s khm ph nhng qui
tc v ci thin nhng quyt nh trong tng lai.
Vi mt cch tip cn ng dng hn, Tin s Fayyad pht
biu: KPDL, thng c xem l vic khm ph tri thc trong cc
c s d liu, l mt qu trnh trch xut nhng thng tin n, trc
y cha bit v c kh nng hu ch, di dng cc qui lut, rng
buc, qui tc trong c s d liu.
Ngoi ra theo ti liu ca Weldon nm 1996, khai ph d liu
l vic pht hin tri thc nh cc cng c hon thin s dng thng
k truyn thng, tr tu nhn to v ha my tnh. Ni tm li,
KPDL l mt qu trnh hc tri thc mi t nhng d liu thu thp
c.
1.1.3. Qu trnh khai ph tri thc (KDD)
Qu trnh khai ph d liu s tin hnh qua 6 giai on nh
hnh 1.1,
-
-6-
Bt u ca qu trnh l kho d liu th v kt thc vi tri thc c
chit xut ra.
1.1.4. Cc hng tip cn v cc k thut p dng trong
khai ph d liu
1.1.5. Phn loi cc h thng khai ph d liu
1.1.6. Nhng vn ch trng v ng dng trong khai ph
d liu
1.2. C S D LIU FULLTEXT V HYPERTEXT
1.2.1. C s d liu Fulltext
1.2.2. C s d liu HyperText
1.2.3. So snh c im ca d liu Fulltext v d liu
trang web
1.3. KHAI PH D LIU VN BN (TEXTMINING) V
KHAI PH D LIU WEB (WEBMINING)
1.3.1. Khai ph d liu vn bn
1.3.2. Khai ph d liu Web
Khai ph Web nh l vic trch chn ra cc thnh phn c
quan tm hay c nh gi l c ch cng cc thng tin tim nng
t cc ti nguyn hoc cc hot ng lin quan ti World Wide Web
-
-7-
Chng 2: H THNG TM KIM V TRCH CHN
THNG TIN TRN WEB
2.1. H THNG TM KIM
2.1.1. Nhu cu
2.1.2.My tm kim
2.1.3 Module Crawler trong cc my tm kim
2.1.4. Cc thut ton crawling
2.1.5. Phn tch v nh ch s
Theo ng Sergey Brin v Lawrence Page trnh by c th v
quan im ca nh thit k my tm kim Google:
- URLserver: gi danh sch URL Webpage s a v cho cc
crawler phn tn.
- Cc crawler: Ti ni dung Webpage v gi cho StoreServer.
- StoreServer: nn v lu Webpage ln a (vo kho cha).
- Indexer c cc chc nng:
c ti liu t kho cha
Gii nn
Gi Parser phn tch c php a trang Web.
- Index cng Sorter: gn DocID cho Web page (DocID c gn
mi khi Parser pht hin mt URL mi).
- Mi ti liu
c bin i thnh tp cc xut hin ca cc t kha
(gi l hit)
Hit: t kha, v tr trong ti liu, font (c, ...),
hoa/thng. Indexer
Phn b cc hit thnh tp cc barrel lu tr cc ch
s c sp xp.
- Indexer:
Phn tch cc siu lin kt
-
-8-
1 2
4
6
7 8
5
11 10
9
7b 13
3
Lu cc thng tin quan trng trong file anchor cho
php xc nh
Ngun, ch ca siu lin kt
Ni dung vn bn trong siu lin kt.
Hnh 2.6 Kin trc Google mc cao
- Sinh t in tra cu t kha: Vn bn trong siu lin kt:
Nhiu h ch gn vo trang ngun
Google gn vo c trang ch li ch
Cho thng tin chnh xc hn, thm ch chnh
trang web
tm tt
qua chuyn gia x l
Index cho trang web
Khng vn bn (nh, chng trnh, CSDL
...)
X tr trng hp trang web cha tn ti
Ly vn bn anchor lm ni dung!
-
-9-
T tng ny c trong WWW Worm (1994) v c
trong Google
Kt qu cht lng hn.
Ch : crawling 24 triu trang c ti 259
triu anchor.
- URLsolver
c file anchor.
Bin i URL tng i thnh URL tuyt i.
- URLsolver cp nht li theo ch s DocID
- URLsolver a text anchor vo index thun (hng tr
anchor).
- URLsolver sinh CSDL lin kt gm cc cp lin kt
(DocID1, DocID2) c dng tnh PageRank.
- Sorter
c cc Barrel (xp theo DocID) sp li theo
WordID to ra cc index ngc.
Sinh ra danh sch cc wordID v gia s trong index
ngc.
- DumpLexicon
Ly t lexicon + danh sch wordID
Sinh ra lexicon mi.
- Searcher
Chy do webserver tr li cu hi
Da trn lexicon mi PageRank, index ngc
2.2.TRCH CHN THNG TIN TRN WEB
2.2.1. Trch chn thng tin
a. Khi nim
Trch chn thng tin (IE Information Extraction) l qu trnh
-
-10-
ly thng tin t cc ngun nhng nh dng khng ng nht v
chuyn thnh mt dng ng nht. D liu sau khi trch chn c
s dng, trnh by trc tip cho ngi dng, lu vo c s d liu
x l sau hay s dng cho nhng h thng tm kim thng tin nh
mt d liu qua bc tin x l.
b. Phn loi h thng trch chn thng tin t web
Ngy nay, c rt nhiu h thng trch chn thng tin t web
c cc nh pht trin nghin cu v xy dng. Cc tiu ch
phn loi mt h thng trch chn thng tin t web nh sau:
Da vo mc can thip ca con ngi trong qu trnh trch
chn thng tin: cc h thng trch chn thng tin c th c chia ra
lm 4 loi: th cng, c gim st, bn gim st v khng gim st.
Trong , cc h thng hon ton t ng, khng c s can thip ca
con ngi ang c cc nh nghin cu quan tm nht.
Da vo tng d liu c trch chn: mt trang web s c
nhiu trang HTML, mt trang HTML s c nhiu record v mt
record s c nhiu thuc tnh. Do , da vo kt qu thng tin trch
chn c tng no, cc h thng trch chn c chia ra lm 4
loi: tng thuc tnh (attribute), tng record, tng trang HTML (page)
v tng trang web (site). Hin ti cc h thng x l tng thuc tnh
v record chim a s. V cho n nay, vn cha thy xut hin cc
h thng trch chn thng tin tng site.
Da vo cc phng php trch chn thng tin: Cc h thng
trch chn thng tin cng c chia thnh 3 dng:
Cc h thng da trn cc phng php th cng: s dng
cc phng php gn nhn, cc cch ly thng tin trc tip t c s
d liu hoc t cc dch v web (web service).
-
-11-
Cc h thng da trn cc phng php heuristic: Cc
phng php thng k, tp lut, s dng cc mu thng tin, da vo
cu trc
cy, c s dng trch chn thng tin.
Cc h thng da trn cc phng php hc: S dng cc
phng php m hnh Markov, CRFs, ng ngha, hc trn cu trc
cy, gip cho cc h thng hiu v trch chn thng tin chnh
xc hn.
2.2.2. Khuynh hng pht trin ca khai ph d liu Web
theo ch
Bi ton m ng Rich Caruana v cng s gii quyt c m
t s b nh sau: Cho trc mt tp hp (khong 300000) ti liu
khoa hc cn pht hin ra cc ch khoa hc ch cht v qua d
bo c xu hng nghin cu, pht trin cc ch khoa hc mi
thuc lnh vc khoa hc my tnh. Gii php tin hnh khng cn
khai thc cc ch dn ca cc cng trnh m ch cn s dng ni dung
cc cng trnh, hnh sau m t kt qu nghin cu pht hin ra 13
cm ch v cung cp tng v xu hng pht trin ca 13 cm
ch . Trong nghin cu ca mnh v bi ton trn, GS John E.
Hopcroft mt chuyn gia hng u ca nc M v lnh vc CNTT
trnh by hng pht trin ca khoa hc my tnh. ng cp ti
mt s yu t ni bt trong tng lai tc ng ti s chuyn bin ca
khoa hc my tnh. T ni dung vn bn ca mi cng trnh nghin
cu, chng ta nhn c tn cc tc gi, cc ti liu tham kho, tn
tp ch, hi tho
ng Rich Caruana v cng s t ra cc mc tiu c bn cn
hng ti:
Tm ra din bin qu trnh pht trin theo thi gian ca
cc ch khoa hc theo mt s tiu ch nh t l cc ti liu theo
-
-12-
ch , cc ch ni bt mi, thi im mt ch c th t nh
cao nht, ch no ang tn li tm ra c cc ch c vai
tr ch cht trong tp hp cc ch .
Nhn bit c cc ti liu c uy th l ti liu gii thiu
cc tng mi v c ch s nh hng ln.
Nhn bit c tc gi c uy th l tc gi c nh hng
ln i vi s pht trin ca cc ch .
Nhn vo biu hnh 2.8 cho thy:
Hnh 2.8. Tnh hnh pht trin mt s nhm ch trong
khoa my qua phn cm ti liu khoa hc
+ Mt s nhm ch nghin cu hin ang trong giai on
pht trin tt nh nhm 10 (Bayesian, mixture, posterior, likelihood,
em), nhm 9 (Spike, spikes, firing, neuron, neurons) v nhm 2
(Image, images, object, face, video).
+ Mt s nhm ch nghin cu hin ang pht trin song
ang c xu hng chng li nh nhm 12 (chip, circuit, analog,
voltage, vlsi), nhm 4 (units, node, training, nodes, tree)
-
-13-
+ Cc nhm cn li ang pht trin bnh thng.
c bit nhm ch 12 chng li song vn c s lng ln
cng trnh nghin cu c cng b.
2.2.3. Thut ton Viterbi
Thut ton Viterbi mang tn tc gi Andrew Viterbi, l thut
ton quy hoch ng nhm tm dy tng t nht ca cc trng thi
n, c ng dng kh ph bin gii quyt bi ton gii m. Khi
s dng phng php my trng thi hu hn, c bit i vi bi
ton trch chn thng tin trn Web. Ni dung thut ton c s kt
hp cc ni dung ca th v xc sut.
Thut ton Viterbi c coi nh tm ng i ngn nht dc
theo th l:
Input: Z=z1, z2, , zn // dy quan st u vo
Khi to:
K 1 // ch s lp
S(c1) c1
L(c1) 0 // Bin cha tng di, khi to l 0
quy:
Repeat
For b chuyn tk=(ck, ck+1)
L(ck, ck+1) L(ck) + L[tk=( ck, ck+1)]
theo ck
Tm L(ck+1)= minL(ck, ck+1)
For mi ck+1
Lu L(ck+1) v vt S(ck+1) tng ng
k k +1
Until k = n
2.2.4. M hnh trng ngu nhin (Conditional Random
Fields CRFs)
-
-14-
2.2.5. M hnh phn cm v gn nhn cm vi ch n
a. tng ng cu v cc phng php
tng ng cu
Cc phng php tnh tng ng cu
Phng php tnh tng ng cu s dng o Cosine
Phng php tnh tng ng cu da vo ch n
Mi cu c th c nhiu phn phi xc sut topic. Vi hai cu
th i v j, chng ta s dng cosine tnh tng ng gia
hai cu c lm giu vi ch n.
Cui cng, t hp hai o trn ra tng ng gia hai
cu:
Sim(si , sj ) = xSim(topic - parts) + (1 - )xSim(word - parts)
Trong cng thc trn, l hng s trn, thng nm trong on
[0,1]. N quyt nh vic ng gp gia 2 o tng ng. Nu
= 0 , tng ng gia hai cu khng c ch n. Nu = 1, o
tng ng gia hai cu ch tnh vi ch n
2.2.6. M Hnh Latent Dirichlet Allocation (LDA)
a. Phn tch thng tin ch da trn m hnh ch LDA
Phn tch ch cho vn bn ni ring v cho d liu Web ni
chung c vai tr quan trng trong vic hiu v nh hng thng
tin trn Web. Khi ta hiu mt trang Web c cha nhng ch hay
thng tin g th d dng hn cho vic xp loi, sp xp, v tm tt ni
-
-15-
dung ca trang Web . Trong phn lp vn bn, mi vn bn
thng c xp vo mt lp c th no . Trong phn tch ch ,
chng ta gi s mi vn bn cp n nhiu hn mt ch (K ch
) v mc lin quan n ch c biu din bng phn phi
xc sut ca ca ti liu trn cc ch .
Hnh 2.13 Ti liu vi K ch n.
M hnh sinh trong LDA
Theo Blei, Ng [8], d pLSA mt bc tin trong vic m hnh
ha text theo xc sut nhng n cha hon thin. L do l pLSA cha
phi l mt m hnh xc sut c xc nh r rng mc vn bn
(document). H qu l n gp vn khi xc nh xc sut vi nhng
vn bn nm ngoi tp hun luyn (trainning set). Hn na, n cn
dn ti vic tng tuyn tnh s tham s ca m hnh so vi ln ca
tp vn bn (corpus). LDA l m hnh phn tch ch c th x l
c nhng vn . V th ti chn LDA s dng trong
kha lun. Hnh 2.14 gii thiu nhng bc c bn trong tin trnh
sinh ca LDA.
-
-16-
Hnh 2.14. Tin trnh sinh vn bn LDA
Phn phi Dirichlet n (Latent Dirichlet Allocation)
LDA l m hnh sinh vn bn c gii thiu bi Blei, Ng v
cng s [8] vi pLSA v tng c bn l da trn vic coi vn bn
l s pha trn ca cc ch . Nhng LDA l mt m hnh Bayes ba
mc: mc corpus, mc vn bn (document), mc t (word). Hnh
2.15 & 2.16 m t tin trnh sinh vn bn bng phng php LDA:
Hnh 2.15. K hiu khi lp li
-
-17-
Cho mt corpus ca M ti liu biu din bi D={d1,d2, , dM},
trong , mi ti liu m trong corpus bao gm Nm t wi rt t mt
tp Vocabulary ca cc term {t1, , tv}, V l s t. LDA cung cp
mt m hnh sinh y ch ra kt qu tt hn cc phng php
trc. Qu trnh sinh ra document nh sau:
Hnh 2.16. M hnh biu din ca LDA
Cc k hiu:
Cc khi hnh vung hinh 18 biu din cc qu trnh lp.
Tham s u vo: v ( tham s mc corpus).
: Dirichlet prior on m
.
: Dirichlet prior on k
.
M : s vn bn trong corpus: D = {d1 ,d2 ,...,dM }.
K : s ch n.
V : s t trong tp t vng
Nm : S lng cc t trong ti liu th m (hay cn gi l di
ca vn bn dm).
zm,n : ch ca t wn trong vn bn dm ( hay ch s ch ).
wm,n : t th n trong vn bn dm ch bi zm,n. k
km 1}{
(KxV matrix)
-
-18-
m
: Phn phi ca topic trong document th m,
m
biu din
tham s cho p(z|d=m), thnh phn trn topic cho ti liu m. Mt t l
cho mi ti liu M
mm 1}{
(MxK matrix)
m
: phn phi ca cc t c sinh t ch zm,n. m
biu
din tham s cho p(t|z=k), thnh phn trn ca topic k, mt t l cho
mi topic.
LDA sinh mt tp cc t wm,n cho cc vn bn md
bng cch:
Vi mi vn bn m, sinh ra phn phi topic m
cho
vn bn theo Dir().
Vi mi t, zm,n c ly mu da vo phn phi topic
Mult(m
).
Vi mi topic index zm,n, da vo phn phi t k
,
wm,n, c sinh ra.
c lng gi tr tham s v inference thng qua Gibbs
Sampling cho m hnh LDA.
c lng tham s cho m hnh LDA bng phng php cc
i ha hm likelihood trc tip v mt cch chnh xc c phc
tp thi gian rt cao v khng kh thi trong thc t.
Hnh 2.18. c lng tham s tp d liu vn bn.
-
m
m
-19-
Ngi ta thng s dng cc phng php xp x nh
Variational Methods v Gibbs Sampling . Gibbs Sampling c xem
l mt thut ton nhanh, n gin, v hiu qu hun luyn LDA.
Cho trc mt tp cc vn bn, tm xem topic model no
sinh ra tp cc vn bn trn. Bao gm:
- Tm phn phi xc sut trn tp t i vi mi topic .
- Tm phn phi topic ca mi ti liu .
CHNG 3
NG DNG V THC NGHIM
3.1. NG DNG
3.1.1. ng dng tm kim trch chn theo ch c lu
kho d liu
Trong kho CSDL cha cc ch n v xc sut ca cc ch
c xc nh theo mt u tin.
B tch t lm nhim v khi nhp vo mt cu truy vn b
ny s phn tch trong cu truy vn thuc ch n no
Ch n ca cu truy vn c nhim v phn tch trong cu
truy vn thuc loi ch no c mt xc xut cao u tin theo
th t tng dn, hin th danh sch theo ch c s trch chn
3.1.2. ng dng tm kim trch chn theo ch c lu
kho CSDL trn Internet
Pha tng tc vi cc my tm kim Google
Pha tin x l d liu
Pha sp xp vn bn v cu theo quan trng
Pha sinh vn bn tm tt
Trong pha sinh vn bn tm tt, cc cu c sp xp c
sp xp pha trn s c sp xp li. Trng s quan trng ca
-
-20-
cu s c b sung thm trng s ca vn bn cha cu y, vic
ny s gip vn bn tm tt khng c s chng cho v mt ni
dung. ScoreTotal l cng thc tnh li quan trng ca cu:
ScoreTotal(sk)=( *Score(sk)+(1- )* Score(Di))
- Sk: l cu cn tnh quan trng.
- Di: l vn bn cha sk.
- Score(sk), Score(Di): l trng s quan trng ca sk v Di
c tnh pha trc.
- : l cc hng s trn nm trong ngng [0,1] th hin s
ng gp ca hai o Score(sk) v Score(Di) (Cc hng s ny s
c c lng trong qu trnh thc nghim).
-
-21-
3.2. THC NGHIM
3.2.1. Mi trng thc nghim
3.2.2. Mt s giao din chng trnh
1. Cng c tm kim trch chn thng tin theo ch Chung
tay xy dng thnh ph xanh sch p ly t ti liu trn Internet v
lu tr vo kho d liu theo ch n .
2. Cng c tm kim trch chn ch Chung tay xy dng
thnh ph xanh sch p trn Internet.
-
-22-
KT LUN
1. KT QU T C
V mt khoa hc
Lun vn tin hnh phn tch, tm hiu c quy trnh khai
ph d liu Web. Pht hin ra nhng vn cn hn ch xut
a ra gii php nhm c nhng phng n khc phc nng cao
hiu qu trong cng vic tm kim trch chn thng tin theo ch
nhanh v chnh xc hn.
Nm c cc phng php v cc m hnh ton hc nh
th, xc sut Bayes v m hnh biu din d liu vn bn, CRFs,
LDA p dng gii quyt yu cu lun vn t ra.
Nghin cu v vn dng gii thut crawl, k-means, Viterbi
xy dng m hnh khai ph d liu Web theo ch .
V mt thc tin
Lun vn nu c gii php k thut xy dng h thng
tr gip quyt nh nm bt c nhng lung thng tin tt trong
cng tc qun l v kinh danh.
Tm kim trch chn thng tin trn Web theo ch gip
chng ta c mt ci nhn tng th, bit c nhng g ni bt trong
qu kh, u l xu hng thng tin hin ti v u l nhng hng s
ni ln trong tng lai gn. Tng hp thng tin hng ch trn
Web cng gip chng ta sp xp li thng tin v theo di cc lung
thng tin tt hn.
Xy dng c ng dng c kh nng phn tch tt cc d liu
v nh trng trong nhng nm qua v mt ch no .
Tm ra din bin qu trnh pht trin theo thi gian ca cc ch
no , theo mt s tiu ch nh t l cc ti liu theo ch , cc
ch ni bt mi, thi im mt ch c th t nh cao nht,
ch no ang tn li tm ra c cc ch c vai tr ch
-
-23-
cht trong tp hp cc ch .
H thng c th gip cho tm kim trch chn thng tin nhanh
chnh xc, gip cho ban gim hiu nh trng v lnh o cc n v
lin kt ra quyt nh mt cch kp thi, khoa hc, trnh c cc
tnh hung quyt nh theo cm tnh nhm hn ch cc trng hp
a ra quyt nh sai khng hiu qu dn n thit hi v kinh t,
lng ph thi gian v tin bc ca ngi hc.
C th ni, y l mt cng c hu ch nhm cung cp cho
n v nm c nhng ch thi s ni bt, c thm mt gii
php h tr v cng tc qun l sau ny.
2. HN CH
H thng hin ti ch tng tc d liu c lu tr kho d liu
Google, cha kt ni v truy xut d liu trc tip n c s d liu ca
Yahoo, MSN, Altavista... Do cn mt khong thi gian khai ph
kho d liu ny.
3. HNG PHT TRIN
Nghin cu ci tin h thng thng qua gii php thu nhn
nh gi phn hi ca ngi dng i vi cht lng tm kim trch
chn thng tin theo ch cht lng tm kim nh hng hn
ti ngi dng.
Ci tin qu trnh lu tr v nh ch mc tng tc cho cc
vic tm kim trch chn thng tin, qua tng tc tr li cu hi
cho m hnh hi p ting Vit, Xy dng v trin khai h thng hi
p ting Vit cho ngi s dng.
T ng phn lp cc trang web ting Vit b sung thm vo
cy ch .
Tm kim trch chn thng tin trn Web theo ch gip
chng ta c mt ci nhn tng th, bit c nhng g ni bt trong
qu kh, u l xu hng thng tin hin ti v u l nhng hng s
-
-24-
ni ln trong tng lai gn. Tng hp thng tin hng ch trn
Web cng gip chng ta sp xp li thng tin v theo di cc lung
thng tin tt hn, gip cho nh qun l a ra quyt nh v nh kinh
t d bo trc nhng ri ro xy ra.
M hnh LDA hng pht trin ln m hnh SAM tng hiu
qu, y v khi qut hn cho vic thc hin phn tch t cc tp
d liu vn bn gim st hoc hon ton phi gim st.
top related