![Page 1: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/1.jpg)
Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW
Marek Kopel
Wydziałowy Zakład Systemów Informacyjnych
![Page 2: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/2.jpg)
2
Plan wystąpienia
Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania Kierunki dalszych badań
![Page 3: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/3.jpg)
3
![Page 4: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/4.jpg)
4
![Page 5: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/5.jpg)
5
![Page 6: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/6.jpg)
6
![Page 7: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/7.jpg)
7
![Page 8: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/8.jpg)
8
![Page 9: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/9.jpg)
9
Wyszukiwanie w WWW
Dokumenty tekstowe– przeszukiwanie pełno-tekstowe, meta-tagi
Obrazki– nazwa pliku, adres, tekst wokół obrazka
Usenet (grupy dyskusyjne)– od razu zaindeksowane czasowo i tematycznie
Katalogi– indeksowane przez ludzi
![Page 10: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/10.jpg)
10
Wspomaganie wyszukiwania
Indeksowanie– słowa kluczowe– meta-tagi– indeksowanie innych indeksów
Rankowanie– keywords w adresie, – linki kierujące do dokumentu– meta-tag <-> treść, – opis linka <-> treść docelowa
Profilowanie użytkownika (personalizacja)– wybieranie na podstawie preferencji (np. kolekcji)
Badanie spójności ?
![Page 11: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/11.jpg)
11
Model Boolowski
zbiór terminów T, zbiór D dokumentów WWW, zbiór pytań Q,
funkcja opisująca (indeksująca): :D2T-,
funkcja wyszukująca::Q 2D.
Zwykle pytanie ma postać:
Mtttq ...21
![Page 12: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/12.jpg)
12
Waga terminu w dokumencie
Wyraża istotność terminu dla tematyki dokumentu
Różne sposoby obliczania
Najczęściej modyfikacje TF-IDF, czyli
liczba wystąpień terminu / wszystkich terminów w dokumencie
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5
termin
wag
a
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5
termin
wag
a
![Page 13: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/13.jpg)
13
Model wektorowy
zbiór terminów T = {t1, …, tn}, zbiór D dokumentów WWW, zbiór pytań Q,
d = <d1, …, dn>,di – waga i-tego terminu w dokumencie,
q = <q1, …, qn>,qi – waga i-tego terminu w pytaniu,
:Q ord(2D)
![Page 14: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/14.jpg)
14
![Page 15: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/15.jpg)
15
Model z profilem użytkownika
zbiory T, D, Q, funkcje , zbiór profili P,
wyszukiwanie : :QP ord(2D) – wyszukiwanie bezpośrednie.
:P 2D – filtrowanie,
(p) DP
:Q ord( ) – wyszukiwanie z zbiorze DP.PD2
![Page 16: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/16.jpg)
16
Model z funkcją spójności
DD’
D’ D
![Page 17: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/17.jpg)
17
Autonomous Citation Indexing
głównie prace naukowe odkrywanie powiązań między dokumentami
na podstawie cytowań (bibliografia) ograniczanie znajdywania duplikatów
poprzez analizę grafu cytowań
(http://citeseer.nj.nec.com/cs)
- system wykorzystujący ACI
![Page 18: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/18.jpg)
18
Metody heurystyczne
Probabilistic Latent Semantic Analysis – określa prawdopodobieństwo tematyki dokumentu na podstawie terminów w nim
występujących
Probabilistic Hyperlink-Induced Topic Search– używa analiz bibliometrycznych– określa tematyki kolekcji dokumentów oraz autorów związanych z tymi tematykami
Probabilistic Model of Document Content and Hypertext Connectivity – łączy zorientowaną na terminy metodę PLSA oraz zorientowaną na cytowania
metodę PHITS– identyfikacja tematyki – identyfikacja dokumentów reprezentatywnych – predykcję nawigacji
![Page 19: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/19.jpg)
19
Context Focused Crawler
indeksowanie dokumentów webowych relewantnych do predefiniowanego zbioru tematów
omijanie nierelewantnych obszarów sieci tworzenie grafu kontekstowego poprzez:
– indeksowanie dokumentów - TF-IDF– przypisywanie do warstw grafu konkekstowego -
Naive Bayes Classifier
![Page 20: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/20.jpg)
20
Model z funkcją spójności c.d.
s: 2D+ - funkcja spójności,
r: 2D2D - funkcja zawężająca,
taka, że:
r(Dq )Dq
s(r(Dq ))>s(Dq)
D
r(D)
r(r(D))
![Page 21: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/21.jpg)
21
Sąsiedztwo hiperlinków
di
xxxx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx xxx x xxx xxxx xxx x xxxx xxxx xxx xxx xx xxxxx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xx
dj
xxxx xx xxx x xxxx xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xxxxxx x x xx x xxx x xxxxxx xx xxxxx xx xxxxx xxx xx xxxxx x x x xx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx x x xxxxx xxx xx xxx x xxx xx x xxxx x xxxx
kijl
gjil
hijl
![Page 22: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/22.jpg)
22
Spójność
Mamy: zbiór dokumentów D={d1,...,dN}, zbiór terminów T={t1,...,tM}.
Powiązaniem dokumentu di z dokumentem dj ze względu na hiperlink i termin tm nazywamy:
),min(
0,...,0,,0,...,0
mmm
mm
jikij
kij
kij
dew
wW
kijl
gdzie: - liczba terminów tm w sąsiedztwie hiperlinka
- liczba terminów tm w dokumencie djm
m
j
i
d
e kijl
![Page 23: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/23.jpg)
23
Spójność c.d.
didj
kijl tm
![Page 24: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/24.jpg)
24
Spójność c.d.
didj
hijl
kijl tm
tm
![Page 25: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/25.jpg)
25
Spójność c.d.
Powiązaniem dokumentu di z dokumentem dj ze względu na
termin tm nazywamy wektor:
P
p
pijij
ijij
mm
mm
ww
wW
1
0,...,0,,0,...,0gdzie:
![Page 26: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/26.jpg)
26
Spójność c.d.
didj
hijl
kijl tm
tm
gjiltm
![Page 27: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/27.jpg)
27
Spójność c.d.
Powiązaniem dokumentu di i dokumentu dj ze względu na termin tm nazywamy wektor:
mmm
mm
jiijji
jiij
www
wW
},{
},{ 0,...,0,,0,...,0gdzie:
![Page 28: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/28.jpg)
28
Spójność c.d.
didj
hijl
kijl tm
tm
gjiltm
![Page 29: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/29.jpg)
29
Spójność c.d.
Powiązaniem dokumentu di i dokumentu dj nazywamy wektor:
Mjijiji wwW },{},{},{ ,...,
1
![Page 30: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/30.jpg)
30
Spójność c.d.
Spójnością kolekcji dokumentów D nazywamy wektor:
Miarą spójności kolekcji nazywamy funkcję:
gdzie:
σ – odchylenie standardowe składowych wektora spójności kolekcji,
– średnia składowych wektora spójności kolekcji
di
dk
W{i,j}
W{i,k}
dj
MDD
N
ji
N
j ji
D wwN
WW ,...,
1
1 , }{
iM DDDD wwwWs },...,{)(1
iDw
![Page 31: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/31.jpg)
31
Przykład 1
Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentów D ={d1, d2, d3, d4} oraz wektory spójności dokumentów:
WD = <1,5; 0,5; 1; 1,25; 1,75>
s(WD) ≈ 1,68
W{1,2} = <2, 0, 1, 1, 2>W{1,3} = <0, 2, 1, 0, 3>W{1,4} = <1, 0, 1, 2, 0>
W{2,3} = <2, 0, 1, 1, 2>W{2,4} = <0, 0, 0, 1, 0>W{3,4} = <1, 0, 0, 0, 0>
1,89
<1,3; 0,6; 1; 0,6; 2,3>
![Page 32: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/32.jpg)
32
Przykład 1
Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentów D ={d1, d2, d3, d4} oraz wektory spójności dokumentów:
WD = <1,5; 0,5; 1; 1,25; 1,75>
s(WD) ≈ 1,68
W{1,2} = <2, 0, 1, 1, 2>W{1,3} = <0, 2, 1, 0, 3>W{1,4} = <1, 0, 1, 2, 0>
W{2,3} = <2, 0, 1, 1, 2>W{2,4} = <0, 0, 0, 1, 0>W{3,4} = <1, 0, 0, 0, 0>
0,91
<1; 0; 0,3; 0,6; 0,6>
![Page 33: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/33.jpg)
33
Problem 1
d5
d3
d6
d8
![Page 34: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/34.jpg)
34
Wektory w przestrzeni
Cos(90°)=0
- ortogonalne
Cos(0°)=1
![Page 35: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/35.jpg)
35
Zgodność tematyczna
Zgodnością tematyczną kolekcji D1 i D2 nazywamy funkcję:
u: 2Dx2D+
gdzie:
- wektory spójności kolekcji kolekcji D1 i D2
N
iD
N
iD
N
iDD
DD
ii
ii
ww
wwWWDDu
1
2
1
2
121
21
21
21),cos(),(
21, DD WW
![Page 36: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/36.jpg)
36
Przykład 2
Mamy zbiór terminów T={t1, t2, t3, t4, t5, t6, t7, t8, t9, t10} i wektory spójności tematycznej trzech kolekcji D1, D2 i D3:
= <4, 0, 4, 0, 6, 2, 0, 0, 1, 0>= <0, 5, 0, 4, 3, 0, 0, 4, 0, 0>= <4, 0, 2, 1, 3, 4, 0, 1, 0, 2>
u(D1, D2 )=
u(D2 , D3)=
u(D1, D3)=
26,06673
18
82,05173
50
29,05166
17
1DW
2DW
3DW
![Page 37: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/37.jpg)
37
Problem 2
Automatyczne tworzenie katalogów WWW
![Page 38: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/38.jpg)
38
Problem 3
porównanie spójności:
s(D1) ? s(D2) ? s(D3)
porównanie zgodności tematycznej:
u(D1 , D2) ? u(D2 , D3) ? u(D1 , D3)
D1D2 D3
1 2
s(D3)s(D2)s(D1)
3 t
![Page 39: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/39.jpg)
39
Literatura
Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus Methods for Solving Inconsistency of Replicated Data in Distributed Systems. Distributed Parallel Databases 2003 vol. 14 nr 1, p. 53-69
Daniłowicz, Czesław, Jankowski, Łukasz, Nguyen, Ngoc Thanh: Consistency measures of agent knowledge in multiagent systems. Proceedings of the 14th International Conference on Systems Science. Eds Zdzisław Bubnicki, Adam Grzech. Wrocław: Oficyna Wydawnicza PWroc. 2001 p. 390-398
Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus-based methods for restoring consistency of replicated data. Inteligent Information Systems. Proceedings of the IIS '2000 Symposium. Mieczysław Kłopotek, Maciej Michalewicz, Sławomir T. Wierzchoń [eds]. Heidelberg; New York: Physica-Verlag 2000 p. 325-335
Gerhard Weikum: Extending Transaction Management To Capture More Consistency With Better Performance (1993)
Haerder, T., Reuter, A., Principles of Transaction–Oriented Database Recovery, ACM Computing Surveys Vol.15 No.4, 1983
Guido Moerkotte, Peter C. Lockemann: Reactive Consistency Control in Deductive Databases (1991), ACM Transactions on Database Systems
Ernest Teniente, Antoni Olivé: Updating Knowledge Bases while Maintaining their Consistency (1995), VLDB Journal: Very Large Data Bases
![Page 40: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/40.jpg)
40
Literatura c.d.
Martin Decker, Guido Moerkotte, Joachim Posegga: Consistency Driven Planning (1996), Portuguese Conference on Artificial Intelligence
Wojciech Cellary, Genevieve Jomier: Consistency of Versions in Object-Oriented Databases (1990)
M. Raynal, A. Schiper: A Suite Of Formal Definitions For Consistency Criteria In Distributed Shared Memories (1996),Proceedings Int Conf on Parallel and Distributed Computing (PDCS'96) http://citeseer.nj.nec.com/raynal96suite.html
Kourosh Gharachorloo, Daniel Lenoski, James Laudon, Phillip Gibbons, Anoop Gupta, John Hennessy: Memory Consistency and Event Ordering in Scalable Shared-Memory Multiprocessors (1990), 25 Years ISCA: Retrospectives and Reprints
Yvan G. Leclerc, Q.-Tuan Luong, P. Fua: Measuring the Self-Consistency of Stereo Algorithms (2000), ECCV (1) http://citeseer.nj.nec.com/leclerc00measuring.html
Chengjie Liu, Pei Cao: Maintaining Strong Cache Consistency in the World-Wide Web (1998), International Conference on Distributed Computing Systems
Yvon Kermarrec, Alberto Soleto: Managing document consistency over the Web or managing documents duplication
C.A.S. Santos, P.N.M. Sampaio, J.P. Courtiat: Revisiting the concept of hypermedia document consistency (1999), LAAS - CNRS 7 Av. du Colonel... ACM Multimedia (2)
![Page 41: Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW](https://reader036.vdocuments.site/reader036/viewer/2022062321/56813cda550346895da67e7e/html5/thumbnails/41.jpg)
Dziękuję za uwagę