vyhľadávanie a usporiadanie

42
Vyhľadávanie a usporiadanie Prednáška z predmetu Vyhľadávanie informácií 19.11.2012 FIIT STUBA Bratislava

Upload: yoshio-austin

Post on 15-Mar-2016

39 views

Category:

Documents


0 download

DESCRIPTION

Vyhľadávanie a usporiadanie. Predn áška z predmetu Vyhľadávanie informácií 19 .1 1 .20 12 FIIT STUBA Bratislava. Usporiadanie. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Vyhľadávanie a usporiadanie

Vyhľadávanie a usporiadanie

Prednáška z predmetu Vyhľadávanie informácií19.11.2012 FIIT STUBA

Bratislava

Page 2: Vyhľadávanie a usporiadanie

Usporiadanie

• Usporiadanie dokumentov podľa relevantnosti je dôležitou funkciou vo všetkých vyhľadávacích systémoch. Väčšina vyhľadávačov sa snaží vrátiť čo najviac relevantných dokumentov, teda zvyšuje pokrytie (recall) na úkor presnosti (precesion), čo zvyšuje potrebu usporiadať dokumenty podľa relevantnosti.

Page 3: Vyhľadávanie a usporiadanie

Usporiadanie• Tu sa využívajú rôzne algoritmy väčšinou

založené na mierach podobnosti dokumentov k dopytu. Tieto podobnosti sa odvíjajú od počtu výskytov kľúčových slov (termov), ich výskytu v nadpisoch dokumentov a podobne. Ďalšou metrikou na usporiadanie sú aj algoritmy založené na vyhodnocovaní odkazov medzi dokumentmi ako napríklad PageRank algoritmus. Dokumenty je možné zoraďovať aj na základe daľších sémantických prístupov ako napríklad Top-K (Gurský, 2005).

Page 4: Vyhľadávanie a usporiadanie

Usporiadanie

• Ak máme viacero spôsobov na utriedenie zoznamu, môžeme ich vzájomne skombinovať váhovaním

Page 5: Vyhľadávanie a usporiadanie

Usporiadanie vo vyhľadávači Google

1. Nájde všetky webové stránky obsahujúce dané kľúčové slovo (slová).

2. Vyhodnotí stránky na základe faktorov nachádzajúcich sa na stránke, ako napríklad, či sa dané slovo nachádza v názve stránky, akým štýlom je písané, ako často sa slovo (slová) nachádzajú v hlavnej časti dokumentu, a pod.

3. Vyhodnotí text vo vnútri odkazu (<a href>), samotný odkaz a vyhodnotí váhu textu. (napríklad <a href www.nazovdomeny.com>Nazovdomeny</a> má väčšiu váhu ako <a href www.nazovdomeny.com>Návrat</a>)

4. Pridá výsledok algoritmu PageRank, ktorého hodnotu budeme nazývať „page rank“ – táto operácia je multiplikácia a nie sčítanie

Page 6: Vyhľadávanie a usporiadanie

Podobnosť dokumentov na základe metrík a korelácií

• Euklidovská vzdialenosť: • L-metrika (Manhattan): • Snp metrika: • Sokalova metrika: • Kosínusová korelácia:• Štvorec euklidovskej

vzdialenosti:

2

1, n

i j k kksim d d w v

1, n

i j k kksim d d w v

, maxi j k k ksim d d w v

2

1,n

k kki j

w vsim d d

n

, i ji j

ji

d dsim d d

d d

2

1

,n

k kk

i jsim d wd v

Page 7: Vyhľadávanie a usporiadanie

Algoritmus PageRank• Teória:

– Ak stránka A ukazuje na stránku B tak asi je stránka B dôležitá

– Ak na stránku ukazujú dôležité stránky, tak aj odkazy tejto stránky na iné stránky sa stávajú dôležitými

– Toolbar - www.toolbar.google.com• Logaritmus pri základe 10

• Google projekt Stanfordu – 26 miliónov stránok – 518 miliónov liniek, 147GB dát – PR na obyčajnom pécečku pár hodín

Page 8: Vyhľadávanie a usporiadanie

Algoritmus PageRank• Modelovanie aktivity náhodného

používateľa webu sa dá reprezentovať ako orientovaný graf prepojení vychádzajúcich a vchádzajúcich na webové stránky.

Page 9: Vyhľadávanie a usporiadanie

Algoritmus PageRank• Page rank stránky A je

kde, je tzv. tlmiaxi faktor„damping factor“ najčastejšie nastavenýna 0,85 viď (Page, 1998b), je stránka ktorá ukazuje na stránku A, je PageRank tejto stránky a   je počet prepojení odchádzajúcich zo stránky .

1

1n

i

i i

PR TPR A d d

C T

0 1d

iPR T iC T

iT

iT

Page 10: Vyhľadávanie a usporiadanie

Algoritmus PageRank• Tento algoritmus opakujeme dovtedy kým

nezačne konvergovať. PR všetkých stránok vlastne tvorí rozdelenie pravdepodobnosti a teda suma všetkých PR stránok je 1.

• Aby sme dostali toto rozdelenie pravdepodobnosti musíme ešte vypočítané PR predeliť (znormalizovať) sumou všetkých PR.

• Inicializačné hodnoty môžeme nastaviť na čokoľvek (zmení sa len počet iterácií – existujú teórie ako to nastaviť, aby sme vykonali, čo najmenej iterácií?)

Page 11: Vyhľadávanie a usporiadanie

Algoritmus PageRank• Vypočítajme page rank jednotlivých stánok

z obrázku ak damping factor a prvotné page ranky stránok sú nasledovné .

0,85d

0 0 0 01 2 3 4 1PR PR PR PR

1 1

1 1

1 11 0,15 0,85 0,575 2 0,15 0,85 12 11 13 0,15 0,85 1 4 0,15 0,85 0,5751 2

PR PR

PR PR

2 2

2 2

1 0,5751 0,15 0,85 0,575 2 0,15 0,85 0,638752 11 13 0,15 0,85 1 4 0,15 0,85 0,5751 2

PR PR

PR PR

Page 12: Vyhľadávanie a usporiadanie

Algoritmus PageRank• A doiterujeme 88 iterácií k výsledku:

• A po normalizácií (predelenie sumou PR, dostávame rozdelenie pravdepodobnosti):

1 0,387 2 0,4793 0,557 4 0,387

PR PRPR PR

1 0,21 2 0,263 0,31 4 0,21

PR PRPR PR

Page 13: Vyhľadávanie a usporiadanie

Algoritmus PageRank – zrýchlenie výpočtu

• Hyperlinkovou maticou H rozumieme štvorcovú maticu kde n

je počet webových stránok a jednotlivé riadky a stĺpce predstavujú

linky ktoré vystupujú resp. vstupujú do webových stránok. Prvky

matice sú definované ako , ak existuje prepojenie so stránky

i na stránku j a celkový počet liniek vychádzajúcich so stránky i je .

Ak takéto prepojenie neexistuje potom . predstavuje

pravdepodobnosť toho že, náhodný používateľ sa vyberie so

stránky i na stránku j .

n n

1ij

i

hl

il

0ijh ijh

Page 14: Vyhľadávanie a usporiadanie

Hyperlinková matica k príkladu

• Hyperlinková matica z príkladu by vyzerala nasledovne:

0 1 0 00 0 1 01 10 02 20 0 0 0

Page 15: Vyhľadávanie a usporiadanie

Algoritmus PageRank – zrýchlenie výpočtu

• kde, je stĺpcový vektor i+1 iterácie page rank webových stránok, je i-ta iterácia page rank hodnôt webových stránok, d je damping faktor, je stĺpcový vektor pozostávajúci so samých 1 a je transponovaná matica k matici H.

1 1 1 Ti iPR T d dH PR T

1iPR T

iPR T

1

TH

Page 16: Vyhľadávanie a usporiadanie

Maticový zápis výpočtu PR k príkladu

• Pomocou maticového počtu by výpočet PR v príklade vyzeral nasledovne:

1

1

1

1

10 0 01 1 1 0,57522 1 1 0 0 0 1 1

0,15 0,853 1 0 1 0 0 1 14 1 1 1 0,5750 0 0

2

PRPRPRPR

Page 17: Vyhľadávanie a usporiadanie

Dangling nodes• Ak sa pozrieme na vrchol 4 v grafe na našom

obrázku vidíme že, z tohto vrcholu sa používateľ nemá kam dostať (žiadne prepojenie z neho nevychádza) a takéto vrcholy (web stránky) sa nazývajú „dangling nodes“. Takýmito vrcholmi sú napríklad prepojenia na pdf, doc a iné dokumenty, ktoré vlastne najviac vplývajú (obsahovo) na hodnotenie webových stránok. Je veľmi problematické určiť váhu takýchto webových stránok, je ich veľmi veľa a do značnej miery ovplyvňujú predstavenú hyperlinkovú maticu.

Page 18: Vyhľadávanie a usporiadanie

Dangling node fix

• „Dangling node fix“ je možné urobiť nasledujúcim spôsobom: Predpokladajme že používateľ sa rozhodne z vrcholu ktorý už nikam neukazuje ísť do všetkých n vrcholov s určitou pravdepodobnosťou.

Page 19: Vyhľadávanie a usporiadanie

Dangling node fix – nová hyperlinková matica

• Definujeme novú hyperlinkovú maticu . H je pôvodná hyperlinková matica a  je stĺpcoví vektor s prvkami ak ináč

• a  je riadkový vektor kde platí že .

• Hodnoty vektora w určujú pravdepodobnosť navštívenia ľubovoľného vrcholu v grafe z dangling nodu pričom, najčastejšie sa používa rovnomerné rozdelenie pravdepodobnosti .

S H rw 1 2, ,..., nr r r r

1ir 0il

0ir 1 2, ,..., nw w w w

11n

iiw

1 1 1, ,...,wn n n

Page 20: Vyhľadávanie a usporiadanie

Nová hyperlinková matica k príkladu

• Upravená hyperlinková matica k príkladu – dangle node fix

0 1 0 00 1 0 0 0 0 0 1 00 0 1 0 0 1 1 1 1 1 11 1 0 00 4 4 4 40 0 2 22 21 1 1 1 10 0 0 0

4 4 4 4

S

Page 21: Vyhľadávanie a usporiadanie

Perzonalizačný vektor

• Ďalším problémom s ktorým sa musíme vysporiadať pri výpočte page rank je pravdepodobnosť že používateľ prestane sledovať sieť prepojení a odskočí na úplne inú webovú stránku. Naša matica S sa niečím takýmto nezaoberá a preto, ju musíme upraviť nasledovným spôsobom.

Page 22: Vyhľadávanie a usporiadanie

Google matica

• Pre Google maticu , kde je vyššie spomínaný damping faktor, je stĺpcový vektor a je tzv. perzonalizačný riadkový vektor pre ktorý platí .

1 1G dS d v 0 1d

1 1,1,...,1

1 2, ,..., nv v v v

11n

iiv

Page 23: Vyhľadávanie a usporiadanie

Google matica

• Brin a Page vo svojich prácach (Page, 1998ab) počas vyvíjania PageRank algoritmu ukázali že, damping faktor je vhodné nastaviť na ( predstavuje pravdepodobnosť že používateľ prestane sledovať sieť prepojení a odskočí na úplne inú stránku) a personalizačný vektor, ktorý hovorí o prioritách používateľa rozdeliť rovnomerne . V praxi sa najčastejšie používa damping faktor.

0,85d 1 d

1 1 1, ,...,vn n n

0,85;0,99d

Page 24: Vyhľadávanie a usporiadanie

Problém damping factora a perzonalizačného vektora

• V neďalekej minulosti existovali tzv. „link farms“ – farmy na vyrábanie vysokého PR tzv. „link spamming“.

• Prakticky dookola ukazovali na seba a umelo zvyšovali PR a ten potom predávali

• Google dnes nezverejnuje damping factor a perzonalizačný vektor

• Riešenie - V roku 2004 však vymysleli Gyöngyi, Garcia-Molina, a Pederson tzv. TrustRank algoritmus - Combating Web spam with TrustRank, Proceedings of the 30th International Conference on Very Large Databases

Page 25: Vyhľadávanie a usporiadanie

Page rank výpočet pomocou google matice

• Page rank webových stránok , kde G je Google matica, je riadkový vektor i tej iterácie page ranku webových stránok,

• je i-ta iterácia page ranku webových stránok.

1i iPR T PR T G

1iPR T

iPR T

Page 26: Vyhľadávanie a usporiadanie

Príklad pomocou Google matice

• Perzonalizačný faktor nastavíme rovnomerne 0

1 1 1 14 4 4 4

PR T v

3 71 3 30 1 0 0 80 80 80 80

1 3 3 71 30 0 1 01 1 1 1 1 80 80 80 801 10,85 0,150 0 1 37 3 3 374 4 4 42 2

80 80 80 801 1 1 1 11 1 1 14 4 4 44 4 4 4

G

Page 27: Vyhľadávanie a usporiadanie

Príklad pomocou Google matice

• 1 iterácia:

• Po 88 iteráciách dostaneme – priamo rozdelenie pravdepodobnosti:

• Porovnanie – ak by sme vynásobili 4x čo je vlastne počet všetkých stránok?????

1 1 1 163 97 97 631 2 3 4

320 320 320 320PR PR PR PR

1 0,21 2 0,263 0,31 4 0,21

PR PRPR PR

1 0,387 2 0,4793 0,557 4 0,387

PR PRPR PR

1 0,855 2 1,0583 1,231 4 0,855

PR PRPR PR

Page 28: Vyhľadávanie a usporiadanie

HITS• Authority (stránka obsahujúca dôležitú, spoľahlivú informáciu vzhľadom na

dopyt), Hub (stránky, ktoré na túto stránku ukazujú) – je vidieť, že medzi týmito dvomi „štatistikami“ existuje silná závislosť: dobrý „hub“ ukazuje na veľa dobrých „authorities“ a na dobrú „authority“ ukazuje veľa dobrých „hubs“ – Google má len authorities

• ai označuje authority hodnotu dokumentu i

• hi označuje hub hodnotu dokumentu ii x

x

a h

i yy

h a

Page 29: Vyhľadávanie a usporiadanie

Pseudokód HITS• G := graf webových dokumentov • for each dokument i z grafu G do // inicializácia hub a

authority hodnôt – druhý spôsob 1/|G|• ai := 1 • hi := 1 • repeat from 1 to N do • for each dokument i z grafu G do • ai := 0 • for each dokument x odkazujúci sa na dokument i do • ai += hx

• for each dokument i z grafu G do • hi = 0 • for each dokument y, na ktorý sa odkazuje dokument i do • hi += ay // hubs sú rátané z iterácie predtým• for each dokument i z grafu G do //normalizácia• ai = ai/ca • hi = hi/ch 2

1i

i G a

ac

2

1i

i G h

hc

Page 30: Vyhľadávanie a usporiadanie

Príklad pomocou HITS

1.Iterácia

2.Iterácia

1 2 3 4 1 2 3 4 1a a a a h h h h

1 2 3 4 1 2 3 41; 1, 2, 0a a a a h h h h 2, 6a bc c

1 2 3 4 1 2 3 41 6 6; , , 02 6 3

a a a a h h h h

1 2 3 4 1 2 3 46 6 6 1, , ; , 1, 0

3 6 3 2a a a a h h h h

5 3,3 2a bc c

1 2 3 4 1 2 3 42 1 2 6 6, , ; , , 05 10 5 6 3

a a a a h h h h

Page 31: Vyhľadávanie a usporiadanie

Príklad pomocou HITS

• A doiterujeme 40 iterácií k výsledku:

1 2 3 4

1 2 3 4

2 2; 0;2 2

0; 1; 0

a a a a

h h h h

Page 32: Vyhľadávanie a usporiadanie

HITS a matice• Definícia Maticou prepojení L rozumieme štvorcovú

maticu nxn kde n je počet webových stránok a jednotlivé riadky a stĺpce predstavujú linky ktoré vystupujú resp. vstupujú do webových stránok. Prvky matice sú definované ako lij=1, ak existuje prepojenie so stránky i na stránku j. Ak takéto prepojenie neexistuje potom lij=0. Pre k-tu iteráciu „authority“ vektora platí: a obdobne pre k-tu iteráciu „hub“ vektora platí:Po úpravách dostávame:Maticu označujeme ako „hub“ maticu a zapisujeme:a maticu označujeme ako authority maticu a zapisujeme:

𝑎𝑘ሺ𝑖ሻ= 𝐿𝑇ℎ𝑘−1ሺ𝑖ሻ ℎ𝑘ሺ𝑖ሻ= 𝐿𝑎𝑘ሺ𝑖ሻ 𝑎𝑘ሺ𝑖ሻ= 𝐿𝑇𝐿𝑎𝑘−1ሺ𝑖ሻ a ℎ𝑘ሺ𝑖ሻ= 𝐿𝐿𝑇ℎ𝑘−1ሺ𝑖ሻ 𝐿𝑇𝐿 𝐻= 𝐿𝑇𝐿 𝐿𝐿𝑇 𝐴= 𝐿𝐿𝑇

Page 33: Vyhľadávanie a usporiadanie

HITS a matice

Dôsledok: Celý problém hľadania vektorov authority a hub jednotlivých webových stránok je vlastne hľadaním vlastnej hodnoty a vlastného/charakteristického vektora matíc A a H, teda 𝜆𝑎𝑘ሬሬሬሬԦ= 𝐻𝑎𝑘−1ሬሬሬሬሬሬሬሬሬԦ a 𝜆ℎ𝑘ሬሬሬሬԦ= 𝐴ℎ𝑘−1ሬሬሬሬሬሬሬሬሬԦ, kde 𝜆 je najväčsia vlastná hodnota matíc H a A a 𝑎Ԧ a ℎሬԦ, sú vektory hub a authority, pričom platí, že tieto vektory sú vlastné/charakteristické vektory matíc A a H. Na inicializačných hodnotách vektorov 𝑎Ԧ a ℎሬԦ nezáleží, jediné čo sa zmení je počet iterácii. Na to aby sme dosiahli priamo rozdelenie pravdepodobností pre hub a authority jednotlivých webových stránok, je výhodnejšie po každej iterácii normalizovať hodnoty vektorov 𝑎Ԧ a ℎሬԦ hodnotami σ 𝑎𝑖𝑛𝑖=1 ,σ ℎ𝑖𝑛𝑖=1 (oproti normalizácii najväčšou vlastnou hodnotou matíc A a H), pričom počiatočné hodnoty vektorov je vhodné nastaviť na: 𝑎0ሺ𝑖ሻ=ℎ0ሺ𝑖ሻ= 1𝑛 (hodnoty vektorov a a h tvoria priamo rozdelenie pravdepodobnosti).

Page 34: Vyhľadávanie a usporiadanie

HITS zhrnutie• algoritmus HITS je dopytovo orientovaný, výpočet hub a authority je

závislý na vyhľadávaných výrazoch,• výpočty hub a authority sú vykonávané v čase vyhľadávania a nie

indexovania ako je tomu v prípade algoritmu PageRank, čo má veľký vplyv na spracovanie dopytu

• algoritmus HITS nie je veľmi používanými vyhľadávacími strojmi, až na niekoľko výnimiek, napr. Teoma (http://www.teoma.com/) je založená na algoritme HITS a používaná vyhľadávačom Ask.com(http://search.ask.com/ algoritmus je označovaný ako ExpertRank),

• počíta 2 hodnoty: hub a authority narozdiel, od algoritmu PageRank,• výpočet je vykonávaný na malej podmonožine vrátených dokumentov

(označovanej ako root/base set a vrcholoch, na ktoré root set ukazuje, resp. vrcholov, ktoré ukazujú na root/base set) a nie na celom grafe ako je to v prípade algoritmu PageRank.

Page 35: Vyhľadávanie a usporiadanie

Algoritmus OPIC• OPIC (On-Line Page Importance

Computation)• výpočet relevantnosti stránky je „online“,

avšak nie v čase dopytu ako to je v prípade algoritmu HITS, ale v čase crawlovania s tým, že stránky s vyššou relevanciou sú uprednostňované pri crawlovaní

Page 36: Vyhľadávanie a usporiadanie

OPIC

• cash – táto premenná určuje momentálnu relevantnosť stránky, presnejšie sumu získanej cash hodnoty od posledného stiahnutia stránky (ak máme n uzlov cash jednotlivých uzlov nastavíme na 1/n),

• credit/history – predstavuje sumu získanej cash od spustenia algoritmu až po posledné stiahnutie stránky.

Definícia Majme dva vektory: 𝐶ሾ1…𝑛ሿ a 𝐻ሾ1…𝑛ሿ kde, C predstavuje vektor premennej cash a H predstavuje vektor premennej history. Dôležitosť/relevantnosť stránky i potom vyjadruje nasledujúci vzťah: 𝑃𝑅ሺ𝑖ሻ= 𝐻ሺ𝑖ሻ+𝐶ሺ𝑖ሻσ 𝐶ሺ𝑘ሻ𝑛𝑘=1 +σ 𝐻ሺ𝑘ሻ𝑛𝑘=1 . Pričom

počiatočné hodnoty sú nastavené: 𝐶ሺ𝑖ሻ= 1𝑛 a 𝐻ሺ𝑖ሻ= 0.

Page 37: Vyhľadávanie a usporiadanie

OPIC

Pseudokód na výpočet relevantonsti stránky podľa algoritmu OPIC: G := graf webových dokumentov for each dokument i z grafu G do { 𝐶ሺ𝑖ሻ= 1𝑛 𝐻ሺ𝑖ሻ= 0 } //Suma všetkých 𝑍= 𝐻ሺ𝑖ሻ 𝑍= 0 do forever {

//každý vrchol v grafe G je vybraný „nekonečne veľa krát“ for each dokument i z grafu G do { 𝐻ሺ𝑖ሻ += 𝐶ሺ𝑖ሻ

// 𝑜𝑢𝑡ሾ𝑖ሿ vyjadruje počet liniek vychádzajúcich z dokumentu i for each child j z dokumentu i do 𝐶ሺ𝑗ሻ += 𝐶ሺ𝑖ሻ𝑜𝑢𝑡ሾ𝑖ሿ 𝑍 += 𝐶ሺ𝑖ሻ 𝐶ሺ𝑖ሻ= 0

} }

Page 38: Vyhľadávanie a usporiadanie

OPIC

Dôsledok: Tento algoritmus, tak ako predchádzajúce algoritmy je iteratívny a dá sa dokázať (dôkaz je v Abiteboul et al., 2003), že konverguje k určitému vektoru relevantnosti/dôležitosti stránok, ktorý v j-tom kroku pre stránku i je definovaný nasledovne: 𝑃𝑅𝑗ሺ𝑖ሻ= 𝐻𝑗ሺ𝑖ሻ+𝐶𝑗ሺ𝑖ሻσ 𝐶𝑗ሺ𝑘ሻ𝑛𝑘=1 +σ 𝐻𝑗ሺ𝑖ሻ𝑛𝑘=1 . Keďže 𝐶0ሺ𝑖ሻ= 1𝑛, a pretože množstvo

„cash“ sa nemení v ľubovoľnom kroku j algoritmu OPIC platí, že: σ 𝐶𝑗ሺ𝑘ሻ𝑛𝑘=1 = 1. Z tohto sa dá vzťah pre relevntnosť/dôležitosť stránky v j-tom kroku prepísat: 𝑃𝑅𝑗ሺ𝑖ሻ=𝐻𝑗ሺ𝑖ሻ+𝐶𝑗ሺ𝑖ሻ𝑍+1 .

Virtuálne stránky

Page 39: Vyhľadávanie a usporiadanie

Porovnanie OPIC, HITS a PageRank

• Výhody algoritmu OPIC oproti HITS a PageRank algoritmom:– vyžaduje menšie množstvo ukladacieho priestoru (iba v prípade, že

nepotrebujeme indexovanie – neukladá maticu prepojení),– vyžaduje menej procesorového výkonu, ako aj prístupov na disk a do pamäte,– plne integrovateľný s crawlovacím procesom,– vie sa zamerať na sťahovanie „najrelevantnejších“ stránok.

• Nevýhody algoritmu OPIC oproti HITS a PageRank algoritmom:– neukladá maticu prepojení (tá je pri vyhľadávaní a indexovaní potrebná),– konverguje pomalšie ako ostatné algoritmy (ak čita dookola tie isté stránky),– pri súčasnom rozsahu webu čelí problémom s podtečením (malé hodnoty

relevancie, ktoré nie je možné reprezentovať),– prečo by sme neuložili, čo sme stiahli?

Page 40: Vyhľadávanie a usporiadanie

Stochastic Approach for Link-Structure Analysis (SALSA)

• Vychádza z algoritmu HITSDefinícia Bipartitný neorientovaný graf G skladajúci sa z authority a hub prepojení, je definovaný nasledovne: Ak existuje prepojenie so stránky i na stránku j, potom stránku i zaradíme do množiny „hub“ 𝑉ሺℎሻ a stránku j do množiny authority 𝑉ሺ𝑎ሻ pričom ich spojíme hranou.

11

23

4

7

8

9

10

11

12

4

5

6

7

8

10

11

12

“hubs” “authorities”

Page 41: Vyhľadávanie a usporiadanie

SALSADefinícia Prvky matice H definujeme nasledovne: ℎ𝑖𝑗 = σ 1𝑑𝑒𝑔ሺ𝑖ℎሻ 1𝑑𝑒𝑔ሺ𝑘𝑎ሻሼ𝑘|ሾ𝑖ℎ,𝑘𝑎ሿሾ𝑗ℎ,𝑘𝑎ሿ∈𝐺ሽ , kde 𝑑𝑒𝑔ሺ𝑥ሻ je počet prepojení vychádzajúci, resp. vchádzajíci do vrcholu x. Podobne prvky matice A definujeme nasledovne: 𝑎𝑖𝑗 = σ 1𝑑𝑒𝑔ሺ𝑖𝑎ሻ 1𝑑𝑒𝑔ሺ𝑘ℎሻሼ𝑘|ሾ𝑘ℎ,𝑖𝑎ሿሾ𝑘ℎ,𝑗𝑎ሿ∈𝐺ሽ .

Definícia Majme maticu prepojení L a jej váhované verzie 𝐿𝑅 a 𝐿𝑆 . Váhovanými verziami 𝐿𝑅 a 𝐿𝑆 matice L rozumieme také matice, ktoré majú v každom nenulovom riadku, resp. stĺpci všetky prvky vydelené sumou riadku, resp. stĺpca.

Následne môžeme pomocou týchto matíc definovať pravdepodobnostné matíce H a A.

Definícia Hub matica H je definovaná ako: 𝐻= 𝐿𝑅∙𝐿𝑆𝑇 bez nulových riadkov a stĺpcov. Authority matica A definovaná nasledovne: 𝐴= 𝐿𝑆𝑇∙𝐿𝑅, bez nulových riadkov a stĺpcov.

Pomocou týchto matíc môžeme definovať výpočet „authority“ a „hub“ vektorov pre jednotlivé stránky z grafu G podobne ako v prípade výpočtu PageRanku pomocou Google matice v definícii (odkaz).

Definícia Authority webových stránkov 𝑎𝑖+1ሬሬሬሬሬሬሬሬԦ= 𝑎𝑖ሬሬሬԦ∙𝐴, kde A je authority matica a 𝑎𝑖+1ሬሬሬሬሬሬሬሬԦ je riadkový vektor i+1 iterácie authority webových stránok, 𝑎𝑖ሬሬሬԦ je i-ta iterácia authority webových stránok. Podobne aj pre hub webových stránok platí: ℎ𝑖+1ሬሬሬሬሬሬሬሬԦ= ℎ𝑖ሬሬሬԦ∙𝐻, kde H je hub matica a Google matica, ℎ𝑖+1ሬሬሬሬሬሬሬሬԦ je riadkový vektor i+1 iterácie hub webových stránok, ℎ𝑖ሬሬሬԦ je i-ta iterácia hub webových stránok.

Page 42: Vyhľadávanie a usporiadanie

Výhody algoritmu SALSA oproti algoritmu HITS

• s TKC efektom sa dokáže lepšie vysporiadať,• HITS v podstate závisí iba od množiny „hub“ avšak, algoritmus

SALSA od oboch množín „authority“ aj „hub“,• lepšie filtruje webový spam ako HITS, ale nie tak dobre ako

PageRank.