systemy wyszukiwania informacji - uniwersytet...

71

Upload: others

Post on 26-Sep-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Systemy Wyszukiwania Informacji

dr Agnieszka Nowak - Brzezi«ska

Instytut Informatyki, Zakªad Systemów Informatycznychul. B¦dzi«ska 39, Sosnowiec, Tel (+48 32) 368 97 65

e-mail:[email protected]

26 pa¹dziernika 2009

Page 2: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Warunki zaliczenia

• egzamin pisemny + ustny

• obecno±¢ na wykªadach

• strona przedmiotu:http://zsi.tech.us.edu.pl/~nowak/swibio/index.html

Page 3: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Literatura obowi¡zkowa

1. A.WakuliczDeja, Metody wyszukiwania informacji.Zagadnienia

implementacji Cz¦±¢ I., Skrypt U.�L. Katowice 1985

2. A. Wakulicz-Deja, Podstawy systemów wyszukiwania informacji,Akademicka O�cyna Wydawnicza PLJ, 1995

3. M.D¡browski, K.Laus-M¦czy«ska, Metody wyszukiwania i klasy�kacji

informacji, Warszawa, WNT 1978

4. Z.Pawlak, Systemy informacyjne, podstawy teoretyczne, Warszawa WNT1983

5. G.Salton, SMART automatyczny system wyszukiwania informacji,Warszawa, WNT, 1975

Page 4: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Plan wykªadów

1. Poj¦cia wst¦pne: kartoteka wyszukiwawcza, deskryptor, j¦zykdeskryptorowy, rodzaje termów, co to jest system kompletny, a coselektywny.

2. Metoda przegl¡du zupeªnego: tworzenie kartoteki, wyszukiwanieinformacji, rozumienie co wpªywa na czas wyszukiwania (natomiast nieoczekujemy od nich oszacowywania zªozono±ci obliczeniowych, czy czasówwyszukiwania), ocena wad i zalet metody, i propozycja mody�kacji:podziaª poªówkowy i grupowanie. Zostawiamy bez omówienie odcedzanie iorganizacj¦ zwart¡.

3. Metoda inwersyjna: tak jak w MLP, bez zªozono±ci obliczeniowych.Mody�kacje wszystkie.

4. Metoda ªa«cuchowa: tak jak MLP i MLI ale z mody�kacji to tylkoªancuchowanie grup obiektów.

5. Metoda Saltona. Wyszukiwanie informacji w du»ych zbiorachdokumentów.

Page 5: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

De�nicja systemu informacyjnego

Przez system informacyjny rozumiemy czwórk¦:

S = 〈X ,A,V , ρ〉, gdzie:X = {x1, .., xn}� sko«czony zbiór obiektów (podmiotów) systemu: np. ksi¡»kiw bibliotece, studenci w dziekanacie,A = {a1, .., am}� sko«czony zbiór atrybutów (cech, poj¦¢) opisuj¡cych obiektyw systemie, np. dla ksi¡»ek: wydawnictwo, rok wydania, autor, j¦zyk, stantechicznych,V =

⋃a∈A Va, gdzie Vato zbiór warto±ci atrybutu a,

ρ : X × A→ V , b¦d¡ca funkcj¡ informacji, i zarazem iloczynem kartezja«skimzbioru obiektów i zbioru atrybutów odwzorowanym w zbiór warto±ci atrybutów.Powiemy, »e ρ(x , a) = v ∈ Va dla ka»dego x ∈ X , oraz a ∈ A .Funkcja ρ jest funkcj¡ caªkowit¡ co oznacza, »e musi by¢ okre±lona dlawszystkich warto±ci argumentów x oraz a. Innymi sªowy: musi by¢ zawszeznana warto±¢ ka»dego atrybutu.

Page 6: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Funkcja informacji

Najcz¦±ciej taka funkcja informacji przedstawiona jest w postaci tabeli, któramo»e by¢ nast¦puj¡ca:

A B C

x1 a1 b1 c1x2 a1 b1 c2x3 a2 b2 c3x4 a2 b2 c4x5 a1 b2 c1x6 a1 b2 c2x7 a2 b2 c2x8 a2 b2 c4

Page 7: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Funkcja informacji

Najcz¦±ciej taka funkcja informacji przedstawiona jest w postaci tabeli, któramo»e by¢ nast¦puj¡ca:

A B C

x1 a1 b1 c1x2 a1 b1 c2x3 a2 b2 c3x4 a2 b2 c4x5 a1 b2 c1x6 a1 b2 c2x7 a2 b2 c2x8 a2 b2 c4

S = 〈X ,A,V , ρ〉

X = {x1, .., x8}

A = {A,B,C}

VA = {a1, a2}

VB = {b1, b2}

VC = {c1, c2, c3, c4}.

Page 8: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Przykªad systemu informacyjnego

obiekt Producent Model Pojemno±¢ Rozdzielczo±¢ Dodatkowe Bateriaoprogramowanie

(P) (M) (Po) (R) (Do) (B)

ap1 Apple Shu�e 2 sªaba Tak 2cr1 Creative Zen 2 Przeci¦tna Nie 1ap2 Apple Shu�e 4 sªaba Tak 2pn1 Pentagram Touch 2 Przeci¦tna Nie 2ap3 Apple Nano 8 dobra Tak 3cr2 Creative Shu�e 4 sªaba Nie 2cr3 Creative Shu�e 8 sªaba Nie 2so1 Sony Walkman 8 dobra Tak 3pn2 Pentagram Touch 8 b. dobra Nie 2ap4 Apple Nano 120 dobra Tak 3so2 Sony Walkman 4 dobra Tak 3ap5 Apple Nano 4 dobra Tak 3ap6 Apple Touch 8 b. dobra Nie 2ap7 Apple Touch 4 b. dobra Nie 2pn3 Pentagram Touch 4 b. dobra Nie 1

Page 9: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Opis systemu

S = 〈X ,A,V , ρ〉X = {ap1, ap2, ap3, ap4, ap5, ap6, ap7, cr1, cr2, cr3, pn1, pn2, pn3, so1, so2}A ={Producent,Model,Pojemno±¢,Rozdzielczo±¢,Dodatkowe oprogramowanie,Bateria}VP = {Apple,Creative,Pentagram,Sony}VM = {Shu�e,Zen,Touch,Nano,Walkman}Vpo = {2, 4, 8, 120}VR = {sªaba,przeci¦tna,dobra,b. dobra}sªaba=<0x0,119x79> przeci¦tna=<120x80,319x239>dobra=<320x240,479x319> b. dobra=<480x320>Vdo = {Tak,Nie}VB = {1, 2, 3, 4}1=<1h,10h> 2=<11h,20h> 3=<21h,30h>

ρ : X × A→ V

Page 10: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Poj¦cia wst¦pne

Aktualizacja bazy danych - czynno±¢ zapewniaj¡ca w ka»dej chwili wªa±ciwy zbiór danych, wbazie danych polega na dodawaniu, usuwaniu dokumentów z bazy danych oraz dokonywaniuzmian w opisach dokumentów. Aktualizacja mo»e równie» dotyczy¢ programów w bankudanych.Czas wyszukiwania - czas upªywaj¡cy od momentu skierowania pytania do systemu, domomentu, gdy system za odpowied¹ w swojej strukturze wewn¦trznej.Deskryptor - para atrybut-warto±¢ lub jednostka skªadniowa u»ywana jako podstawowyelement (sªowo kluczowe) j¦zyka informacyjno- wyszukiwawczego w systemie informatycznejanalizy tre±ci dokumentu lub automatycznego wyszukiwania dokumentów:

(ai , vij ), gdzie ai ∈ A, vij ∈ Vai.

Dokument relewantny - dokument a jest relewantny wzgl¦dem pytania q, je»eli w opisiedokumentu a wyst¦puj¡ wszystkie deskryptory niezaprzeczone pytania q i w opisie tym niewyst¦puje »aden z deskryptorów zaprzeczonych pytania q (o ile q zawiera deskryptoryzaprzeczone).Dokument wtórny - dokument opracowany na podstawie dokumentu ¹ródªowegoprzystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacjez dokumentu ¹ródªowego s¡ kodowane; s¡ to informacje skrócone.Dokument wyszukiwawczy - jest to dokument opracowany na podstawie dokumentu wtórnego;przystosowany do konkretnej metody wyszukiwania informacji.Dokument ¹ródªowy - opis obiektu w postaci ¹ródªowej (j¦zyk naturalny); dokument nawej±ciu systemu (np. ankiety)

Funkcja informacji - odwzorowanie zbioru obiektów w zbiór atrybutów na zbiór warto±ci; daje

nam caªkowity opis obiektu; funkcja nie b¦dzie poprawna, je±li nie b¦dzie w peªni okre±lona

(nie wszystkie pary (x, a) b¦d¡ miaªy warto±¢);

Page 11: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

II wykªad

Page 12: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

J¦zyk deskryptorowy - LS

To j¦zyk systemowy, j¦zyk opisu w kartotece wyszukiwawczej, równocze±niej¦zyk pyta« i odpowiedzi w systemie; jest szczególnym przypadkiem j¦zykainformacyjnego; jest de�niowany jako para:LS =< A,G >, gdzie A - alfabet; G - gramatyka dwustopniowa (skªada si¦ zsymantyki i syntaktyki). ALFABET - okre±la wszystkie symbole, którewyst¦puj¡ w j¦zyku:

1. 0, 1 ∈ A - warto±ci typu logicznego sªu»¡ do oznaczania zbioru peªnego ipustego;

2. A , V ∈ A gdzie A - zbiór warto±ci nazw atrybutów; V - zbiór warto±ci;

3. ( ,) ∈ A

4. +, ∗, : ∈ A gdzie :- negacja

Page 13: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

J¦zyk deskryptorowy - LS

GRAMATYKA jest de�niowana dwustopniowo:SYNTAKTYKA - okre±la zasady tworzenia sªów w danym j¦zyku (TERMY -sªowa w j¦zyku deskryptorowym, T - zbiór termów - zbiór sªów w j¦zykudeskryptorowym):

1. 0, 1 ∈ T

2. (a, v) ∈ T - deskryptor jest sªowem w tym j¦zyku

3. t, t′ ∈ T - je»eli nale»¡ do j¦zyka to sªowami j¦zyka s¡ równie»:• :t ∈ T ;• t + t′ ∈ T ;• t ∗ t′ ∈ T ;

Przykªady termów:(Wydawnictwo,PWN) ∈ T , (RokWydania, 1990) + (Dziedzina, Informatyka) ∈ T ,

(RokWydania, 1990) ∗ (Wydawnictwo,PWN) ∈ T , :(Wydawnictwo,PWN) +

(RokWydania, 1990) ∗ (Dziedzina, Informatyka) + (Dziedzina,Elektronika) ∈ T

Page 14: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

J¦zyk deskryptorowy - LS

SEMANTYKA - okre±la znaczenie sªów (znaczeniem sªów s¡ obiekty).Semantyka w j¦zyku deskryptorowym je okre±lona jako:σ : T → X -odwzorowuje zbiór termów w zbiór obiektów. Je»eli obiekty b¦d¡ opisanetermami to pytanie kierowane do systemu jest termem, a znalezienieodpowiedzi na pytanie jest nadaniem znaczenia termom tego pytania.

1. σ(0) = {∅}, σ(1) = {X}(peªny zbiór obiektów);

2. σ(a, v) = {x ∈ X , ρx(a) = v}3. σ(:t) = {X |σ(t)};4. σ(t + t′) = σ(t) ∪ σ(t′)5. σ(t ∗ t′) = σ(t) ∩ σ(t′)

Page 15: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Rodzaje kartotek

Kartoteka - grupa zapisów dotycz¡cych okre±lonego problemu, traktowania wprocesie przetwarzania informacji jaka odr¦ba caªo±¢.Kartoteka wtórna -zbiór dokumentów wtórnych.Kartoteka wyszukiwawcza - zbiór dokuemntów w postaci wyszukiwawczej wrazz niezb¦dnymi dodatkowymi informcjami (np. tablice, listy inwersyjne)potrzebnymi do wyszukiwania okre±lon¡ metod¡.Kartoteka ¹ródªowa - zbiór dokuemtów »ródªowych.

Page 16: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Rodzaje termów

• term elementarny

te = (a1, vi1) ∗ (a2, vi2) ∗ . . . ∗ (an, vin)

gdzie: ai ∈ A, vij ∈ Vaj . Je±li przez dij rozumiemy deskryptor (aj , vij ) to:

te = d i1 ∗ d i2 ∗ . . . ∗ d in• term skªadowy:

te = d i1 ∗ d i2 ∗ . . . ∗ d ik, gdzie k ≤ n

• term normalny : t = t1 + t2 + . . .+ tm, gdzie ti to termy elementarne.

Page 17: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Równo±¢ i zawieranie si¦ termów

Termy t i t′ s¡ równe w systemie S wtedy i tylko wtedy, gdy warto±ci tychtermów s¡ równe:

t = t′ ⇔ σ(t) = σ(t′)

Term t jest zawarty w t' wtedy i tylko wtedy, gdy zbiór obiektówodpowiadaj¡cy warto±ci termu t′ jest zawarty w zbiorze obiektówodpowiadaj¡cych warto±ci termu t:

t ≤ t′ ⇔ σ(t′) ⊆ σ(t)

Page 18: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Metoda list prostych

Metoda inaczej nazwana metod¡ przegl¡du zupeªnego. Zaªo»enia metody:

• informacje o obiektach s¡ pami¦tane w dowolnej kolejno±ci

• informacja o obiekcie ρx jest pewn¡ funkcj¡, która ka»demu atrybutowiprzyporz¡dkowuje pewn¡ warto±¢:

tx = (a1, vi1) ∗ (a2, vi2) ∗ . . . ∗ (an, vin)

Traktujemy j¡ jako opis obiektu x w j¦zyku LS .

• obowi¡zuje dowolna kolejno±¢ zapisu informacji o obiekcie

• je»eli tx to opis obiektu x a ti to term skªadowy pytania, to powiemy, »eti = tx , gdy w opisie obiektu tx b¦d¡ te same deskryptory co w termie ti .

• je»eli za± w opisie obiektu tx wyst¦puj¡ conajmniej wszystkie deskryptorytermu ti to ti ≤ tx

Page 19: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Przykªadowa kartoteka wyszukiwawcza w MLP

A B C

x1 a1 b1 c1x2 a1 b1 c2x3 a2 b2 c3x4 a2 b2 c4x5 a1 b2 c1x6 a1 b2 c2x7 a2 b2 c3x8 a2 b2 c4

tx1 = (a, a1) ∗ (b, b1) ∗ (c, c1)tx2 = (a, a1) ∗ (b, b1) ∗ (c, c2)tx3 = (a, a2) ∗ (b, b2) ∗ (c, c3)tx4 = (a, a2) ∗ (b, b2) ∗ (c, c4)tx5 = (a, a1) ∗ (b, b2) ∗ (c, c1)tx6 = (a, a1) ∗ (b, b2) ∗ (c, c2)tx7 = (a, a2) ∗ (b, b2) ∗ (c, c3)tx8 = (a, a2) ∗ (b, b2) ∗ (c, c4)

Page 20: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Przykªadowa kartoteka wyszukiwawcza w MLP - inna wersja

A B C

x1 a1 b1 c1x2 a1 b1 c2x3 a2 b2 c3x4 a2 b2 c4x5 a1 b2 c1x6 a1 b2 c2x7 a2 b2 c3x8 a2 b2 c4

tx1 = (b, b1) ∗ (c, c1) ∗ (a, a1)tx2 = (a, a1) ∗ (b, b1) ∗ (c, c2)tx3 = (b, b2) ∗ (c, c3) ∗ (a, a2)tx4 = (a, a2) ∗ (b, b2) ∗ (c, c4)tx5 = (c, c1) ∗ (a, a1) ∗ (b, b2)tx6 = (a, a1) ∗ (c, c2) ∗ (b, b2)tx7 = (c, c3) ∗ (a, a2) ∗ (b, b2)tx8 = (a, a2) ∗ (b, b2) ∗ (c, c4)

Page 21: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Wyszukiwanie informacji

Zakªadaj¡c, »e pytanie do systemu mo»e by¢ sum¡ termów skªadowych:t = t1 + t2 + . . .+ tm wyszukiwanie informacji mo»e odbywa¢ si¦ jednym zdwóch mo»liwych algorytmów:

1. I metoda: σ(ti ) = {x ∈ X : ti ≤ tx}2. II metoda: σ(t) = {x ∈ X : ∃ti∈tti ≤ tx}

Page 22: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

III wykªad21.X.2009 r

Page 23: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Sªowny algorytm wyszukiwania - dla pyta« skªadowych ti

1. Pobierz pierwszy dokument (opis obiektu)

2. Pobierz pierwszy deskryptor pytania,

3. Pobierz pierwszy deskryptor opisu obiektu4. Dokonaj porównania deskryptorów:

• je±li s¡ równe, pobierz kolejny deskryptor pytania i przejd¹ do p.3; je»elikoniec pytania, to doª¡cz identy�kator obiektu do zbioru odpowiedzi iprzejd¹ do p. 5; je»eli koniec kartoteki wyszukiwawczej, przejd¹ do p. 6,

• je»eli s¡ ró»ne, pobierz kolejny deskryptor opisu obiektu i przejd¹ do p.4;je»eli sprawdzono caªy opis obiektu, przejd¹ do p.5.

5. Je»eli sprawdzono wszystkie dokumenty, to przejd¹ do p.6, w przeciwnymwypadku pobierz kolejny dokument i powró¢ do 2.

6. Zako«cz wyszukiwanie.

Page 24: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Pytanie ogólne - metoda Ipytanie szczegóªowet =: (c, c1) ∗ (a, a1) + (b, b1)

tx1 = (b, b1) ∗ (c, c1) ∗ (a, a1)tx2 = (a, a1) ∗ (b, b1) ∗ (c, c2)tx3 = (b, b2) ∗ (c, c3) ∗ (a, a2)tx4 = (a, a2) ∗ (b, b2) ∗ (c, c4)tx5 = (c, c1) ∗ (a, a1) ∗ (b, b2)tx6 = (a, a1) ∗ (c, c2) ∗ (b, b2)tx7 = (c, c3) ∗ (a, a2) ∗ (b, b2)tx8 = (a, a2) ∗ (b, b2) ∗ (c, c4)

Page 25: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Pytanie szczegóªowe - metoda Ipytanie szczegóªowet =: (c, c1) ∗ (a, a1) + (b, b1)

t = (c, c1) ∗ (a, a1) + (b, b1) = t1 + t2t1 = (c, c1) ∗ (a, a1), t2 = (b, b1)σ(t) = σ(t1) ∪ σ(t2)1. Pobieramy opis pierwszego obiektu: tx1 = (b, b1) ∗ (c, c1) ∗ (a, a1)

1.1 Pobieramy pierwszy deskryptor pytania t1: (c, c1)1.1.1 Pobieramy pierwszy deskryptor opisu obiektu: (b, b1) i porównujemy (

(c, c1) 6= (b, b1))1.1.2 Pobieramy drugi deskryptor opisu obiektu: (c, c1) i porównujemy (

(c, c1) = (c, c1)⇒ punkt 1.1)1.1.3 Pobieramy drugi deskryptor pytania t1: (a, a1)

Pobieramy pierwszy deskryptor opisu obiektu: (b, b1) iporównujemy ( (a, a1) 6= (b, b1))Pobieramy drugi deskryptor opisu obiektu: (c, c1) iporównujemy ( (a, a1) 6= (c, c1))Pobieramy trzeci deskryptor opisu obiektu: (a, a1) iporównujemy ( (a, a1) = (a, a1))⇒ punkt 1.1 ale nie mawi¦cej deskryptorów wi¦c uznajemy, »e dany obiekt jestodpowiedzi¡ na pytanie t1: t1 ≤ tx1 ) i dodajemy go doodpowiedzi na pytanie t1: σ(t) = {x1}

2. Pobieramy opis drugiego obiektu: tx2 = (a, a1) ∗ (b, b1) ∗ (c, c2) i powtarzamykroki: 1.1.1− 1.1.3 ale stwierdzamy, »e t1 � tx2

3. Powtarzamy te kroki dla opisów pozostaªych obiektów tx3 , . . . , txn stwierdzaj¡c,»e: t1 � tx3 , t1 � tx4 , t1 ≤ tx5 , t1 � tx6 , t1 � tx7 , t1 � tx8

Zatem: σ(t1) = {x1, x5}

Page 26: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Pytanie szczegóªowe - metoda I cdpytanie szczegóªowet =: (c, c1) ∗ (a, a1) + (b, b1)

t = (c, c1) ∗ (a, a1) + (b, b1) = t1 + t2t1 = (c, c1) ∗ (a, a1), t2 = (b, b1)σ(t) = σ(t1) ∪ σ(t2)1. Pobieramy opis pierwszego obiektu: tx1 = (b, b1) ∗ (c, c1) ∗ (a, a1)

1.1 Pobieramy pierwszy deskryptor pytania t2: (b, b1)1.1.1 Pobieramy pierwszy deskryptor opisu obiektu: (b, b1) i porównujemy (

(b, b1) = (b, b1)). Nie ma wi¦cej deskryptorów w pytaniu wi¦c t2 ≤ tx1 i odrazu wracamy do punktu 1 by pobra¢ opis kolejnego obiektu.

2. Pobieramy opis drugiego obiektu: tx2 = (a, a1) ∗ (b, b1) ∗ (c, c2) i dokonujemyporównania z pytaniem t2 i stwierdzamy, »e t2 ≤ tx2 .

3. Powtarzamy t¦ analiz¦ dla opisów obiektów: tx3 , . . . , txn stwierdzaj¡c, »e:t2 ≤ tx3 , t2 � tx4 , t2 � tx5 , t2 � tx6 , t2 � tx7 , t2 � tx8

Zatem: σ(t2) = {x1, x2} Ostatecznie:σ(t) = σ(t1) ∪ σ(t2) = {x1, x2} ∪ {x1, x5} = {x1, x2, x5}

Page 27: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Wady tego podej±cia

1. Im wi¦cej deskryptorów w pytaniu, tym dªu»szy czas analizy...

2. Im wi¦cej deskryptorów w opisie obiektu, tym dªu»szy czas analizy...

3. Im wi¦cej obiektów, tym dªu»szy czas analizy...

4. Dopóki deskryptory w opisach obiektów nie s¡ uporz¡dkowane, musimy dlaka»dego z deskryptorów pytania przegl¡da¢ caªy opis obiektu od pocz¡tku.Mo»na zaªo»y¢, »e na czas wyszukiwania odpowiedzi na pytanie w postacitermu skªadowego ti skªadaj¡ si¦: τX - liczba obiektów, τm - liczbadeskryptorów pytania ti oraz τn - liczba deskryptorów w opisie obiektu.τ = τX ∗ τm ∗ τn. Je±li wi¦c pytanie ma 2 deskryptory, a opis ka»degoobiektu skªada si¦ z 3 deskryptorów, to b¦dziemy ka»dy opis przegl¡da¢ wsumie 6 razy, w celu sprawdzenia czy zawiera si¦ w nim deskryptor pytania.Je±li teraz obiektów mamy 8 to maksymalnie (w pesymistycznymprzypadku) czas wyszukiwania odpowiedzi wyniesie 48 jednostek.Przyczym b¦dzie to czas tylko dla pojedynczego pytania ti .

Page 28: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Pytanie szczegóªowe - metoda IIpytanie szczegóªowet =: (c, c1) ∗ (a, a1) + (b, b1)

1. Pobieramy opis pierwszego obiektu: tx1 = (b, b1) ∗ (c, c1) ∗ (a, a1)1.1 Pobieramy pierwszy deskryptor pytania t1: (c, c1)

1.1.1 Pobieramy pierwszy deskryptor opisu obiektu: (b, b1) i porównujemy ((b, b1) 6= (c, c1)). Pobieramy wi¦c kolejny deskryptor opisu obiektu: a wi¦c(c, c1), s¡ zgodne wi¦c wracamy do punktu 1.1.

1.2 Pobieramy kolejny deskryptor pytania: (a, a1) i sprawdzamy czy obiekt x1zawiera go w swoim opisie. ((a, a1) ≤ tx1 ) skoro nie ma wiecejdeskryptorów w pytaniu skªadowym (mi¦dzy operatorami + uznajemy, »ecaªe pytanie t jest zawarte w opisie analizowanego obiektu t ≤ tx1 )

2. Pobieramy kolejno opisy obiektów : tx3 , . . . , txn i analizujemy je pod k¡tem tegoczy który± z deskryptorów pytania si¦ w nich zawieraj¡. I tak: t ≤ tx2 , t ≤ tx3 ,t � tx4 , t ≤ tx5 , t � tx6 , t � tx7 , t � tx8

Zatem: σ(t) = {x1, x2, x5}

Page 29: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Wady tego podej±cia

1. Im wi¦cej deskryptorów w pytaniu, tym dªu»szy czas analizy...

2. Im wi¦cej deskryptorów w opisie obiektu, tym dªu»szy czas analizy...

3. Im wi¦cej obiektów, tym dªu»szy czas analizy...

4. Dopóki deskryptory w opisach obiektów nie s¡ uporz¡dkowane, musimy dlaka»dego z deskryptorów pytania przegl¡da¢ caªy opis obiektu od pocz¡tku.Mo»na zaªo»y¢, »e na czas wyszukiwania odpowiedzi na pytanie peªne t

skªadaj¡ si¦: τX - liczba obiektów, τm - liczba deskryptorów pytania ti orazτn - liczba deskryptorów w opisie obiektu. τ = τX ∗ τ

′m ∗ τn.

Przewa»nie τ′m ≥ τm

Page 30: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Czas wyszukiwania

1. I metoda: τ = N ∗m ∗ τ02. II metoda: τ = N ∗ τ

′0

gdzie: N - liczba obiektów, m - liczba termów skªadowych w pytaniu t, τ0-±redni czas przegl¡du jednego obiektu

Page 31: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Ocena metody klasycznej

Zalety:

• brak redundancji, maªa zaj¦to±¢ pami¦ci,

• ªatwo±¢ aktualizacji kartoteki wyszukiwawczej

Wady:

• dªugi czas wyszukiwania dla pyta« szczegóªowych, brak konieczno±ciuporz¡dkowania opisów obiektów mo»e wydªuza¢ ten czas.

Page 32: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Mody�kacje metody klasycznej

1. Uporz¡dkowanie opisów obiektów

2. Grupowanie obiektów wg wybranego atrybutu

3. Podziaª poªówkowy

Page 33: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Uporz¡dkowanie opisów obiektów

tx1 = (a, a1) ∗ (b, b1) ∗ (c, c1)tx2 = (a, a1) ∗ (b, b1) ∗ (c, c2)tx3 = (a, a2) ∗ (b, b2) ∗ (c, c3)tx4 = (a, a2) ∗ (b, b2) ∗ (c, c4)tx5 = (a, a1) ∗ (b, b2) ∗ (c, c1)tx6 = (a, a1) ∗ (b, b2) ∗ (c, c2)tx7 = (a, a2) ∗ (b, b2) ∗ (c, c3)tx8 = (a, a2) ∗ (b, b2) ∗ (c, c4)

Page 34: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Ocena mody�kacji

Zalety:

• brak redundancji, maªa zaj¦to±¢ pami¦ci (taka sama jak w metodzieklasycznej),

• wci¡» ªatwa jest aktualizacja kartoteki wyszukiwawczej

• skraca si¦ czas wyszukiwania, a konkretnie przeszukiwania opisu danegoobiektu w celu sprawdzenia, czy nie zawiera on deskryptora pytania.

Wady:

• dªugi czas wyszukiwania dla pyta« szczegóªowych.

Page 35: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Grupowanie obiektów wg wybranego atrybutu

Algorytm:

1. Wybieramy pewien atrybut, i wg. jego warto±ci porz¡dkujemy wszystkieobiekty w kartotece rosn¡co b¡d¹ malej¡co (dla danych symbolicznych -porz¡dek leksykogra�czny).

2. Ten wybrany atrybut tra�a na 1-sze miejsce w opisie ka»dego obiektu.

3. Zmienia si¦ zatem uporz¡dkowanie obiektów w kartotece, st¡d konieczno±¢nadania obiektów nowego uporz¡dkowania.

4. Budujemy dodatkowo tzw. tablic¦ adresow¡, która b¦dzie wspomaga¢wyszukiwanie informacji.

Wybrany atrybut powinien speªnia¢ 3 kryteria: najcze±ciej wyst¦powa¢ wpytaniach zadawanych do systemu, by¢ wielowarto±ciowy i w miar¦równomiernie dzieli¢ kartotek¦ wyszukiwawcz¡.

Page 36: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Grupowanie obiektów wg wybranego atrybutu

A B C

x1 a1 b1 c1x2 a1 b1 c2x3 a2 b2 c3x4 a2 b2 c4x5 a1 b2 c1x6 a1 b2 c2x7 a2 b2 c3x8 a2 b2 c4

c B a

x1 c1 b1 a1x2 c2 b1 a1x3 c3 b2 a2x4 c4 b2 a2x5 c1 b2 a1x6 c2 b2 a1x7 c3 b2 a2x8 c4 b2 a2

Page 37: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Grupowanie obiektów wg wybranego atrybutuWybierzmy atrybut c, nowe uporz¡dkowanie obiektów

c B a

x1 c1 b1 a1x5 c1 b2 a1x2 c2 b1 a1x6 c2 b2 a1x3 c3 b2 a2x7 c3 b2 a2x4 c4 b2 a2x8 c4 b2 a2

NU c B a

1 x1 c1 b1 a12 x5 c1 b2 a13 x2 c2 b1 a14 x6 c2 b2 a15 x3 c3 b2 a26 x7 c3 b2 a27 x4 c4 b2 a28 x8 c4 b2 a2

Page 38: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Grupowanie obiektów wg wybranego atrybutuWybierzmy atrybut c, nowe uporz¡dkowanie obiektów

NU c B a

1 x1 c1 b1 a12 x5 c1 b2 a13 x2 c2 b1 a14 x6 c2 b2 a15 x3 c3 b2 a26 x7 c3 b2 a27 x4 c4 b2 a28 x8 c4 b2 a2

(ai , vij ) AP AK

(c, c1) 1 2(c, c2) 3 4(c, c3) 5 6(c, c4) 7 8

Page 39: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Wyszukiwanie informacji

Algorytm:• pobierz deskryptor pytania:

• Je±li zawiera on deskryptor atrybutu ktory grupowaª kartotek¦ to znajd¹deskryptor w TA i pobierz AP i AK bloku ktory musisz przeszuka¢ w KW

• je±li nie to PZ

• W podanym bloku przeszukaj opisy obiektów w celu sprawdzenia czy s¡one odpowiedzi¡ na pozostaªe deskryptory pytania.

Czas wyszukiwania to: τ = N∗m∗τ0k

, gdzie k to liczba grup (warto±ci atrybutuktóry grupowaª kartotek¦)

Page 40: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Ocena mody�kacji

Zalety:

• brak redundancji, maªa zaj¦to±¢ pami¦ci (wi¦ksza ni» w metodzieklasycznej bo dochodzi konieczno±¢ pami¦tania TA),

• skraca si¦ czas wyszukiwania, bo przeszukujemy tylko wybran¡ grup¦obiektów.

Wady:

• dªugi czas wyszukiwania dla pyta« szczegóªowych.

• trudniejsza aktualizacja kartoteki wyszukiwawczej ze wzgl¦du nautworzone grupy.

Page 41: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Podziaª poªówkowy

Algorytm:

1. Wybieramy atrybut który potra� uporz¡dkowa¢ obiekty. Jednocze±niepowinien najcze±ciej wyst¦powa¢ w pytaniach zadawanych do systemu.

2. Atrybut ten idzie na 1-e miejsce w KW.

3. Porz¡dkujemy rosn¡co b¡d¹ malej¡co obiekty wg warto±ci tego atrybutu.

Page 42: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Podziaª poªówkowyWybierzmy atrybut c

NU c B a

1 x1 c1 b1 a12 x5 c1 b2 a13 x2 c2 b1 a14 x6 c2 b2 a15 x3 c3 b2 a26 x7 c3 b2 a27 x4 c4 b2 a28 x8 c4 b2 a2

i c

1 x1 c12 x5 c13 x2 c24 x6 c25 x3 c36 x7 c37 x4 c48 x8 c4

Page 43: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Wyszukiwanie informacji

Algorytm:• Porównaj deskryptor pytania z opisem obiektu xb n

2c+1 który jest w poªowie

kartoteki.• je±li to czego szukamy jest mniejsze od tego co znajdziemy w poªowiekartoteki (ti 〈xb n

2c+1) wybieramy do przegl¡du I-sz¡ poªow¦: czyli obiekty:

x1, . . . , xb n2c+1

• w przeciwnym przypadku przegl¡damy II-sz¡ poªow¦: czyli obiekty:xb n

2c+1+1, . . . , xn.

• w wybranej poªowie dokonujemy przegl¡du zupeªnego.

Czas wyszukiwania to: τ = N∗m∗τ02k

, gdzie k to liczba dokonanych podziaªówpoªówkowych.

Page 44: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Ocena mody�kacji

Zalety:

• brak redundancji, maªa zaj¦to±¢ pami¦ci (tak samo jak w metodzieklasycznej),

• skraca si¦ czas wyszukiwania, bo przeszukujemy tylko wybran¡ grup¦obiektów.

Wady:

• mo»liwa utrata kompletno±ci wyszukiwania

• pytanie musi zawiera¢ deskryptor atrybutu ktory porz¡dkowaª kartotek¦

• trudniejsza aktualizacja kartoteki wyszukiwawczej ze wzgl¦du nautworzone grupy.

Page 45: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Metoda list inwersyjnych

Wykªad IV

Page 46: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Charakterystyka metody list inwersyjnych

W metodzie list inwersyjnych kartoteka wtórna niczym si¦ nie ró»ni odkartoteki z metody list prostych (obiekty pojawiaj¡ si¦ zgodnie z kolejno±ci¡ ichnapªywania), natomiast kartoteka wyszukiwawcza jest zakªadana w specjalnysposób: Funkcja adresuj¡ca: µ : X → N (przyporz¡dkowanie adresu obiektowi):

µ(x) = µ(y)⇔ tx = tydlax , y ∈ X

X (x1, x2, . . . , xk)→ N(n1, n2, . . . , nk)

Obiekty maj¡ ten sam adres, je±li posiadaj¡ identyczny opis deskryptorowy.Tworzymy listy adresów tych obiektów, które w swoim opisie zawieraj¡deskryptor di ∈ tx . Listy takie nazywamy listami inwersyjnymi:

α(di ) = n1, n2, . . . , nz , di (ai , vij )∀di∈Dα(di )

Utworzony zbiór obiektów stanowi kartotek¦ wyszukiwawcz¡ w systemie. Przyniewielkiej liczbie obiektów mo»na wprost pami¦ta¢ obiekty.

Page 47: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Budowa KW w MLI

Tworzymy funkcj¦ adresuj¡c¡ µ:

µ = {µ(x1) = 1, µ(x2) = 2, µ(x3) = 3, µ(x4) = 4,

µ(x5) = 5, µ(x6) = 6, µ(x7) = 7, µ(x8) = 8}

Budujemy zbiór deskryptorów D dla którego utworzymy listy inwersyjne:

D = {(a, a1), (a, a2), (b, b1), (b, b2), (c, c1), (c, c2), (c, c3), (c, c4)}

A B C

x1 a1 b1 c1x2 a1 b1 c2x3 a2 b2 c3x4 a2 b2 c4x5 a1 b2 c1x6 a1 b2 c2x7 a2 b2 c3x8 a2 b2 c4

Page 48: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Budowa KW w MLI

D = {(a, a1), (a, a2), (b, b1), (b, b2), (c, c1), (c, c2), (c, c3), (c, c4)}

µ A B C

1 x1 a1 b1 c12 x2 a1 b1 c23 x3 a2 b2 c34 x4 a2 b2 c45 x5 a1 b2 c16 x6 a1 b2 c27 x7 a2 b2 c38 x8 a2 b2 c4

L(a, a1) = {1, 2, 5, 6}L(a, a2) = {3, 4, 7, 8}L(b, b1) = {1, 2}L(b, b2) = {3, 4, 5, 6, 7, 8}L(c, c1) = {1, 5}L(c, c2) = {2, 6}L(c, c3) = {3, 7}L(c, c4) = {4, 8}

Page 49: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Budowa KW w MLI

Tworzymy funkcj¦ adresuj¡c¡ µ:

µ = {µ(x1) = 1, µ(x2) = 2, µ(x3) = 3, µ(x4) = 4,

µ(x5) = 5, µ(x6) = 6, µ(x7) = 7, µ(x8) = 8}

Budujemy zbiór deskryptorów D dla którego utworzymy listy inwersyjne:

D = {(a, a1), (a, a2), (b, b1), (b, b2), (c, c1), (c, c2), (c, c3), (c, c4)}

Page 50: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Budowa KW w MLI

A B C

x1 a1 b1 c1x2 a1 b1 c2x3 a2 b2 c3x4 a2 b2 c4x5 a1 b2 c1x6 a1 b2 c2x7 a2 b2 c3x8 a2 b2 c4

µ A B C

1 x1 a1 b1 c12 x2 a1 b1 c23 x3 a2 b2 c34 x4 a2 b2 c45 x5 a1 b2 c16 x6 a1 b2 c27 x7 a2 b2 c38 x8 a2 b2 c4

Page 51: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Budowa KW w MLI

D = {(a, a1), (a, a2), (b, b1), (b, b2), (c, c1), (c, c2), (c, c3), (c, c4)}

µ A B C

1 x1 a1 b1 c12 x2 a1 b1 c23 x3 a2 b2 c34 x4 a2 b2 c45 x5 a1 b2 c16 x6 a1 b2 c27 x7 a2 b2 c38 x8 a2 b2 c4

L(a, a1) = {1, 2, 5, 6}L(a, a2) = {3, 4, 7, 8}L(b, b1) = {1, 2}L(b, b2) = {3, 4, 5, 6, 7, 8}L(c, c1) = {1, 5}L(c, c2) = {2, 6}L(c, c3) = {3, 7}L(c, c4) = {4, 8}

Page 52: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Proces wyszukiwania w metodzie list inwersyjnych

1. Pytanie ogólne - suma termów skªadowych

t = t1 + t2 + . . .+ tk∀i∈〈l,k〉

Skoro wi¦c:

ti = di to powiemy, »e t = d1+d2+. . .+dk , σ(t) = σ(d1)∪σ(d2)∪. . .∪σ(dk)

2. Pytanie szczegóªowe

t = t1 + t2 + . . .+ tk , ti = d1 ∗ d2 ∗ . . . ∗ dm,

Skoro wi¦c:

σ(ti ) = σ(d1)∩σ(d2)∩. . .∩σ(dm), to powiemy, »e σ(t) = σ(t1)∪σ(t2)∪. . .∪σ(tk)

Page 53: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

D = {(a, a1), (a, a2), (b, b1), (b, b2),

(c, c1), (c, c2), (c, c3), (c, c4)}

L(a, a1) = {1, 2, 5, 6} : d1L(a, a2) = {3, 4, 7, 8} : d2L(b, b1) = {1, 2} : d3L(b, b2) = {3, 4, 5, 6, 7, 8} : d4L(c, c1) = {1, 5} : d5L(c, c2) = {2, 6} : d6L(c, c3) = {3, 7} : d7L(c, c4) = {4, 8} : d8Pytanie: t = (c, c3)Wyszukanie odpowiedzi:

1. Szukamy w±ród list inwersyjnych tej wªa±ciwej: t � d1, t � d2,t � d3,t � d4, t � d5, t � d6, t ≤ d7, t � d8.

2. Wygenerowanie listy inwersyjnej L(d7) = {3, 7}.3. Odtworzenie adresów obiektów: σ(t) = {x3, x7}

Page 54: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

D = {(a, a1), (a, a2), (b, b1), (b, b2),

(c, c1), (c, c2), (c, c3), (c, c4)}

L(a, a1) = {1, 2, 5, 6}L(a, a2) = {3, 4, 7, 8}L(b, b1) = {1, 2}

L(b, b2) = {3, 4, 5, 6, 7, 8}L(c, c1) = {1, 5}L(c, c2) = {2, 6}L(c, c3) = {3, 7}L(c, c4) = {4, 8}

Page 55: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Pytanie: t = (a, a1)(b, b1) + (c, c3)

Wyszukanie odpowiedzi:

1. t = t1 + t2, t1 = (a, a1)(b, b1), za± t2 = (c, c3)

2. Szukamy odpowiedzi na pytanie t1:• Szukamy list dla ka»dego deskryptora: (a, a1) i (b, b1):L(a, a1) = {1, 2, 5, 6} za± L(b, b1) = {1, 2}

• dokonujemy przeci¦cia list: L(a1 ∗ b1) = {1, 2, 5, 6} ∧ {1, 2} = {1, 2}• odtwarzamy adresu obiektów z tej listy: σ(t1) = {x1, x2}

3. Szukamy odpowiedzi na pytanie t2 (czyli tylko dla (c, c3)):• Szukamy listy z deskryptorem: (c, c3): L(c, c3) = {3, 7}• odtwarzamy adresu obiektów z tej listy: σ(t1) = {x3, x7}

4. odtwarzamy odpowied¹ na pytanie t:σ(t) = σ(t1) ∪ σ(t2) = {x1, x2} ∪ {x3, x7} = {x1, x2, x3, x7}.

Page 56: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Algorytm wyszukiwania

1. Pobierz pierwszy deskryptor pierwszego termu skªadowego

2. Wygeneruj list¦ obiektów relewantnych do tego deskryptora

3. Je±li nie ma ju» nast¦pnych deskryptorów w tym termie skªadowym to przejd¹ dopkt. 8

4. Pobierz nast¦pny deskryptor pytania

5. Wygeneruj list¦ obiektów relewantnych do tego deskryptora

6. Dokonaj przeci¦cia na dotychczas wygenerowanych listach

7. Przejd¹ do punktu punktu 3

8. Zapami¦taj wygenerowan¡ list¦

9. Je±li nie ma ju» nast¦pnych termów skªadowych to przejd¹ do punktu 17

10. Pobierz pierwszy deskryptor nast¦pnego temu skªadowego

11. Wygeneruj list¦ obiektów relewantnych do tego deskryptora

12. Je±li nie ma ju» nast¦pnych dekryptorów w tym termie skªadowym to przejd¹ dopunktu 8.

13. Pobierz nast¦pny deskryptor pytania

14. Wygeneruj list¦ obiektów relewantnych do tego deskryptora

15. Dokonaj przeci¦cia na dotychczas wygenerowanych dla tego termu skªadowegolistach

16. Przejd¹ do punktu 12

17. Podaj na wyj±cie sum¦ zapami¦tanych list

Page 57: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Parametry metody list inwersyjnych

Czas wyszukiwania jest zale»ny od typu pytania - czas odpowiedzi na pytanieogólne jest czasem krótkim, zale»y tylko od czasu generacji poszczególnych list;natomiast dla pyta« szcegóªowych dochodzi do tego jeszcze czas przecinanialist.

τ =∑

τgi + τp

Przyspieszenie pracy sytemu odbywa si¦ niestety kosztem redundancji:

R =

∑ri=1 L(di )− N

N

Równie» zwi¦kszona zaj¦to±¢ pami¦ci jest cen¡ któr¡ trzeba zapªaci¢ zaszybko±¢. Preferowany tryb pracy systemu : praca wsadowa.

Page 58: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Mody�kacje

Podstawowymi wadami metody list inwersyjnych s¡:

• nadmierna redundancja

• i zaj¦to±¢ pami¦ci.

Aby zmniejszy¢ te dwa parametry, nie trac¡c zbytnio na szybko±ci mo»nazastosowa¢ wªa±nie t¡ mody�kacj¦.

Page 59: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Mody�kacje list inwersyjnych

1. PORZ�DKOWANIE ADRESÓW OBIEKTÓW NA LISTACH2. PORZ�DKOWANIE LIST

• WG D�UGO�CI• LEKSYKOGRAFICZNIE• WG WYBRANEGO KRYTERIUM Z TABLICA ADRESOW�(INDEKSOWANIE)

• WG CZ�STO�CI WYST�POWANIA DANYCH DESKRYPTORÓW WPYTANIU

3. TWORZENIE LIST ZREDUKOWANYCH• ZAZNACZANIE PRZEDZIA�ÓW ADRESÓW• LISTY DLA PAR DESKRYPTORÓWZ ZAZNACZENIE CZ�SCIWSPÓLNEJ

• LISTY WIELODESKRYPTOROWE• USUWANIE LIST D�UGICH - LISTY ZANEGOWANE• TWORZENIE LIST DLA PEWNEGO POZBIORU DESKRYPTORÓW

4. DEKOMPOZYCJE (ATRYBUTOWA, OBIEKTOWA, OBIEKTOWO -ATRYBUTOWA, HIERARCHICZNA)

Page 60: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Zmniejszona liczba list inwersyjnych

Polega ona na tym, »e w zbiorze deskryptorów wyodr¦bniamy podzbiór D ′ ⊆ D

i listy inwersyjne s¡ tworzone dla wszystkich deskryptorów nale»¡cych do D ′ anie do D jak w metodzie klasycznej. Wybrany zbiór D ′ mo»e by¢ zbioremdeskryptorów najcz¦±ciej wyst¦puj¡cych w pytaniach do systemu S lub zbioremdeskryptorów pewnego atrybutu (pewnych atrybutów). W omawianejmody�kacji tworzymy listy inwersyjnych α(di ), gdzie di ∈ D ′ i

⋃i di = D ′.

Pytanie do systemu zadajemy w postaci termu t. Zakªadamy, »e tak jak wmetodzie klasycznej list inwersyyjnych (bez mody�kacji) term t ma posta¢termów skªadowych t = t1 + t2 + ...+ tm .

Page 61: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Nale»y tu rozpatrze¢ kilka przypadków:

1. Wszystkie deskryptory termów skªadowych zawieraj¡ si¦ w D ′. Jest tonajlepszy mo»liwy przypadek. W tej sytuacji szybko±¢ sytemy jestmaksymalna. Post¦puje si¦ jak w klasycznej metodzie list inwersyjnych.

2. Cz¦±¢ deskryptorów zawiera si¦ w D ′. Najpierw dokonuje si¦ odpowiedziprzybli»onej, tj ignoruje si¦ wszelkie deskryptory, które nie nale»¡ do D ′, anast¦pnie te zignorowanae deskryptory w uzyskanych obiektach porównujesi¦ wprost z pomini¦tymi deksryptorami pytania.

3. �aden z deskryptorów nie zawiera si¦ w D ′. Jest to najbardziejniesprzyjaj¡cy przypadek. W tej sytuacji nale»y dokona¢ przegl¡duzupeªnego (czyli potraktowa¢ kartotek¦ wtórn¡ jako wyszukiwawcz¡ iwykorzysta¢ klasyczn¡ metod¦ list prostych). Poniewa» w trzecimprzypadku przy pewnej redundancji i zaj¦to±ci pami¦ci nie skorzystali±my zszybko±ci nale»y tak wyodr¦bni¢ podzbiór D ′, aby przypadek trzeci zdarzaªsi¦ bardzo rzadko (a najlepiej nigdy).

Page 62: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

MODYFIKACJE poprawiaj¡ce czas wyszukiwania odpowiedziPORZ�DKOWANIE ADRESÓW OBIEKTÓW NA LISTACH

listy nieuporz¡dkowane:

Page 63: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Zalety: - krótszy czas wyszukiwania - skraca si¦ czas przeci¦cia list - czasgenerowania obiektów skraca si¦ je»eli dost¦p do list jest sekwencyjny, bo je»elibezpo±redni - to nie !!! Aktualizacja: - dodanie: pogarsza, nale»y porz¡dkowa¢listy po ka»dej aktualizacji - usuni¦cie: upraszcza si¦ - mody�kacja opisuobiektu: konieczna reorganizacja, trzeba usun¡¢ obiekt z jednej listy, a doda¢go do innej i t¡ uporz¡dkowa¢

Page 64: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

PORZ�DKOWANIE LIST WG D�UGO�CI

Porz¡dkujemy listy w ten sposób, ze na pocz¡tku s¡ listy najkrótsze a na ko«cunajdªu»sze !!!q = d1q ∗ d2q ∗ ... ∗ dskgdzie d1q - pierwszy deskryptor pytania.Zalety: - wpªywa to na czas przeci¦cia list inwersyjnych (bierze si¦ pierwszydeskryptor z listy i pyta si¦ czy znajduje si¦ w pytaniu, je±li tak tozapami¦tujemy dan¡ list¦) Aktualizacja: jest skomplikowana, zmienia si¦bowiem dªugo±¢ list i nale»y jest od pocz¡tku uporz¡dkowa¢ !!!

Page 65: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

PORZ�DKOWANIE LIST LEKSYKOGRAFICZNIE

Umo»liwia zastosowanie a). podziaªu poªówkowego do wyszukiwaniaodpowiedniej listy inwersyjnej. Wówczas ilo±¢ porówna« = log 2 k gdzie k -ilo±¢ list inwersyjnych b). Przeszukiwania blokowego. Wówczas ±rednia liczbaporówna« = Zalety: Czas szukania odpowiedniej listy znacznie si¦ wtedyzmniejsza, natomiast czas przeci¦cia dwóch list nie !!! Aktualizacja: niewpªywa, pod warunkiem pami¦tania list pustych

Page 66: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

PORZ�DKOWANIE LIST WG CZ�STO�CI WYST�POWANIA DANYCHDESKRYPTORÓW W PYTANIACH

Zalety: Czas szukania odpowiedniej listy znacznie si¦ wtedy zmniejsza,natomiast czas przeci¦cia dwóch list nie !!! Wady: Metoda nie zdaje egzaminuw przypadku zadania pytania spoza zbioru standardowych pyta« !!! (tak samojak przy odcedzaniu)

Page 67: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

MODYFIKACJE zmniejszaj¡ce zaj¦to±¢ pami¦ciZAZNACZANIE PRZEDZIA�ÓW ADRESÓW

Je»eli w jakiej± li±cie wyst¦puje ci¡g kolejnych adresów mo»na wtedy zaznaczy¢przedziaª - poprzez znacznik i wtedy nie wpisujemy adresów wszystkichobiektów, a tylko pierwszy i ostatni adres danego ci¡gu.L(d1) = {1, 2, 3, 4, 5, 8, 12, 13, 14, 15, 16, 20}L′(d1) = {15, 8, 1216, 20}Zalety: -Czas wyszukiwania jest krótszy -zmniejszona zaj¦to±¢ pami¦ciAktualizacja: skomplikowana ze wzgl¦du na konieczn¡ zmian¦ przedziaªów

Page 68: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

LISTY DLA PAR DESKRYPTORÓWZ ZAZNACZENIE CZ�SCIWSPÓLNEJ

Je»eli mamy 2 listy L(di) i L(dj) i listy te maj¡ pewne wspólne dla siebie adresyobiektów to:Lw(di , dj) = L(di)L(dj)Lr(di) = L(di) Lw(di , dj)Lr(dj) = L(dj) Lw(di , dj)L(di , dj) = {Lr(di)Lw(di , dj)Lr(dj)}Np.: L(d1) = {1, 2, 5, 7, 10, 12, 13}L(d2) = {3, 5, 7, 9, 10, 12, 15, 18}Lw(d1, d2) = {5, 7, 10, 12}Lr(d1) = {1, 2, 13}Lr(d2) = {3, 9, 15, 18}L(di , dj) = {{1, 2, 13}#{5, 7, 10, 12}#{3, 9, 15, 18}}

Page 69: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Zalety: -Czas wyszukiwania jest krótszy -zmniejszona zaj¦to±¢ pami¦ciAktualizacja: raczej prostaLISTY WIELODESKRYPTOROWE - szczególne przypadek list dla pardeskryptorówJe»eli mamy 2 listy L(di) i L(dj) i listy te maj¡ pewne wspólne dla siebie adresyobiektów to: Np.: L(d1)=1, 2, 5, 7, 8, 12, 17 L(d2)=1, 4, 5, 9, 10, 17, 20L(d1*d2) = 1, 5, 17

Page 70: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

Zalety: -Czas wyszukiwania jest krótszy -zmniejszona zaj¦to±¢ pami¦ciAktualizacja: raczej prostaLISTY WIELODESKRYPTOROWE - szczególne przypadek list dla pardeskryptorówJe»eli mamy 2 listy L(di) i L(dj) i listy te maj¡ pewne wspólne dla siebie adresyobiektów to: Np.: L(d1)=1, 2, 5, 7, 8, 12, 17 L(d2)=1, 4, 5, 9, 10, 17, 20L(d1*d2) = 1, 5, 17

Page 71: Systemy Wyszukiwania Informacji - Uniwersytet Śląskizsi.tech.us.edu.pl/~nowak/swibio/1-3.pdfSystemy Wyszukiwania Informacji dr Agnieszka Nowak - Brzezi«ska Instytut Informatyki,

USUWANIE LIST D�UGICH - LISTY ZANEGOWANEX A1 A2 X1 2 A X2 1 A X3 2 B X4 2 A X5 2 A X6 2 A X7 2 B X8 2 At= t1 * t2 L(1) = x2 L(1) = x2 L(2) = x1,x3,x4,x5,x6,x7,x8 L(2) = x2 L(a) =x1,x2,x4�x5,x6,x8 L(a) = x3,x7 L(b) = x3,x7 L(b) = x3,x7t= (A1,2) * (A2,b) t= d1 * d2 d1 = (A1,2) x2 d2 = (A2,b) x3, x7?(t) = x7Listy musz¡ pochodzi¢ z jednego atrybutu wzajemnie dwudeskryptorowego owarto±ciach wzajemnie si¦ neguj¡cych - która± z warto±ci musi wyst¦powa¢ wopisie obiektów. Zalety: -Czas wyszukiwania - 2 sposoby: np. = a1 * a2 1.szukamy a1 i przecinamy z list¡ dla a2 2. szukamy obiekty z a2 - odj¡¢ obiektyz a1 -zmniejszona zaj¦to±¢ pami¦ci Aktualizacja: skomplikowana