relevance feedback & query...
TRANSCRIPT
![Page 1: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/1.jpg)
Relevance Feedback &Query Expansion
![Page 2: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/2.jpg)
Tema: come migliorare la recall diuna query?
1.Relevance feedback- Direct feedback- Pseudo feedback
2.Query expansion- Con co-occorrenze- Usando un thesaurus
![Page 3: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/3.jpg)
Relevance Feedback
• Dopo la presentazione di un set inziale didocumenti, chiedi all’utente di selezionare i piùrilevanti
• Usa questo feedback per riformulare la query
• Presenta nuovi risultati all’utente.
• Eventualmente, itera il processo.
![Page 4: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/4.jpg)
Relevance Feedback
IRSystem
Documenti
RankedDocuments
1. Doc12. Doc23. Doc3 . .
1. Doc1 ⇓2. Doc2 ⇑3. Doc3 ⇓ . .
Feedback
Query
Queryaggiorn
ataReRankedDocuments
1. Doc22. Doc43. Doc5 . .
QueryReformulation
![Page 5: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/5.jpg)
Query Reformulation
• Come tener conto del feedback?–Query Expansion: Aggiungi alla query nuovi
termini estratti dai documenti presceltidall’utente
–Term Reweighting: Aumenta il peso deitermini che compaiono nei documentirilevanti e diminuisci il peso di quelli che nonvi compaiono.
• Diversi algoritmi per effettuare la riformulazionedella query.
![Page 6: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/6.jpg)
Query Reformulation nel modellovettoriale
• Modifica il vettore della query:
–Aggiungi i vettori dei documenti rilevantial vettore della query.
–Sottrai i vettori dei documenti irrelevanti alvettore della query.
![Page 7: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/7.jpg)
Optimal Query
• Sia Cr il set dei vettori dei documenti rilevanti(selezionati dall’utente).
• Allora la migliore query che classifichi tutti e solo idocumenti giudicati rilevanti è:
r q opt =
1
Cr
r d j
!r d j"Cr
# $1
N $ Cr
r d j
!r d j%Cr
#
Dove N è il numero totale di documenti sottoposti all’utente per giudizio.
![Page 8: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/8.jpg)
Slide 7
Esempio
• d1:(1,1,0,0,0)
• d2: (1,1,0,0,1)
• d3: (0,0,0,0,1)
• d4: (0,0,0,1,0)
• d1,d2 rilevanti, d3 d4 non rilevanti
• q=1/2 (2,2,0,0,1) - 1/2(0,0,0,1,1)= 1/2(2,2,0,-1,0)
=(1,1,0,-1/2,0)
r q opt =
1
Cr
r d j
!r d j"Cr
# $1
N $ Cr
r d j
!r d j%Cr
#
![Page 9: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/9.jpg)
Metodo di Rocchio
• Ovviamente non si conoscono tutti i documenti rilevanti,ma solo, fra quelli proposti all’utente, la frazione deirilevanti (Dr) e irrelevanti (Dn) rispetto alla query inizialeq. Formula di Rocchio:
r q m = !
r q +
"
Dr
r d j
#r d j$Dr
% &'
Dn
r d j
#r d j$Dn
%
α: Un peso (regolabile) per la query iniziale.β: peso dei documenti rilevanti.γ: peso dei documenti irrilevanti.
I tre parametri sono regolabili
![Page 10: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/10.jpg)
Ide Regular Method
• In questa variante, si evita la normalizzazione,nell’ipotesi che ulteriore feedback migliori il grado diriformulazione :
r q m = !
r q + "
r d j
#r d j$Dr
% & 'r d j
#r d j$Dn
%
![Page 11: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/11.jpg)
Ide “Dec Hi” Method
• Si utilizza solo, fra gli irrilevanti, quello con più alto rank:
r q m = !
r q + "
r d j
#r d j$Dr
% & 'maxnon&relevant (r d j )
![Page 12: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/12.jpg)
Paragone dei metodi
• Dati sperimentali non indicano sostanzialidifferenze.
• Tutti e 3 i metodi migliorano sia la recall che laprecisione.
• In generale:
α = β = γ = 1
![Page 13: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/13.jpg)
Tuttavia il feedback esplicito non èmolto usato
• Gli utenti sono a volte riluttanti.
• E’ più difficile capire perché un documento siastato selezionato (l’utente può rendersi conto diaver mal formulato la query e le sue selezioniappaiono inconsistenti con i primi risultatiproposti).
![Page 14: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/14.jpg)
Pseudo Feedback
• Non chiedere esplicito aiuto all’utente.
• Assumi che i primi m top-ranked siano i piùinteressanti.
• Espandi la query includendo termini correlaticon i termini della query, usando gli m top-ranked.
![Page 15: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/15.jpg)
Pseudo Feedback Architecture
RankingsIRSystem
Documentcorpus
RankedDocuments
1. Doc12. Doc23. Doc3 . .
QueryString
ReRankedDocuments
1. Doc22. Doc43. Doc5 . .
Revised
Query
QueryReformulation
1. Doc1 ⇑2. Doc2 ⇑3. Doc3 ⇑ . .
PseudoFeedback
![Page 16: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/16.jpg)
PseudoFeedback
• In alcune competizioni internazionali (TREC) lopseudo-feedback si è dimostrato utile.
• Funziona ancor meglio se si usa un metodobooleano esteso (ad esempio, i termini correlativengono aggiunti in “or”)
![Page 17: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/17.jpg)
Relevance Feedbackon the Web
• Alcuni motori di ricerca offrono una facilitysimilar/related pages (che è una formasemplificata di relevance feedback)–Google, Altavista (ma funziona molto
male!!)
• Altri motori preferiscono non sovraccaricarel’utente:–Alltheweb–msn–Yahoo
![Page 18: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/18.jpg)
Query Expansion utilizzando unThesaurus
• Cos’è un thesaurus: un glossario, coninformazioni aggiuntive
• Ad esempio,oltre alle definizioni, un thesaurusfornisce informazioni di sinonimia ecorrelazione fra termini
![Page 19: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/19.jpg)
Slide 18
WordNet 3.0
Iponimi: struttura gerarchica
“fratelli”: termini correlati
![Page 20: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/20.jpg)
Slide 19
Iponimi e sinonimi migliorano laricerca??
• Esempi nel seguito
• In generale:–NO se i termini della ricerca sono pochi e poco
specifici (ambiguità genera rumore)–SI se i termini non sono ambigui (dominii tecnici)–NI se si applicano algoritmi di word sense
disambiguation:• SI per query lunghe (molto “contesto” migliora
WSD)• NO per query corte e generiche (poca precsione
nella disambiguazione)
![Page 21: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/21.jpg)
Slide 20
![Page 22: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/22.jpg)
Slide 21
Art and Architecture
Art and Architecture Thesaurus
![Page 23: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/23.jpg)
Slide 22
![Page 24: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/24.jpg)
Slide 23
![Page 25: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/25.jpg)
Slide 24
![Page 26: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/26.jpg)
Slide 25
![Page 27: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/27.jpg)
Query Expansion con un Thesaurus(2)
• Per ogni termine t, in una query, espandi la query consinonimi e termini correlati nel thesaurus.
• In genere i pesi dei termini aggiunti sono più bassi.
• In genere questo metodo aumenta la recall.
• Ma diminuisce la precisione, per via dell’ambiguitàsemantica
![Page 28: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/28.jpg)
Slide 27
Esempio
![Page 29: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/29.jpg)
Slide 28
Aggiungere sinonimi in AND peggiora
![Page 30: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/30.jpg)
Slide 29
..un po’ meglio se si espande con “OR”
![Page 31: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/31.jpg)
Espansione della query con co-occorrenze:Automatic Global Analysis
1. Determina la similarità fra termini usando dellestatistiche pre-calcolate sulla collezione di documenti.
2. Calcola delle matrici associative (matrici di co-occorrenze) che quantificano la correlazione fratermini.
3. Espandi la query con i termini più simili, sulla base diquesta matrice.
![Page 32: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/32.jpg)
Matrice delle associazioni
w1 w2 w3 …………………..wnw1w2w3..
wn
c11 c12 c13…………………c1nc21c31..
cn1
cij: fattore di correlazione fra termine i e termine j
cij = fik ! fjkdk"D#
fik : Frequenza del termine i nel documento k
http://www.kilgarriff.co.uk/bnc-readme.html
![Page 33: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/33.jpg)
Matrice Normalizzata
• La matrice delle frequenze favorisce i termini piùfrequenti.
• Normalizza i fattori di associazione (Jaccard):
• Il fattore normalizzato di associazione è 1 se due terminihanno la stessa frequenza nei documenti.
ijjjii
ij
ijccc
cs
!+=
![Page 34: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/34.jpg)
Altre metriche di correlazione
• Le misure di correlazione precedenti non tengono contodella prossimità dei termini correlati in undocumento.
• La seguente metrica tiene conto della prossimità.
cij =1
r(ku,kv )kv!Vj
"ku!Vi
"
Vi: Set delle occorrenze di un termine i in un qualsiasi documento r(ku,kv): Distanza in parole fra due occorrenze ku e kv
(∞ se ku e kv capitano in documenti diversi).
![Page 35: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/35.jpg)
Metriche normalizzate
• Funzione normalizzata:
sij =cij
Vi ! Vj
![Page 36: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/36.jpg)
Espansione della query con matrici dicorrelazione
• Per ogni termine i della query, espandi con gli n terminicon i valori più alti di cij (sij).
• Questo aggiunge solo termini semanticamente correlati(sulla base della prossimità).
![Page 37: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/37.jpg)
Problemi:
• Resta il problema dell’ambiguità:–“Apple computer” → “Apple red fruit
computer”
• Poiché i termini sono in ogni caso altamentecorrelati, l’espansione potrebbe non aggiungeremolti nuovi documenti rispetto alla query nonespansa!
![Page 38: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/38.jpg)
Un altro metodo di espansione:Automatic Local Analysis
• Al momento della query, determina dinamicamente i terminicorrelati usando i documenti top-ranked sulla base dei critericlassici.
• L’analisi dei termini correlati non è basata sull’interacollezione, ma solo sui documenti “localmente”recuperati sulla base della query iniziale.
• Questo riduce il problema della ambiguità semantica, perché idocumenti, essendo recuperati sulla base di tutti termini dellaquery, molto probabilmente contengono ogni termine nel sensocorretto per l’utente
– “Apple computer” → “Apple computer Powerbook laptop”
![Page 39: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/39.jpg)
Global vs. Local Analysis
•L’analisi globale richiede di fare dei calcoliuna volta per tutte.
•L’analisi locale va fatta in tempo reale,sulla base di ogni query
•Ma fornisce risultati migliori.
![Page 40: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/40.jpg)
Miglioramenti del metodo di analisiglobale
• Espandi solo i termini che hanno una similarità al di sopra di unasoglia rispetto a TUTTI i termini della query.
Esempio:– “fruit” non viene aggiunto a “Apple computer” perché è non correlato
a “computer.”– “fruit” è aggiunto a “apple pie” poichè “fruit” è correlato sia con
“apple” che con “pie.”
• Inoltre si usano funzioni di pesatura più sofisticate (rispetto allafrequenza) per calcolare la correlazione (es. Dice factor, mutualinformation..)
sim(ki ,Q) = cijk j!Q"
![Page 41: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/41.jpg)
Slide 40
Misure di correlazione
• Dice(x,y)=
• Mutual Information(x,y)=
• Nota: le due formule sono in realtà stime, poiché ladefinizione “vera” di queste misure è probabilistica. Ledue formule si calcolano stimando la probabilità dioccorrenza di un termine x come:
!
2 freq(x,y)
freq(x) + freq(y)
!
freq(x,y) logfreq(x,y)
freq(x) freq(y)
"
# $
%
& '
!
E(p(x)) =freq(x)
freq(y)
"y#D
$ D è la collezione di documenti
![Page 42: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/42.jpg)
Slide 41
LSI per determinare correlazioni fratermini
Il metodo LSI può essere utilizzato per determinare automaticamente “clusters” di termini simili (Shutze 1998)
!
L =U"VT#Uk"kVk
T
L LT#Uk"k (Uk"k )
T
![Page 43: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/43.jpg)
Slide 42
Google query expansion• Word stemming: translator -> translator, translation
• Acronimi: NATO -> North Atantic Treaty Organization (pericoloso…Northen Arts Tactical Offensive)
• Errori di digitazione: wigets ->widgets
• Sinonimi: solo se appare evidente che la parola è usata in modoimproprio (information lost ->loss)
• Traduzione (organizzazione mondiale sanità -> world healthorganization)
• Related Search (migliorata dal 2009 dopo l’accordo con Orion)
L’agoritmo di Ori Allon non è noto, ma si basa sull’identificare paginestrettamente correlate alla keyword di ricerca e estrarre da queste altreKeywords.
![Page 44: Relevance Feedback & Query Expansiontwiki.di.uniroma1.it/pub/Estrinfo/Materiale/6.Relevance... · 2010-04-13 · Relevance Feedback •Dopo la presentazione di un set inziale di documenti,](https://reader033.vdocuments.site/reader033/viewer/2022043011/5fa603381ba10411bb077b53/html5/thumbnails/44.jpg)
Conclusioni
• L’espansione delle query può migliorare le prestazioni,in particolare la recall (ridurre i “silenzio”).
• Tuttavia, il problema principale resta quellodell’ambiguità semantica, che può influirenegativamente sulal precisione.
• Metodi di WSD (word sense disambiguation) possonoesere usate (con dei limiti) per selezionare il sensocorretto