1 metodi di ranking probabilistici. 2 ir probabilistico il modello probabilistico: il principio di...
TRANSCRIPT
1
Metodi di ranking probabilistici
2
IR probabilistico
Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle
Metodi di ranking: Binary Independence Model Bayesian networks
L’idea chiave è di classificare i documenti in L’idea chiave è di classificare i documenti in ordine di probabilità di rilevanza rispetto ordine di probabilità di rilevanza rispetto all’informazione richiesta:all’informazione richiesta:
P(rilevante|documentoi, query)
3
Probability Ranking Principle
•Sia d un documento della collezione. •Sia R la rilevanza di un documento rispetto ad una (specifica) query (R=1) e sia NR la non-rilevanza (R=0).
p(R | d,q)p(d | R,q)p(R | q)
p(d | q)
p(NR | d,q)p(d | NR,q)p(NR | q)
p(d | q)
p(d|R,q), p(d|NR,q) - probabilità che, se si trova un documento rilevante (non-rilevante), questo sia d.
Si vuole stimare p(R|d,q) - la probablità che d sia rilevante, data la query q.
p(R|q),p(NR|q) - prob. a prioridi recuperare undocumento (non) rilevante
p(R | d,q) p(NR | d,q)1
4
Probability Ranking Principle (PRP)
Bayes’ Optimal Decision Rule d è rilevante iff p(R|d,q) > p(NR|
d,q)Osservate che, modellando il processo di retrieval intermini probabilistici, l’occorrenza di una query, la rilevanza o non rilevanza di un documento, l’occorrenza di un termine in un documento sono tutti eventi aleatori
5
Probability Ranking Principle Come si calcolano le probabilità condizionate?
Si usano “stimatori” Il modello più semplice è il Binary Independence Retrieval
(BIR) Assunzioni
La “Rilevanza” di ogni documento è indipendente dalla rilevanza degli altri documenti.
Usare un modello di rilevanza Booleano:
Osservare un insieme iniziale di risultati può aiutare l’utente a raffinare la sua query
R={0,1}
6
Strategia di Retrieval probabilistico
Si stima quanto i singoli termini contribuiscano alla rilevanza
Es
Si combinano queste stime per assegnare una stima all’intero documento
Si ordinano i documenti per probabilità decrescente
)()...,/(
)()...()()(
21
121
jnjjj
n
iin
xPxxxxPassumendo
xPxxxPxPdP
)/()/()/( RxPRxPRdP i
7
In generale per i modelli probabilistici:
Si modella un problema in termini probabilistici (es: la rilevanza di un documento rispetto ad una query è stimata dalla P(R|d,q))
Poiché in generale è difficile stimare una certo modello probabilistico (stimare??), si effettuano una serie di passaggi (ad es. invertire variabile aleatoria condizionante e condizionata con Bayes) e semplificazioni (ad es. assumere l’indipendenza statistica di certe variabili) al fine di rappresentare il modello probabilistico iniziale in termini di probabilità più facili da stimare su un campione.
8
Binary Independence Model
“Binary” = Boolean: i documenti d vengono rappresentati mediante un vettore booleano iff wi è contenuto in dj.
“Indipendenza”: i termini occorrono nei documenti indipendentemente l’uno dall’altro
Questo è implicitamente assunto anche nel modello vettoriale, ma in un modello probabilistico si tratta di una assunzione esplicita.
),,( 1 nxxx
1ix
9
Binary Independence Model
di q
R
Obiettivo: stimare P(R/q,di)
Rank(di)=f(P(R/q,di))
documento query
La freccia indica la dipendenza
statistica:l’evento
aleatorio Rdipende dall’
evento q
10
Binary Independence Model
Query: vettore booleano Data una query q,
1. Per ogni documento d calcola p(R|q,d).
2. Sostituisci con il calcolo di p(R|q,x) dove x è il vettore booleano che rappresenta d
3. Si utilizza la regola di Bayes ed il concetto di “odd”:
)|(),|()|(
)|(),|()|(
),|(
),|(),|(
qxpqNRxpqNRp
qxpqRxpqRp
xqNRp
xqRpxqRO
I documenti vengono ordinati (ranking) sulla base del valore di O
11
Binary Independence Model
• Si usa l’assunzione di Indipendenza :
n
i i
i
qNRxp
qRxp
qNRxp
qRxp
1 ),|(
),|(
),|(
),|(
),|(
),|(
)|(
)|(
),|(
),|(),|(
qNRxp
qRxp
qNRp
qRp
xqNRp
xqRpxqRO
Costante per ogni query
Va stimato
n
i i
iqNRxp
qRxpqROxqRO
1 ),|(
),|()|(),|(
•Dunque :
12
Binary Independence Model: effetto dell’inversione delle probabilità
n
i i
iqNRxp
qRxpqROxqRO
1 ),|(
),|()|(),|(
R
q d
xnx1 x2 xi
13
Binary Independence Model
n
i i
i
qNRxp
qRxpqROdqRO
1 ),|(
),|()|(),|(
• Ma xi (componente del vettore binario associata a wi) è o 0 o 1:
01 ),|0(
),|0(
),|1(
),|1()|(),|(
ii x i
i
x i
i
qNRxp
qRxp
qNRxp
qRxpqROdqRO
• Sia );,|1( qRxpp ii );,|1( qNRxpr ii
• Si assume, per tutti i termini che non occorrono nella query:
ii rp allora...
NOTA:pi: xi=1, R=1ri: xi=1, R=0
(1-pi): xi=0, R=1(1-ri): xi=0, R=0
14
Esempio
V{information retrieval paper rank set web}
Q: information retrieval paperD: information retrieval web
15
Binary Independence Model
11
0?
101
1
1
)1(
)1()|(
)1(1
1)|(),|(
iq i
i
iqix ii
ii
iqix
iqix i
i
iqix i
i
r
p
pr
rpqRO
r
p
r
pqROxqRO
Q= 1 1 1 0 0 0D= 1 1 0 0 0 1
V{information retrieval paper rank set web}
Q: information retrieval paperD: information retrieval web
16
Esempio
Q= 1 1 1 0 0 0D= 1 1 0 0 0 1
p1r1
p2r2
(1 p3)(1 r3)
(1 p4)(1 r4)
(1 p5)(1 r5)
p6r6
p1
r1
p2
r2
(1 p3)
(1 r3)
p1r1
p2r2
(1 p3)(1 r3)
(1 r1)(1 p1)
(1 p1)(1 r1)
(1 r2)(1 p2)
(1 p2)(1 r2)
p1
r1
(1 r1)
(1 p1)
p2
r2
(1 r2)
(1 p2)
(1 p1)
(1 r1)
(1 p2)
(1 r2)
(1 p3)
(1 r3)
qi=1,xi=1 qi=1
pi
rixiqi1
(1 pi)
(1 ri)qi1,xi0
(1 pi)(1 ri)
(1 pi)(1 ri)qi1,xi1
17
Binary Independence Model
Costante perogni query
Questa è la sola quantità cheva stimata per il ranking
11 1
1
)1(
)1()|(),|(
iii q i
i
qx ii
ii
r
p
pr
rpqROxqRO
• Retrieval Status Value:
11 )1(
)1(log
)1(
)1(log
iiii qx ii
ii
qx ii
ii
pr
rp
pr
rpRSV
18
Binary Independence Model
• Tutto si riduce a stimare RSV.
11 )1(
)1(log
)1(
)1(log
iiii qx ii
ii
qx ii
ii
pr
rp
pr
rpRSV
1
;ii qx
icRSV)1(
)1(log
ii
iii pr
rpc
Come calcoliamo i ci dai dati a disposizione ?
I documenti sono ordinati secondo il RSV. Questo dipende dall’intersezione fra parole della query e parole del documento (il set xi=qi=1) ma anche dai valori di pi e ri
19
Binary Independence Model
Stimare i coefficienti RSV• Per ogni termine i della query osserva la tabella dei documenti rilevanti e non : Documenti
Rilevanti Non-Rilevanti Totale
Xi=1 s n-s n
Xi=0 S-s N-n-S+s N-n
Totale S N-S N
S
spi )(
)(
SN
snri
)()(
)(log),,,(
sSnNsn
sSssSnNKci
• Stime: Per ora, assumiamonon esistano terminiche non compaiono mai.
20
Binary Independence Model
Ma come si può riempire la tabella di rilevanza per ciascun termine della collezione?
Data una collezione di N documenti, posso calcolare n (il numero di documenti con Xi=1) e dunque N-n (quelli con Xi=0), ma come si stima il valore S (numero di documenti complessivamente rilevanti per la query)??
21
Stima di ri (P(xi=1/NR,q))
Posso approssimare N-S con N (se N>>S N-S N) . Allora, ri (prob. di un documento non rilevante data una query) è stimata da: n/N , e:
log (1– ri)/ri ≈ log (N– ni)/ ni ≈ log N/ ni = IDF! pi (probabilità di occorrenza di wi in documenti rilevanti,
data la query) si può stimare in vari modi: Facendo selezionare all’utente alcuni documenti rilevanti di
esempio Con una costante, dipendente solo dal valore idf dei termini (i
termini più comuni nella collezione hanno probabilità più bassa di rilevanza)
Proporzionale all’occorrenza dei termini nella collezione ( i termini più frequenti in assoluto sono i più rilevanti. In generale si usa il log della frequenza)
)1(
)1(log
ii
iii pr
rpc
+ comuni + frequenti
22
Stima iterativa di pi (P(xi=1/R,q))
1. Assumi pi costante per tutti i termini wi della query pi = 0.5 per ogni termine presente nella query
2. Ordina i documenti della collezione sulla base dei ci (formula RSV) calcolati per tutti i termini della query, e mostra all’utente i primi |V | : Nota: se pi = 0.5 e ri ni/N allora ciIDF!
3. Si cerca di migliorare le stime di pi e ri, nel seguente modo: Si utilizza la distribuzione dei termini wi nei documenti di V.
Sia Vi il set di documenti in V che contiene wi 1. pi = |Vi| / |V|
1. Si assume che quelli non in V non siano rilevanti: ri = (ni– |Vi|) / (N – |V|)
n Torna allo step 2. e continua fino alla convergenza
pi si approssima con la distribuzione dei termini della query nei documenti recuperati
23
Aggiustamenti della stima
pi Vi
ni
NV 1
,ri ni Vi
ni
NN V 1
Per piccoli valori di V e Vi (ex. Rispettivamente 0 e 1) si usano degli aggiustamenti, per evitare che pi e ri (o i loro complementi) vadano a zero, portando a zero num o denom dell’argomento del logaritmo :
Una formula più semplice utilizza 1/2 al posto di ni/N
24
Esempio
D1 D2 D3 D4 D5 D6 D7 Qw1 1 1 1 1 1w2 1 1w3 1 1 1w4 1 1 1 1 1w5 1 1 1 1 1 1 1w6 1 1 1w7 1 1 1w8 1w9 1w10 1 1w11 1 1w12 1 1 1 1 1
25
Step 1
STEP 1 ri=ni/N pi ciw3 0,29 0,50 0,54406804w4 0,57 0,50 0,24303805w5 0,71 0,50 0,14612804
pi = 0.5 , ri ni/N ciIDF!|V|=2
RSV (Di) c iwi(Di,Qi)
D1 D2 D3 D4 D5 D6 D7RSV 0,6902 0 0,389166 0,933234 0,146128 0,389166 0,38916608
26
STEP 2
pi Vi
ni
NV 1
,ri ni Vi
ni
NN V 1
V=2 N=7 ni= occorrenze di wi nella collezioneVi=occorrenze di wi in V
STEP 2 ri pi ri pi ci (no log) logw3 0,29/6 2,29/3 0,048 0,76 3,16 0,49968708w4 3,57/6 1,57/3 0,59 0,52 1,46 0,16435286w5 4,71/6 2,71/3 0,78 0,93 3,7 0,56820172
)1(
)1(log
ii
iii pr
rpc
D1 D2 D3 D4 D5 D6 D71,067889 0 0,732555 1,2322417 0,5682017 0,732555 0,732555
RSV
27
Probabilistic Relevance Feedback
1. Come prima, assegna un valore costante ai pi ed estrai un primo set V di documenti.
2. Interagisci con l’utente e chiedi di selezionare alcuni documenti rilevanti e non rilevanti in V (in tal modo ottengo un subset di V’ documenti dei quali conosco S e V’-S)
3. Stima nuovamente pi e ri sulla base di questi documenti Oppure combina questa informazione con la precedente,
aumentando o diminuendo le precedenti stime
4. Ripeti, generando una successione di approssimazioni.
||
|| )1()2(
V
pVp ii
i
28
Conclusioni sul BIM
E’ possibile ottenere delle stime di rilevanza. Tuttavia è necessario fare delle assunzioni
restrittive: Indipendenza dei termini I termini non presenti nella query non
determinano il risultato Si usa una rappresentazione booleana dei
documenti e delle query
Alcune di queste assunzioni possono essere rimosse
29
Riferimenti su BIM
http://nlp.stanford.edu/IR-book/html/htmledition/probabilistic-approaches-to-relevance-feedback-1.html
30
Rimuovere l’assunzione di indipendenza dei termini
In generale i termini non occorrono indipendentemente
Ma la stima delle dipendenze può essere molto complessa
van Rijsbergen (1979) propose un semplice modello di dipendenza
Ogni termine dipende da uno più termini
31
Reti Bayesiane per IR
Cosa è una Bayesian network? Un grafo aciclico diretto DAG Nodi:
Eventi, variabili aleatorie, o variabili Possono assumere valori Per semplicità, nel modell BN-IR, tali valori
si assumono booleani Archi:
Modellano una dipendenza diretta fra nodi
32
Bayesian Networks
a b
c
a,b,c - nodi
p(c|ab) per ogni valore di a,b,c
p(a)
p(b)
• Le reti Bayesiane modellano la dipendenza fra eventi
•Inference in Bayesian Nets:•note le probabilità a priori per le radici del grafoe le probabilità condizionate (archi) si può calcolare la probabilità a priori di ogni evento condizionato.• Se sono noti i valori di verità di alcuni nodi (ad esempio, l’osservazione dell’evento b e di a) si possono ricalcolare le probabilità dei nodi
Dipendenza condizionale
P(c) P(c /a)P(a) P(c /b)P(b)
33
Bayesian Networks
LINK MATRIX (matrice dei collegamenti)
a b
c
p(a)
p(b)
c/ab 00 01 10 11
1
0
P(c=1/a=1,=1)
34
Esempio giocattolo
Depressione(g)
Esame(f)
Consegna progetto(d)
Notte insonne
(n)
Cioccolata e panna(t)
7.02.01.001.0
3.08.09.099.0
g
g
dfdffdfd
6.0
4.0
dd7.0
3.0
f
f
9.001.0
1.099.0
t
t
gg
7.01.0
3.09.0
n
n
ff
P(g / f ,d)LINK MATRIX
35
Assunzioni di Indipendenza
• Assunzione di indipendenza: P(t|g,f,d)=P(t|g)
• Probabilità congiunte: P(f d n g t) =P(f) P(d) P(n|f) P(g|f d) P(t|g)
Depressione(g)
Esame(f)
Consegna progetto(d)
Notte insonne
(n)
Cioccolata e panna(t)
36
Chained inference
Evidenza - si parte dal valore di alcuni nodi (ad es. radice) Inferenza
Si calcola la “credenza” o belief (rappresentata eventualmente da probabilità) degli altri nodi
Probabilità condizionata all’evidenza rappresentata dai nodi “conosciuti”
Due tipi di inferenza: Diagnostica (dall’evento alla causa) o Predittiva (date le possibili cause, stimare la prob. di osservare l’evento causato)
Complessità computazionale Per una generica rete (grafo ciclico) : NP-hard
Le reti ad albero sono più facilmente trattabili Alcuni autori propongono metodi approssimati (ad esempio
basati su programmazione dinamica)
37
Esempio giocattolo
Depressione(g)
Esame(f)
Consegna progetto(d)
Notte insonne
(n)
Cioccolata e panna(t)
fd fd fd fd
g 0.99 0.9 0.8 0.3
g 0.01 0.1 0.2 0.7
6.0
4.0
dd7.0
3.0
f
f
9.001.0
1.099.0
t
t
gg
7.01.0
3.09.0
n
n
ff
verofalso
P(t)=0,99x0,9+0,1x0,1
vera
38
Modello bayesiano per IR
Obiettivo Data una richiesta di informazione da parte di un
utente (evidenza) stima la probabilità che un documento soddisfi la richiesta (inferenza)
Modello di Retrieval Modella i documenti come una rete (document
network) Modella il bisogno informativo come una query
network
39
Belief Network Model: un modello di ranking basato su Reti Bayesiane
Definizioni:K={k1, k2, ...,kt} spazio di campionamento (o spazio
dei concetti)u K un subset di K (un concetto)
ki un termine indice (concetto elementare)
k=(k1, k2, ...,kn) nt un vettore associato ad ogni concetto u tale che gi(k)=1 ki u (pesi unitari)
ki una variabile aleatoria binaria (cioè ki0,1 ) associata al termine indice ki , t.c. ki = 1 gi(k)=1 ki u
40
Belief Network Model
Definizioni (2): un documento dj e una query q sono rappresentati come concetti in
K, composti dai termini indice contenuti in dj e q. Sia dunque c un concetto generico in K (documento o query) P(c)=uP(c|u) P(u) è una distribuzione di probabilità P su K P(c) è il definito come il grado di copertura dello spazio K mediante c Questa copertura è stimata confrontando ogni concetto in K (“ u”)
con c, e sommando i contributi, pesati con le probabilità dei singoli concetti u.
Si assume inizialmente equiprobabilità delle sottostringhe u in K (se ho t termini, ciascuno dei quali può essere presente o assente in u, ci sono 2t possibili modi di formare concetti u), cioè: P(u)=(1/2)t
41
Belief Network Model
Topologia della rete
lato query
lato documento
q
kik2k1
dj dnd1
kt kuk u
cq
cd1cdn
42
Q Information retrieval probability
informationfinding
probabilityretrieval calculus
informationretrieval calculus
informationretrieval journal
information calculus retrieval probability journal finding
d1 d2 d3 d4
43
Belief Network Model
Il ranking di un documento dj rispetto ad una query q è interpretato come una relazione di corrispondenza fra concetti, e riflette il grado di grado di copertura che il concetto dcopertura che il concetto djj fornisce al concetto q. fornisce al concetto q.
Documenti e query sono trattati nello stesso modo, cioè sono entrambi concetti nello spazio K. Assunzione:
P(dj|q) viene considerato come il rank del documento dj rispetto alla query q.
http://portal.acm.org/citation.cfm?id=243272 (Ribeiro and Munz, 1996: “A belief network model for IR”)
44
Belief Network Model
Ranking di dj
P(dj|q) = P(dj q) / P(q)
= P(dj q)
= u P(dj q | u) P(u)
~ u P(dj / u) P(q / u) P(u)
~ k P(dj / k) P(q / k) P(k)
Questo fattore compare in tutti iP(dj/q) dunque può essere trascurato
Assumendo q edj condizionalmenteindipendenti rispettoa u , come si evincedal grafo delledipendenze nella rete
Ogni vettore k definisce un concetto u
q
kik2k1
dj dnd1
kt ku
45
Belief Network Model
Dunque: P(dj|q) ~ k P(dj | k) P(q | k) P(k)Occorre specificare le probabilità condizionate P(dj | k) e P(q | k) . Differenti strategie per modellare P(dj | k) e
P(q | k) portano a diversi modelli di ranking.Ad esempio, assumiamo un vocabolario di 3 parole:
Information,retrieval, extraction (I,R,E) I concetti possibili sono: (I,R,E), (I,R,-), (I,-,E), (-,R,E),
(-,-,E),(-,R,-),(I,-,-),(-,-,-)
P(d i /k1,k2 ,k3) P(d i ,k1,k2 ,k3)
P(k1 /k2 ,k3)P(k2 /k3)P(k3)
stimabile
Per k concetti, o(k!) stime
46
A belief network model for IR
Sussumendo un modello vettoriale (Ribeiro and Muntz) per i pesi e l’indipendenza dei termini: Definisci il vettore ki come segue:
ki = k | ((gi(k)=1) (ji gj(k)=0))
Il vettore ki si riferisce ad uno stato del vettore k in cui solo il nodo ki è attivo (g(ki)=1) e tutti gli altri non lo sono. Questo riflette la strategia di ranking tf-idf, che somma individualmente il contributo di ogni keyword. Quindi, si considera il contributo di ogni termine ki singolarmente.
47
Belief Network Model
P(dj|q) ~ k P(dj | k) P(q | k) P(k)
Per il modello vettoriale:
Definisci (wi,q / |q|) se (k = ki ) (gi(q)=1)
P(q | k) =
0 se (k ki ) (gi(q)=0)
P(¬q | k) = 1 - P(q | k)
(wi,q / |q|) una versione normalizzata del peso del termine indice ki nella query q
q (wi,q )2
i1
t
peso tf-idf di ki in qki compare in q
48
Belief Network Model
Per il modello vettoriale
Definisci
(wi,j / |dj|) se (k = ki ) (gi(dj)=1)
P(dj | k) =
0 se (k ki ) (gi(dj)=0)
P(¬ dj | k) = 1 - P(dj | k)
(wi,j / |dj|) una versione normalizzata del peso del termine indice ki nel documento d,j
d j (wi, j )2
i1
t
49
Belief Network Model
Mettendo tutto assieme.. P(dj|q) ~ k P(dj | k) P(q | k) P(k)=
(1
q
1
d j
wkq wkj t 1
k1,,t ) cossin(q,d j )
Riformulazione probabilistica del modello vettoriale!!
50
Vantaggi del Belief Network model
Per calcolare il rank di un documento, considera solo gli stati della rete in cui i nodi attivi sono quelli che compaiono nella query, quindi il costo è lineare nel numero dei documenti della collezione
E’ una variante moderna dei metodi di ragionamento probabilistico, che consente una combinazione di distinte sorgenti di evidenza. I modelli più avanzati consentono di incorporare nel modello evidenze derivate da sessioni precedenti, e feedback dell’utente.
51
Bayesian Network Retrieval Model
Si può rimuovere l’ipotesi di indipendenza: Si rappresentano le principali (più probabili)
relazioni di dipendenza statistica fra i termini della collezione.
Term subnetwork Polytree
Ci sono algoritmi efficenti per l’analisi di polytrees.
52
Bayesian Network Retrieval Model
k1
k2
k3
k4
k5
k6
Sottorete dei termini
D1 D2 D3 D4
Sottorete dei
documenti
queryTermini “radice” (indipendenti)
53
Bayesian Network Retrieval Model
Distribuzioni di probabilità:
Distribuzioni “marginali” (dei nodi-termine radice):
p(ki ) 1
V, p(ki ) 1 p(ki )
(|V|=t dimensione del vocabolario)
54
Bayesian Network Retrieval Model
pa (k) tutti gli n nodi da cui k dipende
condizionalmente (es p(rank/(information,retrieval,search,index))
))(,())(()(
))(,())](|([
iiii
iiii kpakfreqkpafreqkfreq
kpakfreqkpakpE
p(ki | pa(ki )) 1 p(ki | pa(ki ))
Distribuzioni condizionali (basate sul coefficiente di Jaccard) per i termini dipendenti:
J (A,B) A B
A B
A B
A B A BE(p)=valore atteso di p
55
Bayesian Network Retrieval Model
Un sistema più semplice (“Two Layers” ):-Si considera solo un sottoinsieme di termini “condizionanti”
-L’analisi della rete è più veloce
56
Two Layers Bayesian Networks (Xu et al. 2009)
Si modella la dipendenza fra termini in funzione della “word similarity”
Ogni concetto ki vieneduplicato (ki’)
p(ki / p(ki )) sim(kik j p(ki )
,k j )
La dipendenza è stimata in funzione della similarità
57
Dipendenza=f(similarità)
58
Stima di P(dj/u)
59
Stima delle dipendenze
BOLLEGALA, D.,MATSUO, Y., AND ISHIZUKA,M. 2007. Measuring semantic similarity between wordsusing web search engines. In WWW’07: Proceedings of the 16th International Conference onWorldWide Web. ACM, New York, 757–766.
Google Set: http://labs.google.com/sets
Word Similarity measures:
60
61
62
Per Riassumere
Q=k1 k2
U’=k1k2
k1k2 kj k2 kj kj kt
U=k1k2kj
63
Esempio
Q=k1 k2
U’=k1k2
k1k2 kj k2 kj kj kt
U=k1k2kj
P(d1/U) wk1k1wk2w2wkjkj
| d1 || u |
P(d 2 /U) wk2w2wkjkj
| d 2 || u |
P(dN /U) wkjkj
| dN || u |
p(k1' k2' /k1k2kj) 1
2(P(k'1 /k1,k2)P(k2' /k2,kj))
64
Conclusioni
I modelli probabilistici rappresentano il problema del retrieval mediante probabilità condizionate (es. P(R/q,d)).
Alcuni modelli consento di “rilassare” l’ipotesi di indipendenza fra termini
Occorre stimare le probabilità condizionate fra termini (in genere bigrammi o trigrammi P(ti/tj) o P(ti/tj,tk)
Fra i metodi per determinare correlazioni fra termini c’è il Latent Semantic Indexing, che è un metodo algebrico per stimare la similarità fra documenti, e fra documenti e query (next lesson!)