recherche d’information textuelle - bpiwowar.net · cours de recherche d’information textuelle...

12
Recherche d’information textuelle Evaluation Cours et travaux pratiques basés sur les documents de P. Gallinari et S. Lamprier (LIP6) B. Piwowarski CNRS / LIP6 Université Paris 6 [email protected] http://www.bpiwowar.net Master IP - 2014-15

Upload: vannhu

Post on 12-Sep-2018

238 views

Category:

Documents


0 download

TRANSCRIPT

Recherche d’information textuelle

Evaluation

Cours et travaux pratiques basés sur les

documents de P. Gallinari et S. Lamprier

(LIP6)

B. Piwowarski CNRS / LIP6

Université Paris 6 [email protected] http://www.bpiwowar.net

Master IP - 2014-15

Cours de recherche d’information textuelle - master IP 2014-15

Evaluation en RI• Problème difficile, pas de mesure absolue• Critères de qualité d’un système de RD

• efficacité de la recherche• possibilités de formuler des requêtes riches• outils de navigation dans la collection• mise à jour et richesse du corpus

• Nombreuses mesures qui donnent des renseignements partiels sur le comportement du système

2

Cours de recherche d’information textuelle - master IP 2014-15

Hypothèses• Expériences type “Cranfield”

• un corpus (documents) • un ensemble de requêtes

• Texte• Description en langue naturelle

• des jugements sur les documents pour une requête.

3

Cours de recherche d’information textuelle - master IP 2014-15

Pooling• Dans la pratique, il est impossible de juger tout• “Pooling”

4

Système 1

Système 2

Système n

Rang 10 = 50 documents

Rang 20 = 120 documents

Rang 30 = 200 documents

Cours de recherche d’information textuelle - master IP 2014-15

Evaluation en IR : mesures de rappel - précision

• Rappel à r:

• Précision à r:

• r : nombre de documents inspectés • par l’utilisateur parmi les doc. fournis • par le système, i.e. les r premiers de la

liste• Valeurs typiques, 5, 10, 20, 25, 100, 1000

5

collection la dans pertinents documents #découverts pertinents documents #)( =qrr

decouverts documents #découverts pertinents documents #)( =qpr

Cours de recherche d’information textuelle - master IP 2014-15

Précision - exemple+ : pertinent Liste 1 Liste 2 Liste 3

- Non pertinent d1 (+) d4 (-) d4 (-)

d2 (+) d5 (-) d1 (+)

d3 (+) d6 (-) d2 (+)

d4 (-) d1 (+) d5 (-)

d5 (-) d2 (+) d6 (-)

d6 (-) d3 (+) d3 (+)

p3 1 0 2/3

p6 0.5 0.5 0.5

Precision moyenne non interpolée

1 0.38 0.55

Precision moyenne interpôléee 11 points

1 0.5

6

Cours de recherche d’information textuelle - master IP 2014-15

Précision - exemple• Précision moyenne non interpolée

• Moyenne de la precision pour l’ensemble des docs pertinents de la liste

• Précision moyenne interpolée• La précision est calculée à différents niveaux de

rappel (0%; 10%, 20%, …100%)• Si la précision remonte après le point de rappel i,

on prend la valeur de précision la plus forte rencontrée après le point i (interpolation)

7

Cours de recherche d’information textuelle - master IP 2014-15

Evaluation en RI• Autres mesures d ’évaluation

• F mesure

8

MAP =

1

N

NX

k=1

rk ⇥ precision(k)

F� =1

� 1R + (1� �) 1

P

Cours de recherche d’information textuelle - master IP 2014-15

Gain cumulé normalisé• Utilisé dans le cadre de la recherche Web• Utilise une information de pertinence graduée (5 niveaux)• Mesure le gain d’information apporté par un document en

fonction de sa position dans la liste des résultats• Pour la RI Web seules les premières informations présentées

sont importantes• Hypothèses

• Les documents pertinents sont plus utiles quand ils apparaissent à un rang élevé.

• Les documents très pertinents sont plus utiles que les peu pertinents qui sont plus utiles que les non pertinents.

9

Cours de recherche d’information textuelle - master IP 2014-15

Gain cumulé• Cumulative Gain (CG) (Ancêtre de DCG)

• CG au rang p

• Où reli est la pertinence graduée du doc i• Ne tient pas compte de l’ordre des documents

• Discounted Cumulative Gain (DCG)• Prise en compte de l’ordre des documents par une fonction

décroissante du rang

• Autres formulations possibles

10

∑=

=p

iip relCG

1

∑=

+=p

i

ip i

relrelDCG1 2

1 )(log

Cours de recherche d’information textuelle - master IP 2014-15

DCG normalisé

• Pour moyenner DCG sur un ensemble de requête, on calcule une version normalisée NDCG• On suppose que l’on dispose d’une liste idéale de résultats

dont le DCGp vaut IDCGp

• On moyenne ensuite sur l’ensemble des requêtes• Liste idéale = liste ordonnée par gain décroissant

11

p

pp IDCG

DCGnDCG =

Cours de recherche d’information textuelle - master IP 2014-15

Conclusion

• Beaucoup d’autres mesures existent :• Temps• Modèles utilisateurs• Autres types de recherche (ex. semi-structurée)

12