utilisation raisonnée de connaissances sémantiques pour la recherche dinformation le cas de...
TRANSCRIPT
Utilisation raisonnée de connaissances sémantiques pour
la Recherche d’Information
Le cas de l’expansion de requêtes par « voisins
distributionnels »
Mardi 11 Octobre 2005Aurélie Picton
2
Plan
Contexte de l’expérimentation Outils Démarche et Résultats Discussion Perspectives
Contexte de l’expérimentation
4
Projet ARIEL
ARIEL : Adaptation d’une chaîne de Recherche d’Information à l’Expression des besoins sur la base de traitements Linguistiques. Collaboration IRIT/ERSS
Complémentarité des connaissances des domaines informatiques et linguistiques
Étude de différentes techniques et ressources linguistiques pour la Recherche d’Information
5
Problématique (?)
La requête = quelques mots clefs (moyenne = 2.21 selon Jansen, Spink et Saracevic, 2000) Ex : Révolte au Chiapas
Problème : souvent incomplet ou inadéquat
Traitement possible : l’expansion de requêtes
6
Définition
l’expansion de requêtes :
« A process of adding new terms to a given query in attempt to provide better contextualization (and hopefully retrieve documents which are more useful to the user) » (Baeza-Yates, Ribeiro-Neto, 1999, p449).
7
Objectif
Mise en place d’un premier contexte d’expérimentation d’expansion de requêtes par ressources linguistiques : Reproductible Ressources inédites : les « voisins
distributionnels » Les données issues de l’analyse
distributionnelle automatique sont-elles de bonnes candidates dans le cadre de l’expansion de requêtes?
Outils
9
Upery : outil d’analyse distributionnelle automatique (1)
Analyse Distributionnelle (Z.S. Harris)
« On peut décrire toute langue par une structure distributionnelle, c’est-à-dire par l’occurrence des parties (et, en dernière analyse, des sons), relativement les unes aux autres, et cette description n’exige pas que l‘on fasse appel à d’autres caractéristiques, telles que l’histoire ou le sens. » (« La Structure Distributionnelle », 1952, repris par D. Maingueneau, 1991, p71).
10
Upery (2) L’analyse distributionnelle
automatique « Rapprochement des couples d’unités
retrouvées dans des contextes syntaxiques identiques » Analyse syntaxique d’un gros corpus
(LM10) avec Syntex (D. Bourigault et al., 2005)
Prédicats qui se construisent avec les mêmes arguments et vice-versa Exemple : troupe/intervention : envoi des
troupes en Tchétchénie, intervention en Tchétchénie, troupes russes, intervention russe
11
Plate-forme RFIEC
Plate-forme RFIEC (Recherche d’information, Filtrage d’Information, Extraction de Connaissances) Développée dans le cadre du projet ARIEL www.irit.fr/RFIEC Modules paramétrables
Indexation de requêtes Recherche et Évaluation :: évaluation « à la
TREC »
Démarche et Résultats
13
Données
Corpus Corpus CLEF 2001 (français)
Collection : 45000 documents Le Monde 94 50 requêtes CLEF associées
44 exploitables et exploitées 2 sources de voisins
Adgc et Upery 4 Traitement (par défaut)
Suppression des mots vides (liste par défaut)
Troncation à 7 Suppression des accents Principalement sur les requêtes Titres
14
Exemple de requête expansée Requête 80 Totale : DF 20.10
<num>80 </num><title> Grèves de la faim Grèves de la faim</title><desc> Les documents contiendront des informations sur une
grève de faim menée afin d'attirer l'attention pour une cause. Les documents contiendront des informations sur une grève de faim menée afin d'attirer l'attention pour une cause. </desc>
<narr> Donner des exemples où la grève de la faim a été menée. Faire part également des raisons de la grève et de ce qu'il en est résulté. Donner des exemples où la grève de la faim a été menée. Faire part également des raisons de la grève et de ce qu'il en est résulté.
</narr>
reclame commenc presentrefugie harceleobserveexpulseneutral reserve effectu
15
Démarche (1)
Comparaison des résultats Précision à 5, 10, 15, 20, Moyenne
P5-20 Recherche de base Blind Feedback (« Retour à
l’aveugle ») Expansion à partir de t termes
sélectionnés dans les n premiers textes ramenés lors d’une recherche de base
16
Démarche (2)
3 Hypothèses : Hypothèse 1 : aucune sélection
Adgc sans sélection Upery sans sélection
Hypothèse 2 : sur bases linguistiques Upery sans V Upery sans A
Hypothèse 3 : Feedback Distributionnel (DF)
Expansion à partir de t voisins sélectionnés dans les n premiers textes ramenés lors d’une recherche de base
Upery V seuls Upery N seuls
17
Résultats (RequêtesTitre) (1)
Blin
d F
eed
back
Rech
erc
he d
e
Base
18
Résultats (RequêtesTitre) (2)
BF Adgc sans sélection
DF
Nombre de requêtes améliorées
10
Nombre de requêtes dégradées
21
BF Adgc sans sélection
DF
Valeur moyenne Gain 0,1029
Valeur moyenne Perte -0,0623
BF Adgc sans sélection
DF
Valeur maximale de gain 0,2083
Valeur maximale de perte -0,2375
25 12
-0,1917 -0,1215
-0,6292-0,5042
5 11
0,0692 0,0663
0,1083 0,1667
Requêtes modifiées
Moyennes de Gain/Perte
Valeurs maximales de Gain/Perte
Discussion
20
Remarques générales
Dégradation des performances MAIS
Résultats sur la moyenne masquent certaines performances (C. De Loupy, 2000)
Observation locale des requêtes pour trouver des comportements généralisables?
21
Observation locale
Certaines requêtes sont améliorées/dégradéesPourquoi?
Difficile à dire à ce stade : Pas assez de textes pertinents par
requêtes Jeu de requêtes restreint
22
Analyse statistique
Nombre de méthodes d’expansion qui entraînent une modification
Ampleur de la modification
Observation « statistique » : Analyse en Composantes Principales
• Pas d‘homogénéité apparente Mise au jour de comportements isolés non généralisables
23
Expansion : quelques observations
Des explications « ad hoc » Invasion des troupes russes en Tchéchénie =
>Tchétchène L’affaire du sang contaminé => séropositif
Le poids et éthique
Catégories grammaticales Adjectifs : Intervention des troupes russes =>
israélien allemand italien américain chinois européen étranger britannique local français espagnol régional irakien anglais national bosniaque japonais occidental serbe iranien algérien palestinien belge militaire international indépendant tchétchène turque arabe croate indien africain serbe libanais, etc.
Clonage
24
Sources d’expansion
Répartition selon la source de l’expansion? Opposition des résultats Adgc et Upery sur
certaines requêtes Appuyé par une Classification Ascendante
Hiérarchique
Adgc Upery 4
Mais toujours : Existe-t-il des caractéristiques généralisables au
niveau des requêtes qui permettent de prédire
l’efficacité et d’adapter l’expansion ?
Perspectives
26
Perspectives (1)
De nouvelles données Vers des requêtes totales
Premiers résultats encourageants sur DF Plus de requêtes, plus de textes
De nouveaux voisins Évolution d’Upery (D. Bourigault & E.
Galy, 2005)
27
Perspectives (2)
De nouvelles possibilités sur la plate-forme Lemmatisation, conservation des
accents
Vers des corrélations de traits Travaux de M. Vergez-Couret
28
Éléments bibliographiques
BAEZA-YATES, R. & B. RIBEIRO-NETO (1999), Modern Information Retrieval, ACM Press, Addison Wesley, New York.
BOURIGAULT, D. (2002) « UPERY : un outil d’analyse distributionnelle étendue pour la consultation d’ontologies à partir de corpus », In Actes de la 9ème conférence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp75-84.
BOURIGAULT, D. & E. GALY (2005) « Les Voisins de Le Monde : Une base lexicale distributionnelle du français construite à partir d'un gros corpus », Communication orale, In 4èmes Journées de Linguistique de corpus, Lorient,15-17 septembre 2005.
BOURIGAULT D., FABRE C., FRÉROT C., JACQUES M.-P. & S. OZDOWSKA (2005) « Syntex, analyseur syntaxique de corpus », In Actes de la 12e conférence annuelle sur le Traitement Automatique des Langues (TALN 2005), Dourdan, 6-10 juin 2005.
DE LOUPY, C. (2000), Évaluation de l'apport de connaissances linguistiques en désambiguïsation sémantique et recherche documentaire, Thèse de doctorat en informatique de l'Université d'Avignon et des Pays de Vaucluse.
EFTHIMIADIS, E.N. (1996) « Query expansion », In Williams, M.E. (ed.), Annual Revieew of Information Systems and Technology (ARIST), volume 31, pp121-187.
GREFENSTETTE, G. (1992) « Use of syntactic context to produce term association lists for information retrieval », In Actes de la 15ème Conférence Annuelle Internationale ACM-SIGIR sur la Recherche et le Développement en Recherche d’Information,(SIGIR), pages 89—97.
GREFENSTETTE, G. (1994), Exploration in Automatic Thesaurus Discovery, Kluwer Academic Publishers, Londres.
HARRIS, Z.S. (1968) Mathematical Structures of Language, New-York, John Wiley & Sons. JANSEN, B.J., SPINK, A. & SARACEVIC, T. (2000) « Real Life, Real Users, and Real Needs : A Study and
Analysis of User Queries on the Web », In Information Processing & Management, volume 36(2), pp207-227.
SALTON, G. & C., BUCKLEY (1990) « Improving retrieval performance by relevance feedback », In Journal of the American Society for Information Sciences, volume 41(4), pp288-297.
MAINGUENEAU, D. (1991) L’analyse du discours : introduction aux lectures de l’archive, Hachette, Paris. VOORHEES, E. (1993) « On expanding query vectors with lexically related words », In Donna K. Harman (ed.),
TREC-2 (Text REtrieval Conference), pp223-231.VOORHEES, E.M. (1994) « Query expansion using lexical-semantic relations », In Actes de la 17ème
Conférence Annuelle Internationale ACM-SIGIR sur la Recherche et le Développement en Recherche d’Information, Dublin, Irlande, pp61-69.