phd defense presentation - soutenance de thèse
DESCRIPTION
Information retrieval, search, vertical search, domain-specific search, faceted search, ontology, Description Logics, Medical Search, CLEF, precision-oriented searchTRANSCRIPT
ISI
MRIMLIGCUI
Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine
Directeurs de thèse :
Jean-Pierre CHEVALLET, UJF
Yves CHIARAMELLA, UJF
Gilles FALQUET, UniGe
Saïd Radhouani
18 juillet 2008
ISI
MRIM18 juillet 2008 © S. Radhouani 2
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Contexte
Correspondance
Objectif : Sélectionner les documents pertinents
qui traitent du thème de la requête.
Indexation Interrogation
Requête
ISI
MRIM18 juillet 2008 © S. Radhouani 3
Contexte
Contexte de recherche : utilisateur décrit un besoin précis• Milieux professionnels (médecine, physique, etc.)
Requête précise1. Terminologie spécifique
ex. "Un compte-rendu sur le type de traitements à effectuer en cas d’un cancer du sein de stade M0"
v Structure sémantique complexe• Relations sémantiques
ex. "Les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans"
• Opérateurs
ex. "Des images de la peau de la main sans aucune pathologie"
• Quantificateurs
ex. "Une image qui contient Zinedine Zidane tout seul"
ISI
MRIM18 juillet 2008 © S. Radhouani 4
… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …
Document Requête [CLEF05]
Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.
ISI
MRIM18 juillet 2008 © S. Radhouani 5
… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …
Document Requête [CLEF05]
Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.
Philippe Morillon
Ex-Yougoslavie
Zone de sécurité
Serbie
Slovénie
Guerre civile d’Ex-Yougoslavie
Général
Français
Zone de sécurité
Balkans
Conflit des Balkans
ISI
MRIM18 juillet 2008 © S. Radhouani 6
… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …
Document Requête [CLEF05]
Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.
Le SRI a besoin de connaissances, autres que celles présentes dans le texte.
Y a-t-il des éléments, autres que les descripteurs, qu’un document doit partager avec la requête pour qu’il soit considéré pertinent ?
Philippe Morillon
Ex-Yougoslavie
Zone de sécurité
Serbie
Slovénie
Guerre civile d’Ex-Yougoslavie
Général
Français
Zone de sécurité
Balkans
Conflit des Balkans
ISI
MRIM18 juillet 2008 © S. Radhouani 7
… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …
Document Requête [CLEF05]
Conflit des Balkans
est_un
créé_pendant
Balkans
partie_de
Zone de sécurité
Ex-Yougoslavie
Général
est_unoriginaire_de
Philippe Morillon France
a_lie
u_à
Guerre civile d’Ex-Yougoslavie
Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.
Philippe Morillon
Ex-Yougoslavie
Zone de sécurité
Serbie
Slovénie
Guerre civile d’Ex-Yougoslavie
Général
Français
Zone de sécurité
Balkans
Conflit des Balkans
ISI
MRIM18 juillet 2008 © S. Radhouani 8
… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …
Document Requête [CLEF05]
Personne
Lieu Géographique
Evénement Conflit des Balkans
est_un
créé_pendant
Balkans
partie_de
Zone de sécurité
Ex-Yougoslavie
Général
est_unoriginaire_de
Philippe Morillon France
a_lie
u_à
Guerre civile d’Ex-Yougoslavie
Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.
Guerre civile d’Ex-Yougoslavie
Conflit des Balkans
Philippe Morillon
Ex-Yougoslavie
Zone de sécurité
Serbie
Slovénie
Général
Français
Zone de sécurité
Balkans
ISI
MRIM18 juillet 2008 © S. Radhouani 9
Vers une RI basée sur les dimensions
ex.• Politique : personne, lieu géographique, époque, événement, etc.• Médecine : anatomie, pathologie, stade de la maladie, etc.
Idée de notre approche• Domaine : un thème peut être développé en faisant référence à un ensemble de
dimensions de ce domaine
• Auteur domaine thème dimensions termes document
• Médecin médecine image médicale anatomie fémur compte rendu
Une dimension d’un domaine est un concept utilisé pour exprimer des thèmes dans ce domaine
ISI
MRIM18 juillet 2008 © S. Radhouani 10
Objectifs et besoins
Résoudre des requêtes précises• Interpréter le contenu sémantique véhiculé par la structure extraite des
documents et des requêtes• Tenir compte de la complexité de la structure sémantique des requêtes
• Tenir compte des dimensions de domaine
1. Ressources externes (ontologie, thésaurus, taxonomie, etc.)• Définition des dimensions• Terminologie spécifique• Relations sémantiques
2. Langage de document expressif
• Indexation précise du contenu sémantique (dimensions, relations)
3. Langage de requête expressif
• Expression de besoin précis (opérateurs, relations, etc.)
ISI
MRIM18 juillet 2008 © S. Radhouani 11
Plan
I. Introduction
II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions• Synthèse
III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête
IV. Expérimentations
V. Conclusion
ISI
MRIM18 juillet 2008 © S. Radhouani 12
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Ressources externes & dimensions
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
Ressources externes
ISI
MRIM18 juillet 2008 © S. Radhouani 13
Indexation conceptuelle
Représentation par des concepts au lieu de mots ambigus [Baziz05, Biemann05, Vallet05, Maisonnasse08]
• Représentation : sac de concepts
• Correspondance : partage de concepts entre document et requête
• Relations sémantiques non exploitées
• Utilisation des relations seulement pour la désambiguïsation [Baziz05]
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
Un concept est un objet mental défini comme une abstraction généralisée à partir de propriétés communes à des objets concrets.
Général
C01 Officier de l’armée
C02 Chef d’un ordre religieux
C03 Ce qui concerne le tout
ISI
MRIM18 juillet 2008 © S. Radhouani 14
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Ressources externes & dimensions
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
Ressources externes
ISI
MRIM18 juillet 2008 © S. Radhouani 15
Expansion de requêtes
Utiliser les relations enrichir le contenu de la requête [Voorhees94, Mihalcea00, Baziz et al.03]
• Représentation de la requête étendue : sac de concepts
• Correspondance : partage de concepts entre document et requête étendue
• Utilisation des relations seulement pour l’expansion
Relations Exemples
Généralisation/spécialisation {voiture} est_un {véhicule à moteur}
Composition {voiture} est_composé_de {{porte}, {moteur}}
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
ISI
MRIM18 juillet 2008 © S. Radhouani 16
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Ressources externes & dimensions
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
Ressources externes
ISI
MRIM18 juillet 2008 © S. Radhouani 17
RI & dimensions de domaine
Paradigme de recherche multi-facette [S. R. Ranganathan 1931]
Interface pour la navigation dans une collection [Yee 03, Hearst 06, Mäkelä 06]
Construction manuelle des facettes/dimensions : hiérarchies de concepts
Pas d’évaluation en termes de performance de recherche
Tests d’utilisabilité : approches prometteuses mais limitées à petite échelle [Yee 03, Diederich 06]• Annotée manuellement• Statique, de petite taille
Difficulté à résoudre des requêtes précises• Structure sémantique complexe (opérateurs)• Terminologie spécialisée : navigation profonde dans les hiérarchies de concepts
lourde surcharge cognitive
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
ISI
MRIM18 juillet 2008 © S. Radhouani 18
Synthèse
Approches existantes : insuffisantes devant les exigences présentées
Résoudre des requêtes précises• Interpréter la sémantique véhiculée par la structure extraite des documents et
des requêtes Tenir compte des dimensions Utiliser les relations sémantiques
Besoin de ressources externes• Représentation uniforme des documents, requêtes, et ressources externes
=> Formalisme de représentation de connaissances commun à ces trois éléments• Opération de comparaison fonction de correspondance • Prendre en compte les exigences des utilisateurs en termes d’opérateurs
(booléens, quantificateurs, etc.)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
ISI
MRIM18 juillet 2008 © S. Radhouani 19
Plan
I. Introduction
II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions
• Synthèse
III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête
IV. Expérimentations
V. Conclusion
ISI
MRIM18 juillet 2008 © S. Radhouani 20
La logique descriptive
Logique Descriptive (DL) = Logique Terminologique
ALCQ : Attribute Language with Complements and Qualified number restriction
• Modéliser les connaissances d’un domaine (concepts et relations)
• Satisfait les exigences de notre modèle (opérateurs : ,⊓ ⊔ ; quantificateurs : ,∃ ≥)
T(erminological)-Box : ensemble d’axiomes terminologiques de la forme
• C ≡ D ou
• C ⊑ D
Algorithme de calcul de subsomption : déduire des connaissances implicites
• Général ⊑ Personne
• Philippe Morillon ⊑ Général
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
=> Philippe Morillon ⊑ Personne
ISI
MRIM18 juillet 2008 © S. Radhouani 21
Logique descriptive & RI
correspondance
⊑T
q : une requête
Physical query Physical query Physical query Physical query Physical query Physical query Physical query
doc : un document
DL
RI
RdocRq
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
Physical document Physical document Physical document Physical document Physical document Physical document Physical document
ISI
MRIM18 juillet 2008 © S. Radhouani 22
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Modèle de connaissances
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Ressources externes
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 23
Modèle de connaissances
Ressource externe : K = (C, R, Dim, T)
• Concepts : C ={c1, …, cnc}
• Rôles : R = {R1, …, Rnr}
• Dimensions : Dim = {dim1, …, dimnd}
• dimi = (rac_dimi, Ci )
• rac_dimi C : racine de la hiérarchie définissant dimi
• Ci = {c C | c ⊑ rac_dimi}
• T-Box : T (connaissances du domaine)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 24
Modèle de connaissances : exempleIntroductionEtat de l’art ModèleExpérimentationsConclusions
C = {Evénement, Personne, etc.}
R = {originaire_de, partie_de, etc.}
Dim = {Événement, Lieu géographique, Personne}
dimPersonne = (Personne, {Général,
Philippe Morillon, …})
T-Box
FormalismeConnaissancesUnité d’indexationDocumentRequête
T
Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃a_lieu_à.Balkans
Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France
ISI
MRIM18 juillet 2008 © S. Radhouani 25
Unité d’indexation
Produire une représentation précise du contenu sémantique des documents (requêtes)
Interpréter la sémantique véhiculée par la structure extraite des documents (requêtes)• Se détacher de l’aspect sac de concepts• Utiliser les dimensions, concepts, et relations
ex. Interprétation de "Général français"
• élément de la dimension "Personne"• est "Général"• originaire de "France"
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 26
Unité d’indexation : élément de dimension
Tout concept d’une dimension est susceptible de constituer un élément de cette dimension lorsqu’il est utilisé dans un document ou une requête
• cidf dim : identifier edim• cdes dim : décrire edim• décrit_par : relation générique pour la modélisation
ex. edim ≡ Général ⊓ ∃originaire_de.France
Un élément d’une dimension dim est une expression ALCQ qui cherche à correspondre le plus précisément possible au concept de dim auquel il
est fait référence dans un document ou une requête.
IntroductionEtat de l’art ModèleExpérimentationsConclusions
edim ≡ cidf_1 … ⊓ ⊓ cidf_n ⊓ ∃décrit_par.cdes_1 … ⊓ ⊓ ∃décrit_par.cdes_m
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 27
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Représentation des documents
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Ressources externes
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 28
Représentation des documents
document : doc représenté par des éléments de dimension
• Rdoc : expression ALCQ = conjonction d’éléments de dimension
• indexé_par : rôle pour associer un élément de dimension à un document
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Un élément de dimension peut être pondéré (ne fait pas partie de la DL)
Rdoc est ajouté à la T-Box
Rdoc ≡ ∃indexé_par.edim1 ⊓ … ⊓ ∃indexé_par.edimn
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 29
Exemple
edim1 ≡ Philippe Morillon
edim2 ≡ Zone_de_Sécurité ⊓ ∃créé_pendant.Guerre civile d’Ex-Yougoslavie
edim3 ≡ Ex-Yougoslavie
edim4 ≡ Serbie
edim5 ≡ Slovénie
edim6 ≡ Guerre civile d’Ex-Yougoslavie
Rdoc ≡ ∃indexé_par.edim1 ⊓ ∃indexé_par.edim2 ⊓ ∃indexé_par.edim3 ⊓
∃indexé_par.edim4 ⊓ ∃indexé_par.edim5 ⊓ ∃indexé_par.edim6
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 30
ExempleIntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T-Box
Rdoc
T
Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des BalkansConflit des Balkans ≡ ∃a_lieu_à.Balkans
Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France
ISI
MRIM18 juillet 2008 © S. Radhouani 31
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Représentation des requêtes
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Ressources externes
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 32
Représentation des requêtes
requête : q représentée par des éléments de dimension
• Rq : expression ALCQ = combinaison d’éléments de dimensions et d’opérateurs
• indexé_par : rôle pour associer un élément de dimension à une requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Un élément de dimension peut être pondéré (ne fait pas partie de la DL)
Rq est ajouté à la T-Box
Rq ≡ ∃indexé_par.edim1 ⊓ … ⊓ ∃indexé_par.edimn
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 33
Exemple
edim7 ≡ Général ⊓ ∃orginaire_de.France
edim8 ≡ Zone de Sécurité ⊓ ∃créé_pendant.Conflit des Balkans
edim9 ≡ Conflit des Balkans
Rq ≡ ∃indexé_par.edim7 ⊓ ∃indexé_par.edim8 ⊓ ∃indexé_par.edim9
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 34
ExempleIntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T-Box
Rdoc
T
Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des BalkansConflit des Balkans ≡ ∃a_lieu_à.Balkans
Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France
Rq
ISI
MRIM18 juillet 2008 © S. Radhouani 35
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Correspondance
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Ressources externes
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 36
La fonction de correspondance fSel
fSel(doc, q) : respecter les contraintes imposées par l’utilisateur
• Calcul de la subsomption dans la T-Box
• Dpert = {doc | Rdoc ⊑T Rq}
correspondance
⊑T
q : une requête
Physical query Physical query Physical query Physical query Physical query Physical query Physical query
Rdoc
doc : un document
Physical document Physical document Physical document Physical document Physical document Physical document Physical document Physical document
Rq
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T-Box
ISI
MRIM18 juillet 2008 © S. Radhouani 37
La fonction de correspondance fSel
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T-Box
T
Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃a_lieu_à.Balkans
Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France
Rdoc Rq
ISI
MRIM18 juillet 2008 © S. Radhouani 38
La fonction de correspondance fSel
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T-Box
Rdoc Rq
Philippe Morillon ⊑ Général
Zone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Philippe Morillon ≡ ∃originaire_de.France
Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans
Philippe Morillon
Zone de sécurité ⊓∃créé_pendant.Guerre civile
d’Ex-Yougoslavie
Général ⊓ ∃originaire_de.France
Conflit des BalkansGuerre civile d’Ex-Yougoslavie Zone de sécurité ⊓
∃créé_pendant.Conflit des Balkans
ISI
MRIM18 juillet 2008 © S. Radhouani 39
La fonction de correspondance fSel
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T-Box
Rdoc Rq
Philippe Morillon ⊑ Général
Zone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Philippe Morillon ≡ ∃originaire_de.France
Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans
Philippe Morillon
Zone de sécurité ⊓∃créé_pendant.Guerre civile
d’Ex-Yougoslavie
Général ⊓ ∃originaire_de.France
Conflit des BalkansGuerre civile d’Ex-Yougoslavie Zone de sécurité ⊓
∃créé_pendant.Conflit des Balkans
Rdoc ⊑T Rq
ISI
MRIM18 juillet 2008 © S. Radhouani 40
La fonction d’ordonnancement fOrd
fOrd(doc, q) : classer les documents dans leur ordre de pertinence par rapport à q
• Les poids des éléments de dimension dans doc
• Les poids des éléments de dimension dans q
• Les valeurs de priorité des éléments de dimension dans q
N’est pas modélisée en DL
Utiliser une métrique existante
• Notre expérience : modèle vectoriel
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
ISI
MRIM18 juillet 2008 © S. Radhouani 41
Plan
I. Introduction
II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions
• Synthèse
III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête
IV. Expérimentations
V. Conclusion
ISI
MRIM18 juillet 2008 © S. Radhouani 42
Expériences
1. Résoudre des requêtes précises évaluer l’apport de l’usage des dimensions• Performances de recherche• Résultat de référence : modèle vectoriel sans dimensions
2. Mise en œuvre du modèle basé sur la DL• Tester la faisabilité de notre approche• Évaluer les limites du modèle
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
ISI
MRIM18 juillet 2008 © S. Radhouani 43
Données et ressources
Collection ImageCLEFmed-2005
• 50,026 documents (Anglais, Français, Allemand)
• 25 requêtes
ex. "show me x-ray images with fracture of the femur"
Dimensions : Modalité, Pathologie, Anatomie
Ressource externe : UMLS• Meta thésaurus (≥ 1 million d’entrées)
• Réseau sémantique (135 Types sémantiques)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
ISI
MRIM18 juillet 2008 © S. Radhouani 44
Indexation
Construction manuelle des dimensions• Anatomie : "Anatomical Structure" + "Body System" + "Body Space or Junction" +
"Body Location or Region" ;
• Pathologie : "Pathologic Function" + "Finding" + "Injury or Poisoning" ;
• Modalité : "Diagnostic Procedure" + "Manufactured Object".
Indexation conceptuelle• Outil adapté aux documents en anglais
Identification des éléments de dimension• Défini par un concept
• Si c dim, alors c est un élément de la dimension dim
Pondération des éléments de dimension• Modèle vectoriel : variante du tf*idf (LTC)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
ISI
MRIM18 juillet 2008 © S. Radhouani 45
Interrogation
T1: Un document est considéré pertinent s'il contient les trois dimensions présentes dans la requête
Anatomie ⊓ Pathologie ⊓ Modalité
T2 : Un document est considéré pertinent s'il contient au moins une des dimensions de la requête
Anatomie ⊔ Pathologie ⊔ Modalité
T3 : Un document pertinent doit contenir l'anatomie, sinon la pathologie, sinon la modalité
AnatomiePriorité=1 PathologiePriorité=2 ModalitéPriorité=3
T4 : Un document est considéré pertinent s'il contient les dimensions anatomie et pathologie
(Anatomie ⊓ Pathologie) ⊔ Modalité
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
ISI
MRIM18 juillet 2008 © S. Radhouani 46
Apport de l’usage des dimensions
Précision
TestMoyenne à 5 docs à 10 docs
Baseline 0.1451 0.2720 0.2440
%à 10 docs%à 5 docs%MoyennePrécision
Test
+32.780.3240+29.410.3520+8.820.1579T3
+60.650.3920+44.110.3920+20.050.1742T4
+27.860.3120+23.520.3360+5.720.1534T2
+36.590.3333+29.550.3524-1.610.1428T1
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
Baseline : modèle vectoriel•Variante du tf*idf (LTC)•Sac de concepts
Notre approche
ISI
MRIM18 juillet 2008 © S. Radhouani 47
Mise en œuvre du modèle
1. Identification des éléments de dimension• document Traitement Automatique des Langues• requête interface
2. Construction de la T-Box• être humain DL vs. Machine langage adéquat (OWL)• outil basé sur des heuristiques
3. Fonction de Correspondance calcul de la subsomption• raisonneur existant
• Pellet [Sirin et al. 04]
v Ordonnancement des documents• modèle vectoriel
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
ISI
MRIM18 juillet 2008 © S. Radhouani 48
Plan
I. Introduction
II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions
• Synthèse
III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête
IV. Expérimentations
V. Conclusion
ISI
MRIM18 juillet 2008 © S. Radhouani 49
Conclusion
Modèle de RI capable de résoudre des requêtes précises
• Fondé sur les dimensions de domaine• Mettre en exergue les éléments pertinents dans un domaine particulier
• Nouvelle unité d’indexation : l’élément de dimension• Définie par des dimensions, concepts, et relations
• Langages de document et de requête expressifs• Représenter la sémantique véhiculée par la structure extraite des
documents (requêtes)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
BilanPerspectives
ISI
MRIM18 juillet 2008 © S. Radhouani 50
Conclusion
Modélisation à base de la Logique Descriptive
• Représentation uniforme des documents, requêtes, et connaissances• Fonction de correspondance
• Correspondance entre un document et une requête qui ne partagent pas les mêmes termes
• La subsomption n’est pas suffisante définir des propriétés transitives• Flexibilité : utiliser n’importe quelle relation … mais
Résultats expérimentaux• Prise en compte des dimensions améliore les performances de recherche
IntroductionEtat de l’art ModèleExpérimentationsConclusions
BilanPerspectives
ISI
MRIM18 juillet 2008 © S. Radhouani 51
Perspectives
Quantifier l’apport de l’approche mise en œuvre de l’intégralité du modèle• Extraction des éléments de dimension
• Traitement automatique de la langue
Fonction d'ordonnancement adéquate au contexte de RI orientée précision• Étudier la notion de pertinence
• Collaboration avec des utilisateurs professionnels (ex. médecins)• Intégrer les pondérations dans le modèle
Construction automatique des dimensions [Radhouani 07]• Évaluation [Dakka et al.06, Stoica et al.06]
Développement d’une interface interactive• Test d’utilisabilité
IntroductionEtat de l’art ModèleExpérimentationsConclusions
BilanPerspectives
ISI
MRIMLIGCUI
Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine
Directeurs de thèse :
Jean-Pierre CHEVALLET, UJF
Yves CHIARAMELLA, UJF
Gilles FALQUET, UniGe
Saïd Radhouani
18 juillet 2008