extraction d'informations - reprise de slides de t...
TRANSCRIPT
Extraction d’informationsReprise de slides de T. Poibeau (CNRS et U. Paris 13), de W.
Cohen (CMU), de Julien Lemoine (Exalead)
Antoine Rozenknop
30 janvier 2009
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 1 / 17
Sources
Sources des Slides
Thierry Poibeau : (CNRS UMR 7030 et Universite Paris13)Disponible sur http://www-lipn.univ-paris13.fr/ poibeau/laics/
W.Cohen (Carnegie Mellon U.)Disponible sur http://www.cs.cmu.edu/ wcohen/
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 2 / 17
Plan
1 Introduction
2 Diversite de l’E.I.
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 3 / 17
Introduction
Qu’est-ce que l’extraction ?
Une tache qui consiste a extraire de l’information structuree a partird’un document textuel
Relation d’acquisition:Entreprise achetee GenerAcheteur TotalFinaElfMontant de la transaction ?
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 4 / 17
Introduction
Positionnement
Recherche d’informations (IR): identifie un ensemble de documentsa partir d’un ensemble plus large (document assimile a un “sac demots”).Ex: Trouver les documents qui traitent de rachats d’entreprises
Extraction d’informations (IE): extrait et structure de l’informationprecise contenue dans un document.Ex: Etablir une base de donnees ou l’on peut retrouver les noms des
entreprises informatiques cedees en 2003
Comprehension de texte: represente de facon explicite toutel’information d’un document (rhetorique, intentionnalite, . . .)Ex: Determiner les differentes visees strategiques sous-jacents a
travers ces ventes et acquisitions
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 5 / 17
Introduction
Apercu des applications
Synthese d’information pertinente (≈ resume)
Resume de l’information pertinente d’un documentPeut etre stockee dans une base de donneesPeut servir de poin de depart a la synthese d’information
L’E.I. est utile pour des collections homogenes de documens
Constats amiables d’accidents (corpus MAIF)Articles de presse (corpus MUC5)Depeches d’agence (corpus MUC6)Sites internet specialises (depeches, offres d’emploi, ...)
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 6 / 17
Extraction d’informations a partir de texte libre
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 7 / 17
Extraction d’informations a partir de texte libre
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 8 / 17
Texte semi-structure
Figure: Exemple d’offre d’emploi sur un site de societe contenant des champsplus ou moins structures (Description, competences requises, lieu, duree,remuneration, ...)
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 9 / 17
Zonage de l’information
Figure: Extraction de trois champs de la page precedente
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 10 / 17
Du texte a un patron (template)
Figure: yahoo.keljob.com
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 11 / 17
Des patrons partout !
Figure: yahoo.keljob.com
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 12 / 17
Differents types d’extraction d’information
Exemple
Dans des depeches: uniquement la structure de la langue
Sur le web: moins de grammaire mais plus d’instruction de formattageet de liens : La structure des repertoires, des liens, le formattage et la
mise en page du Web constituent sa propre grammaire.
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 13 / 17
Diversite de l’E.I. (1/4)
Degre de formattage des sources
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 14 / 17
Diversite de l’E.I. (2/4)
Largeur de la couverture desiree
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 15 / 17
Diversite de l’E.I. (3/4)
Entites ou Relations
Jack Welch will retire as CEO of General Electric tomorrow. The top roleat the Connecticut company will be filled by Jeffrey Immelt.
Type d’extraction
Entite simple Relation binaire Relations n-aire
Per: Jack Welch Rel: Titre Rel: SuccessionPer: Jeffrey Immelt Per: Jack Welch Soc: General ElectricLieu: Connecticut Titre: CEO Titre: CEO
Avant: Jack WelshRel: Siege societe Apres: Jeffrey Immelt
Soc: General ElectricLieu: Connecticut
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 16 / 17
Diversite de l’E.I. (4/4)
Techniques
Antoine Rozenknop () Extraction d’informations 30 janvier 2009 17 / 17