extraction d'informations - reprise de slides de t...

17
Extraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de W. Cohen (CMU), de Julien Lemoine (Exalead) Antoine Rozenknop 30 janvier 2009 Antoine Rozenknop () Extraction d’informations 30 janvier 2009 1 / 17

Upload: others

Post on 02-Jun-2020

8 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Extraction d’informationsReprise de slides de T. Poibeau (CNRS et U. Paris 13), de W.

Cohen (CMU), de Julien Lemoine (Exalead)

Antoine Rozenknop

30 janvier 2009

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 1 / 17

Page 2: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Sources

Sources des Slides

Thierry Poibeau : (CNRS UMR 7030 et Universite Paris13)Disponible sur http://www-lipn.univ-paris13.fr/ poibeau/laics/

W.Cohen (Carnegie Mellon U.)Disponible sur http://www.cs.cmu.edu/ wcohen/

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 2 / 17

Page 3: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Plan

1 Introduction

2 Diversite de l’E.I.

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 3 / 17

Page 4: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Introduction

Qu’est-ce que l’extraction ?

Une tache qui consiste a extraire de l’information structuree a partird’un document textuel

Relation d’acquisition:Entreprise achetee GenerAcheteur TotalFinaElfMontant de la transaction ?

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 4 / 17

Page 5: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Introduction

Positionnement

Recherche d’informations (IR): identifie un ensemble de documentsa partir d’un ensemble plus large (document assimile a un “sac demots”).Ex: Trouver les documents qui traitent de rachats d’entreprises

Extraction d’informations (IE): extrait et structure de l’informationprecise contenue dans un document.Ex: Etablir une base de donnees ou l’on peut retrouver les noms des

entreprises informatiques cedees en 2003

Comprehension de texte: represente de facon explicite toutel’information d’un document (rhetorique, intentionnalite, . . .)Ex: Determiner les differentes visees strategiques sous-jacents a

travers ces ventes et acquisitions

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 5 / 17

Page 6: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Introduction

Apercu des applications

Synthese d’information pertinente (≈ resume)

Resume de l’information pertinente d’un documentPeut etre stockee dans une base de donneesPeut servir de poin de depart a la synthese d’information

L’E.I. est utile pour des collections homogenes de documens

Constats amiables d’accidents (corpus MAIF)Articles de presse (corpus MUC5)Depeches d’agence (corpus MUC6)Sites internet specialises (depeches, offres d’emploi, ...)

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 6 / 17

Page 7: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Extraction d’informations a partir de texte libre

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 7 / 17

Page 8: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Extraction d’informations a partir de texte libre

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 8 / 17

Page 9: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Texte semi-structure

Figure: Exemple d’offre d’emploi sur un site de societe contenant des champsplus ou moins structures (Description, competences requises, lieu, duree,remuneration, ...)

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 9 / 17

Page 10: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Zonage de l’information

Figure: Extraction de trois champs de la page precedente

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 10 / 17

Page 11: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Du texte a un patron (template)

Figure: yahoo.keljob.com

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 11 / 17

Page 12: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Des patrons partout !

Figure: yahoo.keljob.com

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 12 / 17

Page 13: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Differents types d’extraction d’information

Exemple

Dans des depeches: uniquement la structure de la langue

Sur le web: moins de grammaire mais plus d’instruction de formattageet de liens : La structure des repertoires, des liens, le formattage et la

mise en page du Web constituent sa propre grammaire.

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 13 / 17

Page 14: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Diversite de l’E.I. (1/4)

Degre de formattage des sources

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 14 / 17

Page 15: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Diversite de l’E.I. (2/4)

Largeur de la couverture desiree

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 15 / 17

Page 16: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Diversite de l’E.I. (3/4)

Entites ou Relations

Jack Welch will retire as CEO of General Electric tomorrow. The top roleat the Connecticut company will be filled by Jeffrey Immelt.

Type d’extraction

Entite simple Relation binaire Relations n-aire

Per: Jack Welch Rel: Titre Rel: SuccessionPer: Jeffrey Immelt Per: Jack Welch Soc: General ElectricLieu: Connecticut Titre: CEO Titre: CEO

Avant: Jack WelshRel: Siege societe Apres: Jeffrey Immelt

Soc: General ElectricLieu: Connecticut

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 16 / 17

Page 17: Extraction d'informations - Reprise de slides de T ...rozenknop/Cours/MICR_REI/Seance2/Cour2.pdfExtraction d’informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de

Diversite de l’E.I. (4/4)

Techniques

Antoine Rozenknop () Extraction d’informations 30 janvier 2009 17 / 17