méthodes de traitement automatique des langues (tal) en ... · pdf file• rover...

64
Méthodes de traitement automatique des langues (TAL) en Humanités numériques Entity Linking Extraction de propositions Séminaire du médialab, 1 déc 2015 Pablo Ruiz Fabo LATTICE

Upload: vohanh

Post on 25-Mar-2018

219 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Méthodes de traitement automatique

des langues (TAL) en Humanités numériques

Entity Linking Extraction de propositions

Séminaire du médialab, 1 déc 2015

Pablo Ruiz Fabo — LATTICE

Page 2: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Résumé

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations entre

acteurs ou sujets

– Tâche | Approche | Démo

2

Page 3: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Défis pour application du TAL en HN

• Variabilité thématique et formelle des

corpus

– Adaptation des outils requise

– Travail manuel des chercheurs utilisant les

technologies d’analyse automatique requis

• Connaître les implications des choix

d’outil pour les résultats obtenus et

modélisation des données textuelles 3

Page 4: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

how can texts be explored quali-

quantitatively?

how can texts be turned into networks?

4

Du texte aux réseaux

Page 5: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

how can texts be explored quali-

quantitatively?

how can texts be turned into networks?

5

Venturini and Guido (2012). Once upon a text:

An ANT tale in text analytics.

Du texte aux réseaux

Page 6: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Nœuds du réseau

• Extraction lexicale (n-grams)

• Extraction d’entités (personnes,

organisations, …)

6

Page 7: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Nœuds du réseau

• Extraction lexicale (n-grams)

• Extraction d’entités (personnes,

organisations, …)

7

TreeTagger et/ou patrons de

catégories grammaticales Alchemy API

Page 8: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Résumé

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations entre

acteurs ou sujets

– Tâche | Approche | Démo

8

Page 9: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Nœuds du réseau : Entity Linking

• Tâche: Repérer des concepts d’une ontologie

dans un corpus à travers de mentions qui

font référence à ces concepts

– Ex. acteurs du corpus, sujets abordés …

• Utilité: Établir des liens entre les éléments du

corpus à travers leurs concepts en commun

malgré la variabilité dans les mentions

– Réseaux de cooccurrence, navigation par concept

9

(Résolution référentielle des entités)

Page 10: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Entity Linking : Étapes

• Reconnaissance des mentions

– Reconnaissance des entités nommées

• Désambiguïsation des mentions vers leur

concept (entité) dans l’ontologie

– Entity Linking

10

Page 11: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Reconnaissance des entités

nommées (REN) – Séquences textuelles appartenant à des types

spécifiques (ex. personnes, organisations,

lieux, produits, substances, autres)

– Exemple d’un inventaire de types courant:

Ontologie DBpedia

http://mappings.dbpedia.org/server/ontology/classes

– Inventaire classique de types:

Entités étendues de Sekine (2003) http://nlp.cs.nyu.edu/ene/

11

Page 12: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

REN : Défis

• Techniques: dictionnaires et/ou étiquetage de

séquences (Tjong Kim Sang et al.(2003); Huang et al.;

(2015))

12

Le Monde, 20 nov 2015

Page 13: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

REN : Défis

• Techniques: dictionnaires et/ou étiquetage de

séquences (Tjong Kim Sang et al.(2003); Huang et al.;

(2015))

13

Le Monde, 20 nov 2015

Page 14: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Entity Linking : Défis

1. Mentions ambigües entre plusieurs entités possibles

2. Plusieurs mentions possibles pour chaque entité

Barack Hussein Obama, Barack Obama, Obama, Mr.

Obama, President Obama, POTUS, #POTUS

14

When Page played Kashmir at Knebworth, his Les Paul was uniquely tuned

When Page played Kashmir at Knebworth, his Les Paul was uniquely tuned Page: Larry vs. Jimmy

Kashmir: Région vs. chanson

Ho

ffar

t et

al.

20

11

Page 15: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations entre

acteurs ou sujets

– Tâche | Approche | Démo

Résumé

15

Page 16: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Though AlchemyAPI offers a trustworthy

service, we don’t like relying on it. In

particular, we don’t like that the service is

offered as a “black box” and that the exact

extraction algorithm is secret.

16

Venturini and Guido (2012). Once upon a text:

An ANT tale in text analytics.

Texte => Réseau : Besoins des utilisateurs

Page 17: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Though AlchemyAPI offers a trustworthy

service, we don’t like relying on it. In

particular, we don’t like that the service is

offered as a “black box” and that the exact

extraction algorithm is secret.

17

Venturini and Guido (2012). Once upon a text:

An ANT tale in text analytics.

Texte => Réseau : Besoins des utilisateurs

Éviter « black box »

Page 18: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Texte => Réseau : Besoins des utilisateurs

18

Venturini et al. (2012) Once Upon a Text

[médialab à SciencesPo]

The careful use of natural language processing algorithms could provide better filtering metrics and support in expression merging

The manual filtering is crucial because it allows entities to be reduced to a set size appropriate for analysis, but also recovering important entities that could have been excluded by the automatic filtering.

Page 19: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Texte => Réseau : Besoins des utilisateurs

Informations pour guider filtrage manuel

19

Venturini et al. (2012) Once Upon a Text

[médialab à SciencesPo]

The careful use of natural language processing algorithms could provide better filtering metrics and support in expression merging

The manual filtering is crucial because it allows entities to be reduced to a set size appropriate for analysis, but also recovering important entities that could have been excluded by the automatic filtering.

Page 20: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• Traiter des corpus sur des thématiques

variées et avec diverses caractéristiques

textuelles

20

Texte => Réseau : Besoins des utilisateurs

Page 21: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• Traiter des corpus sur des thématiques

variées et avec diverses caractéristiques

textuelles

• Note : la qualité des résultats fournis par

chaque outil de Entity Linking varie selon

les caractéristiques des corpus (Cornolti et

al. 2013, Usbeck et al. 2014).

21

Texte => Réseau : Besoins des utilisateurs

Page 22: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Approche Entity Linking selon ces besoins

BESOIN APPROCHE

• Éviter des black box • Outils à code ouvert

• Aborder des corpus variés, sachant que les forces de chaque outil varient selon le corpus

• Combinaison d’outils pour obtenir des résultats complémentaires

• Filtrage manuel d’entités • Informations pour guider

le filtrage

• Métriques sur la qualité des annotations

• Accès simultané au texte pour valider annotations

• Sélection automatique optionnelle

22

Page 23: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Outils Entity Linking (EL)

• Combinaison d’outils

• Outils publics qui désambiguïsent vers des

ontologies générales (DBpedia, YAGO, Babelnet)

23

2010 2011 2008 2011 2014

Page 24: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

EL : Infos de sortie

SOCCER –JAPAN GET LUCKY WIN,

CHINA IN SURPRISE DEFEAT

24

Page 25: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

EL : Infos de sortie (étape REN)

SOCCER –JAPAN GET LUCKY WIN,

CHINA IN SURPRISE DEFEAT

25

Page 26: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

EL : Infos de sortie (REN + EL)

SOCCER –JAPAN GET LUCKY WIN,

CHINA IN SURPRISE DEFEAT

26

Page 27: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

EL : Désambiguïsation

• Comparaison des contextes d’une mention

dans le corpus et du texte relié aux entités

dans la base de connaissance (tokens, liens)

• Mesure de cohérence entre les

désambiguïsations proposées à l’intérieur

d’un document (liens entrants communs) • Milne & Witten (2008)

• Ferragina et al. (2010)

• Hoffart et al. (2011)

• Moro et al. (2014)

27

Page 28: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

EL : Combinaison d’outils • Sélection par vote pondéré basée sur:

– Nombre de systèmes ayant produit une annotation

– Performance de chacun de ces systèmes sur un

corpus contenant des annotations semblables aux

annotations souhaitées par l’utilisateur

• Résultats combinés améliorent par rapport

aux résultats individuels des systèmes. • Méthode ROVER de Fiscus (1997)

• ROVER chez projet PASSAGE (De la Clergerie et al,

2008)

• Implémentation et évaluation dans Ruiz & Poibeau (2015)

28

Page 29: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations entre

acteurs ou sujets

– Tâche | Approche | Démo

Résumé

29

Page 30: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Démo Entity Linking : Corpus

30

1. Rapport officiel sur les causes de la crise

par le Congrès

Page 31: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Démo Entity Linking : Corpus

31

2. Entretiens avec témoins

Page 32: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Démo EL : Format du Corpus

32

PDF => XML (format du moteur Solr)

Page 33: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Démo Corpus PoliInformatics

2010 2011 2008 2011 2013

http://apps.lattice.cnrs.fr/nav/gui

résultats affichés sur la démo pas affichés

Description: Ruiz, Poibeau & Mélanie (2015).

Page 34: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations

entre acteurs ou sujets

– Tâche | Approche | Démo

Résumé

34

Page 35: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Extraction de propositions

35

Page 36: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

36

Extraction de propositions

Page 37: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of natural

regeneration within the definitions of

"afforestation" and "reforestation."

37

Page 38: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of natural

regeneration within the definitions of

"afforestation" and "reforestation."

38

Page 39: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Acteurs (ou pays)

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of natural

regeneration within the definitions of

"afforestation" and "reforestation."

39

Page 40: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Message (objet de la négoc.)

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of

natural regeneration within the

definitions of "afforestation" and

"reforestation."

40

Page 41: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Prédicats (soutien/opposition)

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of

natural regeneration within the definitions of

"afforestation" and "reforestation."

41

Page 42: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Acteur + Prédicat + Message

42

Page 43: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Acteur + Prédicat + Message =

Proposition

ACTEURS PRÉDICATS MESSAGE

European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

New_Zealand

China

~supported Malaysia

Bhutan

43

Page 44: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Propositions

ACTEURS PRÉDICATS MESSAGE

1 European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

2 New_Zealand

3 China

~supported 4 Malaysia

5 Bhutan

44

Page 45: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Propositions

ACTEURS PRÉDICATS VERBAUX

MESSAGE

1 European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

2 New_Zealand

3 China

~supported 4 Malaysia

5 Bhutan

45

ACTEURS PRÉDICATS NOMINAUX

MESSAGE

1 Group_of_77 / China

proposal

to include research and development in the transport and energy sectors in the priority areas to be financed by the SCCF.

Page 46: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations

entre acteurs ou sujets

– Tâche | Approche | Démo

Résumé

46

Page 47: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

• Traitement de la négation

47

Page 48: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

• Traitement de la négation

48

Page 49: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

– With Benin and Zimbabwe, China cautioned

against the COP losing focus on the

Convention. He opposed the argument that …

• Traitement de la négation

49

Page 50: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

– With Benin and Zimbabwe, China cautioned

against the COP losing focus on the

Convention. He opposed the argument that …

• Traitement de la négation

50

? ? ?

Page 51: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

– With Benin and Zimbabwe, China cautioned

against the COP losing focus on the

Convention. He [=>China] opposed the

argument that …

• Traitement de la négation

51

Page 52: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

– With Benin and Zimbabwe, China cautioned

against the COP losing focus on the

Convention. He [=>China] opposed the

argument that …

• Traitement de la négation

52

Page 53: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Utilité

• Une fois les propositions identifiées, une

extraction lexicale à l’intérieur des

messages des propositions est possible

• Cela permet de

– relier les acteurs à des notions clés

exprimées dans leur messages

– caractériser le lien (opposition, support …)

53

Page 54: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Utilité

• Quel acteur est d’accord (en désaccord)

avec quel autre sur quel sujet ?

54

Page 55: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Utilité

• Quel acteur est d’accord (en désaccord)

avec quel autre sur quel sujet ?

55

ACTEURS PRÉDICATS VERBAUX

MESSAGE

1 European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

2 New_Zealand

3 China

~supported 4 Malaysia

5 Bhutan

Page 56: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Utilité

• Quel acteur est d’accord (en désaccord)

avec quel autre sur quel sujet ?

56

ACTEURS PRÉDICATS VERBAUX

MESSAGE

1 European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

2 New_Zealand

3 China

~supported 4 Malaysia

5 Bhutan

Page 57: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations

entre acteurs ou sujets

– Tâche | Approche | Démo

Résumé

57

Page 58: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Démo

Extraction de propositions

58

Page 59: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Références

Marco Cornolti, Paolo Ferragina, and Massimiliano

Ciaramita. (2013). A framework for benchmarking

entity-annotation systems. In Proc. of WWW, 249–260.

Éric V. De La Clergerie, Olivier Hamon, Djamel Mostefa,

Christelle Ayache, Patrick Paroubek, and Anne Vilnat.

(2008). Passage: from French parser evaluation to

large sized treebank. In Proc. of LREC 2008, 3570–

3576.

Paolo Ferragina and Ugo Scaiella. (2010). Tagme: on-the-fly

annotation of short text fragments (by wikipedia

entities). In Proc. of CIKM’10, 1625–1628.

Jonathan G. Fiscus. (1997). A post-processing system to

yield reduced word error rates: Recognizer output

voting error reduction (ROVER). In Proc. of the IEEE

Workshop on Automatic Speech Recognition and

Understanding, 1997, 347–354.

Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino,

Hagen Fürstenau, Manfred Pinkal, Marc Spaniol,

Bilyana Taneva, Stefan Thater, and Gerhard Weikum.

(2011). Robust disambiguation of named entities in

text. In Proc. of EMNLP, 782–792.

Heng Ji, Joel Nothman and Ben Hachey. (2014). Overview

of TAC-KBP2014 Entity Discovery and Linking Tasks. In

Proc. Text Analysis Conference.

Huang et al. (2015). Bidirectional LSTM-CRF Models for

Sequence Tagging. arXiv preprint arXiv:1508.01991

Pablo N. Mendes, Max Jakob, Andrés García-Silva, and

Christian Bizer. (2011). DBpedia spotlight: shedding

light on the web of documents. In Proc. of the 7th Int.

Conf. on Semantic Systems, I-SEMANTICS’11, 1–8.

David Milne and Ian H. Witten. (2008a). An effective, low-

cost measure of semantic relatedness obtained from

Wikipedia links. In Proc. of AAAI Workshop on

Wikipedia and Artificial Intelligence: an Evolving

Synergy, 25–30.

Andrea Moro, Alessandro Raganato, and Roberto Navigli.

(2013). Entity Linking meets Word Sense

Disambiguation: A Unified Approach. Transactions of

the ACL, 2, 231–244.

Thierry Poibeau, Horacio Saggion, Jakub Piskorski, and

Roman Yangarber. Multi-source, Multilingual

Information Extraction and Summarization. Springer

Science & Business Media, 2012.

Pablo Ruiz, Thierry Poibeau, Frédérique Mélanie. (2015).

Entity Linking with corpus coherence combining open

source annotators. In Proc. NAACL-HLT Demos

Satoshi Sekine, Kiyoshi Sudo and Chikashi Nobata. (2002).

Extended Named Entity Hierarchy. In Proc. LREC.

Eric F. Tjong Kim Sang and Fien De Meulder. (2003).

Introduction to the CoNLL-2003 Shared Task:

Language-Independent Named Entity Recognition. In

Proc. CoNLL. (ACL)

Ricardo Usbeck et al. (2015). GERBIL – General Entity

Annotator Benchmarking Framework. In Proc. of

WWW.

Seth Van Hooland, Max De Wilde, Ruben Verborgh, Thomas

Steiner, and Rik Van de Walle. (2013). Exploring entity

recognition and disambiguation for cultural heritage

collections. In Digital Scholarship in the Humanities,

Oxford: Oxford University Press.

59

Page 60: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Merci !

[email protected] http://www.lattice.cnrs.fr/Pablo-Ruiz-Fabo,541

Page 61: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Slides supplémentaires

61

Page 62: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• Based on several factors, depending on the tool

• A usual factor is overlap between the mention’s

context and the description of the entity in the

knowledge-base (Wikipedia definition or article text)

62

Disambiguation (1)

Corpus Query: OTS Wikipedia Articles for OTS

Page 63: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

• How do the tools decide that Office of Thrift

Supervision is a better candidate than Office of Tax

Simplification (or other entity candidates)?

• Part of the answer lies in comparing the context

around the mention with text for each entity the

knowledge-base

• E.g. expressions like FDIC, mortgage or Washington

Mutual (as WaMu) are found both in the corpus

mentions for OTS and in the Wikipedia page for Office

of Thrift Supervision, but not in the page for Office of

Tax Simplification.

• Several other factors are usually taken into account

(e.g. coherence (see slides above) or other information

derived from Wikipedia link structure). 63

Disambiguation (2)

Page 64: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction

Cohérence

64

Thomas and Mario are strikers playing in

Munich

(Moro and Navigli, 2014)