méthodes de traitement automatique des langues (tal) en ... · pdf file• rover...

Post on 25-Mar-2018

219 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Méthodes de traitement automatique

des langues (TAL) en Humanités numériques

Entity Linking Extraction de propositions

Séminaire du médialab, 1 déc 2015

Pablo Ruiz Fabo — LATTICE

Résumé

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations entre

acteurs ou sujets

– Tâche | Approche | Démo

2

Défis pour application du TAL en HN

• Variabilité thématique et formelle des

corpus

– Adaptation des outils requise

– Travail manuel des chercheurs utilisant les

technologies d’analyse automatique requis

• Connaître les implications des choix

d’outil pour les résultats obtenus et

modélisation des données textuelles 3

how can texts be explored quali-

quantitatively?

how can texts be turned into networks?

4

Du texte aux réseaux

how can texts be explored quali-

quantitatively?

how can texts be turned into networks?

5

Venturini and Guido (2012). Once upon a text:

An ANT tale in text analytics.

Du texte aux réseaux

Nœuds du réseau

• Extraction lexicale (n-grams)

• Extraction d’entités (personnes,

organisations, …)

6

Nœuds du réseau

• Extraction lexicale (n-grams)

• Extraction d’entités (personnes,

organisations, …)

7

TreeTagger et/ou patrons de

catégories grammaticales Alchemy API

Résumé

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations entre

acteurs ou sujets

– Tâche | Approche | Démo

8

Nœuds du réseau : Entity Linking

• Tâche: Repérer des concepts d’une ontologie

dans un corpus à travers de mentions qui

font référence à ces concepts

– Ex. acteurs du corpus, sujets abordés …

• Utilité: Établir des liens entre les éléments du

corpus à travers leurs concepts en commun

malgré la variabilité dans les mentions

– Réseaux de cooccurrence, navigation par concept

9

(Résolution référentielle des entités)

Entity Linking : Étapes

• Reconnaissance des mentions

– Reconnaissance des entités nommées

• Désambiguïsation des mentions vers leur

concept (entité) dans l’ontologie

– Entity Linking

10

Reconnaissance des entités

nommées (REN) – Séquences textuelles appartenant à des types

spécifiques (ex. personnes, organisations,

lieux, produits, substances, autres)

– Exemple d’un inventaire de types courant:

Ontologie DBpedia

http://mappings.dbpedia.org/server/ontology/classes

– Inventaire classique de types:

Entités étendues de Sekine (2003) http://nlp.cs.nyu.edu/ene/

11

REN : Défis

• Techniques: dictionnaires et/ou étiquetage de

séquences (Tjong Kim Sang et al.(2003); Huang et al.;

(2015))

12

Le Monde, 20 nov 2015

REN : Défis

• Techniques: dictionnaires et/ou étiquetage de

séquences (Tjong Kim Sang et al.(2003); Huang et al.;

(2015))

13

Le Monde, 20 nov 2015

Entity Linking : Défis

1. Mentions ambigües entre plusieurs entités possibles

2. Plusieurs mentions possibles pour chaque entité

Barack Hussein Obama, Barack Obama, Obama, Mr.

Obama, President Obama, POTUS, #POTUS

14

When Page played Kashmir at Knebworth, his Les Paul was uniquely tuned

When Page played Kashmir at Knebworth, his Les Paul was uniquely tuned Page: Larry vs. Jimmy

Kashmir: Région vs. chanson

Ho

ffar

t et

al.

20

11

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations entre

acteurs ou sujets

– Tâche | Approche | Démo

Résumé

15

Though AlchemyAPI offers a trustworthy

service, we don’t like relying on it. In

particular, we don’t like that the service is

offered as a “black box” and that the exact

extraction algorithm is secret.

16

Venturini and Guido (2012). Once upon a text:

An ANT tale in text analytics.

Texte => Réseau : Besoins des utilisateurs

Though AlchemyAPI offers a trustworthy

service, we don’t like relying on it. In

particular, we don’t like that the service is

offered as a “black box” and that the exact

extraction algorithm is secret.

17

Venturini and Guido (2012). Once upon a text:

An ANT tale in text analytics.

Texte => Réseau : Besoins des utilisateurs

Éviter « black box »

Texte => Réseau : Besoins des utilisateurs

18

Venturini et al. (2012) Once Upon a Text

[médialab à SciencesPo]

The careful use of natural language processing algorithms could provide better filtering metrics and support in expression merging

The manual filtering is crucial because it allows entities to be reduced to a set size appropriate for analysis, but also recovering important entities that could have been excluded by the automatic filtering.

Texte => Réseau : Besoins des utilisateurs

Informations pour guider filtrage manuel

19

Venturini et al. (2012) Once Upon a Text

[médialab à SciencesPo]

The careful use of natural language processing algorithms could provide better filtering metrics and support in expression merging

The manual filtering is crucial because it allows entities to be reduced to a set size appropriate for analysis, but also recovering important entities that could have been excluded by the automatic filtering.

• Traiter des corpus sur des thématiques

variées et avec diverses caractéristiques

textuelles

20

Texte => Réseau : Besoins des utilisateurs

• Traiter des corpus sur des thématiques

variées et avec diverses caractéristiques

textuelles

• Note : la qualité des résultats fournis par

chaque outil de Entity Linking varie selon

les caractéristiques des corpus (Cornolti et

al. 2013, Usbeck et al. 2014).

21

Texte => Réseau : Besoins des utilisateurs

Approche Entity Linking selon ces besoins

BESOIN APPROCHE

• Éviter des black box • Outils à code ouvert

• Aborder des corpus variés, sachant que les forces de chaque outil varient selon le corpus

• Combinaison d’outils pour obtenir des résultats complémentaires

• Filtrage manuel d’entités • Informations pour guider

le filtrage

• Métriques sur la qualité des annotations

• Accès simultané au texte pour valider annotations

• Sélection automatique optionnelle

22

Outils Entity Linking (EL)

• Combinaison d’outils

• Outils publics qui désambiguïsent vers des

ontologies générales (DBpedia, YAGO, Babelnet)

23

2010 2011 2008 2011 2014

EL : Infos de sortie

SOCCER –JAPAN GET LUCKY WIN,

CHINA IN SURPRISE DEFEAT

24

EL : Infos de sortie (étape REN)

SOCCER –JAPAN GET LUCKY WIN,

CHINA IN SURPRISE DEFEAT

25

EL : Infos de sortie (REN + EL)

SOCCER –JAPAN GET LUCKY WIN,

CHINA IN SURPRISE DEFEAT

26

EL : Désambiguïsation

• Comparaison des contextes d’une mention

dans le corpus et du texte relié aux entités

dans la base de connaissance (tokens, liens)

• Mesure de cohérence entre les

désambiguïsations proposées à l’intérieur

d’un document (liens entrants communs) • Milne & Witten (2008)

• Ferragina et al. (2010)

• Hoffart et al. (2011)

• Moro et al. (2014)

27

EL : Combinaison d’outils • Sélection par vote pondéré basée sur:

– Nombre de systèmes ayant produit une annotation

– Performance de chacun de ces systèmes sur un

corpus contenant des annotations semblables aux

annotations souhaitées par l’utilisateur

• Résultats combinés améliorent par rapport

aux résultats individuels des systèmes. • Méthode ROVER de Fiscus (1997)

• ROVER chez projet PASSAGE (De la Clergerie et al,

2008)

• Implémentation et évaluation dans Ruiz & Poibeau (2015)

28

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations entre

acteurs ou sujets

– Tâche | Approche | Démo

Résumé

29

Démo Entity Linking : Corpus

30

1. Rapport officiel sur les causes de la crise

par le Congrès

Démo Entity Linking : Corpus

31

2. Entretiens avec témoins

Démo EL : Format du Corpus

32

PDF => XML (format du moteur Solr)

Démo Corpus PoliInformatics

2010 2011 2008 2011 2013

http://apps.lattice.cnrs.fr/nav/gui

résultats affichés sur la démo pas affichés

Description: Ruiz, Poibeau & Mélanie (2015).

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations

entre acteurs ou sujets

– Tâche | Approche | Démo

Résumé

34

Extraction de propositions

35

36

Extraction de propositions

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of natural

regeneration within the definitions of

"afforestation" and "reforestation."

37

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of natural

regeneration within the definitions of

"afforestation" and "reforestation."

38

Acteurs (ou pays)

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of natural

regeneration within the definitions of

"afforestation" and "reforestation."

39

Message (objet de la négoc.)

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of

natural regeneration within the

definitions of "afforestation" and

"reforestation."

40

Prédicats (soutien/opposition)

The EU, with NEW ZEALAND and opposed

by CHINA, MALAYSIA and BHUTAN,

supported including the promotion of

natural regeneration within the definitions of

"afforestation" and "reforestation."

41

Acteur + Prédicat + Message

42

Acteur + Prédicat + Message =

Proposition

ACTEURS PRÉDICATS MESSAGE

European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

New_Zealand

China

~supported Malaysia

Bhutan

43

Propositions

ACTEURS PRÉDICATS MESSAGE

1 European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

2 New_Zealand

3 China

~supported 4 Malaysia

5 Bhutan

44

Propositions

ACTEURS PRÉDICATS VERBAUX

MESSAGE

1 European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

2 New_Zealand

3 China

~supported 4 Malaysia

5 Bhutan

45

ACTEURS PRÉDICATS NOMINAUX

MESSAGE

1 Group_of_77 / China

proposal

to include research and development in the transport and energy sectors in the priority areas to be financed by the SCCF.

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations

entre acteurs ou sujets

– Tâche | Approche | Démo

Résumé

46

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

• Traitement de la négation

47

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

• Traitement de la négation

48

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

– With Benin and Zimbabwe, China cautioned

against the COP losing focus on the

Convention. He opposed the argument that …

• Traitement de la négation

49

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

– With Benin and Zimbabwe, China cautioned

against the COP losing focus on the

Convention. He opposed the argument that …

• Traitement de la négation

50

? ? ?

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

– With Benin and Zimbabwe, China cautioned

against the COP losing focus on the

Convention. He [=>China] opposed the

argument that …

• Traitement de la négation

51

Technologies

• Étiquetage des rôles sémantiques

• Résolution des anaphores pronominales

– With Benin and Zimbabwe, China cautioned

against the COP losing focus on the

Convention. He [=>China] opposed the

argument that …

• Traitement de la négation

52

Utilité

• Une fois les propositions identifiées, une

extraction lexicale à l’intérieur des

messages des propositions est possible

• Cela permet de

– relier les acteurs à des notions clés

exprimées dans leur messages

– caractériser le lien (opposition, support …)

53

Utilité

• Quel acteur est d’accord (en désaccord)

avec quel autre sur quel sujet ?

54

Utilité

• Quel acteur est d’accord (en désaccord)

avec quel autre sur quel sujet ?

55

ACTEURS PRÉDICATS VERBAUX

MESSAGE

1 European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

2 New_Zealand

3 China

~supported 4 Malaysia

5 Bhutan

Utilité

• Quel acteur est d’accord (en désaccord)

avec quel autre sur quel sujet ?

56

ACTEURS PRÉDICATS VERBAUX

MESSAGE

1 European_Union supported including the promotion of

natural regeneration within the definitions of "afforestation" and "reforestation."

2 New_Zealand

3 China

~supported 4 Malaysia

5 Bhutan

• Défis pour TAL en Humanités numériques

• Du texte aux réseaux

• Entity Linking : acteurs et sujets dans un

corpus

– Tâche | Approche | Démo

• Extraction de propositions : relations

entre acteurs ou sujets

– Tâche | Approche | Démo

Résumé

57

Démo

Extraction de propositions

58

Références

Marco Cornolti, Paolo Ferragina, and Massimiliano

Ciaramita. (2013). A framework for benchmarking

entity-annotation systems. In Proc. of WWW, 249–260.

Éric V. De La Clergerie, Olivier Hamon, Djamel Mostefa,

Christelle Ayache, Patrick Paroubek, and Anne Vilnat.

(2008). Passage: from French parser evaluation to

large sized treebank. In Proc. of LREC 2008, 3570–

3576.

Paolo Ferragina and Ugo Scaiella. (2010). Tagme: on-the-fly

annotation of short text fragments (by wikipedia

entities). In Proc. of CIKM’10, 1625–1628.

Jonathan G. Fiscus. (1997). A post-processing system to

yield reduced word error rates: Recognizer output

voting error reduction (ROVER). In Proc. of the IEEE

Workshop on Automatic Speech Recognition and

Understanding, 1997, 347–354.

Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino,

Hagen Fürstenau, Manfred Pinkal, Marc Spaniol,

Bilyana Taneva, Stefan Thater, and Gerhard Weikum.

(2011). Robust disambiguation of named entities in

text. In Proc. of EMNLP, 782–792.

Heng Ji, Joel Nothman and Ben Hachey. (2014). Overview

of TAC-KBP2014 Entity Discovery and Linking Tasks. In

Proc. Text Analysis Conference.

Huang et al. (2015). Bidirectional LSTM-CRF Models for

Sequence Tagging. arXiv preprint arXiv:1508.01991

Pablo N. Mendes, Max Jakob, Andrés García-Silva, and

Christian Bizer. (2011). DBpedia spotlight: shedding

light on the web of documents. In Proc. of the 7th Int.

Conf. on Semantic Systems, I-SEMANTICS’11, 1–8.

David Milne and Ian H. Witten. (2008a). An effective, low-

cost measure of semantic relatedness obtained from

Wikipedia links. In Proc. of AAAI Workshop on

Wikipedia and Artificial Intelligence: an Evolving

Synergy, 25–30.

Andrea Moro, Alessandro Raganato, and Roberto Navigli.

(2013). Entity Linking meets Word Sense

Disambiguation: A Unified Approach. Transactions of

the ACL, 2, 231–244.

Thierry Poibeau, Horacio Saggion, Jakub Piskorski, and

Roman Yangarber. Multi-source, Multilingual

Information Extraction and Summarization. Springer

Science & Business Media, 2012.

Pablo Ruiz, Thierry Poibeau, Frédérique Mélanie. (2015).

Entity Linking with corpus coherence combining open

source annotators. In Proc. NAACL-HLT Demos

Satoshi Sekine, Kiyoshi Sudo and Chikashi Nobata. (2002).

Extended Named Entity Hierarchy. In Proc. LREC.

Eric F. Tjong Kim Sang and Fien De Meulder. (2003).

Introduction to the CoNLL-2003 Shared Task:

Language-Independent Named Entity Recognition. In

Proc. CoNLL. (ACL)

Ricardo Usbeck et al. (2015). GERBIL – General Entity

Annotator Benchmarking Framework. In Proc. of

WWW.

Seth Van Hooland, Max De Wilde, Ruben Verborgh, Thomas

Steiner, and Rik Van de Walle. (2013). Exploring entity

recognition and disambiguation for cultural heritage

collections. In Digital Scholarship in the Humanities,

Oxford: Oxford University Press.

59

Merci !

pablo.ruiz.fabo@ens.fr http://www.lattice.cnrs.fr/Pablo-Ruiz-Fabo,541

Slides supplémentaires

61

• Based on several factors, depending on the tool

• A usual factor is overlap between the mention’s

context and the description of the entity in the

knowledge-base (Wikipedia definition or article text)

62

Disambiguation (1)

Corpus Query: OTS Wikipedia Articles for OTS

• How do the tools decide that Office of Thrift

Supervision is a better candidate than Office of Tax

Simplification (or other entity candidates)?

• Part of the answer lies in comparing the context

around the mention with text for each entity the

knowledge-base

• E.g. expressions like FDIC, mortgage or Washington

Mutual (as WaMu) are found both in the corpus

mentions for OTS and in the Wikipedia page for Office

of Thrift Supervision, but not in the page for Office of

Tax Simplification.

• Several other factors are usually taken into account

(e.g. coherence (see slides above) or other information

derived from Wikipedia link structure). 63

Disambiguation (2)

Cohérence

64

Thomas and Mario are strikers playing in

Munich

(Moro and Navigli, 2014)

top related