méthodes de traitement automatique des langues (tal) en ... · pdf file• rover...
TRANSCRIPT
Méthodes de traitement automatique
des langues (TAL) en Humanités numériques
Entity Linking Extraction de propositions
Séminaire du médialab, 1 déc 2015
Pablo Ruiz Fabo — LATTICE
Résumé
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations entre
acteurs ou sujets
– Tâche | Approche | Démo
2
Défis pour application du TAL en HN
• Variabilité thématique et formelle des
corpus
– Adaptation des outils requise
– Travail manuel des chercheurs utilisant les
technologies d’analyse automatique requis
• Connaître les implications des choix
d’outil pour les résultats obtenus et
modélisation des données textuelles 3
how can texts be explored quali-
quantitatively?
how can texts be turned into networks?
4
Du texte aux réseaux
how can texts be explored quali-
quantitatively?
how can texts be turned into networks?
5
Venturini and Guido (2012). Once upon a text:
An ANT tale in text analytics.
Du texte aux réseaux
Nœuds du réseau
• Extraction lexicale (n-grams)
• Extraction d’entités (personnes,
organisations, …)
6
Nœuds du réseau
• Extraction lexicale (n-grams)
• Extraction d’entités (personnes,
organisations, …)
7
TreeTagger et/ou patrons de
catégories grammaticales Alchemy API
Résumé
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations entre
acteurs ou sujets
– Tâche | Approche | Démo
8
Nœuds du réseau : Entity Linking
• Tâche: Repérer des concepts d’une ontologie
dans un corpus à travers de mentions qui
font référence à ces concepts
– Ex. acteurs du corpus, sujets abordés …
• Utilité: Établir des liens entre les éléments du
corpus à travers leurs concepts en commun
malgré la variabilité dans les mentions
– Réseaux de cooccurrence, navigation par concept
9
(Résolution référentielle des entités)
Entity Linking : Étapes
• Reconnaissance des mentions
– Reconnaissance des entités nommées
• Désambiguïsation des mentions vers leur
concept (entité) dans l’ontologie
– Entity Linking
10
Reconnaissance des entités
nommées (REN) – Séquences textuelles appartenant à des types
spécifiques (ex. personnes, organisations,
lieux, produits, substances, autres)
– Exemple d’un inventaire de types courant:
Ontologie DBpedia
http://mappings.dbpedia.org/server/ontology/classes
– Inventaire classique de types:
Entités étendues de Sekine (2003) http://nlp.cs.nyu.edu/ene/
11
REN : Défis
• Techniques: dictionnaires et/ou étiquetage de
séquences (Tjong Kim Sang et al.(2003); Huang et al.;
(2015))
12
Le Monde, 20 nov 2015
REN : Défis
• Techniques: dictionnaires et/ou étiquetage de
séquences (Tjong Kim Sang et al.(2003); Huang et al.;
(2015))
13
Le Monde, 20 nov 2015
Entity Linking : Défis
1. Mentions ambigües entre plusieurs entités possibles
2. Plusieurs mentions possibles pour chaque entité
Barack Hussein Obama, Barack Obama, Obama, Mr.
Obama, President Obama, POTUS, #POTUS
14
When Page played Kashmir at Knebworth, his Les Paul was uniquely tuned
When Page played Kashmir at Knebworth, his Les Paul was uniquely tuned Page: Larry vs. Jimmy
Kashmir: Région vs. chanson
Ho
ffar
t et
al.
20
11
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations entre
acteurs ou sujets
– Tâche | Approche | Démo
Résumé
15
Though AlchemyAPI offers a trustworthy
service, we don’t like relying on it. In
particular, we don’t like that the service is
offered as a “black box” and that the exact
extraction algorithm is secret.
16
Venturini and Guido (2012). Once upon a text:
An ANT tale in text analytics.
Texte => Réseau : Besoins des utilisateurs
Though AlchemyAPI offers a trustworthy
service, we don’t like relying on it. In
particular, we don’t like that the service is
offered as a “black box” and that the exact
extraction algorithm is secret.
17
Venturini and Guido (2012). Once upon a text:
An ANT tale in text analytics.
Texte => Réseau : Besoins des utilisateurs
Éviter « black box »
Texte => Réseau : Besoins des utilisateurs
18
Venturini et al. (2012) Once Upon a Text
[médialab à SciencesPo]
The careful use of natural language processing algorithms could provide better filtering metrics and support in expression merging
The manual filtering is crucial because it allows entities to be reduced to a set size appropriate for analysis, but also recovering important entities that could have been excluded by the automatic filtering.
Texte => Réseau : Besoins des utilisateurs
Informations pour guider filtrage manuel
19
Venturini et al. (2012) Once Upon a Text
[médialab à SciencesPo]
The careful use of natural language processing algorithms could provide better filtering metrics and support in expression merging
The manual filtering is crucial because it allows entities to be reduced to a set size appropriate for analysis, but also recovering important entities that could have been excluded by the automatic filtering.
• Traiter des corpus sur des thématiques
variées et avec diverses caractéristiques
textuelles
20
Texte => Réseau : Besoins des utilisateurs
• Traiter des corpus sur des thématiques
variées et avec diverses caractéristiques
textuelles
• Note : la qualité des résultats fournis par
chaque outil de Entity Linking varie selon
les caractéristiques des corpus (Cornolti et
al. 2013, Usbeck et al. 2014).
21
Texte => Réseau : Besoins des utilisateurs
Approche Entity Linking selon ces besoins
BESOIN APPROCHE
• Éviter des black box • Outils à code ouvert
• Aborder des corpus variés, sachant que les forces de chaque outil varient selon le corpus
• Combinaison d’outils pour obtenir des résultats complémentaires
• Filtrage manuel d’entités • Informations pour guider
le filtrage
• Métriques sur la qualité des annotations
• Accès simultané au texte pour valider annotations
• Sélection automatique optionnelle
22
Outils Entity Linking (EL)
• Combinaison d’outils
• Outils publics qui désambiguïsent vers des
ontologies générales (DBpedia, YAGO, Babelnet)
23
2010 2011 2008 2011 2014
EL : Infos de sortie
SOCCER –JAPAN GET LUCKY WIN,
CHINA IN SURPRISE DEFEAT
24
EL : Infos de sortie (étape REN)
SOCCER –JAPAN GET LUCKY WIN,
CHINA IN SURPRISE DEFEAT
25
EL : Infos de sortie (REN + EL)
SOCCER –JAPAN GET LUCKY WIN,
CHINA IN SURPRISE DEFEAT
26
EL : Désambiguïsation
• Comparaison des contextes d’une mention
dans le corpus et du texte relié aux entités
dans la base de connaissance (tokens, liens)
• Mesure de cohérence entre les
désambiguïsations proposées à l’intérieur
d’un document (liens entrants communs) • Milne & Witten (2008)
• Ferragina et al. (2010)
• Hoffart et al. (2011)
• Moro et al. (2014)
27
EL : Combinaison d’outils • Sélection par vote pondéré basée sur:
– Nombre de systèmes ayant produit une annotation
– Performance de chacun de ces systèmes sur un
corpus contenant des annotations semblables aux
annotations souhaitées par l’utilisateur
• Résultats combinés améliorent par rapport
aux résultats individuels des systèmes. • Méthode ROVER de Fiscus (1997)
• ROVER chez projet PASSAGE (De la Clergerie et al,
2008)
• Implémentation et évaluation dans Ruiz & Poibeau (2015)
28
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations entre
acteurs ou sujets
– Tâche | Approche | Démo
Résumé
29
Démo Entity Linking : Corpus
30
1. Rapport officiel sur les causes de la crise
par le Congrès
Démo Entity Linking : Corpus
31
2. Entretiens avec témoins
Démo EL : Format du Corpus
32
PDF => XML (format du moteur Solr)
Démo Corpus PoliInformatics
2010 2011 2008 2011 2013
http://apps.lattice.cnrs.fr/nav/gui
résultats affichés sur la démo pas affichés
Description: Ruiz, Poibeau & Mélanie (2015).
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations
entre acteurs ou sujets
– Tâche | Approche | Démo
Résumé
34
Extraction de propositions
35
36
Extraction de propositions
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of natural
regeneration within the definitions of
"afforestation" and "reforestation."
37
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of natural
regeneration within the definitions of
"afforestation" and "reforestation."
38
Acteurs (ou pays)
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of natural
regeneration within the definitions of
"afforestation" and "reforestation."
39
Message (objet de la négoc.)
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of
natural regeneration within the
definitions of "afforestation" and
"reforestation."
40
Prédicats (soutien/opposition)
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of
natural regeneration within the definitions of
"afforestation" and "reforestation."
41
Acteur + Prédicat + Message
42
Acteur + Prédicat + Message =
Proposition
ACTEURS PRÉDICATS MESSAGE
European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
New_Zealand
China
~supported Malaysia
Bhutan
43
Propositions
ACTEURS PRÉDICATS MESSAGE
1 European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
2 New_Zealand
3 China
~supported 4 Malaysia
5 Bhutan
44
Propositions
ACTEURS PRÉDICATS VERBAUX
MESSAGE
1 European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
2 New_Zealand
3 China
~supported 4 Malaysia
5 Bhutan
45
ACTEURS PRÉDICATS NOMINAUX
MESSAGE
1 Group_of_77 / China
proposal
to include research and development in the transport and energy sectors in the priority areas to be financed by the SCCF.
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations
entre acteurs ou sujets
– Tâche | Approche | Démo
Résumé
46
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
• Traitement de la négation
47
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
• Traitement de la négation
48
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
– With Benin and Zimbabwe, China cautioned
against the COP losing focus on the
Convention. He opposed the argument that …
• Traitement de la négation
49
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
– With Benin and Zimbabwe, China cautioned
against the COP losing focus on the
Convention. He opposed the argument that …
• Traitement de la négation
50
? ? ?
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
– With Benin and Zimbabwe, China cautioned
against the COP losing focus on the
Convention. He [=>China] opposed the
argument that …
• Traitement de la négation
51
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
– With Benin and Zimbabwe, China cautioned
against the COP losing focus on the
Convention. He [=>China] opposed the
argument that …
• Traitement de la négation
52
Utilité
• Une fois les propositions identifiées, une
extraction lexicale à l’intérieur des
messages des propositions est possible
• Cela permet de
– relier les acteurs à des notions clés
exprimées dans leur messages
– caractériser le lien (opposition, support …)
53
Utilité
• Quel acteur est d’accord (en désaccord)
avec quel autre sur quel sujet ?
54
Utilité
• Quel acteur est d’accord (en désaccord)
avec quel autre sur quel sujet ?
55
ACTEURS PRÉDICATS VERBAUX
MESSAGE
1 European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
2 New_Zealand
3 China
~supported 4 Malaysia
5 Bhutan
Utilité
• Quel acteur est d’accord (en désaccord)
avec quel autre sur quel sujet ?
56
ACTEURS PRÉDICATS VERBAUX
MESSAGE
1 European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
2 New_Zealand
3 China
~supported 4 Malaysia
5 Bhutan
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations
entre acteurs ou sujets
– Tâche | Approche | Démo
Résumé
57
Démo
Extraction de propositions
58
Références
Marco Cornolti, Paolo Ferragina, and Massimiliano
Ciaramita. (2013). A framework for benchmarking
entity-annotation systems. In Proc. of WWW, 249–260.
Éric V. De La Clergerie, Olivier Hamon, Djamel Mostefa,
Christelle Ayache, Patrick Paroubek, and Anne Vilnat.
(2008). Passage: from French parser evaluation to
large sized treebank. In Proc. of LREC 2008, 3570–
3576.
Paolo Ferragina and Ugo Scaiella. (2010). Tagme: on-the-fly
annotation of short text fragments (by wikipedia
entities). In Proc. of CIKM’10, 1625–1628.
Jonathan G. Fiscus. (1997). A post-processing system to
yield reduced word error rates: Recognizer output
voting error reduction (ROVER). In Proc. of the IEEE
Workshop on Automatic Speech Recognition and
Understanding, 1997, 347–354.
Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino,
Hagen Fürstenau, Manfred Pinkal, Marc Spaniol,
Bilyana Taneva, Stefan Thater, and Gerhard Weikum.
(2011). Robust disambiguation of named entities in
text. In Proc. of EMNLP, 782–792.
Heng Ji, Joel Nothman and Ben Hachey. (2014). Overview
of TAC-KBP2014 Entity Discovery and Linking Tasks. In
Proc. Text Analysis Conference.
Huang et al. (2015). Bidirectional LSTM-CRF Models for
Sequence Tagging. arXiv preprint arXiv:1508.01991
Pablo N. Mendes, Max Jakob, Andrés García-Silva, and
Christian Bizer. (2011). DBpedia spotlight: shedding
light on the web of documents. In Proc. of the 7th Int.
Conf. on Semantic Systems, I-SEMANTICS’11, 1–8.
David Milne and Ian H. Witten. (2008a). An effective, low-
cost measure of semantic relatedness obtained from
Wikipedia links. In Proc. of AAAI Workshop on
Wikipedia and Artificial Intelligence: an Evolving
Synergy, 25–30.
Andrea Moro, Alessandro Raganato, and Roberto Navigli.
(2013). Entity Linking meets Word Sense
Disambiguation: A Unified Approach. Transactions of
the ACL, 2, 231–244.
Thierry Poibeau, Horacio Saggion, Jakub Piskorski, and
Roman Yangarber. Multi-source, Multilingual
Information Extraction and Summarization. Springer
Science & Business Media, 2012.
Pablo Ruiz, Thierry Poibeau, Frédérique Mélanie. (2015).
Entity Linking with corpus coherence combining open
source annotators. In Proc. NAACL-HLT Demos
Satoshi Sekine, Kiyoshi Sudo and Chikashi Nobata. (2002).
Extended Named Entity Hierarchy. In Proc. LREC.
Eric F. Tjong Kim Sang and Fien De Meulder. (2003).
Introduction to the CoNLL-2003 Shared Task:
Language-Independent Named Entity Recognition. In
Proc. CoNLL. (ACL)
Ricardo Usbeck et al. (2015). GERBIL – General Entity
Annotator Benchmarking Framework. In Proc. of
WWW.
Seth Van Hooland, Max De Wilde, Ruben Verborgh, Thomas
Steiner, and Rik Van de Walle. (2013). Exploring entity
recognition and disambiguation for cultural heritage
collections. In Digital Scholarship in the Humanities,
Oxford: Oxford University Press.
59
Merci !
[email protected] http://www.lattice.cnrs.fr/Pablo-Ruiz-Fabo,541
Slides supplémentaires
61
• Based on several factors, depending on the tool
• A usual factor is overlap between the mention’s
context and the description of the entity in the
knowledge-base (Wikipedia definition or article text)
62
Disambiguation (1)
Corpus Query: OTS Wikipedia Articles for OTS
• How do the tools decide that Office of Thrift
Supervision is a better candidate than Office of Tax
Simplification (or other entity candidates)?
• Part of the answer lies in comparing the context
around the mention with text for each entity the
knowledge-base
• E.g. expressions like FDIC, mortgage or Washington
Mutual (as WaMu) are found both in the corpus
mentions for OTS and in the Wikipedia page for Office
of Thrift Supervision, but not in the page for Office of
Tax Simplification.
• Several other factors are usually taken into account
(e.g. coherence (see slides above) or other information
derived from Wikipedia link structure). 63
Disambiguation (2)
Cohérence
64
Thomas and Mario are strikers playing in
Munich
(Moro and Navigli, 2014)