réunion du groupe de travail
DESCRIPTION
Réunion du groupe de travail. Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche pour les Sciences humaines et Sociales (SHS) 1 er juin 2012. 23/10/2014. 1. 1. Plan de la présentation. - PowerPoint PPT PresentationTRANSCRIPT
20/04/23 120/04/23 1
Réunion du groupe de Réunion du groupe de travailtravail
Annotations de haut niveau : syntaxe, sémantique, discours
Consortium Corpus écrits
Infrastructure de recherche pour les Sciences humaines et Sociales (SHS)
1er juin 2012
1
20/04/23 220/04/23 2
Plan de la présentationPlan de la présentation1. Présentation du consortium corpus
écrits et objectifs du groupe de travail2. Annotations syntaxiques3. Annotations sémantiques4. Annotations discursives et de la
référence5. Proposition de grille pour le catalogage
des données et discussion
2
20/04/23 320/04/23 3
1. L’Infrastructure de recherche 1. L’Infrastructure de recherche CorpusCorpus
Corpus est une très grande infrastructure de recherche (IR) pour les Sciences humaines et Sociales (SHS)
Portée par le CNRS et l’Université Aix-Marseille
Responsable scientifique : Laurent Dousset Objectif : « dispositif de financement, de coopération et de
mise en commun de ressources et de savoir-faire par le biais de consortiums labélisés afin d’accompagner et de favoriser les effets d’apprentissage et les synergies pour la constitution et le développement de l’usage des sources numériques par les chercheurs des sciences humaines et sociales. »
3
20/04/23 420/04/23 4
4 consortiums4 consortiums
Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM)
Consortium anthropologique « Consortium Archive des ethnologues »
Consortium linguistique « Corpus Écrits »
Consortium littérature et philosophie « CAHIER »
4
20/04/23 520/04/23 5
Consortium corpus écrits - Consortium corpus écrits - PilotagePilotage
Comité de pilotage (4 ans)Frank Neveu pour l’ILF, FR 2393 Jean-Marie Pierrel pour l’ATILF - UMR 7118 – Nancy - Université Sylvie Archaimbault (suppléant Bernard Colombat) pour HTL – UMR 7597 - Université Denis Diderot - Paris 7Damon Mayaffre (Suppléante Mahé Ben Hamed) pour BCL - UMR 6039 - Université Nice Sophia AntipolisSerge Heiden pour ICAR - UMR 5191 - Université Lumière Lyon 2 Clément Plancq (suppléant Olivier Bonami) pour le LLF - UMR 7110 - Université Paris 7 Céline Poudat pour le LDI - UMR 7187 – Université de Paris 13 Catherine Schnedecker (suppléante Amalia Todirascu) pour LILPA – EA 1339 – Université de Strasbourg Agnès Tutin (suppléante Marie- Paule Jacques) pour le LIDILEM – EA 609 – Université Grenoble 3 Benoît Sagot pour ALPAGE – INRIA- Université Denis Diderot - Paris7
Le porteur : Fédération de recherche ILF - Institut de Linguistique Française (FR 2393 du CNRS2393), représentée par son directeur, Franck Neveu.
5
20/04/23 620/04/23 6
Corpus écritsCorpus écritsObjectifs
◦ Partage d’information, homogénéisation des pratiques, mise en conformité avec des standards internationaux
◦ Fédérer les équipes et laboratoires, les chercheurs, enseignants-chercheurs, ou ingénieurs engagés dans la production de corpus numériques écrits
Collaborations importantes :◦ ATILF (CNRTL)◦ CLARIN (d’infrastructure européenne partagée
pour les SHS (Common Language Resources and Technology Infrastructure: www.clarin.eu))
◦ TEI (Text Encoding Initiative)
6
20/04/23 720/04/23 7
Corpus écritsCorpus écrits
Actions◦ Recensement des ressources et diffusion des
bonnes pratiques (standards européens : TEI, CLARIN)
◦ Mise en place de groupe de travail
Support :◦ Petit financement pour organiser des journées
d’études, des réunions◦ Embauche d’un ingénieur de recherche CDD
pour aider au recensement et diffusion des corpus : Linda Hriba
7
20/04/23 820/04/23 8
10 groupes de travail10 groupes de travail Groupe de travail n°1
Usage des corpus et droits d'auteurs ou d'éditeurs (Aspects juridiques...)
Groupe de travail n°2 Corpus d'état anciens de la langue (Numérisation, codage…)
Groupes de travail n°3 et 4 Numérisation (OCR, saisies, corrections…)
Groupe de travail n°5 Corpus multilingues (Parallèles, comparables …)
Groupe de travail n°6 Description de corpus collaborative - Metadonnées
Groupe de travail n°7 Corpus d'écrits modernes et prise en compte de nouveaux modes de communication.
Groupe de travail n°8 Annotation du plus haut niveau : syntaxe, sémantique, référence (Annotations collaboratives...)
Groupe de travail n°9 Annotation de surface (Segmentation lexicale, description morphosyntaxique chunking, …)
Groupe de travail n°10 Exploration de corpus (Méthodes, outils…)
Groupe de travail n°11 Qualité scientifique et accessibilité des corpus (Place des corpus dans l'évaluation de la production scientifique des UR)
8
20/04/23 920/04/23 9
Objectifs du groupe de Objectifs du groupe de travail – Annotations de travail – Annotations de haut niveauhaut niveau
Recenser les corpus du français existants avec une annotation de « haut niveau »◦ Proposer une grille de description de ces
corpus (métadonnées)Associer linguistes et spécialistes du TAL
dans la réflexion sur l’annotationRetour d’expériences sur les projets
constituant des corpus annotés ◦ Guide de « bonnes pratiques »
9
20/04/23 1020/04/23 10
Objectifs du groupe de travail – Objectifs du groupe de travail – Annotations de haut niveau (II)Annotations de haut niveau (II)Proposer des journées de formation
(aux normes, aux logiciels d’annotation, aux logiciels d’interrogation)
Proposer des journées d’information : journées thématiques, journées de travail
20/04/23 11
Outils de communicationle wiki de la liste
◦https://listes.cru.fr/wiki/corpus-ecrits/public/groupe-8
s'inscrire sur la liste ◦corpus-ecrits-annot-haut-
20/04/23 1220/04/23 12
Les phénomènes de haut Les phénomènes de haut niveau niveau
SyntaxeSémantiqueDiscours et relations textuellesRéférence
12
20/04/23 1320/04/23 13
2. L’annotation 2. L’annotation syntaxiquesyntaxique
Objectifs : ◦ création de ressources pour les
analyseurs automatiques◦ études des phénomènes linguistiques
Identification des constituants◦ catégories de constituants◦ annotations continues ou discontinues◦ annotations imbriquées ou simples◦ ambiguïtés◦ règles de grammaires indépendantes
d'une théorie particulière?
13
20/04/23 1420/04/23 14
2. L’annotation 2. L’annotation syntaxique (II)syntaxique (II)
Identification des fonctions syntaxiques/dépendances ◦ grammaires de dépendance vs.
étiquetage des corpus annotés◦ phénomènes locaux vs.
phénomènes de dépendances à distance indépendance par rapport aux théories
existantes
14
20/04/23 1520/04/23 15
Corpus arborés pour d’autres Corpus arborés pour d’autres langueslangues
Penn Treebank (U.Pennsylvania)◦ 1 000 000 mots◦ annotation syntaxique et sémantique◦ constituants et en dépendances
SUSANNE : 130 000 mots (G. Sampson) annotations de catégories et fonctions
LASSY (Large Scale Syntactic Annotation of written Dutch) (U.Gröningen, Leuven) (nl)◦ 1 000 000 mots
Corpus d’entraînement et de test CONLL (2009)
15
20/04/23 1620/04/23 16
Corpus arborés pour d’autres Corpus arborés pour d’autres langues (II)langues (II)
Prague Dependency TreeBank (Charles University) 1 500 000 mots◦ Annotation syntaxique, sémantique, coréférence
ItalianTreeBanks ◦ ISST (Pise): multiples niveaux ◦ TUT (Turin) : dépendances◦ VIT (Venise) : multi-domaine, X-bar
GermanTreeBanks : ◦ Negra (Saarland) : constituants et dépendances◦ Tiger (IMS Stuttgart) : indépendant de théories
16
20/04/23 1720/04/23 17
Corpus arborés - FRCorpus arborés - FRFrançais contemporain
◦French Treebank (Abeillé, et al 2003) extrait de Le Monde correction manuelle constituants et fonctions (sujets, objets etc.) fonctions de surface les constituants sont simples compatibilité avec plusieurs analyseurs
◦Séquoia (Candito et Seddah, 2012) Multi-domaine, multi-genre, libre de droit constituants et dépendances
17
20/04/23 1820/04/23 18
Corpus arborés – FR (II)Corpus arborés – FR (II)Corpus arborés de français
contemporain interrogeables en ligne◦L’arboratoire (syntaxe de contrainte,
Bick) : textes français interrogeables en ligne (Europarl)http://corp.hum.sdu.dk/arboratoire.html
◦Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault)http://scientext.msh-alpes.fr
18
20/04/23 1920/04/23 19
Corpus arborés – FR (III)Corpus arborés – FR (III)Français médieval: SRCMF (projet
ANR piloté par Lattice, IMS Stuttgart)◦dépendances◦modèle : SRCMF◦1 verbe principal=1 phrase◦catégories hiérarchisées
possibilité de catégories sous-déterminées en cas de doute
◦annotation manuelle, 2 annotateurs ◦XML, compatible TigerSearch
19
20/04/23 2020/04/23 20
Corpus arborés – FR (IV)Corpus CLASSYN (Univ. Strasbourg et
IMS Stuttgart)◦textes de vulgarisation et articles
scientifiques ◦domaines : médecine, informatique◦Corpus comparables (fr, de)◦environ 700000 tokens/genre/domaine
(fr)◦dépendances (analyseur de B.Bohnet
(2009))◦pas de correction manuelle
20/04/23 2120/04/23 21
3. L’annotation 3. L’annotation sémantiquesémantique
L’annotation sémantique de corpus est très diverse :◦ Types sémantiques et référentiels
Exemples : Entités nommées, expressions calendaires et temporelles
Opinions et sentiments
◦ Désambiguïsation Repérage du « bon » sens du mot
◦ Rôles sémantiques (à l’interface de la syntaxique et de la sémantique) Rôle sémantique du mot et du constituant
21
20/04/23 2220/04/23 22
3. L’annotation 3. L’annotation sémantique (II)sémantique (II)
L’annotation sémantique de corpus est aussi complexe : difficile d’atteindre un bon accord interannotateurs◦Tâches comportant une forte part de
subjectivité◦Souvent pas de standard de
référenceDifficile d’automatiser la tâche
d’annotation22
20/04/23 2320/04/23 23
Les corpus annotés Les corpus annotés sémantiquement pour sémantiquement pour d’autres languesd’autres langues
De nombreux corpus conçus pour évaluer des tâches en TAL (campagnes SenseEval, SemEval, MUC):◦ désambiguïsation: SemCor (Princeton) : anglais,
annoté avec WordNet◦ identification de rôles semantiques : FrameNet
(Berkeley) (en,es,jp), SALSA (Univ. Saarland) (de)◦ identification des opinions : corpus de citations des
débats politiques annotés (JRC Trento)◦ extraction d’information : évenements et les
participants : corpus MUC-7
23
20/04/23 2420/04/23 24
Les corpus annotés pour le Les corpus annotés pour le français : un premier inventaire français : un premier inventaire (à compléter)(à compléter)
Entités nommées :◦Corpus ESTER utilisé dans des
campagnes d’évaluation, annotation des personnes, lieux, organisation (transcription d’émissions de radios) (diffusé par ELRA)
◦Corpus SxPipe (une centaine de dépêches AFP) librement diffusé.
24
20/04/23 2520/04/23 25
Les corpus annotés pour le Les corpus annotés pour le français (II)français (II)
Sentiment et opinion (de très nombreux corpus) :◦Blogoscopie (ANR) (piloté par le LINA) :
annotation des blogs avec les concepts et les évaluations. Librement disponible : http://www.lina.univ-nantes.fr/?Corpus.html
◦Corpus DEFT 2007 : Annotation des opinions disponible à : http://deft.limsi.fr/
◦Corpus PPF (Grenoble) : annotation du lexique des émotions (textes littéraires)
25
20/04/23 2620/04/23 26
Les corpus annotés pour le Les corpus annotés pour le français (III)français (III)
Expressions temporelles :◦French TimeBank : Alpage &
Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain)
26
20/04/23 2720/04/23 27
Les corpus annotés pour le Les corpus annotés pour le français (V)français (V)
Désambiguïsation :◦Corpus de la campagne
ROMANSEVAL (60 mots désambiguïsés). Diffusé par ELRA.
27
20/04/23 2820/04/23 28
Annotation discursive et Annotation discursive et textuelletextuelle
De nombreux phénomènes :◦Structure textuelle : aspects structurels◦Relations discursives, connecteurs,
relations rhétoriques (au sens de la RST) Connecteurs implicites ou explicites Relations de discours hiérarchiques ou
indépendantes ◦Référence, co-référence, phénomènes
anaphoriques Délimitation des expressions référentielles Relations anaphoriques ou de co-référence Divers catégories d’expressions
28
20/04/23 2920/04/23 29
Ressources pour d'autres langues Relations de discours : Penn Discourse
Treebank◦ Indépendant d’une théorie◦ Relations simples◦ Connecteurs
Coréférence : ◦ ACE (tâche limitée : co-référence entre
personnes, organisations, lieux)◦ MUC 6/7◦ OntoNotes◦ tâches SEMEVAL: corpus disponibles en en,
es, it, de, nl
20/04/23 3020/04/23 30
Premier état des lieux pour le Premier état des lieux pour le françaisfrançais
Annotations textuelles
◦ Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumérativesCorpus variés. Bientôt disponible.
◦ Corpus Géopo :Corpus de 270 000 mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations.http://redac.univ-tlse2.fr/corpus/geopo.html
30
20/04/23 3120/04/23 31
Premier état des lieux pour le Premier état des lieux pour le français (II)français (II)
Discours, relations discursives◦French Discourse Treebank (Alpage) : le
pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours)
◦ ANNODIS (en partie)
◦LELIE, projet ANR (IRIT) Textes procéduraux (8000 textes) relations du discours, structure des verbes Annotation automatique révisé
(partiellement) TextCoop + Dislog analyseur de discours
31
20/04/23 3220/04/23 32
Corpus annotés au plan de la Corpus annotés au plan de la coréférence et des anaphores coréférence et des anaphores ◦ Corpus ELRA (Xerox, U. Stendhal) :
Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots
◦ Corpus DEDE : Description définies (48 360 mots) http://www.cnrtl.fr/corpus/dede/
◦ Corpus ANNODIS : chaines topicalisées (614943 mots)
◦ Corpus EvalRefGen : (15 192 mots) multi-genre
32
Premier état des lieux pour le Premier état des lieux pour le français (III)français (III)
20/04/23 3320/04/23 33
Premier état des lieux pour le français (IV)Projet MC4 (PEPS INS2I – INSHS,
porté par Lattice)◦Objectifs :
étudier les chaines de coréférence dans des textes du français médiéval et contemporain, dans les textes narratifs et non-narratifs
établir une méthodologie d’annotation amélioration d’outils d’annotation manuelle
et automatique◦Annotation manuelle: Analec (Victorri,
2010) Corpus annoté en chaines de co-référence
20/04/23 3420/04/23 34
Premier état des lieux pour le français (V)
Projet COMTIS (Improving the Coherence of Machine Translation Output by Modeling Intersentential Relations) (Idiap, Univ. de Généve, Suisse, U.Leuven Belgique)◦ Objectifs :
Utilisation des relations discursives pour améliorer les systèmes de traduction automatique
Corpus multilingue (extrait d’Europarl), dont le français
Annotation manuelle : connecteurs de discours, pronoms
3600 mots
20/04/23 3520/04/23 35
5 Autres types??5 Autres types??
35
20/04/23 3620/04/23 36
6 Proposition de grille de 6 Proposition de grille de descriptiondescription
La grille doit être compatible avec les métadonnées proposés par d’autres projets:◦ CLARIN◦ Labex Empirical Foundations on
Linguistics (http://www.labex-efl.org)
◦ FlaReNet
36
20/04/23 3720/04/23 37
Nom du corpus : Date de création/diffusion : Auteurs : Laboratoire (Université) : Adresse postale : E-mail : Description du corpus : URL : Documentation : Publication à citer : Projet associé : Type de données : écrit/oral/oral transcrit Sources des données : Période couverte par le corpus : Genre (journalistique, littéraire, etc.) Format de représentation (XML, TEI, CES, format propriétaire
etc.): Compatibilité avec d'autres formats (CONLL, SEMEVAL etc) : Langue(s) : Taille (nb de mots) : Types d'informations linguistiques (fonctions syntaxiques,
relations sémantiques, phénomènes discursifs etc.) :
20/04/23 3820/04/23 38
Codage des caractères (UTF-8, UTF-16, Latin-1, Latin-15) :
État d'avancement de la ressource : en cours/achevé
Modèle linguistique (LFG, FrameNet etc.) :Metadonnées normalisées : TEI/Dublin
Core/Open Archive/NonType d'annotation (manuelle, automatique,
automatique révisée) :Domaines couverts par le corpus (médecine,
économie, etc.):Outils d'annotation : Interface Web :Guide d'annotation :Droit d'accès (libre, payant, sous conditions) :Licence (GPL, Creative Commons…) : Coût éventuel :Commentaires (outils associés, taille, usages,
…) :Description disponible dans un autre GT
20/04/23 3920/04/23 39
RéférencesGuillot, C., Heiden, S. et Lavrentiev A.
(2007). « Typologie des textes et des phénomènes linguistiques pour l’analyse du changement linguistique avec la Base de Français Médiéval », LINX, n° spécial, 2007, p. 125-139.
Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht.