thierry poibeau lipn (cnrs et u. paris 13) poibeau
DESCRIPTION
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005). Thierry Poibeau LIPN (CNRS et U. Paris 13) http://www-lipn.univ-paris13.fr/~poibeau. De quoi parle-t-on ?. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/1.jpg)
Architectures articulant des représentations hétérogènes
L’exemple de Gate
(Mini tutoriel, journée Atala du 12 février 2005)
Thierry PoibeauLIPN (CNRS et U. Paris 13)http://www-lipn.univ-paris13.fr/~poibeau
![Page 2: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/2.jpg)
De quoi parle-t-on ?
Architecture permettant de recevoir des outils linguistiques de natures diverses Diversité des langages informatiques
employés Diversité des langues traitées
(multilinguisme) Diversité des types d’annotation Diversité des formats de données etc.
![Page 3: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/3.jpg)
Pourquoi de telles architectures ?
Faciliter la conception d’applications Chaînage d’outils linguistiques Réutilisation de modules existants Gestion aisée des données (corpus et
annotations)
Nouveaux besoins liés au web Informatique répartie Multilinguisme
![Page 4: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/4.jpg)
Quelques plates-formes, classées par type d’annotation
Ajout d’annotations au corpusLT-NSL/LT-XML toolkit, Edimburgh
Stockage des annotations à part TIPSTER (dont Gate, Ellogon, Alembic…)
Représentation uniforme (théorie ling.) Xtag U. Penn ; ENJU, U. Tokyo ; Alep …
Aucun mode de gestion pré-définie ICE Intarc, VerbMobil ; TalLab, I-CDC
![Page 5: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/5.jpg)
L’exemple de Gate
Développé à Sheffield depuis 1996 Gratuit et open source Largement distribué (projets européens… )
« …des milliers d’utilisateurs sur des centaines de sites… »
Initialement développé dans le cadre Tipster
Gate 2 (depuis 2002) Entièrement en java (multi plate-forme) Unicode (multilinguisme)
http://www.gate.ac.uk
![Page 6: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/6.jpg)
Principaux composants
Une infrastructure (architecture) Un ensemble de modules Un ensemble de données (textes, ressources, annotations) Une interface graphique permettant de manipuler les données Les traitements (chaînage de
composant)
![Page 7: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/7.jpg)
Outils intégrés
Un système d’extraction d’information pour l’anglais (Segmentation, analyse morpho-syntaxique, entités nommées…)Un système de gestion de regex (Jape, module d’ expressions régulières en java)Interface d’annotation manuelleOutils d’évaluation (comparaison de l’annotation d’un module/référence)
![Page 8: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/8.jpg)
Gestion des annotations
Format Tipster Informations sous forme attribut-valeur Stockage en dehors du document Référence au document par des indices
de position
Format Gate 2 Possibilités de « sorties » au format XML Nouveau types de données supportées
(dictionnaires, ontologies, etc)
Données demandant des liens entre éléments, plus complexe que le format attribut-valeur
![Page 9: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/9.jpg)
Développement d’applications
Principales utilisations Extraction d’information, résumé
automatique Annotation sémantique (AKT)
Construire une application Choisir des composants Les intégrer à Gate (créolisation) Chaîner les traitements
![Page 10: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/10.jpg)
L’expérience du projet Ecran
Projet européen (1996-1998) But Développer des systèmes d’extraction
d’information en anglais, français, grec
Moyens Plate-forme commune : Gate v1 Composants développés avec différents
langages Français : extraction + indexation
sémantique
![Page 11: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/11.jpg)
Chaîne logicielle
Modules intégrés Modules développés hors-projet (Multext) Modules propres (U. Fribourg, Thomson-
CSF)
![Page 12: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/12.jpg)
Visualiseur d’annotations
Visualiseur de Gate 1 (format propre)
![Page 13: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/13.jpg)
Résultat de l’extraction
Formulaire d’extraction(développé en dehors de Gate, à partir des résultats de
l’analyse)
![Page 14: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/14.jpg)
Bilan du projet Ecran
Des points intéressants Réutilisabilité des modules Visualiseurs intégrés Architecture modulable (chaînage)
Des points problématiques Insertion de composants délicate
(créolisation) Format d’annotation propriétaire (pas
XML) Relativement « lourd » et lent
![Page 15: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/15.jpg)
Quelques éléments sur Gate 2
Environnement de création d’application Cf. environnements de développement
d’applications informatiques Enchaînement en pipe-line ou en parallèle Gestion intégrée des ressources
Intégration d’outils de développement de base Jape : bibliothèque d’automates à états finis Annotation auto./manuelle de textes Plusieurs types de visualiseurs
![Page 16: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/16.jpg)
Construire une application (Gate 2)
![Page 17: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/17.jpg)
Annotation sémantique (Gate2)
![Page 18: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/18.jpg)
Bilan sur Gate 2
Un environnement séduisant Nombreux modules disponibles Facilité de manipulation et de
construction d’application Évaluation
Quelques limites « Créolisation » de composants
extérieurs Efficacité de java ?
![Page 19: Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau](https://reader036.vdocuments.site/reader036/viewer/2022062323/56815328550346895dc14f26/html5/thumbnails/19.jpg)
Conclusion
Des environnements nécessaires Réutilisation et intégration
d’applications Modularité, évolutivité Échanges de données et de traitements
Un investissement rentable pour le TAL