patrick paroubek / limsi-cnrs Évaluation et traitement automatique des languesmardi 21 février...
TRANSCRIPT
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Évaluationet
Traitement Automatique des Langues
Patrick Paroubek Laboratoire pour la Mécanique et les Sciences de l’Ingénieur
Centre National de la Recherche Scientifique
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
1. Le paradigme d’évaluation
2. Contrastes Historiques Europe / États-Unis
3. Le traitement de l’écrit
1. Annoter (Kappa) & Aligner (Prog. Dyn.) &Évaluer (Précision/Rappel)
2. Morphosyntaxe
3. Syntaxe
4. Remarque sur l’évaluation des systèmes de dialogue
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
1. Le paradigme d’évaluation
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Évaluation : subst fém.
Action d’évaluer, d’apprécier la valeur (d’un chose); technique, méthode d’estimation. [TLFI]
L’évaluation est "une formalisation" d’un processus de sélection naturelle.
L’évaluation est inhérente au processus scientifique.
Trouver une réponse (optimale) à un problème.
Comment comparer les réponses ?
L’évaluation nécessite l’adoption d’un système de valeurs.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
1) Qu’évalue t’on ? (identifier la frontière du système et la tâche effectuée par le système)
2) Évalue t’on un système ou un couple système-utilisateur ?
3) Par rapport à quel système de valeurs ?
4) Par rapport à quel objectif ? (réponse apportée par l’évaluation).
Rem. L’évaluation n’est pas une compétition (compétition = qui ? , évalution = comment ?)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
L’évaluation fait peur (sélection/compétition).
Le rapport ALPAC 1966 a engendré un arrêt des financements aux USA pour la Traduction Automatiquependant 20 ans. Mais ce qui est dangereux n’est pas l’évaluation, mais la manière dont on utilise ses résultats.
Par ex. une lecture abusive du livre de Minsky & Papert (Perceptrons) a retardé l’avènement des réseaux de neurones multi-couches d’une dizaine d’années.
Maghi King, « When is the next ALPAC report due? », 10th International Conferenceon Computational Linguistics, Proceedings of Coling84, July 1984, Stanford University,Ca (ACL 1984); p 352-353.
http://ourworld.compuserve.com/homepages/WJHutchins/Alpac.htm
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Les campagnes d’évaluations sont un accélérateur duprocessus scientifique: ressources, outils, standards, infrastructure, synergie.
LDC (http ://www.ldc.upenn.edu) aux USA et ELRA/ELDA en Europe (http ://www.elra.org ou www.elda.info)
Objectif : créer, maintenir, distribuer, partager des ressourceslinguistiques.
LDC = Linguistic Data Consortium, consortium ouvert de laboartoires de recherche, univsertités, industriels et agences gouvernementales, fondé en 1992 (ARPA et NSF), hébergé à l’Université Pennsylvania.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
ELRA association à buts non lucratifs (loi 1901), basée au Luxembourg, fondée en février 1995.
ELDA, S.A. fondée en février 1995, instrument exécutif d’ELRA.Financement Européen initial, puis auto-financement.
Objectif: pérenniser/partager les ressources produites par les projets Européens, ainsi que produire de nouvelles ressources.
Impact de l’évaluation : Ex. Progrès en reconnaissance de Parole grace aux évaluationsDARPA aux USA qui ont amené la technologie sur le marché.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Compétition: 1 critère, ordre total, pas d’audit de performance, pas de reproductibilité
Validation : plusieurs critères, ordre partiel, seuil de performance, réponse oui/non, reproductibilité
Évaluation: plusieurs critères, ordre partiel, audit de performance, reproductibilité.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
ELSE distingue : 5 types d’évaluations:
ELSE: http: //www.limsi.fr/TLP/ELSE
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
1. Évaluation en recherche de base, pour valider des idées nouvelles et quantifier leur apport,
2. Évaluation de technologie, mesure de la performance etde l’adéquation de méthodes pour résoudre un problèmebien défini, simplifié et abstrait,
3. Évaluation orientée utilisateur, utilisabilité d’une technologie pour résoudre un problème de terrain,en conditions réelles d’utilisation,
4. Évaluation d’impact, conséquences socio-économiquedu déploiement d’une technologie,
5. Évaluation de programme, évaluation d’impact destechnologies supportées par un programme institutionnel.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
« extrinsic » / « intrinsic » evaluation criteria,
Intrinsèque = critère lié uniquement à la fonction propre du système
Extrinsèque = critère lié à la fonction du système, considérée dans son environnement de déploiement usuel.
Karen Spark-Jones & Julia R. Galliers, « Evaluating Natural Language Processing Systems »,Springer, 1995.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
EAGLES distingue 3 types d’évaluation:
1. « adequacy » evaluation, adéquation d’un systèmepour une fonction donnée
2. « diagnostic » evaluation, identification des raisonsde dysfonctionnement
3. « progress » evaluation, mesure des progrès en performance
EAGLES : http: //www.issco.unige.ch/projects/ewg96/ewg96.html(evalutation of NLP systems : final report, )
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Qualitative (morpholympics)
Quantitative (NIST/DARPA, Technolangue-EVALDA)
Comparative (NIST/DARPA, Technolangue-EVALDA)
Boîte « noire » (NIST/DARPA, Technolangue-EVALDA)
Boîte « blanche » (DISC)
Subjective (morpholympics)
Objective (NIST/DARPA, Technolangue-EVALDA)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Le paradigme d’évaluation (Joseph Mariani)
1. Assembler des acteurs (évaluateurs, participants, producteurs de ressources)
2. Organiser une campagne d’évaluation sur de données communes
3. Définir une mesure de performance commune
Joseph Mariani, Patrick Paroubek, "Human Language Technologies Evaluation in the European Framework", actes de l'atelier DARPA Broadcast News Workshop, Whashington, February 1999, Morgan Kaufman Publishers, ISBN-1-55860-638-6, pp 237-242
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Une infrastructure pour l ’évaluation en ingéniérie linguistique :
1. Comparative & Collaborative
2. Tâche/Application Indépendente
3. Semi-Automatique & Reproduisible
4. Boîte Noire + Conférence
5. Quantitative
6. Multilingue
7. Oral & écrit
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Actors in the infrastructure
European CommissionELRA
ParticipantsEvaluators
Users & Customers
(EU / non EU)
L. R. Producers
Research Industry Citizens
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Attentes:
1. Renforcement de l’utilisation des standards
2. Des informations et des connaissances sur les applications et les technologies disponibles de meilleur qualité et plus abondantes
3. Des produits et des ressources de meilleurs qualité
4. Un accroissement de la quantité de ressources linguistiques annotées et validées
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Structure d’une campagne
1. Phase 1 - Développement (distribution calibrage / données d’entrainement)
2. Phase 2 - Essais + première Adjudication (+ Conférence/Atelier)
3. Phase 3 - Tests + seconde Adjudication + Conférence/Atelier
4. Phase 4 - Valorisation (distribution des données produites et des résultats)
5. Phase 4 - Étude d ’Impact
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
La tâche de contrôle
1. La fonction de traitement du language doit être facile a comprendre
2. Elle peut être réalisée manuellement
3. Il peut s’agir d’une tâche « artificielle »
4. Il existe un formalisme commun, facilement accessible (projection/transcodage aisé)
5. Il est « facile » de définir une mesure de performance
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
2. Contrastes Historiques Europe / États-Unis
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Contexte international
1. États-Unis1. Campagnes d ’évaluation NIST - DARPA
1. Depuis 1987, ouvertes en 19922. Ecrit / Oral3. Production / distribution des ressources (LDC)4. Organisation des campagnes (NIST)
2. Traitement du Langage Parlé1. Dictée Vocale (RM, WSJ, NAB)2. Compréhension de la langue parlée (ATIS)3. Transcription infos radio/télédiffusées (BN)4. Reconnaissance de conversations (switchboard)5. Reconnaissance du locuteur6. Reconnaissance de la langue parlée
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Contexte international
1. États-Unis1. Traitement du Langage Écrit
1. Recherche d’Informations Textuelles (TREC)2. Compréhension de Messages (MUC)3. Traduction Automatique
2. Traitement du Langage Écrit + Parlé1. Extraction d’Entités Nommées (dans BN)2. Détection et Suivi de Thèmes (TDT) (dans BN)
3. Reconnaissance de caractères etc...
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Évaluation aux USA (Parole)
1. CSR (DARPA) read & found english, 89-97
2. LVCSR conversationel, multilingue
3. ATIS (DARPA)
4. DARPA/NSF en 1998 (multilingue):
1. Extraction d ’entité nommées
2. Détection et suivit de thèmes
3. Transcription de nouvelles
4. COMMUNICATOR
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Traitement Automatique des Langues et Industrie de la Langue
Évaluation (USA)
COMMUNICATOR dialogue oral pour la réservation de transport, l’hébergement et planification d’itinéraire
TIDES extraction d’information interlingue, traduction et résumé automatique
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Traitement Automatique des Langues et Industrie de la Langue
Évaluation (USA)
AQUAINT (Defense Ministry) programme de l’ ARDA, extraction d'information étendue en amont et en aval sur des données multimodales, pour incorporer des connaissances à des données factuelles du types de celles manipulées dans les évaluations TREC
ITR (NSF) recherche en technologie de l'information)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Traitement Automatique des Langues et Industrie de la Langue
Évaluation (USA)
SYMPHONY (DARPA) suite de COMMUNICATOR et dont les objectifs sont : la reconnaissance de la parole robuste en milieu bruité, le compte rendu automatique de réunion, la fusion de données multimodales, l'interprète automatique, les interfaces homme-machine dialogiques, la traduction automatique (déjà présente dans le programme TIDES), et l'exploitation rapide et automatique de langues nouvelles
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Évaluation aux USA (écrit)
1. Tipster program (DARPA & NIST)
2. MUC-1 (1987) to MUC-7 (1998)
3. MET-1 (1995) and MET-2 (1998)
4. TREC-1 (1992) to TREC-7 (1998)
5. SUMMAC
6. MT Evaluation (1992, 1993, 1994)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Traitement Automatique des Langues et Industrie de la Langue
Évaluation (USA)
Les directions de recherche favorisées par le DARPA:
les technologies robustes à large couverture,les technologie de base largement réutilisables, la multilingualité, le partage des données ( LDC)les corpus arborés (U. Penn)
les évaluation comparatives supportées par des métriques quantitatives,
les expériences d'intégration et de faisabilitéL’objectif à plus long terme étant la compréhension du langage
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Contexte international1. Japon, National Institute of Informatics
(http ://www.nii.ac.jp)1. Research Center for Information Ressources (test collection for IR
systems) 2. Research Center for Testbeds and Prototyping
(scholarly information retrieval)
2. Cocosda / Oriental Cocosda(International Committee for the Coordination andStandardisation of Speech Databases and Assesment Techniques)
3. Conférences :1. HLT workshop 02, 03, 04, 062. LREC conference 98, 00, 02, 04, 063. LangTech conference 02, 03,
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Évaluation en Europe
EAGLES
TSNLP
DIET
TEMAA
SQALE
SPARKLE
DISC
MATE
COCOSDA
SAM & SAM-A
Morpholympics
Actions de recherche concerté de l’AUPELF
GRACE (CNRS)
VerbMobil
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Pilot Senseval / Romanseval
Task: Word Sense Disambiguating (Senseval/English) 20 nouns, 20 adjectives and 20 verbs Romanseval, same task in French & Italian. 8 month (December 1997 - September 1998) 35 teams interested / 21 systems evaluated Senseval: FR, USA, IT, UK, CH, KO, MA, CA, SP, NL Romanseval: FR, IT, CH Budget :61 KEuros(English) Data, hardware and computing for free. Evaluatees not funded.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
SQALE Project
Duration 1993 to 1995. Evaluation of 3 different ASR 3 languages + 1 common (Fr., Germ., UK Eng. + US Eng.) TNO-IZF (NL), Philips (D), U. Cambridge (UK), Limsi-
CNRS (F) Task: dictation of newspaper texts Result: If a system is better on the common language than
another system, it will also be better on its own language. Comparison with human performance was studied.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
DISC Project
Reference methodology for SLDS development. Best practice development and evaluation (existing
components & procedures) Results: Guidelines and Heuristics 2 Guiding principles: Grid Aspects of SLDS components
and Development Lifecycle of SLDS 7 Participants: NIS (DK), LIMSI (F), IMS (D), KTH (S),
Vocalis (UK), D-Benz (D), ELSNET (NL) Duration: 1 year (1998) Follow-up: DISC-2 (January 1999) information update,
packaging, access and usability
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
DISC Project
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
EAGLES Evaluation WG
EAGLES was launched in 1993 Aim: standards for NLP technology (including evaluation) Eval. working group started from ISO 9126 (software) User-oriented methodology (consumer report paradigm) for adequacy evaluation or progress evaluation Formalism (based on feature structures) for classifying
products and users. Case studies on: spelling checkers (LRE-TEMAA),
grammar checkers and translators’ aids. Follow-up: EAGLES-II (1995-1998), consolidate, extend
and disseminate EAGLES results.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
ELSE Project
Evaluation in Language and SpeechEngineering 8 partners: MIP (DK), LIMSI (FR), DFKI (D), U. Pisa (I),
EPFL (CH), XRCE (FR), U. Sheffiel (UK), CECOJI (FR)+ ELSNET & ELRA
Duration: January 1998 - April 1999. Budget: 414 KECU Draw a blueprint for an evaluation infrastructure (IST Key
Actions of FP5 ?) Evaluation Paradigm: contrastive quantitative Technology
Evaluation.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Actors in the infrastructure
European CommissionELRA
ParticipantsEvaluators
Users & Customers
(EU / non EU)
L. R. Producers
Research Industry Citizens
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Traitement Automatique des Langues et Industrie de la Langue
Évaluation (Europe)
EAGLES TSNLP DIET TEMAA SQALE SPARKLE DISC MATE
COCOSDA SAM & SAM-A Morpholympics Actions de recherche
concerté de l ’AUPELF
GRACE (CNRS) VerbMobil ELSE
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Traitement Automatique des Langues et Industrie de la Langue
Évaluation (Europe)
CLASS EvaluationURL: http: //www.limsi.fr/TLP/CLASS
Disponibles sur le site : Actes de LREC2000 CLASS atelier satellite sur l’évaluation.
1. Actes de EACL 2OO1, Toulouse, atelier « Evaluation for Language & Dialog Systems »
2. Présentations du Bullet Course on the paradigm of Evaluation in Speech and Language, Juillet, Paris 02 et 032001.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Traitement Automatique des Langues et Industrie de la Langue
Évaluation (Europe)
CLEF: recherche d’information interlingue
SENSEVAL: désambiguïsation sémantique
SMARTKOM: nouveau projet allemand.
TCSTAR technologie pour interprète automatique
ECOM (ELRA) évaluation
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
FRANCIL Program
Created : June 1994
Coordinator: J. Mariani, F. Néel
Networking (70 laboratories, 9 countries)
Training
Collaborative Research Actions (ARP)
Strategic Research Actions (ARC)
Budget: 4 Meuro / 4 years - 2 Meuro ARC
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
ARC
Use of the evaluation paradigm for accompanying research :Infrastructure for evaluation (protocols, metrics,
organization...)Language Resources for systems development and
evaluationDiscussion of the advantages and disadvantages of
different approaches based on objective evaluation conducted on common data
Written and spoken language
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
ARC ILEC (Written Language)
Language Resources for written French language and system evaluation:A1 (Amaryllis): Natural Language Access to
textual information
A2 (Arcade): (Bi/Multi)lingual (French-English) corpus alignment
A3: Automated terminological database design
A4: Text understanding
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
ARC ILOR (Spoken language)
• Language Resources for spoken French language and system evaluationB1: Voice Dictation (large vocabulary
recognition)
B2: Vocal Dialog
B3: Text-to-Speech synthesis
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
ARC: Calendar & Budget
Call for proposals in July 1994, selection in November 1994 of 50 proposals (34 labs) out of 89 proposals.
2 evaluation campaigns of a two year time span (1996-1997 and 1998-1999)
Total budget (6 ARCs) = 2 Meuros ( 4 years) 167 Keuros / campaign / control task (1 evaluator, ~ 7 evaluatees, 3 different countries)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
CNRS CCIIL GRACE Action
Control Task: POS tagging for French. Corpora: Train.= 10 Mw, D.R.= 450Kw, T.= 650 Kw Call for tenders November 1995. Training January 1996. Dry run October 1996. Workshop (JST April 1997). Tests December 1997. Workshop in May 1998. First results disclosed on the WEB in November 1998. 18+3 participants, 5 countries (CA, USA, D, CH, FR). Budget 800 Keuros Byproducts: eval. results, com. prod., 1 Mw valid. corpus
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
TechnoLangue
Programme d’infrastructure en soutien à la R&D, la R&D restant dans les RRIT et le programme spécifique« Veille »
TECHNOLANGUE
RNRT RNTL RIAM VSE
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Programme d’évaluation TECHNOLANGE:
EVALDA
ARCADE II alignement de documentsCESART acquisition de terminologieCESTA traduction automatiqueEASy analyse syntaxiqueEquer Question-RéponsesESTER transcription émission radioEvasy Synthétiseur de parole françaisMEDIA compréhension du dialogue
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Le traitement de l’écrit
1. Annoter (kappa et segmentation)2. Aligner (Programmation Dynamique)3. Évaluer (Précision/Rappel)4. Morphosyntaxe (GRACE)5. Syntaxe (EASY)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Le (coefficient) Kappa est une mesure permettant de quantifier la plus ou moins grande similarité entre deux systèmes d’annotation (accord inter-annotateur).
Le kappa est fréquemment utilisée en TALN.
Il a été défini par [Cohen 1960].
Le principe est de relativiser la valeur effectivement observée pour le taux d’accord en la rapportant à celle qui aurait été obtenue en comparant deux systèmes affectant les étiquettes de façon aléatoire dans les mêmes proportions que les systèmes effectivement comparés.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Barbara Di Eugenio and Michael Glass (2004). The kappa statistic: A second look. Computational Linguistics, 30(1):95-101.
Véronis, J. (1998a). A study of polysemy judgements and inter-annotator agreement. Senseval workshop, 2-4 Sept. 1998. Herstmonceux Castle, England.
Bruce, R., Wiebe, J. (1998). Word sense distinguishability and inter-coder agreement. Proceedings of the 3rd Conference on Empirical Methods in Natural Language Processing (EMNLP-98). ACL SIGDAT, Granada, Spain, June 1998.
Carletta, J. (1996). Assessing agreement on classification tasks: the kappa statistics. Computational Linguistics, 22(2), 249-254.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Jones, A. P., Johnson, L. A., Butler, M. C., & Main,D. S. 1983. Apples and oranges: An empirical comparison of commonlyused indices of interrater agreement. Academy of Management Journal,26(3): 507-519.
Davies, M., Fleis, J. L. (1982). measuring agreement for multinomial data. Biometrics, 38, 1047-1051.
Brenann, R. L. & Prediger, D.J. (1981). Coefficient Kappa : Some uses,misuses and alternatives. Educational and Psychological Measurement,4, 687-699.
Hubert, L. 1977. Kappa revisited. Psychological Bulletin, 84(2):289-297.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Landis J.R.; Koch G.G. (1977) The measurement of observer agreement for categorial data. Biometrics 45:255-268
Fleiss, J. L.; Cohen, J.; and Everitt, B. S. Largesample standard errors of kappa and weighted kappa. Psychological Bulletin 72 (1969): 323-327.
Cohen, J. (1960) A coefficient of agreement for nominal scales.Educational and Psychological Measurements 20(1): 37-46.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
1. qualifier « l’indépendance » de 2 annotations (o/n)2. quantifier l’accord de 2 annotations
Pour (1) pas de pb, mais pour (2) hypothèse d’indépendance des annotateurs suscite des questions
Valeurs de kappa, accord [Landis & Koch, 77]: 0.21 - 0.40 faible 0.41 - 0.60 modéré 0.61 - 0.80 substantiel (poser des hypothèses) 0.81 - 1.00 presque parfait (les vérifier)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
K = (P(A) - P(E) ) / (1 - P(E))
P(A) = probabilité d’accord mesurée
P(E) = probabilité estimée d’un accord du au hasard
- V
- 45 4
V 15 301
A1 A2 365 occurrences de la forme « est » annotées par 2 systèmes en V (verbe) ou autre (-)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Kappa = 0.7, en estimant les probabilités par la fréquenceavec la loi des grands nombres (risque 5%) et en supposantles annotations indépendantes.
…001061 V 001061 V001111 V 001111 V001122 - 001122 –001206 - 001206 –001214 V 001214 V001284 V 001284 V001398 V 001398 V001451 V 001451 –…
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
En TALN, analyser c’est de manière générale :
1. Segmenter (par ex. frontières de mots)2. Identifier ( par ex. lister les étiquettes morpho-
syntaxiques possibles)3. Désambiguïser, éventuellement (par ex. choisir la
bonne étiquette morpho-syntaxique)
Le problème est circulaire!
A la base: Qu’est-ce qu’un mot ?Importance en TALN du choix des unités élémentaires,
les (tokens).
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
0 I Nkms
1 où Pr-mp--
2 l Pp3msn-/1.3
3 ' Pp3msn-/2.3
4 on Pp3msn-/3.3
5 commence Vmip3s-
6 à Sp
7 ne Rpn
8 pas Rgn
9 comprendre Vmn----
10 ce Pd-ms--
11 n Rpn/1.2
12 ' Rpn/2.2
13 est Vmip3s-
14 pas Rgn
15 sans Sp
16 une Da-fs-i
17 certaine Ai-fs
18 émotion Ncfs
19 que Pr-fs--
20 je Pp1msn-
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Nombre de mots en fonction du participant (GRACE)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Nombre de phrases en fonction du participant (GRACE)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Outil d’alignement acquis de l’évaluation de l’oral pour lequel beaucoup de travail a été fait sur la mesure fondamentale en transcription de parole, le taux d’erreur de transcription (Word Error Rate). La meilleur mesure (fidélité) : mesure du nombre d’insertions, de suppressions et de substitutions.
[J. Makhoul and F. Kubala and R. Schwartz and R. Weischedel, Performance measures for information extraction, Proceedings of DARPA Broadcast News Workshop, 1999, Herndon, VA, February,
http ://citeseer.ist.psu.edu/makhoul99performance.html]
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Cette mesure repose sur le réalignement des données produites par un système avec la transcription de référence au moyen de l’algorithme de Programmation Dynamique (réalignement optimal, minimum de distortions introduites)
DP utilise une métrique de Levenshtein (ou distance d'édition de Seller) [allison90]
L. Allison and C. S. Wallace and C. N. Yee,When is a String Like a String?, Proceedings of International Symposium on Artificial Intelligence in Mathematics (AIM)},1990,Ft. Lauderdale, Florida, January,
http ://www.csse.monash.edu.au/~lloyd/tildeStrings/Alignment/90.AIM.html
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Fonction de coût :c( x, x )=0 // annotation correctec( vide, x )=3 // insertionc( x, vide )=3 // omissionc( x, y )=4 // substitution
Soit la matrice M(i,j), 0<i<L, 0<j<N, représentant le coût de l'alignement des sous-sequences hypothèse h(j) sur la sous-séquence de référence r(i)
M(0,0) = 0 // condition limiteM(0,j) = M(0, j-1) + c( vide, h(j) ) // condition limite, insertionM(i,0) = M(i-1, 0) + c( r(i), vide) ) // condition limite, omissionM{i,j) = min( (M(i-1, j-1d) + c( r(i), h(j))), // correcte ou substitution (M(i-1, j) + c( r(i), vide )), // omission (M(i, j-1) + c( vide, h(j) ))), // insertion
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
La somme des coûts d'une insertion (3) et d'une délétion (3) est supérieur au coût d'une substitution (4), on utilisera donc de préférence des substitution à la place de paires insertion-omission, qui seront présentes uniquement pour réaligner les deux flux de données .
L'alignement est obtenu en identifiant dans la matrice M(i,j) le chemin de coût minimal, allant de M(L,N) à M(0,0).
Pour l'oral, le résultat de l'évaluation pour un tour de parole est donné par le décompte des nombres d'insertion, d'omission et de substitution, pondéré par le nombre de mots présents dans la référence . [Makhoul et al. 99]
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
000000 Au DTC:sg000001 cours SBC:sg000002 de PREP
000000 Au Sp+Da-ms-d000001 cours Ncfs|Ncms000002 de Da----i|Da-fp-i|Da-mp-i|Sp
Alignement (15 systèmes différents pour les tests)
Projection des étiquettesdans le jeu GRACE
000000 Au Sp/1.3 6/14[0.428571]000001 cours Ncms|Sp/2.3 6/15[0.4]000002 de Sp 7/13[0.538462]
CombinaisonVote &mesure deconfiance
P.Paroubek / Limsi-CNRSTALANA 24/01/2001
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Des mesures d’évaluation des annotations issues de l’IR : Précision et Rappel
nbr de paires correctes ( mot-annotation ) hypothèseRappel = nbr total de paires (mot-annotation) référence
Si la référence n’est pas ambigue (souvent), alors :rappel = proportion d’annotations contenant au moins une annotation correcte
nbr de paires correctes ( mot-annotation ) hypothèsePrécision = nbr total de paires (mot-annotation) hypothèse
Si ni la référence, ni l’hypothèse ne sont ambigues alors : Précision = Rappel
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
P.Paroubek / Limsi-CNRSTALANA 24/01/2001
GRACE, évaluation d'étiquettage morphosyntaxique pour le français, 21 participants, 5 pays:
3 phases: entrainements (10 millions de mots),essais (450.000), test (836.500)
17 participants aux essais, 13 participants aux tests finaux
mesure précision/décision, sur 20.000 mots, puis 40.000 mots.étiquettes EAGLES et MULTEXT
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
•Meilleur (P, Dmax): score( P, D ): (0.948489 , 1.000000) intervalle[Pmin, Pmoy, Pmax]: [0.948489 , 0.948489 , 0.948489 ]
• Meilleur P: score( P, D ): (0.978802 , 0.256331) intervalle[Pmin, Pmoy, Pmax]: [0.251084 , 0.404534 , 0.952951 ]
•Vote 15 systèmes: score( P, D ): (0.936202 , 0.961558) intervalle[Pmin, Pmoy, Pmax]: [0.903685 , 0.917102 , 0.933155 ]
•Vote 5 meilleurs P: score( P, D ): (0.966567 , 0.928952) [Pmin, Pmoy, Pmax]: [0.902195 , 0.925850 , 0.961424 ]
P.Paroubek / Limsi-CNRSTALANA 24/01/2001
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
P.Paroubek / Limsi-CNRSTALANA 24/01/2001
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
P. Paroubek / Limsi-CNRS
Annotation Morpho-syntaxique
27 / 03 / 01
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
000000 Au Sd{1}|Sd/1.3{2}|Sp{1}|Sp+D[ad]-ms-d{1}|Sp+Da-ms-d{5}|Sp/1.2{1}|Sp/1.3{6}|Sp/1.4+Sp/2.4{1}
000001 cours Ncfp{3}|Ncfs{1}|Ncmp{2}|Ncms{6}|Sd/2.3{2}|Sp/2.2{1}|Sp/2.3{6}|Sp/3.4{1}|Vmip1s-{2}|Vmip2s-{2}|Vmmp2s-{2}
000002 de Da----i{3}|Da-fp-i{2}|Da-mp-i{3}|Di-fp--{1}|Di-fs--{1}|Di-mp--{1}|Di-ms--{1}|Sd/3.3{2}|Sp{7}|Sp/3.3{6}|Sp/4.4{1}
Apprentissage Automatique / Combiner plusieurs méthodes pour améliorer les résultats Ada Boost (Schwenk, 1999), cascade de sytèmes similaires pour la reconnaissance de parole.
Plus loin dans le temps, stratégie du Winner Take All compétition en unités similaires de traitement (Simpson 1990)
P.Paroubek / Limsi-CNRSTALANA 24/01/2001
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Combiner pour améliorer NIST, reconnaissance de la parole
ROVER - Recognizer Output Voting Error Reduction (Fiscus 1997)
Sytème composite, meilleur performance que le meilleur des systèmes.
Graphe de mot (alignement), vote à majorité (pondéré par la fréquence maximale d'occurence et un score de confiance).
Réduction d'erreur mesurée par Fiscus: 5,6 % en absolu (et 12,5% en relatif).
Principe de combinaison de systèmes utilisé par Marquez & Prado 1998 (combinaison de 2 étiquetteurs pour marquer un corpus)
Tufis 1999 (plusieurs versions du même système entraîné sur des données différentes)
P.Paroubek / Limsi-CNRSTALANA 24/01/2001
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Phase 1: 38643 formes (4 % des 836500 formes) relues pour la catégorie et la sous-catégorie
Phase 2: 64061 formes (8 % des 836500 formes) relues pour les indications de genre, nombre et personne
Validation: selection aléatoire de 511 formes, 53 formes identifiées commes douteuses (pas de décision de vote); 27 d'entres elles n'étaient pas correctement étiquettées (erreur de relecture, ou erreur ou ambiguité résiduelle; traits autres que G, N, P), c.a.d. env. 50 % (+-13% avec risque 95%)
Inversement sur 458 formes qui n'étaient pas à relire, seules 10 étaient mal étiquettées, ce qui représente un taux d'erreur résiduelle de 2,18% (+-1.34% avec risque 95%)
P.Paroubek / Limsi-CNRSTALANA 24/01/2001
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
CONCLUSION
La campagne GRACE et l'expérience MULTITAG ont prouvé que le paradigme d'évaluation peut servir à produire de manière économique des ressources linguistiques validées de qualité.
La généralisation à d'autre tâches de contrôle permet d'augmenter rapidement la quantité de données annotées et validées tout en permettant de déployer le paradigme d'évaluation plus avant.
P.Paroubek / Limsi-CNRSTALANA 24/01/2001
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
1. La campagne EASY
2. Annotations pour l’analyse syntaxique
3. Les données
4. Les résultats préliminiaires
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
•France Telcom R&D
• GREYC
•INRIA (ATOLL 1,2)
•LATL
•LIC2M
•LIRMM
•LORIA
• XEROX
•LPL (1,2 & 3)
•PERTIMM
•SYNAPSE
•ERSS
•TAGMATICA
Objectif: évaluation d’analyse syntaxique
5 fournis. corpus, 13 participants, 16 systèmes évalués
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
• ATILF (littéraire)
•DELIC (oral transcrit, emails)
•ELDA (oral ESTER, MLCC, sénat, questions TREC traduites, questions Amaryllis, web)
•LLF (Le Monde)
•STIM (médical)
Les fournisseurs de corpus :
Il arrive en retard, avec, dans sa poche, un discours qu’il est obligé de garder.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
1. GN groupe nominal
2. GP groupe prépositionnel
3. NV noyau verbal
4. GA groupe adjectival
5. GR groupe adverbial
Guide d’annotation (A. Vilnat) : http://www.limsi.fr/Recherche/CORVAL/easy/PEAS_reference_annotations_v1.6.html
5 types de constituants
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
1. Sujet - Verbe
2. Auxiliaire - Verbe
3. Objet direct - Verbe
4. Complément - Verbe
5. Modifieur – Verbe
6. Complémenteur
7. Attribut -Sujet/Objet
8. Modifieur - Nom
9. Modifieur - Adjectif
14 types de relations
10.Modifieur – Adverbe
11.Modifieur – Préposition
12.Coordination
13.Apposition
14.Juxtaposition
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Outil d’annotation : éditeur HTML + conversion XML (I. Robba)
Annotation manuelle en constituants Énoncé 1En quelle année Desmond Mpilo Tutu a-t-il reçu le prix Nobel …
Énoncé 1GP1 GN 2 NV3 NV4 GN5 En quelle année Desmond Mpilo Tutu a-t-il reçu le prix Nobel …
Et en relations etc…
1 2 3 4 5 6 7 8 8 9 10 11
sujet verbe GN2 F7
F8 F7
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
•Énoncé 12NV1 GN2 NV3 GR4 GA5Je pense que monsieur est très inquiet .
1 2 3 4 5 6 7 8
COD Verbe
NV 3 NV1
Complémenteur NV prop. sub.
NV 3 NV1
Représentation interne des données au format XML / UTF8 (DTD EASY).
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Outils de validation : •éditeur graphique (E. Giguet)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Les données ont été fournies aux participants :
•Brut•Segmentées en énoncés•Segmentées en mots et en énoncés•Segmentées en mots et en énoncés et annotées morphosyntaxiquement (WinBrill + étiquettes GRACE)
Corpus de test annoté par les participants : 769 154 formes 40 260 énoncésCorpus de mesure : 83 925 formes 4 269 énoncés
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Web 16 786 836 2 104 77
Journal 86 273 2 950 10 081 380
Parlement 81 310 2 818 8 875 298
Littéraire 229 894 8 062 24 236 881
email 149 328 7 976 9 243 852
médical 48 858 2 270 11 799 554
Oral man. 8 106 522 8 106 522
Oral auto 97 053 11 298 5 365 502
Questions 51 546 3 528 4 116 203
Formes Enoncés Formes Enoncés
Corpus de test Corpus de mesure
Genre
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Les énoncés sont définis à partir de la typographie au moyen d’expressions régulières.
Les formes sont définies avec ces mêmes expressions et avec une liste pour les formes composées (non nominales).
Les données DELIC ont été segmentées en énoncé manuellement (manque de ponctuation).
Toutes les autres données ont été segmentées automatiquement avec les outils EASY
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
a_contrario Rgp A_contrario Rgp à_contre-pied Rgp À_contre-pied Rgp à_côté_d' Sp À_côté_d' Sp à_côté_de Sp À_côté_de Sp à_côté_des Sp À_côté_des Sp à_côté_du Sp À_côté_du Sp à_coup_sûr Rgp À_coup_sûr Rgp à_court_terme Rgp
Liste des formes composéespour la segmentation de référence.
1730 formes
38 Adjectifs 218 Conjonctions 8 Interjections 184 Déterminants 128 Pronoms 626 Adverbes 528 Prépositions 2 Prepositions ou Adverbes
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
<DOCUMENT fichier="oral_delic_1.xml"><E ID="E1"><F ID="E1F1">fref-f-c3</F></E><E ID="E2"><F ID="E2F1">voilà </F></E><E ID="E3"><F ID="E3F1">ben</F><F ID="E3F2">je</F><F ID="E3F3">travaille</F><F ID="E3F4">dans</F><F ID="E3F5">un</F><F ID="E3F6">pressing</F></E>
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
<DOCUMENT fichier="oral_elda_1.xml"><E ID="E1"><F ID="E1F1">14</F><F ID="E1F2">heures</F><F ID="E1F3">À </F><F ID="E1F4">Paris</F><F ID="E1F5">,</F><F ID="E1F6">midi</F><F ID="E1F7">en</F><F ID="E1F8">temps</F><F ID="E1F9">universel</F><F ID="E1F10">,</F><F ID="E1F11">l'</F><F ID="E1F12">information</F><F ID="E1F13">continue</F><F ID="E1F14">sur</F><F ID="E1F15">RFI</F><F ID="E1F16">.</F></E>
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
<?xml version="1.0" encoding="UTF-8"?><DOCUMENT fichier="\Oral Elda\oral_elda_1EASY.UTF8.xml" xmlns:xlink="http://www.w3.org/1999/xlink"><E id="E1"><constituants><Groupe type="GN" id="E1G1"> <F id="E1F1">14</F> <F id="E1F2">heures</F></Groupe><Groupe type="GP" id="E1G2"> <F id="E1F3">Ã </F> <F id="E1F4">Paris</F></Groupe> <F id="E1F5">,</F><Groupe type="GN" id="E1G3"> <F id="E1F6">midi</F></Groupe><Groupe type="GP" id="E1G4"> <F id="E1F7">en</F> <F id="E1F8">temps</F></Groupe><Groupe type="GA" id="E1G5"> <F id="E1F9">universel</F></Groupe> <F id="E1F10">,</F><Groupe type="GN" id="E1G6"> <F id="E1F11">l'</F> <F id="E1F12">information</F></Groupe><Groupe type="NV" id="E1G7"> <F id="E1F13">continue</F></Groupe>
ANNOTATIONS EN CONSTITUANTS
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
<Groupe type="GP" id="E1G8"> <F id="E1F14">sur</F><F id="E1F15">RFI</F></Groupe> <F id="E1F16">.</F><F id="E1F17">§</F></constituants><relations><relation xlink:type="extended" type="MOD-N" id="E1R2"><modifieur xlink:type="locator" xlink:href="E1G4"/><nom xlink:type="locator" xlink:href="E1F6"/><a-propager booleen="faux"/></relation><relation xlink:type="extended" type="SUJ-V" id="E1R3"><sujet xlink:type="locator" xlink:href="E1G6"/><verbe xlink:type="locator" xlink:href="E1G7"/></relation><relation xlink:type="extended" type="CPL-V" id="E1R4"><verbe xlink:type="locator" xlink:href="E1G7"/><complement xlink:type="locator" xlink:href="E1G8"/></relation><relation xlink:type="extended" type="MOD-N" id="E1R5"><modifieur xlink:type="locator" xlink:href="E1G5"/><nom xlink:type="locator" xlink:href="E1F8"/><a-propager booleen="faux"/></relation><relation xlink:type="extended" type="MOD-N" id="E1R6"><modifieur xlink:type="locator" xlink:href="E1F1"/><nom xlink:type="locator" xlink:href="E1F2"/> <a-propager booleen="faux"/> </relation> </relations> </E>
ANNOTATIONSEN RELATIONS
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Mesures de précision et rappel :
• par participant,• type de constituant,• par type de corpus.
Mesures strictes (égalité stricte des adresses) et relachement de contrainte sur les adresses de début et de fin de groupes (+/-1).
Pour les relations, sugérnération pour certaines relation de la référence (modifieur nom-adjectif intra groupe).
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Evaluation en constituants pour 12 systèmes(prec., rap., f-mes., et les mêmes en mode relaché)
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Evaluation préliminaire en relations pour 11 systèmes sur sénat, mlcc et littéraire1.
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
5. Les systèmes de dialogue
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Pour les systèmes de dialogue oral (SLDS), 2 points essentiels:-évaluation de possible sous de nombreux aspects ( variété des fonctionalités/module, cf figure suivante)- problème : comment décorréler les facteurs humains (ergonomie) et les aspects propres à l’application réalisée(ex. réservation) de ceux liés au traitementdu dialogue proprement dit
Patrick Paroubek / Limsi-CNRS
Évaluation et Traitement Automatique des Langues mardi 21 février 2006
Patrick Paroubek / Limsi-CNRS
Architecture générique d’une application de dialogue oral