interactions langagières et parolières dans une société de linformation gérard chollet...

50
Interactions langagières et parolières dans une société de l’information Gérard CHOLLET chollet @ tsi . enst . fr ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13

Upload: frery-colin

Post on 03-Apr-2015

107 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Interactions langagières et parolières dans une société

de l’information

Gérard CHOLLET

[email protected]

ENST/CNRS-LTCI46 rue Barrault

75634 PARIS cedex 13

Page 2: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Plan

Les attentes sociétales Majordome / Assistant Multimodal Intelligent Traitement Automatique des Langues Domaines du Traitement Automatique de la Parole Codage Reconnaissance / Compréhension Reconnaissance du locuteur, de la langue,… Synthèse à partir du texte, de concepts Apprentissage à partir d’exemples Perspectives

Page 3: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Accès, Communication, Apprentissage

Désir d’accéder à l’information à travers le téléphone sur INTERNET

Besoin de communiquer messagerie visioconférence

Soif d’apprendre Formation continue

Page 4: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

«MAJORDOME»

messagerie unifiée intelligente

Projet Eureka no 2340

EDFHolistique

D. Bahu-Leyser, G. Chollet, R. Croce, K. Hallouli , J. Kharroubi, D. Kofman, L. Likforman, E. Matta-Sanchez, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon

Page 5: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Qu’est-ce qu’un Majordome ?

messages entrants vocal mèl télécopies

serveurtraitement des messages

accès aux messages

téléphone terminal

authentification, dialogue,routage, résumés,mises a jour, agenda

pagerPDA

Page 6: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Le Majordome individuel

Page 7: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Traitements

Page 8: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Traitement Automatique des Langues

Objet : traiter des données de nature linguistique

Limites : la partie purement phonétique relève du domaine du traitement de la parole

Applications : traduction automatique résumé automatique analyse, indexation, filtrage de documents génération automatique de texte dialogue homme-machine

Page 9: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Techniques du T.A.L. : analyse

Étiquetage : identifier les composants d’un texteAquam[nf,acc.sing.] homo[nm,nom.sing.] bibit[v.ind.pre.3s]

Parsing : identifier la structure grammaticale[[Il]Pro,Gnsuj [[[a]Vaux [vu]Vpp]Vpass.comp [[l’]art [ours]n]Gnobj]GV]Phr

Réseau sémantique : représenter le sens[CHAT: #1]<-(agent)-[MANGER]-(objet)->[SOURIS : #2]

Difficultés liées à l’importance du contexte et de l’implicite dans les langues humaines (ex : résolution des anaphores)

Universal Networking Language (UNL) Web sémantique

Page 10: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Techniques du T.A.L. : génération

Engendrer des phrases en langue naturelle :

[CHAT: #1]<-(agent)-[MANGER]-(objet)->[SOURIS : #2]

« Le chat mange la souris. »

Un générateur par langue à partir d’une représentation UNL

Accès aux pages Web représentées en UNL dans la langue de son choix.

Page 11: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Voice Over IP Platform

Network

192.168.223.0/1

1

Network 192.168.222.0/11

Visioconference

VTHD

Renater

UnisphereERX-700

1Gbps (FO Interne)

ENST-Paris

RTC/RNIS

Intranet

GK

PBX

GW IPVR

1Gbps

Cisco Catalyst

6507

Salle C-234

Salle C-234

Salle PBX

Salle C-234

Network192.168.111.0/11

VideoServer

DistanceLearningService

Page 12: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Expéditeur

Destinataire

Mots clés

Télécopies

Page 13: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Partenaires ‘Majordome’

Page 14: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Domaines du Traitement Automatique de la Parole

Identit

é

PHONETIQUE

RECONNAISSANCE

GRAPHEMESVERS PHONEMES

SYNTHESE

ANALYSESTOCKAGE RESTITUTION

TRANSMISSIONBla-blabla … Bla-bla

LANGUE

MESSAGE

Page 15: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Codage de la parole

Codage =transmission d’un message vocal, en diminuant le débit et en conservant un maximum d’information

Types de codeurs : A forme d’onde Hybrides Paramétriques Segmentaux

Page 16: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Quels codeurs pour quels débits

Bit rate (bits/s)1k 2k 4k 8k 16k 32k 64k

IndicativeQuality(MOS )

Paramétriques Hybrides A forme d’onde

1

2

3

4

5 G711 72

G721 84

ST4209 83

G 728 92

FS 1016 90

G 729 96

ST 4479 93

ST 4198 87

LPC 10 83

GSM 871200 HSX 97

G 723-196

VLB

RC

0,5k

Très bas débits

2400 HSX 96

Page 17: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Evolution des codeurs

1

2

3

4

5

1980 1990 2000

IndicativeQuality(MOS)

G.711(64 kb/s) G.721

(32 kb/s) G.729(8 kb/s)

G.728(16 kb/s)

LPC 10(2,4 kb/s)

HSX(2,4 kb/s)

Consumer quality

Minimum qual. for highcost application

Minimum qual. For lowcost application

1970 2010

ALISP(.4 kb/s)

Page 18: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Pourquoi développer des codeurs à très bas débit

Trouver les limites de la compression de la parole(sans sa compréhension)

Applications pratiques : Répondeurs automatiques sans bandes magnétiques Archivage et «boîtes noires » Communication sur des canaux à bas débits Codage redondant en télédiffusion

But à atteindre : Débit moyen de 100-500 bps Indépendant du locuteur, de la langue,

de l’environnement

Page 19: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Comment conserver la qualité en diminuant le débit

Exploiter les limites de l’audition Utiliser le modèle source-filtre de

production de la parole Exploiter les contraintes dynamiques des

articulateurs Indexation de segments de parole Utiliser des modèles de langage

Page 20: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Principes généraux des codeurs à très bas débit < 400 bps

Nommées aussi codeurs segmentaux ou codeurs par indexation

Nécessitent l’utilisation de : Méthodes de reconnaissance

Quelles unités de reco utiliser ? Méthodes de synthèse

Quelles unités de synthèse utiliser ? Données à transmettre :

Indices des unités de parole reconnus Informations prosodiques

Page 21: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Le prix à payer

Complexité croissante Retard au décodage Mémoire plus importante Sensibilité aux erreurs de transmission Sensibilité au bruit ?

Page 22: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Limitations des vocodeurs phonétiques et alternatives

Nécessitent des bases de données de parole transcrites et segmentées (au niveau mots ou phonèmes)

Problèmes avec ces bases de données: Ambiguïté des transcriptions phonétiques Coût élevé Tâches ennuyeuses Sont dépendantes de la langue

Alternative = utiliser seulement les données de parole, sans les transcriptions

Page 23: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Utiliser A L I S P

A utomaticL anguageI ndependentS peechP rocessing

Page 24: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Motivations pour utiliser ALISP

Permet un codage à très bas débit Développement de nouveaux outils pour la

recherche en phonétique Intègre le paradigme d’analyse par la synthèse Applications en reconnaissance de la parole

indépendante de la langue Identification de la langue Amélioration de la qualité de la parole

transmise, débruitage

Page 25: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Cas idéal versus cas actuel

ALISP devrait permettre idéalement un codage Indépendant du locuteur Indépendant de la langue Indépendant de l’environnement

Réalité : On commence par résoudre le cas

dépendant du locuteur Premiers résultats pour le codage

indépendant du locuteur

Page 26: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Comment réaliser le codage par indexation avec ALISP

On a besoin d’un ensemble d’unités acoustiques obtenues automatiquement pour faire le codage

Caractéristiques des unités ALISP Elles doivent représenter d’une manière

précise et concise les sons d’une langue On doit les déterminer sans avoir recours à

une base de données étiquetée phonétiquement

Page 27: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Apprentissage non supervisé des unités de codage

Segmentation initiale

Regroupement des segments en N classes

Modélisation des N classes

Décomposition temporelle

Quantificationvectorielle +

distances cumuléesModélisation HMM

Page 28: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Décomposition temporelle - exemple

En moyenne 17 événements par seconde

Page 29: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Modélisation HMM : topologie utilisée

1 2 3 4 5

a22 a33 a44

a12 a23 a34 a25

3 états émetteurs

Modèle de langage : unigrammes, facteur de langage .

Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; LPCC;

log(E).

Pour chaque flux une loi gaussienne simple.

Page 30: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Synthèse

Critère de choix des unités : Dans chaque classe d’unités acoustiques du

codeur, on choisit les 8 plus longs segments pour chaque classe Ci

==> dictionnaire des unités de synthèse Si

Critère de distortion utilisé Pour coder un segment tj qui a été reconnu

comme appartenant à la classe Ci , on le compare par DTW aux unités de synthèse Si

Page 31: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Schéma de codage

parole Analyse spectral

e

Analyse prosodiqu

e

Reconnaissance HMM

Dictionnaire des modèles

HMM des unités ALISP

Représentant A1

Représentant A8

HMM A

Détermination des unités de

synthèse

Choix unité de synthèse par

DTW

Codage prosodie

Indice unité ALISP

Indice unité de

synthèsePitch,

énergie, temps

Page 32: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

décodage

Parole synthétique

Représentant A1

…Représentant A8

Indice ALISP

N° représentant de synthèse

Paramètres de prosodie

Choix unité de synthèse

Synthèse par

concaténation

Page 33: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Segmentation induite par la décomposition temporelle

Segmentation sur des zones spectralement stables

Page 34: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Segmentation de la phrase à coder

W…A…N….T….E……….D

Page 35: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Recherche des segments les plus ressemblants

Page 36: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Restitution par concaténation

Page 37: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Examples sur « BU corpus »

codage méthode ALISP (HNM) unités de synthèse correspondantes aux modèles HMM

synthèse HNM

original

choix des unités de synthèse à partir des transcriptions phonétiques concaténation des formes d’onde

Page 38: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Expériences indépendantes du locuteur

A l’état actuel le codage avec des unités ALISP n’est fonctionnel que pour un locuteur prédéfini

Situation peu réaliste Cas idéal : codage de n’importe quel locuteur,

parlant n’importe quelle langue Cas intermédiaire : codage des locuteurs

masculins, parlant français de la base de donnés BREF

Cas indépendant du locuteur : suffisamment (?) de données parole d’un échantillon représentatif pour les données d’ entraînement et d’un autre ensemble de locuteurs disjoints pour le test

Page 39: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Base de données de parole BREF

Caractéristiques principales : corpus français composé de textes lus, extraits du journal « Le

Monde » 120 locuteurs, avec en moyenne 40-70 min de

parole par loc. Séparés en 80 locuteurs pour l’entraînement, 40

de développement et 20 de test, avec des textes différents

Enregistrement qualité studio, échantillonné à 16kHz

Page 40: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Correspondance Alisp phones, Bref

Page 41: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Exemples d’analyse synthèse HNM

En français Analyse synthèse HNM OriginalEn anglais (BU corpus) Analyse synthèse HNM Original

Page 42: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Conclusions et perspectives

améliorer l’intelligibilité et la qualité choix d’unités compatibles pour

le codage et la synthèse à partir du texte rendre le codeur indépendant du

locuteur et de la langue restituer l’identité du locuteur

Page 43: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Et à plus longs termes...

• utiliser la technique ALISP de codage avec

des références étiquetées phonétiquement

pour faciliter la reconnaissance automatique

de la parole

• expérimenter le codage ALISP en vérification

du locuteur

Page 44: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Projet SIROCCOSystème générique de reconnaissance de parole

INRIA (IRISA et LORIA), LIA, IRIT, ENST-LTCI

Page 45: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

SIROCCO

PROCESSEURACOUSTIQUE

RECONNAISSANCEDE MOTS

STRATEGIE

PROCESSEURLINGUISTIQUE

SIROCCO

SIGNAL

MOT(S) RECONNUS

Page 46: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Vérification du locuteur

Dépendant du texte CAVE – PICASSO COST 250, 277

Indépendant du texte NIST

Multimodal M2VTS BIOMET

Page 47: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault
Page 48: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

BIOMET

Bla-bla

ESPACESECURISE

PIN PIN 1111111111111111

11

Page 49: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Perspectives

Un œil et une oreille pour les terminaux mobiles

UMTS

Indexation de conférences et Enseignement à distance

le Web sémantique,

‘Universal Networking Language’

‘Le bureau du futur’ (voiture !), ‘La maison du futur’

Page 50: Interactions langagières et parolières dans une société de linformation Gérard CHOLLET chollet@tsi.enst.fr chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault

Saisie d’une image