reconnaissance de la parole
DESCRIPTION
Reconnaissance de la parole. Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage [email protected]. Objectifs. Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation). - PowerPoint PPT PresentationTRANSCRIPT
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1
Reconnaissance de la parole
Ivan Magrin-Chagnolleau, CNRSLaboratoire Dynamique Du Langage
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 2
Objectifs
Transformer un signal de parole en :
• Texte (dictée vocale, transcription)
• Action (commande vocale, systèmes de dialogue)
• Information indexée (annotation, indexation)
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 3
Les sources de variabilité• Les facteurs intra-locuteurs :
co-articulation, variation dans la prononciation, etc.
• Les facteurs inter-locuteurs :physiologie, age, sexe, psychologie, familiarité avec l’application, etc.
• L’environnement :bruit, micro, canal de transmission, présence d’autres locuteurs, etc.
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 6
Typologie des systèmes
• Type de parole
• Taille du vocabulaire
• Niveau de dépendance par rapport aux locuteurs
• Environnement d’utilisation
• Profil des utilisateurs potentiels
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 7
Type de parole
• Mots isolés
• Mots connectés
• Détection de mots clés
• Parole contrainte
• Parole continue
• Parole spontanée
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 8
Taille du vocabulaire
• Quelques mots (5 – 50)
• Petit vocabulaire (50 – 500)
• Vocabulaire moyen (500 – 5000)
• Grand vocabulaire (5000 – 50000)
• Très grand vocabulaire (> 50000)
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 9
Dépendance au locuteur
• Dépendant du locuteur :le système fonctionne correctement avec un utilisateur particulier
Adaptation au locuteur =utilise quelques données spécifiquesd’un locuteur pour adapter le système
à une nouvelle voix
• Indépendant du locuteur :le système fonctionne avec n’importe quel utilisateur
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 10
Environnement d’utilisation
• Parole large-bande(ordinateur, etc.)
• Parole bande-étroite avec distorsion (téléphone, etc.)
• Environnement calme (bureau + micro-casque)
• Bruit de fond
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 11
Profil des utilisateurs potentiels
• Utilisation professionnelle par des spécialistes
• Grand public
• Entraîné / naïf
• Fréquent / occasionnel
• Utilité
• Coopération
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 12
Deux exemples
Dictée vocale• Parole continue
• Grand vocabulaire• Adaptation au locuteur
• Bureau+micro-casque• Utilisateurs
d’ordinateurs
Service téléphonique• Détection de mots
clés• Quelques mots• Indépendant du
locuteur• Parole téléphonique• Grand public
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 14
Programmation dynamique (DTW)
meilleurchemin
),()Y,X( 2jid yx
Mot inconnu Y
Mot
X
Mot 1
Mot 2
Mot n
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 18
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
Mot 2
Mot 1
Mot n
Mot inconnu Y
Mot
X
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 26
Modèles de langage• A un instant donné, tous les mots n’ont
pas la même probabilité de présence :– Le petit chat boit du …
• Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes
• Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »