fonetica fonologia

72
Reconocimiento Automático del Habla Fonética/Fonología Tecnologías del Lenguaje

Upload: elkinvillasz

Post on 23-Jun-2015

608 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Fonetica fonologia

Reconocimiento Automático del Habla

Fonética/Fonología

Tecnologías del Lenguaje

Page 2: Fonetica fonologia

2

Contenido

¿Qué es un reconocedor automático de habla? Forma y contenido del habla Principios físicos del sonido / habla Mecanismos del lenguaje humano

Page 3: Fonetica fonologia

3

¿Qué es un reconocedor de habla?

Es un proceso que convierte una señal acústica (sonido) capturada por micrófono -u otro dispositivo- a un conjunto de palabras (texto) Es la identificacion de las palabras de una elocución (habla >> transcrición ortográfica)

Basado en técnicas de reconocimiento de patrones Dichos patrones son aprendidos a partir de grandes

conjuntos de datos, usando técnicas estocásticas

Page 4: Fonetica fonologia

Laboratorio de Tecnologías del Lenguaje 4

¿Para qué sirve un reconocedor de habla?

Su principal objetivo es facilitar/mejorar la comunicación entre el hombre y la computadora, ya que la comunicación hablada es un medio natural para intercambio de información

Además, casi toda actividad humana es social y el habla es parte esencial de esa actividad

Page 5: Fonetica fonologia

Problemática El habla es una compleja combinación de procesos

a diferentes niveles que es usada para transmitir información

Variabilidad de la señal: Variabilidad intra-locutor: estado emocional, ambiente, estado

de salud, etc. Variabilidad inter-locutor: diferencias fisiológicas, acento,

dialectos, etc. Canal acústico: Teléfono, micrófono, ruido ambiental, etc.

Page 6: Fonetica fonologia

6

Características de un Reconocedor

• Tipo de habla: aislada, continua

• Dependiente o Independiente del locutor

• Número de palabras que reconocen

• Tipo de texto que reconocen

• Tipo de canal

Page 7: Fonetica fonologia

Características de un Reconocedor

Tipo de habla Hablantes Ambiente Vocabulario

Palabra aisladaDependiente del

locutorLibre de ruido Pequeño (<50)

Palabras conectadas

Multilocutor Oficina Mediano (<500)

Habla continuaIndependiente del

locutorTeléfono Grande (<5000)

Habla espontánea Con ruidoMuy grande

(>5000)

Page 8: Fonetica fonologia

8

Dos grandes áreas:

Principios físicos del sonido en particular del habla

Mecanismos del lenguaje a diferentes niveles (los primeros)

Page 9: Fonetica fonologia

9

Principios físicos del sonido

Todos los sonidos, incluyendo el habla, provocan el movimiento de las moléculas del aire

Algunos producen un movimiento del aire en patrones regulares: Al tocar una cuerda de una guitarra

Casos contrarios: Cerrar una puerta

Gráficamente representamos un sonido como una curva senoidal En un eje la presión del aire en otro eje el tiempo

Page 10: Fonetica fonologia

10

Page 11: Fonetica fonologia

11

Frecuencia y Amplitud

El número de vibraciones producidas por segundo es llamada frecuencia

Una vibración de 100 veces por segundo tiene una frecuencia de 100 ciclos por segundo o 100 Hertz (Hz)

Los sonidos agudos tienen una alta frecuencia los graves baja

La intensidad de un sonido es la cantidad de aire desplazado La intensidad se describe en términos de la amplitud de la

curva La amplitud es medida en decibeles dB

Page 12: Fonetica fonologia

12

Frecuencia Dominante

Los ejemplos anteriores son tonos puros La mayoría de los sonidos son compuestos

Una frecuencia dominante o fundamental (pitch) Acompañada de un conjunto de frecuencias secundarias

(timbre) En particular para el habla ciertas frecuencias secundarias

llamadas formantes sirven para distinguir entre los fonemas

Page 13: Fonetica fonologia

13

Page 14: Fonetica fonologia

14

Visualización del sonido

Tiempo

Am

plitu

d

Tiempo

Fre

cuen

cia

Espectrograma

Page 15: Fonetica fonologia

Transcripción ortográfica

•Comunícame con Javier

Page 16: Fonetica fonologia

Transcripción ortográfica

• risas, ruidos, respiraciones, silencios, tartamudeos, etc.

Page 17: Fonetica fonologia

Transcripción fonética

Page 18: Fonetica fonologia

Transcripción fonética

Page 19: Fonetica fonologia

19

Transcripción fonética

Page 20: Fonetica fonologia

20

Fonética

Entrada Señal acústica

Salida Alfabeto fonético

Estudia: Formación de las consonantes y las vocales en el tracto vocal Clasificación de vocales, consonantes por su forma, posición de

la lengua y músculos bucales involucrados

Page 21: Fonetica fonologia

21

Características de la Percepción Humana

El oído humano está especializado en el reconocimiento de voz Aunque es capaz de detectar frecuencias de

20 Hz a 20000 Hz Es mucho más sensible en el rango de la voz: 1000 Hz a

6000 Hz No procesa las frecuencias de forma individual, sino por

grupos de frecuencias

Page 22: Fonetica fonologia

22

Ruido, voz y expectativa

Un oído especializado en el lenguaje Discriminar entre ruido y palabra

¡A pesar de que el ruido sea voz! Capacidad para reconstruir un mensaje

Y si yo viera… Que elocuente…

Page 23: Fonetica fonologia

23

Ruido, voz y expectativa

Un oído especializado en el lenguaje Discriminar entre ruido y palabra

¡A pesar de que el ruido sea voz! Capacidad para reconstruir un mensaje

Y si yo viera… te mojabas Que elocuente… a todos los niños

Page 24: Fonetica fonologia

24

Reconocer y Entender

RAH

El primer paso para entender es reconocer

En los seres humanos estos dos procesos están fuertemente entrelazados

RAH Entendimiento

Page 25: Fonetica fonologia

25

Reconocer Adquisición de la señal hablada Extracción de características Clasificación y modelado de las señales

(dentro de esta parte se encuentran los modelos acústicos, léxicos y los de lenguaje).

Métodos de búsqueda y reconocimiento

Page 26: Fonetica fonologia

26

Capturando la señal

La señal de voz es redundante y algunos datos irrelevantes para el proceso de reconocimiento

Para reducir la cantidad de datos: Usar filtros para eliminar frecuencias arriba de 3100 Hz y

debajo de 100 Hz

Page 27: Fonetica fonologia

27

Capturando la señal...

El muestreo: Tomamos rebanadas muestras de la señal

(el cine es el mismo caso) El número de muestras depende de las

frecuencias que deseamos incluir en nuestro análisis: La tasa de muestreo mínima es el doble de la más alta

frecuencia de interés Para una frecuencia de 3100 Hz necesitamos 6200

muestras por segundo

Page 28: Fonetica fonologia

28

Procesamiento de Señal

Extracción de características Llevar la señal digital a una representación matemática

simple con la cual trabajar Transformada de fourier discreta (DFT) o FFT

LPC MFCC

Page 29: Fonetica fonologia

29

Reconocimiento a partir de Patrones

Comparación de patrones

Funcionamiento general de un comparador de patrones

Page 30: Fonetica fonologia

30

Reconocimiento a partir de Patrones

Comparación de patrones Vocabularios pequeños Variabilidad fonética Operación a nivel de palabra Alineación temporal

Page 31: Fonetica fonologia

31

Reconocimiento a partir de Patrones

Modelos estocásticos Selección no-determinística entre un conjunto de

posibilidades A diferencia del apareo de patrones no existe una

comparación entre los modelos almacenados y la entrada Un análisis probabilístico es la base de la selección

(modelos ocultos de Markov) Grandes cantidades de datos para entrenamiento Operación a nivel de fonemas y semi-fonemas

Page 32: Fonetica fonologia

32

Reconocimiento a partir de Patrones

Modelos estocásticos Estructura típica de un modelos ocultos de Markov (HMM)

Page 33: Fonetica fonologia

33

Fenómenos del habla espontánea

La enunciación de una locución es un proceso complejo donde la construcción de la oración y su pronunciación son procesos interdependientes

“Speech is more than just an audible version of text”

(M. Hunt)

Page 34: Fonetica fonologia

34

Aplicación: Búsqueda en Audio

Objetivo: Dado un término en forma textual deseamos localizar dicho

término en una colección de grabaciones (conversaciones, discursos, etc.)

Organizar las colecciones de audio por temas tratados, personajes entrevistados, etc.

Page 35: Fonetica fonologia

35

Primer enfoque

Indexado a partir de la transcripción: Después de transformar el audio en texto, con ayuda de

un reconocedor gran vocabulario de habla continua, generamos un índice de las palabras presentes en la transcripción

Tratamos la transcripción con las técnicas actuales de recuperación y extracción de información.

Page 36: Fonetica fonologia

36

Segundo enfoque

Indexado basado en fonemas: La transformación del audio sólo llega hasta la etapa de

fonemas, ésta es la base a partir de la cual se hará la búsqueda del texto deseado.

La búsqueda puede dar un mayor número de respuestas falsas que el enfoque anterior, pero tiene un mejor comportamiento con palabras fuera del diccionario (nombre de personas, lugares, términos extranjeros, etc.)

Page 37: Fonetica fonologia

37

A notar…

El reconocimiento fonético aun está lejos de un reconocimiento perfecto

Usando información lingüística (modelos de lenguaje) es posible incrementar su rendimiento Un modelo de lenguaje captura (probabilísticamente) las

secuencias propias de un lenguaje “El que madruga … “A buen entendedor …

Page 38: Fonetica fonologia

38

A notar…

El reconocimiento fonético aun está lejos de un reconocimiento perfecto

Usando información lingüística (modelos de lenguaje) es posible incrementar su rendimiento Un modelo de lenguaje captura (probabilísticamente) las

secuencias propias de un lenguaje “El que madruga, Dios le ayuda” “A buen entendedor, pocas palabras”

Page 39: Fonetica fonologia

39

A notar…

Los modelos acústicos recuperan pistas auditivas las cuales son la base para la reconstrucción del mensaje.

Los modelos de lenguaje aportan información sobre el lenguaje y el contexto para la reconstrucción del lenguaje Un modelo de lenguaje es más fácil de construir mientras más

acotado sea el dominio

Page 40: Fonetica fonologia

40

A notar…

El comportamiento de los reconocedores es mejor si el contexto es limitado. En noticieros de 5 a 20% de error Otros contenidos de 30 a 60% de error

Se puede indexar una hora de audio en 5 minutos (no se menciona la calidad)

Existen ya sistemas multilingües!

Page 41: Fonetica fonologia

41

Una solución posible

Llegar a la transcripción pero apoyarse también en su información fonética

Proponer un método para recuperación de información en documentos orales enriqueciendo su representación a través de codificación fonética.

Page 42: Fonetica fonologia

42

Tipos Errores

Correcta Unix Sun War in Iraq

Transcrita Unique Some Ware in Irak

Correcta Osama Bin Laden Our slugger encourage

Transcrita Usama Bin Ladin Our sluggard emigrate

Correcta I helped Apple recognize speech

a country independent

Transcrita I helped Apple

wreck a nice beach

a country in the pendant

Substitución

Más complejos (Combinación Inserción+Substitución)

Page 43: Fonetica fonologia

43

Ej. Codificación Fonética

Correcta Unix Sun War in Iraq

Transcrita Unique Some Ware in Irak

Soundex U520 S500 W600 I500 I620

Correcta Osama Bin Laden Our slugger encourage

Transcrita Usama Bin Ladin Our sluggard emigrate

Soundex O250 B500 L350

U250 B500 L350

O600 S426 E526

Mantiene la primera letra de la palabra Convierte las letras a dígitos

Page 44: Fonetica fonologia

44

Método

1. Filtrar las transcripciones eliminando palabras vacías.

2. Codificar las transcripciones usando el algoritmo Soundex.

3. Obtener las frecuencias de los códigos en la colección

4. Eliminar códigos frecuentes.

5. Agregar la codificación resultante a la transcripción.

Page 45: Fonetica fonologia

45

Aplicación: Personalizando la Interfaz

• Una interfaz dinámica que cambie su apariencia o que proponga los elementos más comúnmente utilizados por un usuario específico

La señal de voz abarca diferentes tipos de información: Un mensaje. Un lenguaje. La emoción. El género. La edad. La identidad del hablante.

Page 46: Fonetica fonologia

46

Reconocimiento del hablante

diferente a la Verificación de usuarios.

En la verificación del hablante lo que se desea es comprobar cuando la persona que habla es, o no es, la persona que afirma ser, en este caso, el sistema tiene información sobre la identidad del usuario.

Reconocimiento del hablante busca hacer una caracterización y reconocimiento de la identidad del hablante gracias a su señal de voz.

Page 47: Fonetica fonologia

47

window

window

X1

X2

X13

… Cálculo de coeficientes MFCC ó LPC

Caracterización de la Señal de Voz

Page 48: Fonetica fonologia

48

Sin solapamiento

Algoritmo 100ms 120ms 500ms

MFCC

knn (50) 29.35% 30.92% 32.70%

knn (60) 29.19% 30.88% 31.58%

LWR 56.42% 57.83% 47.11%

SVM 62.65% 63.57% 42.49 %

ANN 56.02% 55.78% 46.14%

Page 49: Fonetica fonologia

49

Con solapamiento

Tamaño del segmento

Solapamiento 80ms 100ms 120ms

MFCC &

SVM

10ms64.13% 63.05% 63.05%

20ms68.80% 67.64% 64.41%

30ms65.54% 70.05% 69.20%

Page 50: Fonetica fonologia

50

Conclusiones

Método sencillo basado en un procesamiento directo de la señal acústica

Los resultados alentadores: 70% al usar SVM 100 hablantes 3.5 seg de señal de voz

Page 51: Fonetica fonologia

51

Trabajo futuro

Extender los experimentos incluyendo más información descriptiva de la señal acústica Deltas de los coeficientes Componente de energía

Usar otras metodologías en el aprendizaje Estudio de un Kernel no polinomial Uso de ensambles

Extender el tamaño de las muestras de señal acústica

Page 52: Fonetica fonologia

52

Aplicación: Personalizando la Interfaz

• Una interfaz dinámica que cambie su apariencia o que proponga los elementos más comúnmente utilizados por un usuario específico

La señal de voz abarca diferentes tipos de información: Un mensaje. Un lenguaje. La emoción. El género. La edad. La identidad del hablante.

Page 53: Fonetica fonologia

53

¿Cómo se ha abordado?

Primer enfoque: Basan la IAL en el empleo de características lingüísticas propias de cada lenguaje. Realizan segmentación de fonemas y utilizan modelos de lenguaje.

Sistemas basados en reconocimiento de fonemas

Segundo enfoque: Explotar directamente la señal acústica para la IAL, obteniendo características tales como la prosodia, ritmo, entonación, entre otras.

Sistemas no basados en reconocimiento de fonemas.

Page 54: Fonetica fonologia

54

Dificultades del primer enfoque

Necesidad de un estudio previo de cada lenguaje Un módulo para la segmentación de la señal de voz en fonemas Un proceso de etiquetado manual realizado por expertos a nivel fonético

Necesidad de la creación de modelos de lenguaje Corpus grandes de texto y/o transcripciones ortográficas de grabaciones Estadística de todos las posibles combinaciones de fonemas

No son de utilidad para lenguas que no cuentan con convenciones claramente establecidas para su escritura

Page 55: Fonetica fonologia

55

Segundo enfoque

Los lingüistas parten de que existe otro tipo de características las cuales no pueden segmentarse como los fonemas, porque actúan simultáneamente sobre más de un segmento.

Suprasegmentos: el acento, el tono (sucesión de ellos – entonación-) y la duración.

El acento: Español normalmente grave Francés normalmente agudo

Page 56: Fonetica fonologia

56

Características suprasegmentales

Tono: como recurso de diferenciación léxica, para lenguas como el chino o el vietnamita.

Por ejemplo: /ma/ puede significar varias cosas: con un tono estático alto significa madre con tono dinámico ascendente significa cáñamo con un tono dinámico ascendente-descendente significa caballo con un tono descendente significa riña

Las lenguas de la familia congo-nigerianas, sino-tibetanas y algunas de las lenguas indígenas de México (otomí, mazahua, chichimeca entre otras)

Page 57: Fonetica fonologia

57

Características suprasegmentales

Entonación: sucesión de tonos, como recurso de función expresiva, para lenguas románicas

Por ejemplo: ¿Cómo estás? ¿cómo? ¡estás!

Ritmo: es la pauta de tensión formada por la combinación de las sílabas tónicas y atonas, largas y breves Ritmos: stress timed, syllable timed, acentual y

silábico.

Page 58: Fonetica fonologia

58

El problema Como extraer las características suprasegmentales del

habla, como la prosodia, el ritmo, la entonación entre otras.

•[Li 1994] Localizar automáticamente el núcleo-silábico (por ejemplo las vocales). Generar vectores espectrales de regiones cercanas al núcleo silábico, tanto para entrenamiento como prueba.

•[Itahasi 1994 y 1995] Uso la frecuencia fundamental (pitch) ya que su estimación es más robusta en ambientes ruidosos que los parámetros espectrales de Li

•[Thyme-Gobbel y Hutchins 1996] Caracterizaron la prosodia a través contornos del pitch y la amplitud entre una sílaba y otra

Page 59: Fonetica fonologia

59

Estado del arte

Cummins et al 1999: El trabajo recae en la suposición de que las variaciones de amplitud en la frecuencia fundamental son importantes para percibir el ritmo en el habla.

Alemán Español Japonés Mandarín

Inglés 52 62 57 58

Alemán - 51 58 65

Español - - 66 47

Japonés - - - 60

Page 60: Fonetica fonologia

60

Estado del arte Rouas et al 2003 y 2005: Propone un método para identificar los

lenguajes en bases a su entonación y ritmo: caracteriza el ritmo en función de intervalos vocálicos y consonánticos.

Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi

Inglés 60 68 75 68 68 79 77 76

Alemán _ 59 62 66 66 71 70 72

Español _ _ 81 62 63 76 65 67

Mandarín _ _ _ 50 51 74 74 76

Vietnamita _ _ _ _ 69 56 71 67

Japonés _ _ _ _ _ 66 59 67

Coreano _ _ _ _ _ _ 62 75

Tamil _ _ _ _ _ _ _ 70

Page 61: Fonetica fonologia

61

Objetivo

Desarrollar un método para la identificación del lenguaje hablado sin recurrir a la representación fonética de la señal de voz, con un nuevo método de caracterización de los elementos suprasegmentales del habla.

Suposición: el ritmo puede ser una característica fundamental para la identificación y éste se localiza en las frecuencias bajas

Page 62: Fonetica fonologia

62

Nueva caracterización del ritmo Procesamiento basado en Wavelets:

Hablante japonés Hablante español

Page 63: Fonetica fonologia

63

Nueva caracterización

Uso de la transformada Daubechies 4 coeficientes

Muestras de 30 y 50 seg.

Reducción de la información por medio de truncado de aproximación con un umbral del 1%

Page 64: Fonetica fonologia

64

Nueva caracterización del ritmo

Señal de vozLenguaje 1Inglés

Señal de vozLenguaje 2Español

Señal de vozLenguaje 1Inglés

Señal de vozLenguaje 9Farsi

AplicaciónTransformada wavelet

Aplicación Transformada wavelet

Truncadopor método deaproximación

Truncado por método deaproximación

AplicaciónTransformadawavelet

AplicaciónTransformadawavelet

Truncadopor método deaproximación

Truncadopor método deaproximación

Reducción de dimensionalidad:•Eliminar los coeficientes irrelevantes•Ganancia de información

Construccióndel clasificadorpara lenguajes 1 y 2

Reducción de Dimensionalidad:•Eliminar los coeficientes irrelevantes•Ganancia de información.

Clasificador BinarioLenguajes1 y 9

Page 65: Fonetica fonologia

65

Nueva caracterización del ritmo Resultados entre paréntesis Rouas:

Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi

Inglés 97 (59.5) 97 (67.7) 93 (75.0) 94 (67.7) 96 (67.6) 95 (79.4) 99 (77.4) 96 (76.3)

Alemán - 93 (59.4) 94 (62.2) 93 (65.7) 98 (65.8) 98 (71.4) 94 (69.7) 91 (71.8)

Español - - 91 (80.6) 86 (62.1) 92 (62.5) 98 (75.9) 91 (65.4) 94 (66.7)

Mandarín - - - 95 (50.0) 95 (50.6) 93 (73.5) 89 (74.2) 94 (76.3)

Vietnamita - - - - 93 (68.6) 96 (56.2) 95 (71.4) 95 (66.7)

Japonés - - - - - 93 (65.7) 89 (59.4) 94 (66.7)

Coreano - - - - - - 95 (62.1) 91 (75.0)

Tamil - - - - - - - 90 (69.7)

Page 66: Fonetica fonologia

66

Resultados promedio

50556065707580859095

100

Inglés Alemán Español J aponés Mandarín Vietnamita Coreano Tamil Farsi

Rouas wavelet 10 seg wavelet 50 seg

Page 67: Fonetica fonologia

67

Nueva caracterización del ritmo

La nueva caracterización con wavelets obtiene mejores resultados que los alcanzados por Rouas.

Nos permite enfocarnos a las bajas frecuencias

Buenos resultados con muestra de señal de voz más grandes.

Umbral de truncado se obtuvo al procesar todos los idiomas, podría determinarse por pares de idiomas.

Page 68: Fonetica fonologia

68

Trabajo futuro Extender el método para trabajar con clasificadores

multiclase. Con la finalidad de comparar nuestra técnica con los métodos que utilizan información fonotáctica de los lenguajes.

Mezclar diferentes extracciones de características de la señal de voz tales como el ritmo de Rouas con los coeficientes wavelet para generar características suprasegmentales del habla híbridas.

Utilizar los modelos de mezclas gaussianas, con la idea de probar los métodos propuestos en la tarea de verificación del idioma (NIST)

Page 69: Fonetica fonologia

69

Lenguas indígenas mexicanas

Corpus utilizado: el archivo de lenguas indígenas de Latinoamérica, http://www.ailla.org

Náhuatl Zoque

Español

20 diferentes hablantes por cada lengua. Los tamaños de muestras variaron. El algoritmo de clasificación usado fue el de Naïve Bayes y

se utilizó la validación cruzada en 10 pliegues para su evaluación.

Page 70: Fonetica fonologia

70

Resultados utilizando MFCC:

3 segundos 7 segundos 10 segundos

Náhuatl Español Náhuatl Español Náhuatl Español

Zoque 85 95 94 93 87 93

Náhuatl - 100 - 97 - 94

Page 71: Fonetica fonologia

71

Un clasificador con los tres lenguajes.

Resultados multiclase

% Identificación de los tres lenguajes

3 segundos 85

7 segundos 89

10 segundos 88

% Identificación de los tres lenguajes

10 segundos 85

30 segundos 94

50 segundos 95

192 atributos de MFCC

Transformada wavelet

Page 72: Fonetica fonologia

72

Experimentos Lengua no materna

Grabaciones con la misma calidad Inglés 6 personas Francés 5 personas Español 6 personas

Método utilizado wavelet Daubechies con 4 coeficientes y truncado de aproximación

Clasificador Naïve Bayes

inglés-español español-francés inglés-francés91.67% 81.82% 100%

a b a b a b 5 1 a=inglés 5 1 a=español 6 0 a=inglés 0 6 b=español 1 4 b=francés 0 5 b=francés