reconocimiento de hablante - upv/ehu...identificacion hablante 2 definición •r econocimiento del...

37
identificacion hablante 1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic speaker authentication, Q. Li, B.H. Juang, C.H. Lee, Q. Zhou, F.K. Soong, IEEE Robotics & Automation Magazine, (march 1999) 6(1)pp.24-34

Upload: others

Post on 13-Mar-2020

20 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 1

Reconocimiento de hablante

Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9)pp.1437

Recent advances in automatic speaker authentication, Q. Li, B.H.Juang, C.H. Lee, Q. Zhou, F.K. Soong, IEEE Robotics &

Automation Magazine, (march 1999) 6(1)pp.24-34

Page 2: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 2

Definición

• Reconocimiento del hablante (Speaker recognition)– Es el uso de una máquina para reconocer a una persona a partir de

una frase hablada.

• Verificación, Automated Speaker Verification (ASV):– autentificación de la identidad declarada por una persona en base al

análisis de la voz.

– La decisión es binaria: aceptación o rechazo.

• Identificación, Automated Speaker Identification (ASI):– No existe declaración a priori de la identidad y el sistema decide

cual es la persona o su grupo, o si la persona es desconocida.

Page 3: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 3

Dependiente de texto: elusuario debe declamaruna frase que se leindica.

Page 4: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 4

Esquema de sistema de verificación

El usuario presenta una tarjetainteligente encriptada que contiene suinformación de identidad.

Intenta ser autentificado pronunciandouna frase indicada en el microfono.

Existe un balance entre precisión yduración de la sesión.

Entra también ruido y versionesretrasadas de su voz por las superficiesreflectantes acústicas.

Page 5: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 5

Fuentes de error en sistemas de verificación del hablante

Mala pronunciación de las frases

Estados emocionales

Posición del micro

Acústica de la habitación

Diferentes microfonos

Enfermedades

Envejecimiento

Motivación para ASV: es el sistema más económico, y potencialmente omnipresente através del teléfono, es un sistema biométrico (inherente a la persona), se puede hacerrobusto al ruido y variaciones de canal, usuario y falsificaciones.

Page 6: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 6

Fases generales

1 Adquisición digital de la voz

2 Extracción de características

3 Emparejamiento de patrones

4 Realización de la decisión de aceptación rechazo

5 Registro (enrollment)

Adquisición:

Señal analógica suavizada(antialiasing) digitalizada conun A/D 12-16 bits a 8000-20.000 muestras por seg.

Page 7: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 7

Page 8: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 8

Page 9: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 9

Base de datos de entrenamiento y test de sistemas de reconocimiento del hablante,controlada científicamente, alta calidad. Las entradas están digitalizadas de formaestándar. Realizada en 1990 por ITT. Es la referencia para sistemas en entornos detipo oficina.

Page 10: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 10

Producción de la voz en el tracto vocal:

Faringe laríngea, faringe oral, cavidad oral,faringe nasal, cavidad nasal.

Excitación: fonación, susurro, fricación,compressión, vibración

Modulación: el tracto vocal modula la ondasonora alterandola por sus resonancias.

Características dependientes del hablante:las que se refieren a la estructura físicaparticular del tracto vocal más lasaprendidas

Page 11: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 11

Extracción de características

• Predicción lineal (LP)– Impone un modelo lineal de la señal.

– Los coeficientes de este modelo lineal seutilizan como características para elreconocimiento.

Page 12: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 12

Modelo lineal de la señal que relaciona el input actual un

con los inputs recientes.

Predicción de la señal

Error de predicción o residual

Criterio del minimo error cuadrático

Que se minimiza buscando

Page 13: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 13

La condición de minimo resulta en las ecuaciones

Correlación de lag τ

Ecuación de Yule que da los coeficientes del modelo de regresión(predicción) lineal en función de las correlaciones de la señal.

Page 14: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 14

Método recurrente deDurbin para resolverlas ecuaciones de Yule

Representación de la señal en térmimos de la predicción linealy el error de predicción.

Page 15: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 15

Si una señal de voz se ajusta al modelo lineal dado, losresifuales forman un tren de pulsos que se repiten a la tasa dela vibración de las cuerdas vocales.

Los máximos de los errores de predicción ocurren a la tasa devibración de las cuerdas vocales

La detección de los máximos de error de predicción se puedeutilizar como método de detección de “pitch”.

Page 16: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 16

Características

• Se pueden calcular a partir de loscoeficientes de la predicción lineal– Coeficientes de reflexión: coinciden con los ki

intermedios del método de Durbin

– Ratios log-area

– Frecuencias LSP

– LP cepstrum

Page 17: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 17

Ratios Log-area: se basan en el modelado del tracto vocalcomo una serie de tubos cilindricos.

Dadas unas condiciones de contorno, los coeficientes dereflexión corresponden a relaciones entre las areas de loscilindros consecutivosNo existe biunicidad de areas y señal producida, por loque no existe garantía de emparejamiento.

Page 18: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 18

Condiciones de contorno:

Glotis cerrada y un area grandetras los labios.

Coeficientes de reflexión entérminos de las areas de loscilindros

Los LAR logaritmos de los ratios entre areas consecutivasse expresan en términos de los coeficientes de reflexión:

Page 19: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 19

LSP: linear spectra prediction.Se basa en la transformación del sistema lineal dado por lapredicción lineal. Las raíces se descomponen en polinomiosauxiliares

Los LSP son los ceros de P(z) y Q(z).

Satisfacen una propiedad de entrelazado:

Page 20: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 20

Coeficientes cepstrales

• Cálculo de los coeficiontes Mel Cepstrum– Extraer una ventana de la señal

– Hace la FFT

– Calcula la magnitud

– Calcula el log

– Transforma las frecuencias de acuerdo a laescala mel, ajustada a la percepción humana.

– Obtiene la FFT inversa.

Page 21: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 21

Page 22: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 22

Selección de características

• PCA principal component analysis:reducción dimensional que mantiene lavarianza de los datos,– no parece apropiado para speaker recognition

dado que es un problema de discriminación yno de representación

• Factor analysis: reducción que mantiene lacorrelación entre los datos.

Page 23: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 23

La transformación lineal deun vector aleatorio condistribución gausiana siguesiendo gausiana

La proyección lineal puede permitir la discriminación linealde las clases o minimizar el error de la discriminación lineal.

Page 24: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 24

Casos en los que el discriminante de Fisher no es de utilidad paradeterminar las características más apropiadas para ladiscriminación

Page 25: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 25

Distancia de Kullback-Leibler, divergencia directa odiscriminación entre clases

La divergencia simétrica define la información total paradiscriminar entre las clases

En el caso de distribuciones normales queda:

Page 26: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 26

Distancia de Bhattacharyya entre dos clases con distribuciónnormal, relaciona las matrices de covarianza y las medias

Page 27: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 27

Pattern matching

• Template models: el resultado es unadistancia a los patrones almacenados.

• Stochastic models: devuelve laverosimilitud de la pertenencia a una clase

• Para aproximar la verosimilitud en el casode los templates se puede utilizar un modeloexponencial

Page 28: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 28

Dynamic Time Warping: aplicación de la programacióndinámica al emparejamiento de patrones, para tratar deemparejar los patrones a pesar de las variaciones temporales

Page 29: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 29

Nearest neighbor: se almacenan todas las instancias, para un testse evalúan los DTW con cada patrón y se promedian lasdistancias correspondientes al mismo individuo.

Page 30: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 30

Modelos estocásticos

• Se plantea el problema de emparejamientode patrones como la evaluación de laverosimilitud de una observación dado unmodelo

Page 31: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 31

HMM Hidden Markov ModelsLas observaciones son funciones probabilísticas del estadodel sistema, el cual no es observable (hidden).

Page 32: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 32

Clasificación y teoría de la decisión

• Dado un valor de emparejamiento entre elinput y un modelo de la voz del hablante, ladecisión de verificación consiste en decidirsi aceptar o rechazar, continuar intentando odar por finalizado el tiempo (time-out).

Page 33: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 33

Test de hipótesis paradeterminar la verificaciónde un usuario. H0 impostor,H1 auténtico

Page 34: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 34

El ratio de verosimilitud basado en la teoría de la decisiónbayesiana con costos idénticos resulta ser:

La probabilidad condicional de la hipótesis pA(z|H1) parael hablante A se estima usando sus scores y su modelo.La probabilidad condicional de la hipótesis nula pA(z|H0)se estima utilizando los scores de otros hablantes sobre elmodelo del hablante A.

La decisión bayesianabusca la minimizacióndel error dado por elsolapamiento de las pdf’s

Page 35: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 35

Decisión bayesiana de mínimo error

El umbral T se escoge de diversas maneras

1 de acuerdo a una estimación de los ratios de lasprobabilidades a priori

2 para que satisfaga un criterio fijo de falsa aceptación(FA) o falso rechazo (FR)

3 buscando un ratio FA/FR deseado

Page 36: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 36

Curva ROC relaciona los tipos de error con el umbral dedecisión.

Se escoge el umbral de decisión que da la misma tasa deerror FA y FR (equal error rate) (el óptimo ideal es elorigen)

Page 37: Reconocimiento de hablante - UPV/EHU...identificacion hablante 2 Definición •R econocimiento del hablante (Speaker recognition) – Es el uso de una máquina para reconocer a una

identificacion hablante 37

extracción de características

selección de características: solo fonadas

Estructura de un sistema deidentificación del hablante