procesador acústico: el bloque de extracción de ...€¦ · evolución de las técnicas que...

66
Universidad de Las Palmas de Gran Canaria Departamento de Señales y Comunicaciones Tratamiento de la Señal de Audio Procesador Acústico: El Bloque de Extracción de Características Juan Luis Navarro Mesa

Upload: others

Post on 17-Apr-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Universidad de Las Palmas de Gran Canaria

Departamento de Señales y Comunicaciones

Tratamiento de la Señal de Audio

Procesador Acústico: El Bloque de Extracción de Características

Juan Luis Navarro Mesa

Page 2: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal
Page 3: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

i

Índice INTRODUCCIÓN............................................................................................................................................................................3 1.- LA SEÑAL DE VOZ: CARACTERIZACIÓN Y MODELO DE PRODUCCIÓN..........................................................................5

1.1.- Representación de la Señal de Voz en el Tiempo en la Frecuencia ..............................................................5 1.2.- Características Estadísticas de la Señal de Voz................................................................................................8 1.3.- Modelo de Producción de Voz.............................................................................................................................8

1.3.1.- Mecanismo del Habla.........................................................................................................................................9 1.3.2.- Modelo de Tubos.............................................................................................................................................10 1.3.3.- Modelo Lineal ..................................................................................................................................................15

2.- EL RAH EN EL ENTORNO DEL PROCESADO DE VOZ ......................................................................................................17 2.1.- Los Niveles de Conocimiento en un Sistema de RAH ..................................................................................18 2.2.- Problemas Asociados al Reconocimiento del Habla ......................................................................................19 2.3.- Restricciones de los Sistemas de Reconocimiento.........................................................................................20 2.4.- Aproximaciones Básicas al RAH......................................................................................................................22

2.4.1.- Aproximación Acústico-Fonética ....................................................................................................................22 2.4.2.- Aproximación por Patrones de Características ................................................................................................25 2.4.2.- Redes Neuronales .............................................................................................................................................29

3.- TÉCNICAS DE PARAMETRIZACIÓN APLICADAS A RECONOCIMIENTO..........................................................................31 3.1.- El Problema de la Parametrización ...................................................................................................................31

3.1.1.- Elección de las Características para Reconocimiento......................................................................................33 3.2.- El Modelado de la Señal de Voz para RAH ....................................................................................................36 3.3.- Acondicionamiento de la Señal .........................................................................................................................36 3.4.- Extracción de Información .................................................................................................................................38

3.4.1.- Entramado y Enventanado de la Señal.............................................................................................................40 3.4.2.- Métodos Paramétricos de Extracción de Características .................................................................................41 3.4.3.- Métodos No Paramétricos de Extracción de Características ...........................................................................50 3.4.4.- Métodos Híbridos.............................................................................................................................................55

3.5.- Información Dinámica de la Señal....................................................................................................................57 3.6.- Procesador Acústico: Parametrización .............................................................................................................58

4.- BIBLIOGRAFÍA......................................................................................................................................................................64

Page 4: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal
Page 5: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

3

Introducción

El lenguaje hablado es, sin duda, el método de comunicación más natural, intuitivo y eficiente para los seres humanos. El intercambio de información mediante el habla juega un papel fundamental en nuestras vidas. Las estructuras lingüísticas y acústicas de la voz son reconocidas desde antaño como estrechamente relacionadas con nuestra capacidad intelectual y de comunicación social. Por ello, no es de extrañar que durante décadas la idea de interaccionar con máquinas como si de personas se tratase ha fascinado a ingenieros, científicos y, por supuesto, a los escritores de ciencia-ficción. El reconocimiento automático del habla (RAH) ha sido objeto de estudio durante varias décadas. Los esfuerzos y logros realizados por los investigadores en este campo durante estos años ha llevado al desarrollo de aplicaciones que ya son comercializadas en tiendas especializadas. No obstante, hay que precisar que aún nos encontramos lejos de lograr un sistema capaz de reconocer el habla natural de cualquier persona en cualquier ambiente. El reconocimiento es, pues, un campo con gran potencial de desarrollo futuro. Los apuntes que se recogen en esta obra son parte de unos más ambiciosos (todavía en fase de preparación) en los que quedará recogida información de interés para los alumnos de la E.T.S.I. de Telecomunicación en lo referente a tratamiento digital de la señal de voz. De hecho, la obra abarca más de lo explicado en clase. Con esto el autor pretende ir más allá de los objetivos específicos de la asignatura ofreciendo al alumno una visión amplia del tema a la vez que le permita profundizar hasta adentrarse en los porqués de un sistema de reconocimiento. En particular, para acompañar la clase elegida por el candidato se han elegido tres temas. El primero permite al alumno ver las señales de voz desde una óptica diferente a la habitual, puramente lingüística, a la vez que le introduce en el mundo del análisis de voz. El segundo tema está encaminado a dar una perspectiva de los sistemas de reconocimiento. No es una perspectiva amplia pero sí va al grano de lo que se verá en clase. En el tercer tema, sobre el que versa la clase elegida, entramos de lleno en las técnicas de parametrización o extracción de características para reconocimiento.

Page 6: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal
Page 7: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

5

1.- La Señal de Voz: Caracterización y Modelo de Producción En este tema vamos a estudiar las principales características de la señal de voz. Para ello, en el apartado 1.1 describiremos las principales formas de representar la señal de voz, de modo que sus características particulares queden de manifiesto. A continuación, repasaremos la caracterización estadística de la voz, incidiendo en aspectos fundamentales como la ergodicidad y la estacionariedad. Finalmente, analizaremos el modo en el que la voz se produce, partiendo del esquema físico, para obtener algún modelo que nos permita justificar el empleo de las herramientas matemáticas de extracción de características.

1.1.- Representación de la Señal de Voz en el Tiempo en la Frecuencia Con el paso de los años, el entorno del procesado de voz se ha visto beneficiado de la evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal y frecuencial. Quizá, la manera más simple y directa de clasificar sucesos en las continuas transiciones de la señal de voz es la que basa su funcionamiento en el estado de la fuente de producción de la voz. Este método, que se apoya en la representación en el dominio temporal, acepta la convención de la existencia de tres estados bien definidos. Estos son: silencio (SL), en el que no hay voz; voz sorda (SR), en el que las cuerdas vocales no vibran, y voz sonora (SN) en el que las cuerdas vocales vibran dando lugar a una señal casi periódica. A modo de ejemplo, se puede apreciar en la figura 1.1 el resultado de realizar esta clasificación para el dígito inglés ‘six’ pronunciado por una mujer. El eje horizontal está escalado en segundos y el vertical, de amplitud, es adimensional. Inicialmente, antes de comenzar a hablar, la forma de onda se clasifica como silencio hasta los 0’4 segundos. A continuación, se puede observar un intervalo de 180 ms. en el que la señal es sorda, correspondiente al fonema /s/. Seguidamente, con un abrupto incremento de energía, se aprecia un intervalo de 165 ms. en el que la señal es sonora, perteneciente al fonema /I/, al que sigue un silencio intrasilábico de unos 70 ms. Finalmente, otro intervalo de voz sorda, correspondiente a los fonemas /k/ y /s/ alrededor de 280 ms y un silencio. Mediante este tipo de representación se pueden apreciar características singulares de la señal de voz si la observamos en intervalos de varias unidades de milisegundos, como la (casi) periodicidad de las vocales, en este caso la /I/, presentando una resonancia (formante) de alta frecuencia. Los formantes son picos en el espectro de voz consecuencia de las resonancias en el tracto vocal. El concepto de formante es de extraordinaria importancia en cualquier tema relacionado con el análisis de la señal vocal, pues en ellos (en su distribución y estructura) está concentrada la mayor parte de la información psicoacústica transportada por la señal de voz que permite la comprensión del mensaje oral que generó el hablante.

Las características esenciales de los formantes son sus frecuencias de resonancia, aunque tanto las amplitudes como los amortiguamientos contribuyen, en cierto modo, a la comprensión de los sonidos correspondientes. Así, por ejemplo, las frecuencias de los tres primeros formantes (los de frecuencia de resonancia más baja) pueden constituir un sistema de referencia absoluto para los sonidos vocálicos, en el que las distintas vocales quedan representadas de forma relativamente independiente del locutor.

Page 8: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

6

Para poder conocer la estructura de los formantes debemos acudir a un tipo de representación en el dominio frecuencial. Un método que nos permite representar características frecuenciales relevantes de la señal de voz de manera sencilla es mediante una representación espectral de la señal. En la figura 1.2 se puede apreciar el espectro correspondiente a una señal genérica de voz sonora. Mediante esta representación podemos observar características tales como los formantes (máximos locales en el espectro) o la frecuencia fundamental (rizado de la señal) y sus armónicos. La frecuencia fundamental es la frecuencia de vibración de las cuerdas vocales. Esta vibración cuasi periódica es diferente en el caso de los hombres (p.e., 100-125 Hz) al de las mujeres (p.e., 200-250 Hz). En la figura podemos distinguir bien tres formantes; F1, F2 y F3 así como la frecuencia fundamental, F0. Si dicha vibración fuese totalmente periódica el espectro debería ser discontinuo, de rayas. En realidad no existe periodicidad total, por eso se habla de casi periodicidad.

Figura 1.1: Forma de onda del dígito “six” con clasificación silencio, sonoro y sordo

Figura 1.2: Espectro correspondiente a una señal de voz sonora

0 500 1000 1500 2000 2500 3000 3500 400010

20

30

40

50

60

70

80

90

Frequency (Hz)

Esc

ala

en d

B

Espectro

F1

F2

F3

F0

Page 9: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

7

La representación de la señal de voz mediante un espectro promedio no considera, sin embargo, un aspecto muy importante, la ordenación temporal de la evolución de la información espectral. Una forma alternativa de caracterizar las señales de voz y representar su información asociada es vía una representación conjunta en tiempo y en frecuencia. En este tema nos ceñiremos al estudio de una herramienta fundamental en el tratamiento de la señal de voz, el espectrograma. Se trata de una representación tiempo frecuencia tridimensional en la que se muestra la intensidad de la voz y su evolución temporal en diferentes bandas frecuenciales. En la figura 1.3 se observan los espectrogramas de banda estrecha y ancha correspondientes a la señal de la figura 1.1. El espectrograma de banda ancha se ha realizado con ventanas Hamming de 5 ms. de longitud, y con un solape del 50% entre ventanas consecutivas. El de banda estrecha se ha realizado con ventanas de 30 ms. de longitud y el mismo porcentaje de solape entre ventanas consecutivas. En el espectrograma de banda ancha los sucesos temporales están resueltos con gran precisión mostrando, por ejemplo, barras verticales durante los intervalos sonoros asociadas a los instantes de cierre glótico. La resolución frecuencial, a diferencia de la temporal, es pobre. Por el contrario, el espectrograma de banda estrecha tiene peor resolución temporal pero una mejor resolución frecuencial. En éste, los armónicos de la frecuencia fundamental están bien resueltos y definidos como líneas casi horizontales. En ambos espectrogramas se puede apreciar, durante los períodos de voz sorda, un aumento de la potencia de las componentes de alta frecuencia respecto a las de baja. Asimismo, en los intervalos de silencio no se aprecia actividad salvo el chasquido a 0.35 segundos que se observa en el espectrograma de banda ancha. Un espectrograma como tal es

Figura 1.3: a) forma de onda el dígito six, b) espectrograma de banda estrecha y c) espectrograma de banda ancha

Page 10: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

8

una herramienta muy buena para analizar señales de voz. También lo es para extraer información acerca de los eventos acústicos de la voz. Como veremos en el tema dedicado a la parametrización (el tercero) varias de las técnicas más exitosas en reconocimiento se basan en un espectrograma o similar.

1.2.- Características Estadísticas de la Señal de Voz

Hay varios aspectos a estudiar sobre la naturaleza estadística de la voz. Estos son; función de densidad de probabilidad, estacionariedad y ergodicidad. Cuando se aplican nociones estadísticas a la señal de voz, es necesario estimar la función de densidad de probabilidad (fdp). La fdp se puede estimar mediante un histograma de las amplitudes sobre un número suficientemente grande y representativo de muestras de señal. Se ha demostrado que la estadística de la voz queda bien representada por una distribución laplaciana o, en mejor medida, por una distribución gamma. Estas distribuciones son válidas si observamos la señal en tramos muy largos y para varios locutores. Si fuese el caso hacer una observación en intervalos cortos, no más de unas decenas de milisegundos, estas distribuciones ya no tienen la misma validez. En ese caso la distribución correcta depende del sonido que se esté produciendo y cambia con las transiciones fonémicas. Normalmente, en la mayoría de técnicas de extracción de características, conviene hacer la suposición de que la voz es un proceso estocástico ergódico. Esto da lugar a un modelo muy simplista, pero los resultados que se obtienen en la práctica justifican su validez. Por ejemplo, la autocorrelación de un proceso ergódico puede ser obtenida mediante la estimación de un promedio temporal conveniente. Esta estimación se tiene que hacer con un segmento suficientemente largo, aunque finito, de la señal. La validez del modelo ergódico está íntimamente ligada a la suposición de estacionariedad. Si ésta no es válida tampoco lo será la de ergodicidad. En la realidad la voz es un proceso estacionario o no según la longitud del intervalo de observación. La señal de voz es una señal de evolución lenta en el sentido de que, cuando se examina en intervalos de tiempo suficientemente cortos (típicamente, entre 20 y 60 ms), sus características son prácticamente estacionarias. Se habla, entonces, de señal casi estacionaria. Sin embargo, vista en intervalos largos (del orden de ¼ de segundo o más) las características de la señal cambian para reflejar los diferentes sonidos que se están pronunciando. Así, da lugar a una señal no estacionaria. En consecuencia, la validez de la ergodicidad ha de entenderse en los intervalos donde sea cierto que la señal es estacionaria.

En los sistemas de reconocimiento la extracción de información se hace en tramas de

señal en las que podamos suponer estacionariedad y ergodicidad. El tamaño de las mismas deberá ser elegido en consecuencia.

1.3.- Modelo de Producción de Voz Con el objetivo de aplicar técnicas de procesado digital de señales a los problemas de reconocimiento del habla, es esencial comprender tanto los fundamentos del proceso de producción de voz como los fundamentos del procesado digital de señales. Este apartado supone un repaso de la teoría acústica de producción de voz. Esta teoría proporciona la base para la

Page 11: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

9

aproximación clásica al modelado de la señal de voz como salida de un sistema lineal variante en el tiempo (tracto vocal) excitado por una secuencia de pulsos cuasi periódicos o ruido blanco, dependiendo el tipo de voz producida, sonora o sorda, respectivamente. Esta aproximación se aplica para obtener modelos en tiempo discreto para la señal de voz. Estos modelos, que están justificados en función de la teoría acústica y formulados en función de los principios de filtrado digital, serán una base de estudio de las técnicas de procesado de señal de voz en temas posteriores. De hecho, están en competencia directa con el espectrograma. 1.3.1. - Mecanismo del Habla El habla es el resultado final de un acto voluntario en el que intervienen órganos pertenecientes al sistema respiratorio y digestivo. El control del proceso lo lleva a cabo el sistema nervioso central, utilizando la realimentación de información a través del oído. El aparato fonador humano, encargado de la producción de la voz, se puede dividir en tres bloques atendiendo a la función que desarrolla cada uno de los elementos.

- Gene rador de energía. La energía necesaria para producir la voz parte de los músculos torácicos y abdominales que, al aumentar la presión en los pulmones, producen una corriente de aire.

- Sistema vibrante. Lo constituye la glotis, o cuerdas vocales, que están situadas en la laringe, separando la traquea del tracto vocal. Las cuerdas vocales producen una vibración cuasi periódica en el caso de los sonidos sonoros. Esta vibración posee un período fundamental o pitch característico para cada individuo. De esta vibración se obtiene una señal, que será modulada y modificada por el tracto vocal dando lugar a diferentes armónicos que son los que confieren la tonalidad y características psicoacústicas a la señal de voz.

- Sistema resonante. Está constituido por el tracto vocal que es un tubo no uniforme de unos 17 cm de longitud, cuyos límites son las cuerdas vocales por un extremo y los labios (o los orificios de la nariz) por el otro. El tracto vocal, por lo tanto, está formado por la faringe (conexión del esófago con la boca) y la cavidad bucal. Posee una sección recta variable en función de la posición de los órganos articulatorios (labios, mandíbula, lengua y velo del paladar) pudiendo variar entre 0 y 20 cm2. La cavidad nasal comienza en el velo del paladar y termina en la abertura de la nariz. Cuando el velo esta abierto, la cavidad nasal se acopla acústicamente con el tracto vocal produciendo los sonidos nasales. En los sonidos no nasales el velo impide el paso de aire hacia la nariz. Los órganos articulatorios y la cavidad nasal permiten concentrar la energía en determinadas frecuencias (formantes), actuando como resonadores conmutables.

En la figura 1.4 se muestra una representación simplificada del mecanismo fisiológico

completo de producción de voz. La función primaria es la inhalación, posible gracias a la expansión de la cavidad torácica, mediante la cual desciende la presión en los pulmones y entra el aire a través de las fosas nasales o bien por vía bucal. La energía necesaria para expulsar el aire reside en los músculos torácicos y abdominales (representados en la figura por un pistón). Cuando la cavidad torácica se contrae aumentando la presión en los pulmones, el aire sale expelido, pasa a través de los bronquios y de la traquea, y actúa como excitación del tracto vocal. En función de lo que ocurra después hay dos tipos elementales de sonido; sonoros y sordos. Para la voz sonora, las cuerdas vocales son tensadas y forzadas a vibrar por el paso de un flujo de aire.

Page 12: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

10

Dicho flujo es troceado en pulsos cuasi periódicos que son, entonces, modulados en frecuencia al pasar por la faringe, la cavidad bucal, y, en ocasiones, la cavidad nasal, generando voz sonora. En la voz sorda, los fonemas se producen por una excitación debida a un flujo de aire que, en algún punto del tracto vocal (normalmente cerca de la abertura bucal), por la acción de una obstrucción parcial o total se convierte en turbulento. 1.3.2.- Modelo de Tubos En el apartado anterior se ha descrito el mecanismo real por el que se producen los sonidos de voz. En este apartado se estudia la teoría acústica de producción del habla. Esta teoría se apoya en los principios de filtrado digital para proporcionar modelos en tiempo discreto para la señal de voz. Un modelo de producción ampliamente utilizado es el basado en la suposición de que el tracto vocal puede ser representado como una concatenación de tubos acústicos sin pérdidas, como se muestra en la figura 1.5. Esta suposición está basada en considerar plana la onda propagada a través del tracto vocal. Esto es, a diferencia de la situación de campo libre, en el tracto vocal, para la mayoría de las frecuencias de interés del sonido, la onda sonora se propaga en una sola dimensión, a lo largo de un eje.

Figura 1.4: Representación esquemática del mecanismo fisiológico completo de producción de voz

VOLUMEN PULMONAR

CAVIDAD FARINGEA

CAVIDAD BUCAL

CAVIDAD NASAL

TRAQUEA Y BRONQUIOS

VELO DEL PALADAR

CUERDAS VOCALES

RADIACIÓN LABIAL

RADIACIÓN NASAL

LARINGE

FUERZA MUSCULAR

Page 13: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

11

Esto es válido para frecuencias cuya longitud de onda es grande comparada con el

diámetro del tubo. Así, para un tono de 4 KHz, teniendo en cuenta que el diámetro del tracto vocal es como mínimo de 2 cm, esta suposición se cumple, dado que

cm.s/sm

fc

584000340

===λ (1.1)

Obtenemos, entonces, un modelo tanto más válido cuanto más pequeña es la frecuencia.

Debido a esta simplicidad matemática, asumimos que las ondas sonoras son planares. Asumimos, además, que la onda viaja a través de un tubo de sección A constante, cuyas paredes son rígidas y en forma de tubo sin pérdidas. Si bien la suposición de que no hay pérdidas no es correcta, un modelo así permite pasar de un modelo en tiempo continuo a uno digital, que es lo que nos interesa. Con todas estas suposiciones y aplicando las leyes de conservación de la masa, el momento y la energía, se puede demostrar que las ondas sonoras en el tubo satisfacen el siguiente par de ecuaciones:

tp

cA

xu

∂∂

=∂∂

− 2ρ

tu

Axp

∂∂

=∂∂

−ρ

(1.2)

donde x se mide desde la glotis hasta el final de cada tubo (0 ≤ x ≤ li), p es la presión del sonido, ρ representa la densidad del aire en el tubo y c es la velocidad del sonido Estas ecuaciones, combinadas con la ecuación diferencial de segundo grado

tu

cxu

2

2

22

2 1∂∂

=∂∂

− (1.3)

tienen una solución para la velocidad volumétrica u(x,t ), en el i-ésimo tubo de la forma

)cxt(u)cxt(u)t,x(u iii +−−= −+ (1.4)

La solución para la presión pi(x,t ), tiene la siguiente expresión

[ ])cxt(u)cxt(uAc

)t,x(p iii

i ++−= −+ρ (1.5)

A1 A2 A3 A4

l1 l3 l4

l2

Labios Glotis

Figura 1.5: Modelo del tracto vocal utilizando cuatro tubos

Page 14: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

12

En ambas soluciones se evidencia la presencia de dos ondas. Una en el sentido de la propagación (onda progresiva, ui

+(x,t) y pi+(x,t)) y otra en sentido contrario (onda regresiva, ui

-

(x,t) y pi-(x,t)). La onda regresiva se produce como consecuencia de que en la unión de dos tubos

o secc iones no se transfiere toda la energía, debido a que hay una porción de la misma que se refleja. La relación entre ondas progresiva y regresiva viene dada en función de las condiciones de continuidad en la unión de dos secciones, por lo que en el límite de las secciones i e i+1, para la velocidad volumétrica, tendremos las siguientes condiciones límite

)()()()( 11 tutututu iiiiii

−+

++

−+ −=+−− ττ (1.6) donde τi =li/c es el tiempo necesario para que una onda de sonido se propague a través de la sección i de longitud li. Paralelamente, para la presión tenemos las siguientes condiciones

[ ] [ ])()()()( 111

tutuA

ctutu

Ac

iii

iiiii

−+

++

+

−+ +=++−ρ

ττρ

(1.7)

Resolviendo estas ecuaciones obtenemos

)()()( 11 turtutu iiiiii

−+

+++ +−= τβ (1.8)

)()()( 11 tuturtu iiiiiii−+

++

− +−−=+ φττ (1.9)

donde

ii

iii AA

AAr

+−

=+

+

1

1 (1.10)

iii

ii r

AAA

+=+

=+

+ 12

1

1β (1.11)

iii

ii r

AAA

−=+

=+

12

1

φ (1.12)

y Ai es la sección del tubo i-esimo. El término ri es el coeficiente de reflexión entre las secciones i e i+1, e indica qué cantidad de onda incidente es reflejada. La magnitud de r está limitada a la unidad y sólo será igual a uno cuando una de las áreas de un límite sea cero o infinito, es decir, toda la onda será reflejada cuando encuentre el final de un tubo, como en los instantes de cierre glótico (r0=1) o cuando encuentre la unión de los labios (rN=-1). β y φ representan la cantidad de onda propagada que pasa mas allá de un límite para las ondas de ambos sentidos.

Cada unión en un sistema como el de la figura 1.5 puede ser representada con un sistema como el de la figura 1.6. En él, los símbolos τ equivalen a retardos, las uniones con flechas a multiplicaciones y los círculos nodales a adiciones de señales.

Page 15: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

13

Para completar la representación de la propagación de las ondas en el tracto vocal, el sistema debe considerar las condiciones límites en los labios y en la glotis.

Consideremos entonces un modelo de N tubos sin pérdidas, de longitud li y sección Ai,

donde i=1 en la glotis y N en los labios. Los efectos de vibración, fricción y pérdidas térmicas se incluyen en los modelos de la glo tis y los labios. Los coeficientes de reflexión en la glotis y en los labios (rG y rL) responden a las siguientes expresiones

LN

LNL ZAc

ZAcr

+−

=)()(

ρρ

(1.13)

01

01

ZZZZ

rG

GG +

−= (1.14)

donde ZL (valor de impedancia labial) se comporta como un diferenciador; muy pequeño a bajas frecuencias y creciente (6 dB/oct) para las frecuencias de interés. Asimismo ZG (valor de impedancia glotal) no es una impedancia fija, su valor depende de la posición de las cuerdas vocales. En la figura 1.7 se muestra el modelo completo del tracto vocal utilizando tres tubos. Típicamente N vale entre 8 y 12, lo cual permite una simulación más adecuada que con sólo 2 o 3 tubos. Si seleccionamos r1 y r2 de acuerdo con la ecuación 1.10, el circuito puede producir valores de velocidad volumétrica de la señal de voz uL(t) para cualquier modelo de tres tubos con áreas A1, A2, y A3. Para tubos de diferentes longitudes basta con utilizar el retardo apropiado para cada sección. Dado que el diagrama de la figura 1.7 (a) contiene solamente sumas, productos y retardos se puede transformar fácilmente en un modelo discreto (digital). Teniendo en cuenta que z-1 es la transformada Z para un retardo unidad, con un período de muestreo del sistema de 2τ obtenemos el diagrama de la figura 1.7(b).

Figura 1.6: Diagrama de ondas en la unión de dos tubos sin pérdidas

τi

τi

τi+1

ui+(t)

ui-(t)

ui+(t-τi)

ui-(t+τi)

ui+1+(t) ui+1

+(t-τi+1)

ui+1-(t+τi+1) ui+1

-(t)

-ri

1+ri

1-ri

ri

tubo i tubo (i+1)

τi+1

Page 16: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

14

Esta es una buena elección para minimizar la carga computacional ya que los dos retardos mitad de cada sección pueden ser combinados en un único retardo unidad (figura 1.7 (c)) sin serias consecuencias para la salida. La única diferencia significativa es que el retardo entre la entrada y la salida será el doble del modelo original. Dado que Nτ=0.5 ms para un tracto vocal típico, doblar el retardo simplemente añadiría 0.5 ms, lo que es irrelevante incluso en aplicaciones en tiempo real. Finalmente, si ignoramos los efectos de la radiación, la función de transferencia para un modelo de N tubos sería

=

=

++

== N

i

ii

N

ii

N

G

G

L

za

rzr

zUzU

zH

1

1

2

1

)1(

21

)()(

)( (1.15)

donde ai depende de los coeficientes de reflexión ri. Los N polos de H(z) representan los formantes del espectro. H(z) no tiene ningún cero, excepto en el origen. Esto se debe a que esta función de transferencia se obtiene de un modelo en el que sólo hay un camino de propagación para las ondas. En el caso de sonidos nasales o fricativos este modelo quedaría incompleto. Sin

τ

τ

τ

τ

uG (t)

-r1 (1+rG)/2 1+r1

rG

τ

τ

1-r1

r1 -r2

1-r2

1+r2 r2 -rL

1+rL

uL(t)

uG (nT)

-r1 (1+G)/2 1+r1

rG

1-r1

r1 -r2

1-r2

1+r2 r2 -rL

1+rL

uL(nT) z-1 z-1 z-1

uG (nT)

-r1 (1+rG)/2 1+r1

rG

1-r1

r1 -r2

1-r2

1+r2 r2 -rL

1+rL

uL(nT) z-1/2 z-1/2 z-1/2

z-1/2 z-1/2 z-1/2

Figura 1.7: Diagrama de ondas del modelo del tracto vocal utilizando tres tubos sin pérdidas

de igual longitud y diferente sección: (a) sistema analógico, (b) sistema equivalente en tiempo

discreto, (c) sistema modificado para reducir el número de componentes de retardo

Page 17: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

15

embargo, el modelo “todo polos” proporciona una buena representación para casi todos los sonidos de voz ya que está comprobado que los ceros se pueden aproximar a partir de los polos.

En la aplicación del modelo todo polos a los sistemas reales de reconocimiento se suelen asumir las siguientes suposiciones. En primer lugar, se asume que en la señal de voz encontraremos un formante por cada Kiloherzio. En segundo lugar, se supone que con dos polos (complejos conjugados) modela remos adecuadamente cada formante. De estas dos suposiciones se deduce que si modelamos una señal de voz con una frecuencia máxima de 4 KHz, se requiere incluir, como mínimo, 8 polos en el modelo. Además, se añaden varios polos para modelar correctamente los casos particulares (p.e., los sonidos nasálicos) con lo que obtendríamos el modelo típico de 10 ó 12 polos. 1.3.3. - Modelo Lineal Para aceptar la validez de un modelo de producción lineal, éste debe ser equivalente al real en sus terminales, pero su estructura interna no tiene por qué reproducir los verdaderos mecanismos físicos de producción. Además, debe estar controlado por un conjunto de parámetros que estén relacionados de alguna forma con la producción de voz. El modelo lineal incluye un sistema excitado por una señal cuya naturaleza básica puede evolucionar en el tiempo desde pulsos casi periódicos, para voz sonora, a ruido aleatorio, para voz sorda, pasando por híbridos entre estos. En la figura 1.8 se representa el modelo lineal clásico de producción.

AV

Modelo De

Radiación

Modelo de Pulso Glótico

Generador de

Impulsos

Generador de Ruido

Aleatorio

Período Fundamental

AN

Parámetros del Tracto

Vocal

G(z)

V(z)

R(z)

Figura 1.8: Modelo Lineal de Producción de voz

Modelo del Tracto

Vocal

Page 18: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

16

En él se pueden distinguir los siguientes tres elementos:

1) El tracto vocal: V(z). Generalmente se emplea una función todo polos de la forma

∏∑=

=

− −=

−= N

ii

N

i

ii zp

G

za

GzH

1

1

1

)1(1)(

(1.16)

donde pi son los polos de la función de transferencia y G es e l factor de ganancia (representa la amplitud de la voz). Los coeficientes del filtro se pueden calcular mediante predicción lineal dando lugar a la codificación predictiva lineal, que se estudiará más delante.

2) La radiación en los labios : R(z). La técnica que se utiliza para introducir el efecto de la

radiación en el modelo digital es la inclusión de un filtro paso alto, típicamente, un diferenciador de primer orden de la forma

11)( −−= zzR (1.17)

Este diferenciador tiene como efecto una subid a de +6 dB/oct para las frecuencias de interés.

3) La excitación: Para voz sonora, el generador produce un tren de impulsos que excita un

sistema lineal, G(z), que tiene la forma glótica deseada. Para voz sorda, el modelo es mucho más simple. Todo lo que se requiere es una fuente de ruido aleatoria. Para ambos casos, existen controles de ganancia, AN y AV, que controlan la intensidad de la señal de excitación.

En la mayoría de los casos es necesario combinar los modelos de pulso glótico y de radiación conjuntamente con el del tracto vocal. Por ello, la función de transferencia global H(z), engloba a las demás

H(z)=G(z)V(z)R(z) (1.18)

Para poder involucrar un modelo como el lineal en un sistema de reconocimiento, es necesario considerar unas restricciones que pueden limitar su aplicación. Primera, para poder calcular los parámetros del modelo es necesario suponer casi estacionariedad, esto es, las características de la señal no cambian durante el intervalo temporal en que se estudian. Esta suposición es válida en ciertos tramos de señal, pero no en las transiciones entre fonemas. En realidad, si queremos ser estrictos, la voz debe entenderse como un proceso no estacionario por definición. Segunda, asumir un filtro todo polos para el tracto vocal implica que faltan ceros para modelar correctamente ciertos fonemas, por ejemplo, los nasales. Y tercera, la simple división entre sonidos sonoros y sordos no es siempre válida, por ejemplo, en las fricativas sonoras. Ciertamente, el modelo de producción lineal es de validez tan limitada como útil. Existen, sin embargo, técnicas de análisis que obtienen buenos resultados basándose en el modelo lineal, como el análisis de predicción lineal, que, como hemos comentado, se estudiará más adelante.

Page 19: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

17

2.- El RAH en el Entorno del Procesado de Voz Este tema está dedicado a dar una visión global del RAH en el entorno del procesado de voz hoy en día sin entrar todavía en su aplicación específica a problemas concretos. En los siguientes apartados se describen los niveles de conocimiento en los sistemas de RAH y se presentan las dificultades que conlleva el reconocimiento, derivadas principalmente del carácter continuo y variable de la voz. Estas dificultades obligan a imponer restricciones al problema global en cuanto al tipo de habla, la talla del léxico, el número de locutores, etc. Finalmente, se describen los principales métodos que se aplican al RAH: la comparación de plantillas, los modelos ocultos de Markov y las redes neuronales. Antes de desarrollar el tema conviene hacer algunas consideraciones generales. El habla es el medio más espontáneo y natural de comunicación entre las personas. Sin embargo, hasta nuestros días se puede afirmar que en su comunicación con las máquinas, el hombre ha hecho uso exclusivo del lenguaje escrito. Resulta natural, por tanto, extender la capacidad de comunicación hombre-máquina al mensaje oral. Además de la naturalidad y espontaneidad aludidas, la comunicación oral hombre-máquina presenta importantes ventajas en gran cantidad de aplicaciones, como el diálogo interactivo, la introducción de grandes cantidades de datos en la máquina o su uso como herramienta en la ingeniería médica. Una de estas ventajas es que en la comunicación oral las manos y la vista del usuario quedan liberadas, pudiendo dedicarse a una tarea simultánea a la comunicación. Ello ofrece posibilidades muy interesantes en el gobierno de sistemas de gran complejidad en que la atención visual sea muy importante. Una segunda ventaja proviene del hecho de la universalidad de la red telefónica que permite acceder a bases de datos. Aunque ésta puede ser aprovechada para la transferencia de información sin acudir al habla, la comunicación oral, al no requerir otro equipo que el teléfono, ofrece una ventaja sustancial: cualquier aparato telefónico se convierte en un enlace potencial con el ordenador y de este modo los accesos a bases de datos, las reservas y ventas de billetes de viaje, las operaciones bancarias, etc. podrían realizarse desde cualquier punto.

Una de las primeras preguntas que cabe realizarse acerca de un sistema de reconocimiento es ¿qué podemos esperar de él?. En la actualidad, la disponibilidad de equipos de prestaciones impensables hace unos años, junto con la madurez alcanzada por el sector, ha permitido que algunas empresas hayan abordado el terreno del mercado del gran consumo con productos que alcanzan altas tasas de acierto (en torno al 98% o más) para dictado de textos, tanto en habla aislada como continua.

Entonces, ¿qué nuevas motivaciones deben hace r que ingenieros de todo el mundo sigan investigando el tema?. Esperamos que cuando se acabe este tema el lector sea capaz de valorar ese sistema en su justa medida, conocer lo que es un sistema independiente del locutor, de gran vocabulario, etc.

Page 20: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

18

2.1.- Los Niveles de Conocimiento en un Sistema de RAH En la comunicación oral, existen varios niveles de percepción y comprensión, que interaccionan dinámicamente entre sí y en combinación con otros sistemas perceptivos (visual, por ejemplo) y motores (interacción entre aparato fonador y auditivo, producción de gestos, etc.). Cada uno de estos niveles aplica la fuente de conocimientos sobre el lenguaje que le es propia y extrae su parte correspondiente de la información total necesaria para la comprensión del mensaje. Estos niveles básicos de comprensión se trasladan el diseño de un sistema de reconocimiento. Desde este punto de vista, los niveles básicos son los siguientes:

1) Nivel acústico: se analizan las características físicas de la señal vocal para extraer parámetros con la información relevante en el reconocimiento.

2) Nivel fonético: se determinan los objetos sonoros elementales (fonemas, sílabas, palabras,etc.).

3) Nivel léxico: en él se generan hipótesis de palabras en función de las hipótesis de unidades menores aportadas por el nivel acústico. Esto es, si del nivel acústico obtenemos fonemas, sílabas, semisílabas, etc., el nivel léxico dice cómo se concatenan para formar unidades mayores, palabras.

4) Nivel sintáctico: genera hipótesis de frases aplicando reglas gramaticales basadas en el uso y normalización del lenguaje. Esto es, actúa sobre la forma de concatenar palabras para formar frases.

5) Nivel semántico: se generan hipótesis sobre el significado de las frases reconocidas, eliminando las posibles interpretaciones absurdas y comprobando la coherencia del mensaje recibido con el conocimiento previo que de la realidad se dispone, así como del contexto en el que discurre el diálogo.

6) Nivel pragmático: es un nivel que podríamos añadir por encima del semántico. Se puede ver como la relación entre los símbolos y los usuarios que los producen.

SISTEMA DE RECONOCIMIENTO

Nivel Acústico

Nivel Léxico

Nivel semántico

Nivel Fonético

Nivel sintáctico

Nivel pragmático

Señal Acústica

Mensaje Interpretado

Figura 2.1: Planteamiento general del reconocimiento automático del habla

Page 21: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

19

En cualquiera de sus aspectos, el problema central en reconocimiento automático del

habla consiste en hacer cooperar un conjunto de informaciones plagadas de ambigüedades, incertidumbres y errores inevitables, para llegar a una interpretación aceptable del mensaje acústico recibido.

Las informaciones que se manejan son de dos tipos: la señal de voz portadora del mensaje y las fuentes de conocimiento a priori que el sistema debe poseer sobre el universo de diálogo (conocimientos acústicos, diversos aspectos lingüísticos y pragmáticos, etc.). Según las características y especialización de cada sistema, las distintas fuentes de conocimiento pueden estar simplificadas en mayor o menor grado o incluso estar prácticamente ausentes. Por ejemplo, en un sistema de reconocimiento de palabras aisladas, tan sólo las fuentes de conocimiento acústico y léxico son necesarias, mientras que en sistemas de reconocimiento de palabras conectadas con sintaxis artificial, es necesario además una tercera fuente, que usualmente reúne los conocimientos sintácticos, semánticos y pragmáticos.

2.2.- Problemas Asociados al Reconocimiento del Habla El habla es una de las principales manifestaciones de la inteligencia humana y, en la actualidad, se es consciente de la enorme dificultad que entraña la concepción de sistemas que intenten aproximarse a sus prestaciones. La dificultad de automatizar los procesos de percepción y comprensión del habla reside en la complejidad de los mismos. Ninguno de estos procesos es suficientemente conocido como para ser incorporado a una máquina en formato de algoritmo. A continuación se exponen los principales problemas asociados al reconocimiento. • Coarticulación. Los fonemas, o las diferentes unidades subléxicas que puedan seleccionarse en un determinado sistema de reconocimiento, se influyen unos a otros debido a los progresivos movimientos de los órganos articulatorios. Esto se produce porque los órganos parten de unas condiciones diferentes para pronunciar un sonido en función de la pronunciación anterior, cambiando por ello sus características espectrales con respecto a los elementos aislados. Este fenómeno recibe el nombre de coarticulación. • Segmentación. A pesar de que se tenga la impresión contraria, en el habla natural, ni los fonemas, ni las sílabas, ni siquiera las palabras, constituyen elementos discretos que se puedan separar fácilmente de forma automática. No existen pausas entre muchos de los elementos y el espectro cambia continuamente de fonema en fonema, siendo relativamente fácil segmentar sonidos sordos debido a su falta de periodicidad, pero mucho más complicada la segmentación de voz sonora. • Variabilidad. El habla presenta una gran variabilidad, es imposible que un locutor pronuncie dos veces exactamente igual una misma sílaba, palabra o frase. Esta variabilidad se produce incluso en la lectura cuidadosa de locutores entrenados. Aparte de variaciones circunstanciales de entonación y amplitud se producen alteraciones producidas por el estado de ánimo del locutor y por su condición física actual (cansancio, enfermedad, etc.). La variabilidad entre distintos locutores es sensiblemente mayor, ya que las características acústicas de la voz cambian

Page 22: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

20

sustanc ialmente entre ellos, debido principalmente a las diferencias físicas de los aparatos fonadores, que dependen en gran medida del sexo, la edad y, según el caso, de una patología. También son importantes los hábitos de habla diferentes según la procedencia geográfica y el entronque social del locutor. • Conocimiento Lingüístico. Las características físicas de determinados mensajes orales no conllevan siempre la suficiente información fonética para definir explícitamente su contenido. Habitualmente, las expresiones se pronuncian haciendo un uso inconsciente del conocimiento lingüístico acumulado. En la percepción ocurre lo mismo. Incertidumbres procedentes de errores acústico- fonéticos pueden resolverse a menudo usando un análisis sintáctico o semántico. Cada tipo de conocimiento de alto nivel define restricciones que las frases deben satisfacer. Si son explotadas convenientemente, estas restricciones pueden sugerir hipótesis plausibles o eliminar interpretaciones improbables en el proceso del reconocimiento. • Entorno. En principio, la inmensa mayoría de los sistemas de reconocimiento del habla se diseñan suponiendo que las condiciones ambientales en las que van a funcionar no van a afectar sustancialmente a la señal de voz, lo cual supone una sustancial simplificación del problema general del reconocimiento. Una importante fuente en el incremento en las tasas de error en el reconocimiento la constituyen el entorno y el canal de transmisión: ruidos, interferencias, reverberaciones del entorno, tipo de micrófono, características frecuenciales de una línea de transmisión (caso de haberla), etc.

2.3.- Restricciones de los Sistemas de Reconocimiento Dada la gran complejidad del proceso general de producción de voz, en el diseño de sistemas de reconocimiento se hace necesario introducir restricciones más o menos severas con el objeto de simplificar el problema general hasta llevarlo a planteamientos abordables. En la concepción de sistemas reales, siempre se enfatiza en mayor o menor grado algunas de las simplificaciones, con lo que los sistemas resultantes quedan especializados en determinados aspectos del habla. A continuación se revisarán los aspectos fundamentales en que se suelen realizar las simplificaciones mencionadas, estableciendo una clasificación genérica de los sistemas de reconocimiento en función de las simplificaciones que realicen.

• Dependencia con el Locutor. Atendiendo al grado de variabilidad en los locutores aceptables por el sistema, se distingue entre sistemas monolocutor, si reconocen la voz de un único locutor; multilocutor, si admiten voz de un conjunto limitado de locutores, e independientes del locutor, si admiten voz perteneciente a cualquier locutor. La diferencia esencial entre los sistemas de reconocimiento multilocutor e independiente de locutor estriba en el conocimiento previo que el sistema posee de los locutores. En un sistema multilocutor es posible entrenar al sistema con las características de los locutores que componen un conjunto restringido, de forma que se posee cierta información a priori de los locutores. En un sistema independiente de locutor, en cambio, no es posible incorporar este tipo de información

Page 23: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

21

previa sobre los locutores y, normalmente, estos sistemas son evaluados utilizando un conjunto de locutores diferentes de los utilizados para el entrenamiento del mismo. Los sistemas monolocutor y multilocutor consiguen mejores tasas de reconocimiento que los sistemas independientes de locutor, pero requieren un costoso período de aprendizaje o adaptación para cada nuevo locutor. Los sistemas independientes del locutor no tienen este inconveniente porque se entrenan con muchos locutores, pero sus tasas de acierto son menores debido a que la mayoría de las representaciones de la señal de voz son altamente dependientes del locutor.

• Tipo de habla. Es posible realizar una clasificación de sistemas que establezca restricciones relacionadas con la forma en que el locutor ha de pronunciar las palabras. La restricción más fuerte corresponde a los sistemas denominados de palabras aisladas, en los que se condiciona al locutor a pronunciar las palabras con una separación temporal mayor de 300 ms. Un nivel inferior de condicionamiento corresponde a los sistemas de palabras conectadas, en los que el locutor puede pronunciar las palabras de forma fluida, pero muy cuidadosa. Sin embargo, el interés final del desarrollo en reconocimiento del habla hay que situarlo en el diseño de sistemas capaces de interpretar el mensaje oral tal y como es producido por una persona cuando se comunica con sus semejantes. Hablamos del reconocimiento de habla continua o natural. En este tipo de reconocimiento se incrementan sustancialmente las dificultades comentadas en el apartado 2.2, especialmente las referidas a coarticulación y segmentación, con respecto al resto de sistemas. Esto se debe, en primer lugar, a que en el habla continua los efectos coarticulatorios entre sonidos son más fuertes que en palabras aisladas y, además, aparecen efectos coarticulatorios entre palabras, que son más difíciles de predecir. En segundo lugar se debe a que en el habla continua los límites de cada palabra no son claros y son difíciles de encontrar. Además, se da la circunstancia de que en este tipo de habla las palabras significativas (nombres, verbos, adjetivos) suelen enfatizarse, mientras que el resto (artículos, preposiciones, pronombres, etc.) se articula de manera más pobre.

• Talla del Léxico. Los sistemas de reconocimiento, atendiendo al número de palabras de su vocabulario, se pueden clasificar en pequeños, medianos y grandes, según tengan decenas, centenas o más de mil palabras, respectivamente. El problema principal que aparece conforme crece el vocabulario es el de la confusión entre palabras, que incrementa las tasas de error del sistema. Por otro lado, en el caso de pequeños vocabularios cada palabra puede modelarse individualmente, ya que es razonable esperar suficientes datos para entrenar cada palabra, y es posible almacenar los parámetros de cada modelo de palabra separadamente. Sin embargo, cuando el tamaño del vocabulario aumenta, no es posible modelar cada palabra explícitamente. En su lugar, se han de utilizar unidades de decisión inferiores a la palabra, como sílabas o fonemas, que conducen a una progresiva degradación del comportamiento del sistema porque son difíciles de detectar y sólo pueden capturar parcialmente los efectos de articulación, que en gran medida quedan absorbidos en los modelos de palabras. Otro problema asociado es la complejidad en la búsqueda. Para pequeños vocabularios es posible realizar búsquedas exhaustivas. Sin embargo, en grandes vocabularios una búsqueda exhaustiva es inabordable por el excesivo tiempo de cálculo que supone. Por ello, necesitamos dotarnos de herramientas para optimizar la búsqueda, como la gramática, que a su vez puede conducir a errores en el reconocimiento.

Page 24: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

22

• Reconocimiento de Locutor. En los sistemas de Reconocimiento del Locutor (Speaker Recognition) la información que se le facilita al sistema es relativa a quién pronuncia. Dos clases de algoritmos son los desarrollados basándose en este tipo de aplicaciones: identificación del locutor y verificación del locutor. Los primeros tratan de responder a esta pregunta, “¿Quién eres?”. El segundo tipo intenta contestar a otra pregunta, “¿Eres realmente quién dices ser?”. Estos sistemas intentan extraer los parámetros que dependen directamente del locutor, y se utilizan desde hace tiempo como sistemas de seguridad en instalaciones de naturaleza diversa, p.e., militar, acceso a edificios. Ambos tipos se pueden dividir en dos grupos: los sistemas dependientes del texto y los independientes del texto. Los primeros comprueban la identidad del locutor en función de la repetición de un texto previamente entrenado. Por el contrario, los sistemas independientes del texto son evaluados utilizando un texto diferente del empleado en el entrenamiento del mismo. Generalmente para los sistemas de Reconocimiento del Locutor, en la etapa de parametrización se recurre a herramientas que tengan en cuenta las características individuales por encima de las que representen el mensaje transmitido.

2.4.- Aproximaciones Básicas al RAH En este apartado se repasarán someramente las principales aproximaciones al reconocimiento automático del habla que existen en la actualidad, exponiendo las ideas básicas de cada método propuesto y planteando las principales ventajas e inconvenientes de cada aproximación. En primer lugar, se estudiará la aproximación acústico-fonética. Según los postulados de esta aproximación, la máquina intenta decodificar la señal de voz de forma secuencial, basándose en la observación de las características acústicas de la señal y en el conocimiento de las relaciones que existen entre las características acústicas y las unidades fonéticas1. Este método es, en realidad, viable, y ha sido estudiado con gran profundidad desde hace más de 40 años. Sin embargo, por varias razones (fiabilidad, complejidad de los algoritmos implicados, etc.) la aproximación acústico- fonética no ha alcanzado el mismo éxito en sistemas prácticos que otros métodos alternativos. Esos métodos parten, en su mayoría, de la aproximación por patrones de características. Esta aproximación, a diferencia de la anterior, se basa en la comparación directa de patrones sin una determinación explícita de características en el sentido acústico- fonético. Finalmente, se aborda el estudio de la aproximación conexionista o de redes neuronales. Esta aproximación intenta aportar información acerca del comportamiento humano en el reconocimiento simulando redes nerviosas. 2.4.1.- Aproximación Acústico-Fonética Según la teoría en la que se fundamenta esta aproximación, en el lenguaje oral existe un número finito de unidades fonéticas diferentes, y cada una de ellas está ampliamente caracterizada por un conjunto de propiedades que se manifiestan en la forma de onda, o en su espectro, a lo largo del tiempo. Aunque las propiedades acústicas de las unidades fonéticas sean altamente variables, debido tanto a diferencias entre locutores como a problemas de coarticulación, se asume que las reglas que gobiernan la variabilidad son simples y pueden ser aprendidas y aplicadas en situaciones prácticas.

1 En RAH se entiende por tal la unidad básica de reconocimiento

Page 25: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

23

En la figura 2.2 se muestra un diagrama de bloques generalizado de la aproximación acústico-fonética al RAH. El primer paso en el proceso, común en todas las aproximaciones al reconocimiento, es el análisis de la señal de voz con vistas a la extracción de características ‘relevantes’. Este análisis proporciona a las subsiguientes etapas una apropiada representación de las características de la señal con su evolución temporal. Las diferentes técnicas de análisis espectral para sistemas de reconocimiento del habla serán estudiadas en temas posteriores. El siguiente paso es la etapa de detección de características. Esta etapa la conforman habitualmente un conjunto de detectores que operan en paralelo, donde las medidas espectrales se convierten en un conjunto de características que describen ampliamente las propiedades acústicas de las diferentes unidades fonéticas. Entre las características propuestas se pueden encontrar, por ejemplo, la nasalidad (presencia o ausencia de resonancia nasal), la fricación (presencia o ausencia de excitación aleatoria), la localización de los formantes (frecuencias de los tres primeros formantes) o la clasificación de voz sonora-sorda (presencia o ausencia de periodicidad en la excitación).

El tercer paso en el procedimiento se conoce como fase de segmentación y etiquetado. Esta etapa consiste, en primer lugar, en la segmentación de la señal de voz en regiones discretas, donde las características cambien muy poco en todo el intervalo. En estas regiones, las propiedades acústicas de la señal deben ser representativas de una o varias unidades fonéticas. Una vez segmentada, se le aplica a cada una de estas regiones una o más etiquetas fonéticas, de acuerdo con sus propiedades acústicas. La realización práctica de la fase de etiquetado suele basarse en establecer un árbol de decisión. Por medio de este árbol se irán comprobando criterios progresivamente hasta decidir cual de las unidades fonéticas se halla presente en la señal de voz estudiada. En la figura 2.3 se muestra un modelo general de árbol binario de clasificación de sonidos de voz. En este modelo, la primera decisión es la división voz/silencio en la que las características de voz, principalmente la energía, se compara con unos umbrales seleccionados, determinando la clasificación de silencio si no se superan dichos umbrales. La segunda decisión es determinar si se trata de un segmento de voz sonoro o sordo. Para ello, se busca la presencia de periodicidad en el segmento, y la voz sorda es apartada de la voz sonora.

Cadena de unidades

Análisis señal de voz

Detector de características 1

Segmentación

y Etiquetado

Estrategia de control

Detector de características Q

s(n)

Figura 2.2: Diagrama de bloques de un sistema de RAH basado en un decodificador acústico-fonético

Page 26: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

24

A continuación, se analiza la voz clasificada como sorda, comprobando si un periodo de

silencio precede al segmento, y se separan las consonantes oclusivas sordas de las fricativas sordas. Para la voz sonora, un estudio de la frecuencia (energía en la banda) separa las fricativas sonoras del resto de sonidos sonoros. Las oclusivas sonoras, al igual que las sordas, son separadas verificando la presencia de silencio precediendo al sonido. Finalmente, un análisis de la información espectral separa las vocales de las consonantes nasales y de las semivocales. La distinción entre las distintas vocales se realiza mediante un clasificador de vocales que, generalmente, utiliza información acerca de la posición de los dos primeros formantes y la duración del segmento de voz, para efectuar la división. El modelo estudiado es demasiado general, y, por lo tanto, con alta tendencia al error, pero puede explicar básicamente el proceso de etiquetado en la aproximación acústico-fonética. Esta es la etapa más importante de los reconocedores acústico- fonéticos y también la más difícil de llevar a la práctica. Por ello, se suelen utilizar diferentes es trategias de control, que explotan las restricciones léxicas de las palabras para limitar el rango de puntos de segmentación y las posibilidades de etiquetado. Un conveniente aprovechamiento de estas restricciones puede reducir el espacio de búsqueda y ele var significativamente el grado de exactitud del sistema. El resultado de la etapa de segmentación y etiquetado suele ser un enrejado por fonemas que representa un conjunto secuencial de fonemas parecidos a la señal de entrada. El problema

precedido de sonido

características de voz

alta frecuencia

consonante sonora

sonido

Figura 2.3: Arbol binario de clasificación de sonidos de voz

silencio

ALTA / BAJA FRECUENCIA

SONORO/SORDO

VOZ/SILENCIO

PRECEDIDO DE SILENCIO/SONIDO

VOCAL/CONSON. SONORA

PRECEDIDO DE SILENCIO/SONIDO

CLASIFICADOR DE VOCALES

sonoro

sordo

baja frecuencia

precedido de silencio

vocal

oclusivas sordas

silencio

fricativas sordas fricativas sonoras

oclusivas sonoras

vocales

nasales y semivocales

Page 27: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

25

está en decodificar una palabra (o varias) a partir del citado enrejado, de forma que todos los instantes de tiempo pertenezcan a un determinado fonema, y que la palabra sea válida conforme a las restricciones sintácticas del lenguaje utilizado. Este es uno de los principales inconvenientes de este tipo de sistemas y es conocido como problema de acceso léxico. Para resolverlo, el último paso en el proceso intentará determinar una palabra (o cadena de palabras) válida a partir de la secuencia de etiquetas fonéticas producidas en la fase anterior, que sea consecuente con las restricciones que implica la tarea de reconocimiento. Esto es, las palabras deben ser extraídas de un vocabulario dado, la secuencia de palabras debe tener sentido sintáctico y significado semántico, etc. La salida final del reconocedor será la palabra o cadena de palabras seleccionadas en forma de secuencia de unidades fonéticas, extraídas del enrejado por fonemas. La concepción de sistemas de reconocimiento del habla bajo los postulados de la aproximación acústico- fonética conlleva, además de los citados, otros problemas alternativos que han contribuido a la falta de éxito de esta aproximación en sistemas prácticos. Algunos de esos problemas son:

- Este método requiere un extenso conocimiento de las propiedades acústicas de las unidades fonéticas. En la mayoría de las ocasiones este conocimiento queda incompleto y no consigue definir con fidelidad las diferentes unidades.

- La elección de las características suele basase en consideraciones intuitivas y no están, realmente, definidas con toda claridad.

- Generalmente, no se logra realizar un diseño óptimo de los clasificadores de sonido. Para una tarea de reconocimiento no muy grande, los árboles de decisión diseñados no son efectivos ni lo suficientemente rápidos.

Debido a estos problemas, los métodos desarrollados bajo la aproximación acústico-fonética han quedado como una idea interesante pero que requiere un mayor esfuerzo de investigación para poder competir con los sistemas de reconocimiento desarrollados bajo otras aproximaciones. 2.4.2. - Aproximación por Patrones de Características En teoría, un reconocedor de voz podría ser tan simple como un diccionario largo, donde cada entrada (p.e., una palabra) es almacenada y se identifica con un determinado texto. Dada una pronunciación, este diccionario buscaría la mejor equivalencia (usando alguna medida de distancia) y el sistema entregaría el texto identificado. Sobre este elemental principio (válido para reconocimiento de palabras aisladas) se asienta la teoría de la comparación de plantillas de características. Sin embargo, la aproximación es impracticable para reconocimiento de habla continua independiente de locutor y de gran vocabulario dada la inmensa cantidad de memoria utilizada y la carga computacional necesaria en la búsqueda.

Para conseguir hacer abordable el sistema, se han introducido simplificaciones en el diseño, como reducir el vocabulario disponible o enfocar la tarea al reconocimiento dependiente del locutor, restringiendo la memor ia necesaria a la de un único locutor. La introducción de estas modificaciones, unidas a la optimización de las técnicas de clasificación de patrones o plantillas y

Page 28: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

26

al crecimiento de la capacidad de cálculo de las computadoras, ha hecho viable el método, mejorando sustancialmente su eficacia y versatilidad. En la actualidad, la aproximación por patrones de características es la más extendida en el ámbito del RAH. A continuación se revisarán los fundamentos básicos de esta aproximación para el reconocimiento monolocutor o multilocutor de pocos locutores, de palabras aisladas y de pequeño vocabulario. Posteriormente, se describirán las modificaciones que han permitido relajar progresivamente estas restricciones. Los sistemas de reconocimiento del habla diseñados bajo los postulados de la aproximación por patrones de características (Pattern Recognition, en la literatura inglesa), se estructuran, básicamente, en dos fases. Estas son; entrenamiento de plantillas y reconocimiento vía comparación de plantillas. El interés del entrenamiento está en incorporar el “conocimiento” a los modelos (patrones). En esta fase, se intenta dotar al sistema de un diccionario de referencias que contenga una versión de cada patrón a ser reconocido (palabras en el caso de reconocimiento de palabras aisladas) de forma que este diccionario pueda caracterizar adecuadamente las propiedades acústicas de cada plantilla. Para ello, el usuario pronuncia cada palabra a la entrada del sistema, la señal correspondiente es parametrizada acústicamente y la secuencia de vectores extraída se utiliza para generar los patrones, almacenar en memoria y etiquetar como modelo de referencia de cada palabra. En la fase de reconocimiento, la palabra pronunciada es parametrizada del mismo modo y, a continuación, el sistema realiza una comparación directa de la plantilla a ser reconocida (plantilla de test), con cada patrón aprendido en la fase de entrenamiento (patrón o modelo de referencia). Para realizar esta comparación se utiliza alguna medida de simi litud espectral definida usualmente basándose en una medida de distancia entre parejas de vectores. En la figura 2.4 se muestra un diagrama de bloques generalizado de la aproximación por patrones de características. Dada una pronunciación en la entrada del sistema, se inicia el proceso de reconocimiento, consistente en tres pasos esenciales. Estos son:

1. Medida de características, donde se realizan una serie de medidas a la señal de entrada con el fin de obtener una plantilla de test que describa adecuadamente las propiedades de la señal. Este paso es de capital importancia en la realización de este tipo de sistemas, pues debe cumplir una serie de compromisos esenciales (eliminación de redundancias, estabilidad estadística, capacidad discriminatoria entre eventos acústicos, etc.) que influirán en la eficacia de las etapas posteriores y, por lo tanto, en el comportamiento global del sistema. En el tema siguiente, se aborda el estudio de las principales técnicas de modelado de señal para reconocimiento del habla.

2. Clasificación de patrones, donde la plantilla de vectores de prueba (test) se compara

con la plantilla de referencia de cada clase (a partir del diccionario de referencias creado en la fase de entrenamiento) y se calcula una medida de similitud (distancia) entre ellas.

Page 29: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

27

Debido a la gran variabilidad de la señal de voz, existen diferencias no lineales en la duración de los sonidos, incluso cuando la plantilla de test es comparada con la plantilla de referencia correcta. Por lo tanto, es necesario realizar un alineamiento temporal de los patrones de test y de referencia de forma que, cuando se realice la comparación con la plantilla de referencia correcta, los vectores correspondientes al mismo sonido se correspondan. Respecto a este último punto, existen dos técnicas extensamente aplicadas que permiten un reconocimiento eficiente. Estas son:

- Analítica mediante Programación Dinámica. La idea fundamental de este método

es “deformar” a escala temporal unas plantillas de características con la intención de sincronizar o ajustar segmentos acústicos similares en las plantillas de prueba y de referencia. La técnica conocida en el contexto del reconocimiento del habla como DTW (alineamiento temporal dinámico, Dinamic Time Warping en la literatura inglesa) permite la combinación de una medida de distancias entre plantillas con un procedimiento de ajuste temporal.

- Probabilística mediante Modelos Ocultos de Markov. Los modelos ocultos de Markov, abreviadamente HMM (Hidden Markov Models, en la literatura inglesa) explotan un hecho conocido de la voz, es un proceso estocástico. Esto es, los mecanismos de generación de voz no son determinísticos sino que son de naturaleza aleatoria. La estacionariedad de la voz en segmentos cortos permite extraer las características de los mismos y hacer hipótesis de probabilidad según evoluciona la señal en el tiempo. Esta evolución probabilística de los modelos permite un mejor ajuste temporal entre los modelos de prueba y de referencia ya que respeta la naturaleza aleatoria de la voz. Los modelos se generan a partir de las plantillas de vectores obtenidos de la etapa de medida de características o parametrización.

3. Reglas de decisión, donde se utilizan los resultados de la medida de distancias para

decidir que plantilla de referencia se reconoce como texto pronunciado. El criterio de decisión utilizado se fundamenta en determinar la plantilla de referencia que guarda

plantillas de referencia

plantillas de test

Figura 2.4: Sistema de reconocimiento básico por plantillas de características

DICCIONARIO DE

REFERENCIAS

MEDIDA DE CARACTERISTICAS

MEDIDA DE SIMILITUD

REGLAS DE DECISIÓN

señal de voz

texto reconocido

Page 30: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

28

mayor verosimilitud con la plantilla de test, esto es, la que ha proporcionado una similitud mayor en la etapa de comparación.

• Extensión a varios locutores. La técnica básica de comparación de patrones se ha

extendido a sistemas multilocutor e independientes del locutor mediante el uso de varias referencias por palabra. Para ello, cada palabra del vocabulario es pronunciada por varios locutores con diferentes características propias. Posteriormente, se calcula la distancia entre todas las pronunciaciones de una misma palabra y se aplica un algoritmo de agrupamiento (clustering, en la literatura inglesa) para determinar los grupos correspondientes a cada tipo de pronunciación para cada palabra. Finalmente, se selecciona el centroide de cada grupo como plantilla de referencia del tipo de pronunciación correspondiente. De este modo, a través de todas las muestras del entrenamiento la máquina aprende qué propiedades acústicas de la señal de voz son fiables y repetitivas. La etapa de reconocimiento se realiza del mismo modo que en el caso monolocutor, opcionalmente con un criterio de decisión más sofisticado.

• Extensión a palabras conectadas. La extensión a reconocimiento de palabras conectadas se ha realizado con métodos que determinan, a partir de una secuencia de palabras de test, el número y la identidad de cada palabra así como los límites entre ellas generalizando el algoritmo de palabras aisladas. Para combatir el problema de la falta de contexto que se produce al realizar el entrenamiento aislado y evitar el problema de la segmentación, se ha propuesto el entrenamiento conectado. Para mejorar el entrenamiento en el caso de reconocimiento monolocutor, se han propuesto técnicas de entrenamiento multirreferencia, que capturan la variabilidad en un único locutor, semejantes a las descritas en el párrafo anterior. • Extensión a grandes vocabularios. Como ya se ha mencionado, el incremento del tamaño del vocabulario necesita grandes requerimientos en cuanto a la memoria y a la carga computacional, ya que se precisa almacenar una o más plantillas de referencia por cada palabra del vocabulario y comparar cada plantilla de test con cada una de las de referencia. Además, entrenar el sistema pronunciando todas las palabras se convierte en una tarea bastante tediosa. Para combatir estos problemas se han propuesto métodos como el uso de unidades de decisión más pequeñas que las palabras, esto es, unidades subléxicas. En la definición de unidades subléxicas existen dos posibilidades según se sigan criterios lingüísticos o acústicos. En el caso de los criterios lingüísticos, las palabras se reconocen como concatenación de dichas unidades utilizando un algoritmo de “palabras” conectadas, por lo que se hace necesario incorporar restricciones léxicas propias del lenguaje utilizado. Estas unidades deben escogerse de forma que no estén muy afectadas por los problemas de coarticulación y segmentación, pero no deben ser muy numerosas. Ejemplos de tales unidades son los fonemas, difonemas, sílabas, semisílabas y disílabas. En el caso de los criterios acústicos se definen las unidades confiando únicamente en las características acústicas. En el entrenamiento, las señales son segmentadas y agrupadas bajo criterios de homogeneidad acústica para crear los modelos. Este método presenta el inconveniente de la construcción de un diccionario basado únicamente en criterios acústicos. La utilización de sistemas de reconocimiento basados en la aproximación por patrones o plantillas de características, debido a las múltiples ventajas que comporta, se ha extendido hasta ser aplicada casi con exclusividad. Entre las ventajas que han contrib uido al éxito de esta aproximación se encuentran:

Page 31: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

29

- Facilidad de uso. El método es fácil de comprender y rico en justificaciones matemáticas para los procedimientos individuales utilizados en las etapas de entrenamiento y reconocimiento

- Es relativamente sencillo incorporar restricciones sintácticas (e incluso semánticas) a la

estructura de los sistemas, mejorando, de este modo, la exactitud de los mismos y reduciendo la carga computacional.

- Dado que el sistema no depende de la unidad a reconocer, las técnicas básicas son

aplicables a un amplio rango de sonidos (incluso frases), existiendo, además, un conjunto de técnicas desarrolladas para una clase de sonido que pueden ser aplicadas directamente a sonidos de distinta clase sin ninguna (o con alguna mínima) modificación en el algoritmo.

Sin embargo, la aplicación de este método también presenta algunos inconvenientes en los que se ha centrado el esfuerzo de investigación para mitigar sus efectos. Entre ellos podemos encontrar:

- La carga computacional para el entrenamiento y el reconocimiento es directamente proporcional al número de plantillas utilizadas, por lo que el cálculo para un gran número de clases de sonido podría hacerse prohibitivo. De aquí se deriva la importancia en la elección de la unidad de decisión.

- Las plantillas de referencia son sensibles al medio (ruido de fondo) y al canal de

transmisión, convirtiéndose esto en una importante fuente de incremento en las tasas de error en el reconocimiento.

- La eficacia del sistema depende, en gran medida, de la cantidad de datos disponibles

para crear plantillas de referencia de cada clase de sonido; generalmente, a mayor entrenamiento, mayor exactitud del sistema.

2.4.2. - Redes Neuronales

En la aproximación al reconocimiento por redes neuronales, o aproximación conexionista, los datos de referencia son representados como patrones de actividad distribuidos sobre una red de unidades de procesado sencillos. Por su similitud con el funcionamiento del cerebro, a estas redes se les suele llamar redes neuronales y a los elementos de procesado neuronas. Los orígenes de esta aproximación se encuentran en el perceptrón, un modelo de percepción visual que fue abandonado porque se comprobó que no era capaz de sintetizar operaciones sencillas como la XOR. En los últimos años se ha renovado el interés por este sistema debido a que el perceptrón multicapa no presenta esta limitación y tiene, por tanto, mayores capacidades de clasificación que el perceptrón original, y a la reciente propuesta de un algoritmo para su entrenamiento denominado ‘back-propagation’ (retropropagación).

Page 32: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

30

Un perceptrón multicapa está compuesto de una etapa de entrada, una de salida y una o varias etapas ocultas. Cada etapa está compuesta de varias células, llamadas neuronas. En la figura 2.5 se muestran los esquemas generales de la neurona y del perceptrón multicapa con cuatro neuronas en las distintas capas. Cada neurona i en una etapa dada está conectada a cada neurona j de la etapa siguiente mediante enlaces, llamados sinapsis, que tienen un peso wij que puede ser positivo o negativo, según se trate de una sinapsis de excitación o de inhibición. El estímulo es introducido en las neuronas de la etapa de entrada (puestas a 0 o a 1 si el modelo es binario) y se propaga en la red. En cada neurona se calcula la suma de la energía ponderada transmitida por las sinapsis que llegan a ella. Si esta energía supera un umbral Ti, la célula reacciona y, por turno, transmite energía a las neuronas de la capa superior. La respuesta de una neurona a la ene rgía de entrada viene dada por una función de activación o logística f. En la fase de entrenamiento, cuando el estímulo propagado llega a las neuronas de la etapa de salida, es comparado con la respuesta deseada, generando una señal de error que es propagada hacia atrás a las etapas inferiores para ajustar los pesos de las sinapsis y el umbral de excitación de cada neurona. Se itera el proceso hasta que los parámetros de la red alcanzan suficiente estabilidad. Esto se hace para todos los pares estímulo-respuesta.

En la fase de reconocimiento, se propaga el estímulo hacia la etapa de salida. En algunos sistemas, la neurona de salida con mayor valor identifica el patrón reconocido. En otros, el vector de valores de la neurona de salida se compara con los vectores que representan cada patrón de referencia con una medida de distancia.

respuesta

+

f (.)

Wi1 Wi2 Win . . . . .

Capa de salida

Capa oculta

Capa de entrada

estímulo

b) a)

Figura 2.5: a) Neurona b) Perceptrón multicapa

Page 33: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

31

3.- Técnicas de Parametrización Aplicadas a Reconocimiento Como se habrá podido advertir en el capítulo anterior, un sistema de reconocimiento del habla, en su nivel más elemental, comprende una colección de algoritmos procedentes de una amplia variedad de disciplinas, entre las que se incluyen el reconocimiento estadístico de plantillas, la teoría de la comunicación, el procesado de señales, la matemática combinatoria y la teoría lingüística, entre otras. Aunque la influencia e implicación de cada una de estas áreas puede variar para diferentes reconocedores, quizá el gran denominador común de todos los sistemas de reconocimiento es el procesador de las señales de voz, el cuál convierte la señal de voz en algún tipo de representación paramétrica (generalmente con una considerable reducción de la cantidad de información) adecuada para posteriores análisis y procesos. Dada la singular importancia que tienen las técnicas de procesado de la señal para comprender cómo son diseñados y cómo funcionan los sistemas de reconocimiento, dedicaremos este tema al estudio de las técnicas más extensamente aplicadas en esta área. Para motivar nuestro estudio y observar cómo las técnicas de procesado de señal se ajustan a los modelos canónicos de reconocimiento estudiados, vamos a revisar brevemente el modelo de la aproximación al reconocimiento por plantillas de características y el de la aproximación acústico- fonética. Los tres pasos básicos en el modelo de plantillas son; medida de características (en el que se crea una plantilla de test), comparación de plantillas, y bloque de decisión. La función del bloque de medida de características es representar los eventos acústicos relevantes de la señal de voz en función de un conjunto compacto y eficiente de parámetros. Aunque la elección del tipo de parámetros a utilizar puede establecerse bajo otras consideraciones (por ejemplo, eficiencia computacional, tipo de implementación, memoria disponib le), el modo en el que la representación elegida se calcula se basa estrictamente en consideraciones de procesado de la señal. De forma similar, en el modelo acústico- fonético de reconocimiento, el primer paso en el proceso, llamado análisis de señal de voz, es esencialmente idéntico al utilizado en el modelo de plantillas, aunque los pasos que le siguen son marcadamente diferentes.

Por lo tanto, es evidente que, un buen conocimiento de la forma en la que utilizamos las técnicas de procesado de la señal para implementar la fase de medida de parámetros en un sistema de reconocimiento, es indispensable para comprender las ventajas e inconvenientes de las diferentes aproximaciones al reconocimiento del habla que se han propuesto y estudiado en la literatura hasta nuestros días.

3.1.- El Problema de la Parametrización

Como se ha comentado, el objetivo de la etapa de medida de características (parametrización) de los sistemas de reconocimiento es obtener una representación más útil de la señal de voz en funció n de unos parámetros que contengan la información relevante en un formato eficiente. Para llevar a cabo esta tarea, la mayoría de las herramientas matemáticas utilizadas reducen la cantidad de información al pasar de la señal de voz muestreada a vectores reducidos de parámetros. Esto es necesario por varios motivos, entre los que podemos destacar los que a continuación se comentan. En primer lugar, se deben eliminar redundancias de la señal

Page 34: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

32

de voz. Uno de los aspectos que caracterizan a la señal de voz es su alta redundancia. La eliminación de redundancias permitirá una representación de los aspectos esenciales en función de un reducido número de parámetros.

Por otra parte, es deseable eliminar dependencias con el locutor. Los parámetros relevantes

en reconocimiento automático del habla deben ser consistentes entre diferentes locutores, esto es, deben contener valores similares para los mismos fonemas pronunciados por varios locutores y mostrar notables variaciones para fonemas diferentes independientemente de quien los pronuncie.

Asimismo, una reducción coherente de información aportará estabilidad a las medidas y simplificará la manipulación de los datos reduciendo la tarea de cálculo en etapas posteriores del proceso de reconocimiento, que suelen ser muy costosas en cálculos. Con respecto a este último aspecto, consideremos, por ejemplo, un sistema que muestrea las señales a una frecuencia de 10 KHz con una resolución de 16 bits. El almacenamiento de esta información en un formato sin compresión tendrá unos requerimientos de memoria de 160.000 bits por segundo. Consideremos ahora una técnica de parametrización que consiga condensar la información relevante de esas señales en un vector de 10 parámetros por cada 10 ms (o lo que es lo mismo, utilizando 100 vectores por segundo). Si representamos cada componente con la resolución citada de 16 bits, los requerimientos de memoria serían ahora de 100 × 10 × 16 = 16.000 bits por segundo, lo que supone una reducción de 10 a 1 con respecto a la señal original. Esta co mpresión reduciría ostensiblemente las tareas de cálculo en etapas posteriores y la cantidad de memoria requerida para el almacenamiento de las señales.

Históricamente, uno de los mayores objetivos en la concepción de modelos para la señal de voz ha sido lograr que estos fueran robustos frente al ruido acústico de fondo. Muchos de los modelos de señal en uso en la actualidad son la culminación de investigaciones en aplicaciones de reconocimiento en medios ruidosos: instrumentación militar de control mediante voz (reconocimiento del habla en la cabina del avión) y control de teléfono mediante voz (transacciones telefónicas automáticas). Sin embargo, como las tecnologías en el reconocimiento son cada vez más sofisticadas, hoy en día, los propios sistemas de reconocimiento tienden a contribuir por sí mismos al problema de la robustez frente al ruido más que la técnica de procesado de señal empleada.

En la actualidad, entre las direcciones fundamentales en las que se orienta la concepción de

técnicas de procesado de la señal para sistemas de reconocimiento, podemos encontrar las que a continuación comentamos. En primer lugar, se requieren parametrizaciones que representen aspectos sobresalientes de la señal. Segundo, es deseable que estos parámetros se comporten de forma robusta frente a eventuales variaciones en el transductor, canal y locutor. Y por último, los parámetros buscados deben capturar cambios en el espectro de la señal con el tiempo respetando la ordenación temporal de la información espectral.

Antes de abordar el bloque de modelado de la señal en sí, vamos a realizar algunas consideraciones en cuanto a las características adecuadas a utilizar en reconocimiento del habla.

Page 35: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

33

3.1.1. - Elección de las Características para Reconocimiento

El hecho de trabajar con vectores de características, sin duda, constituye un elemento clave en un sistema de RAH. El concepto mismo de vector de rasgos o de características es lo que dota al reconocimiento automático de su elegancia y de su enorme potencial práctico al reducir la extraordinaria y diversa complejidad de la voz, a la muy manejable información condensada en un vector de datos numéricos. La etapa de elección de características es crítica y la bondad del sistema final estará completamente determinada por las características escogidas. Con ser la etapa fundamental en el diseño del sistema, es al mismo tiempo, y por desgracia, la que menos se presta a la formalización y a la aplicación de reglas generales. La elección de rasgos o características es muy dependiente de la aplicación concreta que se tenga entre manos. Podríamos decir que se trata más de un ‘arte’ que de una ciencia y ha sido, en ocasiones, la intuición y la experiencia quienes han guiado a los investigadores en su elección. Conviene destacar las propiedades más importantes que deben barajarse en la elección y comprobación de las características.

1. Capacidad discriminante. Las características deben ser discriminantes, esto es, valores numéricos diferentes para sucesos acústicos (clases) distintos.

2. Fiabilidad. Las características deben ser fiables, es decir, con cambios numéricos pequeños para objetos de una misma clase.

3. Incorrelación. Los elementos de los vectores de características deben estar incorreladas, no guardar parecido entre sí. No deberán utilizarse características que dependan fuertemente entre sí, ya que no añaden información discriminante pero sí tarea de cálculo.

4. Rapidez de cálculo. Las características deben calcularse en un tiempo aceptable. Es un requisito que puede llegar a ser determinante en ciertas aplicaciones de tiempo real.

La última propiedad es la más simple de evaluar, puesto que los parámetros involucrados

son fácilmente cuantificables. En cuanto a la incorrelación, se suele medir sobre las combinaciones posibles de parejas de dos características, clase a clase, a partir de la correspondiente matriz de covarianza:

innnn

n

n

i

CCC

CCCCCC

C

α

=

..

.....

.........

21

22212

11211

(3.1)

Los elementos de la diagonal principal de C son las denominadas varianzas (en este caso,

de los elementos del vector de características):

nimXE iii ,..,2,1 ;)( 22 =−=σ (3.2)

Page 36: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

34

Los demás elementos de C, que es una matriz simétrica respecto a la diagonal principal, se denominan covarianzas. El coeficiente de correlación entre dos elementos cualesquiera Xi, Xj del vector de característic as se define como la relación:

ji

ijij

Cr

σσ= (3.3)

Siendo Cij un elemento genérico de la matriz de covarianza y σi, σj las desviaciones típicas de las características Xi, Xj, respectivamente. Si el coeficiente de correlación rij es cero, se dice entonces que las características Xi, Xj están incorreladas, lo cual es una propiedad siempre deseable. Expresado de otra manera, interesa que las características se escojan de tal forma que la matriz de covarianza sea diagonal principal pura. Un ejemplo sencillo del tipo de capacidad discriminante se puede apreciar en la figura 3.1 en la que se tienen dos clases, A y B, que pretendemos discriminar mediante las características X1 y X2. Vemos que las clases son fácilmente separables (discriminables) a pesar de la relativa dispersión de los vectores de cada clase. X1 y X2 son fiables y tienen buena capacidad discriminatoria.

En cuanto a la cuantificación de la propiedad de fiabilidad, se hace utilizando la matriz de covarianza y analizando los valores de la diagonal principal, también clase a clase. Cuanto mayor sean estos elementos, mayor es la dispersión estadística de las características. Sin embargo, la selección de las características nunca debe hacerse aplicando el criterio de la fiabilidad individualmente, sino en conexión con la capacidad discriminante, puesto que una característica con una varianza muy elevada (es decir, poco fiable en el sentido de una gran dispersión interna en una clase) puede ser, al mismo tiempo, una magnífica característica discriminante.

2000

1500

1000

2500

X2

X1

Figura 3.1: Representación bidimensional de dos clases de unidades fonéticas

3000

3500

200 800 1200 400 1000 600 1400

Clase /A/

Clase /B/

Page 37: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

35

Al hilo de este razonamiento, vamos a introducir el denominado ratio de Fisher, que nos servirá para evaluar la capacidad discriminante de una variable característica, p.e., X1 o X2.

Para ello nos apoyaremos en las parejas de clases a discriminar que se representan en la figura 3.2. Considerando estas dos distribuciones biclase, aparentemente, en la primera de ellas la característica X2 presenta mayor capacidad de discriminación al cumplirse que:

2121 mmmm ′−′>− (3.4)

Sin embargo, en la segunda distribución la característica X1 es más discriminante, al existir un solape entre clases muy inferior respecto a la primera distribución de clases.

La ratio de Fisher: ( )

22

21

221

σσ +−

=mm

F (3.5)

que proporciona una medida fiable de la capacidad de discriminación de una característica es superior en X1 que en X2 de la figura 3.2. Esta ratio generalizada puede interpretarse como:

clasela de elementos los todos demedia varianza clases las todas de medias las devarianza

F = (3.6)

La ratio de Fisher cuantifica simultáneamente la separación interclases y la fiabilidad

interna de las clases. Una característica será tanto más discriminante cuanto mayor sea su ratio de Fisher. Es decir, interesa que la distancia de las medidas de dos clases sea elevada, y, al mismo tiempo, que la fiabilidad de ambas clases también lo sea.

m1

σ1 σ2

m2

α1

α2

Figura 3.2: Distribución biclase con dispersión estadística diferente

X2 m'1

σ1 σ2

m'2

α1

α2

X1

Page 38: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

36

3.2.- El Modelado de la Señal de Voz para RAH Decodificar el significado de un mensaje a partir del sonido no es una tarea sencilla. Primero, la palabra pronunciada debe ser muestreada, digitalizada y filtrada para eliminar parte del ruido de fondo añadido por el entorno y el canal, y adecuarla para el posterior análisis. Un aspecto a considerar es que la calidad de la señal de voz varía ampliamente, desde condiciones de relativa calma, como una oficina, hasta condiciones altamente ruidosas, como una conversación telefónica en una estación de tren. El filtrado digital se utiliza para enfatizar las frecuencias en las que se centra la mayor parte de la energía de la voz y compensar no linealidades en el proceso de registro. La seña l muestreada debe ser, a continuación, analizada para determinar su contenido, especialmente el espectral. Debido a que las muestras son discretas, éstas deben ensamblarse en tramas de sonido, típicamente entre 20 y 40 ms de duración. Diversas herramientas matemáticas, como el análisis de predicción lineal, que estudiaremos más adelante, se utilizan para extraer información del proceso de producción de los eventos acústicos (p.e., fonemas) y representarla en función de un número reducido de parámetros. Es importante capturar la rápida y continua variación espectral que sufre la señal de voz con el tiempo. Por ello, a la información absoluta extraída de la señal se suele incorporar información dinámica que mejora sus prestaciones. Finalmente, estos parámetros son concatenados en un único vector de baja dimensión por cada trama. Los pasos anteriores convierten las muestras de voz en vectores de observación que representan eventos en un espacio probabilístico.

El modelado de la señal de voz en un sistema de reconocimiento de los actuales puede ser subdividido en tres bloques básicos: acondicionamiento espectral, extracción de información y diferenciación. En la figura 3.3 se muestra la secuencia completa de bloques. En los siguientes apartados abordaremos el estudio de cada uno de los bloques mencionados que componen el esquema general del modelado de la señal de voz para RAH.

3.3.- Acondicionamiento de la Señal La fase de acondicionamiento de la señal, dentro del esquema general del modelado de señal para RAH, comprende dos operaciones básicas: conversión analógica/digital (conversión de la onda de presión sonora en una señal digital) y filtrado digital (enfatizar las componentes de frecuencia significativas de la señal de voz).

Figura 3.3: Esquema general del modelado de la señal de voz en un sistema de RAH

ACONDICIONAMIENTO DE SEÑAL

EXTRACCION DE INFORMACION

DIFERENCIACION

SEÑAL DE VOZ

VECTOR DE PARAMETROS CARACTERÍSTICAS

SEÑAL ACONDICI0NADA

TRATAMIENTO DIGITAL DE SEÑAL

Page 39: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

37

Este proceso de conversión se muestra en la figura 3.4. La tarea fundamental de un conversor A/D se divide en dos operaciones: muestreo y cuantificación. El proceso de muestreo consiste en convertir una señal analógica en una secuencia de valores midiendo la amplitud de dicha señal cada cierto intervalo de tiempo. Este intervalo de tiempo es el período de muestreo (Ts) y su inversa da lugar a la frecuencia de muestreo (Fs). Si el ancho de banda de la señal a muestrear es excesivo con respecto a la frecuencia de muestreo seleccionada, se producirá un solapamiento irreversible de los espectros haciendo imposible la reconstrucción de la señal original. Este solapamiento (aliasing) ocurre siempre que la máxima frecuencia Fmax del espectro de la señal a muestrear sea superior a la mitad de la frecuencia de muestreo (Frecuencia de Nyquist), Fs > 2 Fmax.

Antes de muestrear una señal será pues, necesario, cerciorarse de que está limitada en banda a la mitad de la frecuencia de muestreo. Esto se consigue mediante un filtro paso bajo analógico previo al conversor A/D, cuya frecuencia de corte sea la de Nyquist (como máximo). Dada la limitada respuesta en frecuencia de los canales de telecomunicación analógicos y el uso extendido de 8 Khz en el muestreo de voz en telefonía digital, la frecuencia de muestreo más popular para señales de voz en reconocimiento es 8 Khz. Sin embargo, con la reciente emergencia de redes digitales de banda ancha, se van desarrollando aplicaciones que utilizan entradas de audio de más calidad. En aplicaciones fuera del ámbito de las telecomunicaciones, en las que los sistemas de reconocimiento del habla acceden a señales de voz de alta calidad, se suelen utilizar frecuencias de muestreo de 8, 11’025, 16, 22’050 Khz, etc. Estas frecuencias de muestreo aportan al sistema una mayor resolución temporal y frecuencial. Una vez se dispone del valor de una muestra, la siguiente operación a realizar es cuantificar ese valor. La cuantificación consiste en aproximar los valores de las muestras al valor más cercano que pertenezca a un conjunto finito de posibles valores. Evidentemente, se introduce una distorsión por el error que se comete al aproximar, que es lo que se conoce como error o ruido de cuantificación. Un parámetro importante es, pues, la relación entre la potencia de señal y la de ruido de cuantificación que se obtiene de la expresión:

2.76)( −= BdBSNR (3.7) donde B es el número de bit por muestra. El propósito principal del proceso de digitalización es producir una representación muestreada de la señal de voz con una relación señal a ruido tan alta como sea posible. Los sistemas de telecomunicación actuales entregan habitualmente un valor de relación señal a ruido superior a 50 dB para aplicaciones de reconocimiento de voz, más que suficiente para obtener un eficiente rendimiento.

señal procedente del micrófono

señal acondicionada FILTRO

ANALÓGICO ANTI-ALIASING

CONVERTIDOR A/D

Figura 3.4: Conversión de una señal analógica para un análisis espectral

FILTRADO DIGITAL

PREÉNFASIS

Page 40: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

38

Sin embargo, variaciones en el transductor, canal de transmisión y ruido de fondo, pueden contribuir significativamente al deterioro de la respuesta. Para evitar estos problemas, se puede aumentar en dos unidades o más el número de bits por muestra, de forma que pasemos de 8 a 16 bits siendo este último valor casi un estándar hoy en día. Una vez realizada la conversión A/D, el último paso en el acondicionamiento de la señal es realizar un filtrado digital. A menudo, esta operación suele realizarse mediante un filtro de Respuesta Finita al Impulso (FIR), que tiene la siguiente expresión:

∑=

−=preN

kprepre z)k(a)z(H

0

1 (3.8)

Normalmente, se realiza un filtrado digital de primer orden, conocido como filtrado de

preénfasis, tomando la expresión de un diferenciador como el siguiente:

11)( −−= zazH prepre (3.9) donde apre es el parámetro de preénfasis y toma valores próximos a la unidad. El efecto de Hpre(z) es enfatizar las componentes de alta frecuencia de la señal en, aproximadamente, 6 dB/oct. Este énfasis, unido a los 6 dB/oct que enfatiza la radiación en los labios R(z), en el modelo de producción lineal, compensa el deénfasis de 12 dB/oct que introduce el modelo de la glotis G(z), en las señales sonoras, alisando el espectro de la señal. A pesar de que para voz sorda no existe este deénfasis, el filtrado de preénfasis se utiliza siempre, pues no introduce una pérdida apreciable en las cualidades de la señal. En la figura 3.5 se muestra el efecto del filtrado de una señal de voz sorda mediante un filtro de preénfasis. En ella se puede observar el realce que toma el espectro de la señal en la zona de altas frecuencias.

3.4.- Extracción de Información En la etapa de extracción de información de la señal de voz, un aspecto de crucial relevancia es la elección del método de análisis adecuado. En el tema uno se ha comentado que la voz se podía considerar como un proceso casi estacionario si se evalúa en intervalos temporales de entre 20 y 60 ms. Este hecho ha permitido la aplicación de una serie de técnicas mediante las que se realiza un modelado de la señal de voz asumiendo que las características de la señal no cambian durante el intervalo temporal en que se estudian. Sin embargo, hemos comentado también que la señal de voz es muy compleja y que su estacionariedad se combina con cambios bruscos. Es el caso de, por ejemplo, las aperturas/cierres de la glotis en la vibración de las cuerdas vocales, las transiciones de consonante a vocal o la generación de sonidos oclusivos con movimientos bruscos precedidos de instantes de silencio. Por lo tanto, se hace imprescindible disponer de un estimador que sea capaz de seguir estas variaciones tanto temporales como frecuenciales y proporcionar información con la mayor fidelidad posible.

Page 41: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

39

Podemos establecer una primera división entre los métodos de análisis de la señal de voz entre métodos paramétricos (PA, Parametric Analysis, en la literatura inglesa) y métodos no paramétricos (NPA, Nonparametric Analysis). En los sistemas paramétricos se asume previamente un modelo de la señal con unos parámetros que se ajustan a las de ésta. El objetivo del análisis será obtener los parámetros que caracterizan ese modelo. Por lo tanto, la premisa principal de los métodos de análisis paramétricos es que la señal cumpla con rigurosidad las condiciones asumidas en el modelo de la señal. El ejemplo clásico de método paramétrico es el análisis predictivo lineal en el que se asume, entre otras consideraciones, que la voz es un proceso lineal casi estacionario y modelable mediante un filtro todo polos.

En aquellos instantes en que la voz no cumpla de una manera exacta la estacionariedad y escasa variabilidad asumidas debemos suponer que el modelo asumido en los sistemas paramétricos no se ajustará de una manera exacta. Por esta razón, se ha extendido la utilización de los sistemas no paramétricos, para los que no existe una idea preestablecida de la señal y el estimador intenta adaptarse con la mayor fidelidad posible a las variaciones que ésta presenta.

En los siguientes apartados se repasarán las principales técnicas de parametrización, entre las que se incluyen tanto las técnicas basadas en métodos paramétricos como las fundamentadas en los métodos no paramétricos. En esta exposición se prestará especial atención a las técnicas basadas en bancos de filtros, el análisis de predicción lineal y el análisis cepstral. Las técnicas basadas en bancos de filtros fueron las primeras en utilizarse. Introducidos en los años setenta, los algoritmos de predicción lineal fueron la técnica dominante hasta principios de los ochenta. En la actualidad, los métodos basados en el análisis cepstral y los basados en algoritmos de predicción lineal son los más utilizados en aplicaciones de procesado de voz. También, se estudiarán algunos métodos híbridos, fruto de la combinación de algunas de las técnicas tradicionales, que están obteniendo excelentes resultados en aplicaciones de reconocimiento.

0 500 1000 1500 2000 2500 3000 3500 4000 -35

-30

-25

-20

-15

-10

-5

0

Frecuencia en Hz

CON PREÉNFASIS

SIN PREÉNFASIS

Figura 3.5: Efecto del filtrado de preénfasis de un fonema sordo

Page 42: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

40

No obstante, antes de abordar el análisis de las diferentes técnicas de parametrización, vamos a detenernos en un problema fundamental en el estudio de la voz. Hemos asumido implícitamente que la señal de voz es evaluada en intervalos temporales cortos para considerar la propiedad de casi estacionariedad, de forma que suponemos que sus caracter ísticas no cambian durante el intervalo temporal en que se estudian. Por ello, debemos dotarnos de un método eficiente para segmentar la información en tramas de corta duración. Este proceso, que generalmente se acompaña de una operación de enventanado, es conocido como entramado de la señal, y comenzaremos este apartado con el estudio de la solución más utilizada para resolver este problema básico del procesado de voz. 3.4.1.- Entramado y Enventanado de la Señal

Para respetar las características singulares de la señal de voz, la mayoría de los parámetros utilizados en los sistemas de reconocimiento del habla se calculan basándose en la segmentación en tramas. La voz es un proceso estocástico, esto es, sus variaciones temporales son aleatorias. Por eso, a pesar de que el locutor tiene control sobre lo que dice, debe tenerse en cuenta la aleatoriedad de la señal. Además, debemos recordar que la voz no es un proceso estacionario. Por lo tanto, para hacer abordable el estudio, se utiliza la propiedad de que el espectro cambia lentamente, con lo cuál se pueden tomar segmentos cortos de la señal, de forma que podamos suponer estacionariedad en ellos. Esta suposición permite que la mayoría de los parámetros en los sistemas de reconocimiento sean calculados trama a trama. Dentro de una trama, las características probabilísticas de la señal se consideran, aproximadamente, estacionarias.

Un aspecto esencial a considerar en la implementación del entramado de la señal es la

duración de las tramas y la separación entre tramas adyacentes. Usualmente, se trabaja con el número de muestras de cada trama, N, y las muestras de separación entre tramas adyacentes, M. La figura 3.6 ilustra una segmentación en tramas para el caso en el que M = (1/3)N. La primera trama contiene las primeras N muestras. La segunda trama empieza M muestras después de la primera, y se solapa en (N – M) muestras y así sucesivamente. Es fácil ver que si M ≤ N, se solaparán las muestras adyacentes, y el espectro resultante estará correlado trama a trama ; si M << N, la estimación espectral estará demasiado suavizada. Si, por el contrario, M > N, no existirá solapamiento entre tramas adyacentes, parte de la señal de voz se perderá y la correlación entre tramas adyacentes de la estimación espectral resultante contendrá una componente ruidosa cuya magnitud crecerá con M. Esta situación es intolerable en cualquier sistema práctico de reconocimiento del habla, por lo que se recomienda que exista siempre un porcentaje de solapamiento. La elección apropiada de N y M depende directamente de la velocidad de articulación (velocidad de cambio de estado del tracto vocal) del sistema de producción de voz. Valores adecuados para éstos parámetros resultarán de alcanzar un compromiso entre la velocidad a la que cambia el espectro, la complejidad del sistema diseñado y la fiabilidad de las medidas.

Para llevar a cabo la segmentación, generalmente se realiza una operación de enventanado. Multiplicar de la señal de voz por una función ventana tiene dos efectos. Primero, atenúa gradualmente la amplitud de la señal en los extremos del intervalo de extracción.

Page 43: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

41

Segundo, produce la convolución entre la transformada de Fourier de la función ventana y el espectro de la señal, atendiendo a la siguiente propiedad de la transformada de Fourier:

)(W)(S)(X)n(w)n(s)n(x ωωω ∗=→⋅= (3.10)

Con el fin de reducir la distorsión espectral causada por el enventanado, es deseable que la función ventana satisfaga, fundamentalmente, dos características. Una, es que posea una alta resolución frecuencial, esencialmente un lóbulo principal estrecho y agudo. La otra, es que posea una gran atenuación de los lóbulos laterales con respecto al principal, para que los primeros no afecten al espectro de la señal. Debido a que estos requerimientos son incompatibles entre sí se debe alcanzar un compromiso en la elección de la ventana apropiada. Para resolver el problema específico de la voz, se han estudiado muchos tipos de ventanas, entre ellas la rectangular, Hamming, Hanning, Blackman, Barlett y Kaiser, pero, actualmente, en reconocimiento del habla se utiliza casi con exclusividad la ventana Hamming que tiene la siguiente expresión:

−=1

2cos46.054.0)(S

H Nnnw π

(3.11)

Esta ventana ofrece una buena resolución frecuencial. Además, su influencia en el

espectro es pequeña, ya que presenta una atenuación en lóbulo secundario de más de 43 dB. 3.4.2. - Métodos Paramétricos de Extracción de Características Estos métodos están basados principalmente en la técnica de predicción lineal. A partir de los coeficientes de predicción se realizan unas transformaciones que dan lugar, por ejemplo, a los coeficientes de reflexión o a los pares de líneas espectrales, que serán estudiados al final de este apartado.

N

N

M

N

M

Figura 3.6: Segmentación de una señal de voz en tramas solapadas

Page 44: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

42

• Análisis de predicción lineal. Con el análisis de predicción lineal vamos a estudiar un tipo de técnicas de modelado paramétrico que intentan modelar el espectro como un proceso autorregresivo. Básicamente, el análisis predictivo lineal aproxima la envolvente del espectro de voz prediciendo muestras de la señal a partir de una combinación lineal de las muestras precedentes. Para ello, se minimiza el cuadrado de las diferencias entre la muestra actual y la predicha linealmente sobre un intervalo finito, determinando así un conjunto de coeficientes de predicción.

Los coeficientes del predictor son los coeficientes de ponderación utilizados en la combinación lineal. La utilidad de este método se fundamenta tanto en su habilidad para proporcionar estimaciones precisas de los parámetros de voz como en su relativa rapidez de cálculo. El método de predicción lineal es matemáticamente preciso, y, además, es sencillo y simple de implementar mediante algoritmos matemáticos y en plataformas hardware. La filosofía de la predicción lineal está íntimamente relacionada con el modelo lineal de producción de voz desarrollado en el apartado 1.3.3. En este modelo, el espectro compuesto de los efectos de la radiación en los labios, el tracto vocal y la excitación subglotal son representados por un filtro digital lineal variante en el tiempo, cuya función de transferencia es:

∑=

−−== p

k

kk za

GzUzS

zH

1

1)()(

)( (3.12)

donde, recordemos, p, G y {ak} son el orden de predicción, la ganacia y los coeficientes de predicción respectivamente.

Este sistema es excitado por una señal cuya naturaleza básica puede evolucionar en el tiempo desde pulsos cuasi periódicos, para voz sonora, a ruido aleatorio, para voz sorda, pasando por híbridos entre estos.

Para implicar este modelo en un sistema de reconocimiento se deben contemplar convenientemente las restricciones descritas en el apartado 1.3.3 sobre su aplicación (en especial la referida a estacionariedad). Asumiendo estas restricciones, los parámetros de este modelo son: clasificación voz sonora/sorda, frecuencia fundamental para voz sonora, ganancia G, y coeficientes del filtro digital que representa el tracto vocal {ak}. Estos parámetros varían lentamente con el tiempo. Como ya se ha comentado, este modelo simplificado todo polos es una representación natural de sonidos no nasales, ya que para modelar correctamente los sonidos nasales necesitamos una función de transferencia del tracto vocal con polos y ceros. Sin embargo, si el orden p del predictor es alto, el modelo “todo polos” proporciona una buena representación para casi todos los sonidos de voz. La mayor ventaja de este modelo es que, mediante su utilización, el parámetro de ganancia G, y los coeficientes del filtro {ak}, pueden ser estimados de una manera sencilla y computacionalmente eficiente. Las muestras de voz s(n) están relacionadas con la excitación u(n) por la siguiente expresión:

Page 45: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

43

∑=

+−=p

ii nGuinsans

1

)()()( (3.13)

La idea básica del análisis de predicción lineal es que una muestra de voz en un instante

dado n, s(n), puede ser aproximada como combinación lineal de las p-ésimas muestras precedentes, tal que

),(...)2()1()( 21 pnsansansans p −++−+−≈ (3.14)

donde los coeficientes {a1,a2,..,ap} se asumen como constantes sobre la trama de voz analizada. De esta forma, podemos definir un predictor lineal, como un sistema cuya salida es

∑=

−=p

kk knsans

1

)()(~ (3.15)

Podemos afirmar que la función de un sistema de predicción lineal de orden p, expresada

en el dominio transformado Z, es el siguiente polinomio mostrado en la ecuación.

∑=

−=p

k

kk zSzazP

1

)()( (3.16)

y el error de predicción, se define como

∑=

−−=−=p

k

kk zansnsnsne

1

)()(~)()( (3.17)

De la ecuación 3.17 se puede deducir que la secuencia de predicción de error es la salida

de un sistema cuya función de transferencia es

∑=

−−=p

k

kk zazA

1

1)( (3.18)

Comparando la ecuación 3.13 y la ecuación 3.17 se observa que cuando s(n) es generada

mediante un sistema lineal, la predicción de error, e(n), será igual a Gu(n), la excitación escalada mediante un factor de ganancia. De este forma, el filtro de predicción de error, A(z), será un filtro inverso para el sistema H(z) de la ecuación 3.12

)()(

zAG

zH = (3.19)

El problema básico del análisis de predicción lineal es determinar un conjunto de

coeficientes de predicción {ak} directamente de la señal de voz, de forma que obtengamos una buena estimación de las propiedades espectrales de la señal mediante la aplicación de la ecuación

Page 46: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

44

3.18. La aproximación básica se basa en buscar un conjunto de coeficientes de predicción que minimicen el error cuadrático medio sobre un intervalo corto de la señal.

Asumiendo que sn(m) es un segmento de voz seleccionado en la vecindad de la muestra n,

tal que )()( mnsmsn += (3.20)

buscaremos minimizar el error cuadrático medio en la muestra n

∑= )(2 meE nn (3.21)

que utilizando la definición de en(m) en función de sn(m) puede ser expresado como

∑ ∑

−−=

=m

p

kknn knsamsE

2

1

)()( (3.22)

Para resolver la ecuación 3.22 podemos derivar En con respecto a cada ak e igualar el

resultado a cero,

,...,p,kaE

k

n 21 ,0 ==∂∂

(3.23)

por lo que obtenemos

∑ ∑ ∑=

−−=−m

p

k mnnknn kmsimsamsims

1

)()(ˆ)()( (3.24)

De la expresión 3.24 podemos reconocer los términos del tipo ∑ −− )()( kmsims nn como

términos de la expresión de la covarianza de sn(m), ya que

∑ −−=m

nnn kmsimski )()(),(φ (3.25)

Sustituyendo estos términos podremos expresar la ecuación 3.24 de forma compacta

∑=

=p

knkn kiai

1

),(ˆ)0,( φφ (3.26)

Esta expresión describe un conjunto de p ecuaciones con p incógnitas. Utilizando las

ecuaciones 3.22 y 3.24, el mínimo error cuadrático medio puede mostrarse como

Page 47: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

45

∑ ∑ ∑=

−−=m

p

k mnnknn kmsmsamsE

1

2 )()()( (3.27)

y utilizando la ecuación 3.26 podemos expresar En como

∑=

−=p

knknn kaE

1

),0()0,0( φφ (3.28)

En la expresión 3.28, el error cuadrático medio comprende un término fijo φn(0,0) y otros

términos que dependen de los coeficientes de predicción. Para resolver la ecuación 3.28 hemos de calcular φn(i,k) para [1 ≤ i ≤ p] y [0 ≤ k ≤ p] y, entonces, resolver el conjunto de p ecuaciones resultantes. Existen tres métodos básicos para calcular los coeficientes de predicción: el método de la covarianza (basado en la matriz de covarianza), el método de la autocorrelación y el método de enrejado (lattice). En reconocimiento del habla se utiliza casi exclusivamente el método de autocorrelación, debido a que se puede calcular mediante algoritmos computacionalmente eficientes y a que los filtros obtenidos son estables. Este método resulta de restringir el intervalo de evaluación al rango [0, N-1] y asumir que los valores fuera de este rango son iguales a cero. Esto es equivalente a asumir que la señal de voz, s(m+n), es multiplicada por una ventana de longitud finita, w(m), la cual es idénticamente cero fuera del rango definido. Así, la muestra de voz puede ser expresada como:

−≤≤⋅+

=resto el para ,0

10 ),()()(

Nmmwnmsmsn (3.29)

La aplicación de esta ventana (de tipo Hamming) elimina los problemas causados por los

cambios rápidos de la señal en los límites de cada trama. Los efectos de la ponderación de una señal mediante una función ventana han sido estudiados en el apartado 3.4.1, y todas sus conclusiones pueden ser aplicadas en esta situación. Basándonos en la utilización de la función de ponderación (3.29) el error cuadrático medio vendrá dado como

∑+−

=

=pN

mnn meE

1

0

2 )( (3.30)

y φn(i,k) puede expresarse indistintamente según aparece en las dos ecuaciones siguientes:

pkpi

kmsimskipN

mnnn ≤≤

≤≤−−= ∑

+−

= 01

,)()(),(1

0

φ (3.31)

pkpi

kimsmskikiN

mnnn ≤≤

≤≤−+= ∑

−−−

= 01

,)()(),()(1

0

φ (3.32)

Tomando la ecuación 3.32 y dado que ésta es sólo función de las variables i y k, la

función de covarianza se reduce a una simple función de autocorrelación

Page 48: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

46

∑−−−

=

−+=−=)(1

0

)()()(),(kiN

mnnnn kimsmskiRkiφ (3.33)

Debido a que la función de autocorrelación es simétrica, esto es, para señales reales (no

complejas) como las de voz Rn(-k) = Rn(k), las ecuaciones de predicción lineal quedan:

( )∑=

≤≤=−p

knkn piiRakiR

1

1 ),( (3.34)

y pueden expresarse también en forma de matricial como

=

−−

−−

)p(R.

.)(R)(R

a..

aa

)(R..)p(R)p(R.....

.....)p(R..)(R)(R)p(R..)(R)(R

n

n

n

pnnn

nnn

nnn

21

021

201110

2

1

(3.35)

La matriz de autocorrelación p×p es una matriz Toeplitz (simétrica con todos los

elementos de la diagonal principal iguales) y, por lo tanto, permite calcular los coeficientes de predicción eficientemente mediante el algoritmo recursivo llamado de Levinson y Durbin, que enunciamos a continuación:

)1(2)(

)1()1()(

)(

)1(1

1

)1(

)0(

)1(

11

1 /)()(

)0(

−−

−−

=

−=

−≤≤−=

=

≤≤

−−=

=

ii

i

ijii

ij

ij

ii

i

ii

j

iji

EkE

ijakaa

ka

piEjiRaiRk

RE

(3.36)

Las ecuaciones del algoritmo Levinson-Durbin se resuelven recursívamenete para i=

1,2,...,p y la solución final viene dada por

pjaa pjj ≤≤= 1 )( (3.37)

Para completar el modelo de coeficientes de predicción lineal es necesario definir el

término de ganancia G, que puede expresarse como

NEG = (3.38) aunque, también puede venir dado como

Page 49: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

47

∏=

−−=N

in ikRG

1

2 ))1(1()0( (3.39)

El término de ganancia permite ajustar en amplitud el espectro del modelo de predicción

lineal al espectro original de la señal de voz.

Con respecto a este tipo de solución del modelo de predicción lineal se deben realizar tres importantes observaciones. Primera, las variables intermedias utilizadas en el cálculo {k i}, se conocen como coeficientes de reflexión. Estos coeficientes están limitados:

Niik i ≤≤∀≤−≤ 1 ,1)1(0 (3.40)

Este hecho resulta de extremada utilidad para las aplicaciones de almacenamiento y

compresión incluidas en un modelo de predicción lineal, así como para sistemas de reconocimiento que deban almacenar un alto número de plantillas de voz.

Segunda, el método iterativo calcula la solución para todos los órdenes del modelo 1 ≤ i ≤ p. Esto es conveniente para aplicaciones de procesado de señal que requieran estimaciones del orden del modelo como parte de la tarea. Normalmente, en aplicaciones de reconocimiento del habla el orden del modelo es un parámetro fijo del sistema. Tercera, conforme crece el orden del sistema el modelo se ajusta mejor. La solución del algoritmo expuesto en 3.36 representa la energía del error. De ella podemos observar que el error es monótono decreciente conforme el orden se incrementa. El modelo intenta por sí mismo ajustar el espectro conjunto tanto como sea posible para el orden dado. No obstante, en aplicaciones de reconocimiento es de aceptación general que con valores del orden de p=10-14 se consigue realizar una estimación eficiente.

En la figura 3.7 se muestra la señal de voz correspondiente al dígito inglés “seven”.

Además podemos apreciar el espectro correspondiente a una trama de 30 ms. En torno a la muestra 4000 y la envolvente espectral obtenida de un análisis de predicción lineal. En esta figura se pone de manifiesto el ajuste que proporciona el modelo de predicción lineal, observándose de forma clara los picos pertenecientes a los formantes de la voz. De éstos hay cuatro en torno a las frecuencias 550, 1600, 2700 y 3500 Hz.

En general, el análisis predictivo lineal es una buena técnica de modelado para la señal de voz. Esto es especialmente cierto en las regiones de voz que más se aproximen a la casi estacionariedad, para las que el modelo todo polos proporciona una buena aproximación de la envolvente del tracto vocal. Durante las regiones de transición y de voz sorda, este modelo es menos efectivo que para regiones de voz sonora, pero, aún así proporciona un modelo aceptablemente bueno para aplicaciones de reconocimiento del habla.

Page 50: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

48

• Transformaciones básicas de los coeficientes de predicción lineal. A partir de los coeficientes del modelo de predicción lineal de la voz (coeficientes ak de la expresión 3.12) se han concebido transformaciones que tienen por fin la generación de los vectores acústicos finales que representarán las características de la voz. A estos coeficientes se les aplica usualmente una transformación no lineal en función de la aplicación a desarrollar. Entre los conjuntos característicos útiles para reconocimiento y codificación de la voz se encuentran los coeficientes de reflexión (RC’s, reflection coeficients) y los pares de líneas espectrales (LSP, lineal spectral pairs).

Coeficientes de reflexión

Hemos considerado que el tracto vocal se puede modelar como una concatenación de tubos acústicos y que en cada unión existe un porcentaje de onda que se transmite y otro que se refleja (asumiendo tubos sin pérdidas). Pues bien, los coeficientes de reflexión representan el porcentaje de onda reflejada en la unión de dos tubos. Si se utiliza el algoritmo de Durbin para resolver las ecuaciones de predicción lineal, los coeficientes de reflexión serán las variables intermedias k i de la recursión. Estos coeficientes también se pueden obtener a partir de los coeficientes de predicción lineal ak, utilizando la siguiente recursión:

1000 2000 3000 4000 5000 6000 7000

-2

0

2

x 104

Tiempo en muestras

Señ

al

0 500 1000 1500 2000 2500 3000 3500

40

60

80

Esp

ectro

dB

0 500 1000 1500 2000 2500 3000 3500-4-202468

Frequency (Hz)

Env

olve

nte

Figura 3.7: Señal de voz sonora, espectro y envolvente de predicción lineal

Page 51: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

49

( )

( )

( )( ) ( ) ( )

11

111 2

1

,...,p,pi

ij ,k

k

a

i

iji

ii

iji

j

iii

jp

j

−=

−≤≤−

⋅+=

=

=

−− αααα

α

α

(3.41)

Pares de líneas espectrales

Los pares de líneas espectrales, en adelante LSP (Linear Spectral Pairs en la literatura inglesa), introducidos por Itakura, son una representación de los coeficientes del filtro inverso de predicción lineal A(z), donde los p ceros de A(z) se ubican dentro del círculo unidad en el plano -Z a través de un par auxiliar de polinomios de orden (p+1): P(z) simétrico y Q(z) antisimétrico

[ ]

)()()(

)()()(

)()(21)(

1)1(

1)1(

−+−

−+−

−=

+=

+=

zAzzAzQ

zAzzAzP

zQzPzA

p

p (3.42)

donde los pares de líneas espectrales son las frecuencias de los ceros de P(z) y Q(z). Por definición, un filtro de predicción lineal estable tiene todos sus polos dentro del círculo unidad en el plano-Z. El filtro inverso correspondiente es, por lo tanto, de fase mínima, dado que no tiene polos ni ceros fuera del círculo unidad. Cualquier polinomio de fase mínima puede ser tratado mediante esta transformación para representar cada una de sus raíces por un par de frecuencias (fases) con magnitud unidad. La representación LSP del filtro de predicción lineal tiene una interpretación directa en el dominio de la frecuencia que es especialmente útil para una eficiente (compacta y exacta) codificación y para el suavizado de los coeficientes de predicción lineal. Dado que los coeficientes de predicción son reales, el Teorema Fundamental del Algebra garantiza que las raíces de A(z), P(z) y Q(z) se producirán en pares de complejos conjugados. Debido a esta propiedad, la mitad inferior del plano-Z es redundante. Los pares de líneas espectrales en cero y π están presentes siempre mediante la construcción de P y Q. Por lo tanto, los coeficientes de predicción pueden ser representados por un número de LSP igual al orden de predicción p y están representados por las frecuencias de los ceros de P y Q en la mitad superior del plano-Z. Los pares de líneas espectrales satisfacen una propiedad de entrelazado de los ceros de los polinomios P y Q que mantiene fase mínima para todos los polinomios A(z)

π=<<<<<<= +−)(1

)()(1

)(2

)(1

)(0 ...0 P

pQ

pP

pQPQ wwwwww (3.43)

Cada cero complejo de A(z) equivale a un cero en P(z) y Q(z). Cuando las frecuencias de

P(z) y Q(z) estén cercanas es probable que los ceros del polinomio original A(z) se encuentren cerca del círculo unidad, y es asimismo probable que exista un formante entre las correspondientes LSPs. Una gran separación de los ceros de P y Q normalmente se corresponde con grandes anchos de banda de los ceros de A(z) y contribuye sólo a la pendiente espectral. En la figura 3.8 se pueden constatar cada uno de los detalles comentados.

Page 52: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

50

3.4.3.- Métodos No Paramétricos de Extracción de Características En este apartado vamos a repasar las principales técnicas no paramétricas de análisis de la señal de voz. Comenzaremos estudiando las técnicas de análisis por bancos de filtros mediante técnicas basadas en las Transformadas de Fourier. Después, abordaremos las técnicas de procesado homomórfico, concretamente el análisis cepstral. Respecto al cepstrum hay que decir que su carácter no paramétrico no está del todo claro, si bien sus coeficientes aportan una envolvente del espectro, éstos no se ajustan a un modelo predeterminado. Por ello hemos decidido incluirlos en este apartado, aunque puede ser válida otra clasificación debidamente justificada.

• Implementación de bancos de filtros mediante Transformadas de Fourier. Un banco de filtros puede ser considerado como un modelo aproximado de las etapas iniciales de transducción en el sistema auditivo humano. Existen dos motivaciones principales que impulsan y justifican la utilización de esta técnica de representación. Primera, la posición de máximo desplazamiento a lo largo de la membrana basilar para estímulos tales como tonos puros, es proporcional al logaritmo de la frecuencia del tono. Segunda, expe rimentos sobre la percepción humana han demostrado que las componentes de frecuencias determinadas de un sonido complejo, incluidas dentro de una cierta banda de frecuencias particular, no pueden ser identificadas individualmente. Sin embargo, cuando una de las componentes de este sonido cae fuera de esta banda, puede ser distinguido individualmente. Esta banda de frecuencias es conocida como banda crítica. Para poder explotar eficientemente las ventajas que representa la utilización de la técnica de banco de filtros digitales, se requiere realizar una segmentación no uniforme del mapa de

-60

-50

-40

-30

-20

3500 3000 2500 2000 1500 1000 500

0

-10

Frecuencia (Hz)

Magnitud (dB)

π/2

π

3π/2

0

polos LP

cero P(z)

cero Q(z)

Figura 3.8: Respuesta en frecuencia de un fonema sonoro (a), frecuencias LSP y polos LP asociados (b).

Page 53: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

51

frecuencias de acuerdo con algún criterio de diseño que intente aproximarse al comportamiento frecuencial del sistema auditivo humano. En este sentido, un modelo de medida conocido como escala bark, relaciona la frecuencia acústica con la resolución en frecuencia en la percepción humana, en la cuál, un bark (corteza), cubre el ancho de una banda crítica. Una expresión analítica de este “mapeo” de frecuencia es

2

2)7500(5.3

100076.0

13

+

=

farctan

farctanBark (5.44)

del que se obtendrán valores enteros para el índice bark , cuando se sustituya en f los valores de las frecuencias centrales de los filtros de un banco basado en la escala bark. Una expresión del ancho de banda para bandas críticas es:

( )[ ] 690210004117525.

crítica /f.AB ++= (3.45)

Sustituyendo en la expresión 3.45 los valores de las frecuencias centrales f, de los filtros calculados en la expresión anterior, obtendremos el ancho de banda de cada filtro, completando así el diseño de un banco de filtros en escala bark.

Una aproximación más popular a este tipo de segmentación del rango de frecuencias en reconocimiento del habla, es conocida como la escala mel.

+=

7001log2595 10

fmel (3.46)

La escala mel intenta producir un mapeo del rango de frecuencias en función del modelo

de percepción de tonos puros que posee el sistema auditivo humano. Esta escala es aproximadamente lineal desde 0 hasta 1000 Hz, y logarítmica por encima de 1000 Hz. Un modelo general para el diseño de un banco de filtros en la escala mel, asigna diez filtros equiespaciados desde 100 Hz hasta 1000 Hz, y cinco filtros por cada banda de octava, por encima. Estos útimos filtros son espaciados logarítmicamente y poseen anchos de banda a 3dB. La escala bark y la escala mel pueden ser consideradas como una transformación de la escala de frecuencias en una escala en función de la percepción humana. La combinación de estas dos teorías da lugar a una técnica de análisis conocida como banco de filtros de bandas críticas. Un banco de filtros de bandas críticas es, simplemente, un banco de filtros paso banda dispuesto linealmente en las escalas bark o mel. Uno de los métodos más fáciles y eficientes de implementar un modelo de banco de filtros no uniformemente espaciados, es vía transformada de Fourier. La Transformada Discreta de Fourier (DFT, Discrete Fourier Transform, en la literatura inglesa) de una señal se define como:

( )∑−

=

−=1

0

/2)()(s

s

N

n

nffjensfS π (3.47)

Page 54: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

52

donde f representa la frecuencia en hertzios, fs representa la frecuencia de muestreo y Ns indica la duración de la ventana en muestras. El banco de filtros puede ser implementado utilizando la expresión (3.47) para muestrear directamente el espectro a frecuencias en escalas bark o mel. Sin embargo, el espectro se sobremuestrea con una resolución más fina que la que señalan las frecuencias centrales de los filtros de estas escalas. Esto es, cada salida del banco de filtros (una magnitud de energía espectral) es calculada como una suma ponderada de sus valores adyacentes. Un ejemplo de esta técnica es el que se obtiene de la siguiente expresión

( )∑=

+=osN

nFB

osavg nfffSnw

NfS

0

),()(1

)( δ (3.48)

donde Nos representa el número de muestras utilizado para obtener el valor promediado, wFB(n) representa una función de ponderación, y δ f(f,n) representa la función utilizada en el cálculo del promediado que describe las frecuencias en las cercanías de f. La utilización de esta técnica se traduce en una mayor estabilidad en las estimaciones de amplitud. La Transformada Rápida de Fourier (FFT, Fast Fourier Transform en la literatura inglesa) también puede ser utilizada como método alternativo de evaluación del espectro de la señal. La FFT es una implementación computacionalmente eficiente de la DFT, con la restricción de evaluar el espectro en un conjunto discreto de frecuencias múltiplas de fs/N. La principal ventaja de la FFT es su rapidez: se requieren para su implementación aproximadamente N log N sumas y N log N/2 multiplicaciones (la DFT necesita valores del orden de N2 operaciones).

• Análisis Cepstral. El cepstrum c(n) de la señal de voz se define como la transformada inversa de Fourier del logaritmo de su espectro S(f), es decir,

( ))(log)( 1 fSFnc −= (3.49)

El término cepstrum (obsérvese la inversión intencionada del orden de las primeras letras con respecto a spectrum) es indicativo de haber realizado una transformación inversa del espectro. La variable independiente del cepstrum se denomina quefrency (proveniente de la variable inglesa frequency, también invertida) y tiene carácter temporal.

El análisis cepstral es un caso particular de procesado homomórfico. Desde su introducción, a principios de los años setenta, las técnicas homomórficas de procesado de señal han sido ampliamente utilizadas en aplicaciones de reconocimiento del habla. Los sistemas homomórficos son una clase de sistemas no lineales que obedecen a un principio general de superposición. Este tipo de sistemas debe cumplir la siguiente propiedad:

( ) ( )[ ] ( ) ( ))()()()( 2121 nxDnxDnxnxD βαβα +=⋅ (3.50)

Page 55: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

53

Esta propiedad es un tipo de operación de superposición con respecto a la multiplicación, a la suma y a la exponenciación. La función logaritmo obedece también a la propiedad general de superposición.

Los sistemas homomórficos son de gran utilidad para el procesado de voz porque ofrecen un método eficaz para separar la estructura fina y los formantes del espectro de la señal de voz. En el modelo lineal de producción de voz, el espectro compuesto de la señal de voz, expresado mediante transformada de Fourier, consiste en una señal de excitación (producida en el sistema subglotal), filtrada mediante un filtro lineal variante en el tiempo que representa la configuración del tracto vocal (ver figura 3.9).

Como hemos comentado, el espectro del tracto vocal puede ser separado de la señal de excitación utilizando técnicas homomórficas de procesado de señal. Este método no es válido para todas las clases de sonidos de voz, como los sonidos fricativos, donde la excitación se produce por encima de la glotis. El proceso de separar las componentes cepstrales en estos dos factores se denomina liftado (liftering en inglés, derivado de filtering, filtrado) y consiste sencillamente en un enventanado. El análisis cepstral permite, de este modo, convertir la ecuación de convolución en suma. Este proceso, partiendo de la convolución, puede ser descrito como:

)()()( nvngns ⊗= (3.51)

En la expresión 3.51, g(n) representa la señal de excitación, v(n) representa la respuesta al impulso del tracto vocal, y ‘⊗’ representa la convolución. Esta ecuación expresada en el dominio de la frecuencia es

)()()( fVfGfS ⋅= (3.52) Si tomamos el logaritmo (complejo) en ambas caras, obtenemos

( ) ( )( ) ( ))(log)(log

)()(log)(logfVfG

fVfGfS+=

⋅= (3.53)

y, por lo tanto, la expresión del cepstrum será

VOZ, s(n) FILTRO EQUIVALENTE

TRACTO VOCAL

EXCITACIÓN, g(n) (SISTEMA SUB-GLOTAL)

Figura 3.9: En el modelo lineal de producción de voz, ésta se produce mediante el filtrado de una

señal de excitación por un filtro lineal variante en el tiempo.

Page 56: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

54

( ) ( ))(log)(log)( 11 fVFfGFnc −− += (3.54) El primer término de la ecuación 3.54 corresponde a la estructura fina del espectro. En el caso de voz sonora presenta un pico en la región de altas quefrencias y, a partir de él, puede detectarse el tono de la voz (pitch). El segundo término corresponde a la envolvente espectral y, por ello, se concentra en la región de bajas quefrencias, de 0 a 4 ms, aproximadamente. La transformada de Fourier de las componentes de baja quefrencia es, por lo tanto, el logaritmo de la envolvente espectral. El índice máximo de las componentes de baja quefrencia utilizado en la transformada, determina la suavidad de la envolvente espectral. Este procedimiento de estimación de la envolvente del espectro se conoce como suavizado cepstral.

Para obtener el cepstrum, en primer lugar se calculan las magnitudes espectrales logarítmicas, para calcular, posteriormente, la transformada inversa de Fourier del espectro logarítmico. La secuencia completa de pasos se muestra en la figura 3.10. La expresión que resume este proceso es:

10 ,)(log1

)(1

0

)/2( −≤≤= ∑−

=s

N

k

knN

s

NnekSN

ncs

sπ (3.55)

Si se desea obtener mayor estabilidad en las medidas, para calcular las magnitudes

espectrales es aconsejable utilizar la técnica de promediado estudiada en el apartado dedicado a la técnica de banco de filtros [x,Savg], con lo que el cepstrum se expresaría como (3.56)

Elementos de baja quefrencia

Elementos de alta quefrencia

ENVENTANADO

DFT

LOGARITMO

IDFT

LIFTADO

DFT

Figura 3.10: Secuencia de operaciones requerida para realizar un análisis Cepstral

EXTRACCIO N PITCH

FRECUENCIA FUNDAMENTAL

ENVOLVENTE ESPECTRAL

Page 57: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

55

10 ,)(log1

)(1

0

)/2( −≤≤= ∑−

=s

N

k

knNavg

s

NnekSN

ncs

sπ (3.56)

En la expresión 3.56, c(0) representa el valor cuadrático medio de la señal. Inicialmente,

este término era una parte importante del vector de parámetros cepstrales. Posteriormente, se observó que las medidas absolutas de energía de la señal eran poco fiables, y la utilización de c(0) fue decreciendo. Recientemente, sin embargo, en otras etapas del procesado de la señal se añaden explícitamente medidas de energía al vector de parámetros, por lo que no se suele incluir c(0) en la secuencia de coeficientes cepstrales. La ecuación 3.56 es conocida como DFT inversa del espectro logarítmico. Esta expresión puede ser simplificada convenientemente observando que la magnitud espectral logarítmica es una función simétrica real. Por lo tanto, puede expresarse como

( )∑=

=SN

k Savg

S

knN

kISN

nc1

2cos)(

2)(

π (3.57)

donde c(n) es reducida, normalmente, a un orden mucho menor que NS. I(k) representa una función que traslada el entero k a la muestra correspondiente de Savg. En la concepción de sistemas más eficientes, Savg puede ser también calculada utilizando una FFT sobremuestreada, en vez de una DFT no uniformemente espaciada. Además, el cepstrum puede ser modificado fácilmente para ser convertido en un cepstrum en escala mel, mediante el muestreo de la transformada de Fourier a las frecuencias apropiadas. Esta técnica de análisis, conocida como mel cepstrum será estudiada en posteriores apartados. Debemos señalar que el cepstrum utilizado en reconocimiento del habla difiere ligeramente de la clásica definición de cepstrum complejo recogida en la literatura. Sin embargo, la definición aquí presentada aprovecha toda la información necesaria para el reconocimiento. Generalmente, debido a que el cepstrum es calculado utilizando un operador no lineal (función logaritmo), se le considera especialmente sensible a ciertos tipos de ruido y distorsiones en la señal. Por ello, para aplicaciones en medios ruidosos se prefieren parámetros cepstrales derivados de un estimador espectral de alta resolución, como, por ejemplo, un análisis de predicción lineal. Este proceso da lugar a la técnica de análisis conocida como LP cepstrum, que también será estudiada en apartados posteriores. 3.4.4. - Métodos Híbridos En este apartado repasaremos las técnicas resultantes de la combinación de algunos de los métodos anteriormente estudiados. Entre las muchas técnicas posibles estas son dos de las que más se usan la actualidad. En primer lugar se estudia la técnica de análisis fruto de la combinación de la predicción lineal y el análisis cepstral, LPC-Cepstrum. Y en segundo lugar, se presenta una de las técnicas con la que mejores resultados se obtienen en aplicaciones de reconocimiento, el Mel Cepstrum.

Page 58: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

56

• LPC-Cepstrum. Si el filtro de predicción lineal obtenido de un análisis LPC es estable (y la estabilidad está garantizada en el análisis de autocorrelación) los coeficientes cepstrales pueden ser calculados directamente a partir del modelo de predicción lineal. Para ello, el logaritmo del filtro inverso puede ser expresado como una serie de potencias en z-1

)(

log)(log)()(

0

0

1

===∑

∑=

−=

−LP

c

N

j

jLP

LPN

iLPLP

zja

GzHziczC (3.58)

Podemos hallar los coeficientes derivando con respecto a z-1 ambos lados de la expresión

3.58 e igualando los coeficientes del polinomio resultante aplicando la siguiente recursión:

c

i

jLPLPLPLP

LPLP

Nijicjaijiaic

ac

≤≤−

−−−=

−=

∑−

=

2 ,)()(1)()(

)1()1(1

1

(3.59)

Nos referimos a esta operación como LPC-Cepstrum, y a los coeficientes {cLP} como

coeficientes cepstrales derivados del análisis de predicción lineal. Históricamente, cLP(0) se ha considerado el loga ritmo de la energía de error de predicción lineal. Al igual que en otros tipos de análisis estudiados, cLP(0) se considera un parámetro independiente y no es necesario incluirlo en la ecuación 3.59. Sin embargo, en la actualidad algunos sistemas de reconoc imiento utilizan este parámetro en etapas posteriores del modelado de la señal. Un parámetro importante en la recursión 3.59 es el número de coeficientes Nc que deben ser calculados. Dado que estos coeficientes son la transformada inversa de la respuesta al impulso del modelo de predicción lineal, y este modelo de señal es un filtro de respuesta infinita al impulso, podemos, en teoría, calcular un número infinito de coeficientes cepstrales. Sin embargo, el número de coeficientes cepstrales calculados es normalmente comparable al número de coeficientes LPC estando dentro del margen 0.75p ≤ Nc ≤ 1.50p.

• Mel Cepstrum. La combinación del análisis Cepstral de la señal de voz y la noción de una transformación de la escala lineal de frecuencias en función de la influencia que poseen las bandas críticas en la sensibilidad del sistema auditivo humano, da lugar a la técnica de análisis denominada Mel Cepstrum. Los coeficientes obtenidos mediante este tipo de análisis, conocidos en la literatura inglesa como MFCC (Mel Frecuency Cepstral Coeficients) se pueden obtener realizando la secuencia de operaciones que se muestra en la figura 3.11. El procedimiento de implementación de cada una de las etapas que componen este proceso ha sido particularmente comentado en apartados anteriores.

Algunos sistemas de reconocimiento introducen algunas variaciones con respecto al procedimiento mostrado, como el HTK de la Universidad de Cambridge, que realiza la compresión logarítmica de forma posterior al ajuste de la escala Mel. Además, aprovecha las propiedades decorreladores de la Transformada Discreta del Coseno Inverso (IDCT) sustituyendo a la IFFT.

Page 59: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

57

3.5.- Información Dinámica de la Señal Con el objetivo de mejorar la caracterización de las variaciones temporales de la señal de voz, se suelen incorporar al modelo derivadas temporales de orden superior de las medidas de la señal. El uso de las características espectrales dinámicas de la señal de voz viene inspirado del papel que juegan en la percepción humana de la voz, siendo las zonas de la señal donde la variación espectral es máxima las que aportan la mayor cantidad de información fonética. Por otro lado, la información del espectro instantáneo y su derivada son complementarias, resultando ésta última más robusta a la variabilidad interlocutor y del entorno. La primera derivada temporal (caracterización de la velocidad) y la segunda derivada temporal (caracterización de la aceleración), se utilizan para representar los cambios dinámicos en el espectro de la señal. En el ámbito del procesado digital de la señal existen varios métodos para aproximar una derivada temporal de primer orden. Dos de las aproximaciones más populares son:

)1()()()( −−≈≡ nsnsnsdtd

ns (3.60)

)()1()()( nsnsnsdtd

ns −+≈≡ (3.61)

Las ecuaciones (3.60) y (3.61) son conocidas como derivada hacia adelante y derivada

hacia atrás, respectivamente. En la etapa de acondicionamiento espectral de la señal hemos estudiado la ecuación 3.60 en forma de filtro de preénfasis.

ENVENTANADO

|FFT|2

LOGARITMO

FILTROS ESCALA MEL

IFFT ó IDCT

Figura 3.11: Secuencia de operaciones requerida para realizar un análisis mel Cepstrum

Page 60: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

58

Debemos ser conscientes de que la derivación temporal es un proceso inherentemente ruidoso. Los filtros de derivación tienden a amplificar el ruido en las características medidas de la señal. Por ello, sería aconsejable efectuar la diferenciación sobre parámetros suavizados, en vez de realizarla directamente de las medidas originales, de manera que el nivel de ruido a la salida decrezca. Una representación alternativa de las derivadas temporales que nos permite realizar este proceso de manera eficiente es el análisis de regresión dado por:

∑−=

+≈≡d

d

N

Nm

mnmsnsdtd

ns )()()( (3.62)

Se puede observar que, dado que (3.62) calcula las derivadas en puntos espaciados

simétricamente de la muestra temporal n, utilizará una combinación de las Nd muestras anteriores y posteriores para calcular el valor actual. Por lo tanto, es inherente a este proceso alguna forma de suavizado de la señal. Las características del análisis de regresión de primer orden, segundo orden y orden superior representan las derivadas numéricas de primer orden, segundo orden y orden superior del vector de características.

La longitud del intervalo de regresión debe elegirse suficientemente grande para obtener estimaciones adecuadas de las características dinámicas del espectro y suficientemente breve para que no se introduzca un suavizado excesivo en los valores estimados, de forma que los parámetros modelen adecuadamente las zonas transicionales de la señal producidas por los efectos coarticulatorios entre fonemas. Típicamente, se utilizan intervalos de una duración comprendida entre 50 y 100 ms. Las señales obtenidas a la salida del primer proceso de derivación son conocidas como parámetros delta. La derivada temporal (parámetros delta-delta) de segundo orden se aproxima de forma similar aplicando nuevamente el procedimiento descrito a la salida del diferenciador de primer orden.

3.6.- Procesador Acústico: Parametrización Una vez repasadas las principales técnicas de análisis de la señal de voz para reconocimiento del habla vamos a describir los pasos básicos que conducen a la implementación práctica de una etapa de parametrización. Comenzaremos por la parametrización LPC-Cepstrum que es una de las que más se utilizas. Pasaremos después a explicar otras que también hemos aplicado en nuestros trabajos como son LPC, Espectrograma, banco de filtros y MFCC. Esta última es casi un estándar en el RAH hoy día.

• LPC-Cepstrum. La figura 3.12 muestra un diagrama de bloques del procesador acústico de LPC-Cepstrum. Considerando la señal ya digitalizada, los siguientes pasos en el proceso son:

1. Preénfasis. La señal de voz digitalizada es pasada a través de un filtro digital

(típicamente un FIR de primer orden) para alisar el espectro de la señal y adecuarla para posteriores procesos. Aunque se han empleado filtros de tipo adaptativo, quizá, la red más ampliamente utilizada es un sistema fijo de primer orden

Page 61: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

59

( ) 1901 1 ≤≤−= − a. ,za~zH (3.63)

En este caso, la salida de la red de preénfasis se relaciona con la entrada, por la ecuación siguiente con a~ =0.95

( ) ( ) ( )1−−= nsa~nsns~ (3.64)

2. Entramado. En este paso, la señal de voz preenfatizada ( )ns~ , es segmentada en

tramas de N muestras, con una separación entre tramas adyacentes de M muestras. Si representamos la l-ésima trama de señal mediante x l(n), y la señal completa comprende L tramas, entonces

( ) ( )110110

−=−=

+=L,...,,lN,...,,n

,nMls~nx l (3.65)

Valores típicos de N y M son, por ejemplo, 240 y 80 muestras cuando la frecuencia de muestreo es de 8 Khz. Estos valores corresponden a tramas de 30 ms. separadas 10 ms. entre sí.

3. Enventanado. El siguiente paso en el proceso es enventanar cada trama individual, de

forma que se minimicen las discontinuidades al principio y al final de cada una de ellas. Si definimos la ventana como w(n) para 0 ≤ n ≤ N-1, entonces, el resultado del enventanado de la señal es

( ) ( ) ( ) 1-Nn0 ,nwnxnx~ ll ≤≤= (3.66)

Una ventana típicamente utilizada para aplicaciones de reconocimiento es la ventana Hamming, que tiene la expresión

( )tcm∆

rm(t) ANÁLISIS AUTOCORRELACIÓN

( )nx~l xl(n) ( )ns~

PREÉNFASIS ENTRAMADO ENVENTANADO

N M

s(n)

w(n)

ANÁLISIS LPC

TRANSFORMACIÓN PARÁMETROS LPC

PONDERACIÓN PARÁMETROS

DERIVADA TEMPORAL

w(m)

am(t) cm(t)

( )tcm

Figura 3.12: Diagrama de bloques del procesador acústico LPC-Cepstrum

p

Page 62: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

60

( ) 101

2460540 −≤≤

−= Nn ,N

ncos..nw

S

π (3.67)

4. Análisis de autocorrelación. Una vez que la señal ha sido entramada y

enventanada, cada trama de señal es autocorrelada haciendo

( ) ( ) ( ) p,...,,m ,mnx~nx~mrmN

nlll 10

1

0

=+= ∑−−

=

(3.68)

donde el valor más alto de autocorrelación p, coincide con el orden del análisis LPC. Típicamente se utilizan valores para p desde 8 a 16.

5. Análisis de predicción lineal. El siguiente paso en el proceso es el análisis de

predicción lineal, el cual convierte cada trama de p+1 autocorrelaciones en un conjunto de parámetros LP que son normalmente los propios coeficientes LP. Recordemos que también hay otras opciones; coeficientes de reflexión, relaciones logarítmicas de áreas, pares de líneas espectrales o cualquier otra transformación de los anteriores conjuntos. El método formal utilizado para convertir los coeficientes de autocorrelación en un conjunto de parámetros LP es conocido como el método de Levinson y Durbin que puede venir expresado formalmente por el siguiente algoritmo:

)1(2)(

)1()1()(

)(

)1(1

1

)1(

)0(

)1(

11

1 /)()(

)0(

−−

−−

=

−=

−≤≤−=

=

≤≤

−−=

=

ii

i

ijii

ij

ij

ii

i

ii

j

iji

EkE

ijakaa

ka

piEjiRaiRk

RE

(3.69)

Este conjunto de ecuaciones se resuelve recursivamente para i=1,2,..,p, y la solución final se obtiene como

( )

+−

==

=≤≤==

m

mm

m

pmm

kk

logáreas de aslogarítmic relacionesg

PARCOR escoeficientkpm ,LP escoeficienta

11

(3.70)

6. Conversión de parámetros LP a coeficientes cepstrales. Un conjunto muy

importante de parámetros que pueden ser derivados directamente a partir de los coeficientes de predicción lineal, son los coeficientes cepstrales c(m). La recursión utilizada es

Page 63: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

61

pm ,acmkc

pm ,acmk

ac

lnc

kmk

m

km

m

kkmkmm

>

=

≤≤

+=

=

=

=−

∑1

1

1

1

20

1

σ

(3.71)

donde σ2 es el término de ganancia en el modelo LP. Generalmente, se utiliza una representación con Q > p coeficientes, donde Q ≈ (3/2) p.

7. Ponderación de parámetros. Dada la sensibilidad de los coeficientes de orden

inferior a la pendiente espectral y la sensibilidad de los coeficientes de orden superior al ruido, se ha extendido la aplicación de una ponderación a los coeficientes cepstrales por medio de una ventana que minimice estas sensibilidades. Un método formal para justificar el uso de una ventana cepstral es considerar la representación de Fourier del logaritmo del espectro y la derivada del logaritmo del espectro, tal que

( ) ∑∞

−∞=

−=m

jwmm

jw eceSlog (3.72)

( )[ ] ∑∞

−∞=

−=∂∂

m

jwmm

jw eceSlogw

(3.73)

( )jmcc mm −= (3.74)

La magnitud logarítmica diferencial tiene la propiedad de que convierte en constante cualquier pendiente espectral, además preserva los picos prominentes (por ejemplo, los formantes). Si se desea lograr mayor robustez para grandes valores de m (por ejemplo, ponderación baja cerca de m = Q) y limitar el cálculo de (3.73), debemos considerar una ponderación más general de forma que

Qm ,cwc mmm ≤≤= 1 (3.75)

donde una ponderación adecuada es el filtro paso banda (filtro en el dominio cepstral)

Qm ,QmsinQwm ≤≤

+= 12

1 π (3.76)

Esta función de ponderación limita el cálculo y deenfatiza cm en las proximidades de m= 1 y m = Q.

8. Derivada temporal cepstral. Para introducir el orden temporal en la

representación cepstral, representaremos el m-ésimo coeficiente cepstral en el instante t mediante cm(t). En la práctica, el instante de muestreo t se refiere a la trama de análisis y no a un instante de tiempo determinado. El método por el que se aproxima

Page 64: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

62

la derivada temporal cepstral es como siguiente. La derivada temporal del espectro logarítmico tiene una representación mediante Series de Fourier de la forma

( )[ ] ( )∑∞

−∞=

∂∂

=∂∂

m

jwmmjw et

tct,eSlog

w (3.77)

Ahora aproximamos ∂cm(t)/∂ t mediante el ajuste a un polinomio ortogonal sobre una ventana de duración finita. Esto es,

( ) ( ) ( )∑

−=

+≈=∂

∂ K

Kkmm

m ktkctct

tcµ∆ (3.78)

donde µ es un constante de normalización adecuada y (2k+1) es el número de tramas sobre la que se realiza el cálculo. Típicamente, un valor de K=3 es utilizado para calcular la derivada temporal de primer orden. Basándonos en los cálculos descritos anteriormente, para cada trama t, el resultado de éste análisis es un vector de Q coeficientes cepstrales ponderados y un vector adicional de Q derivadas cepstrales temporales. Esto es, un vector de características con la siguiente forma

( ))t(c),...,t(c),t(c),t(c),...,t(c),t(co QQt ∆∆∆ 2121=′ (3.79)

donde ot es un vector con 2Q componentes y ‘ representa matriz traspuesta. Similarmente, si se calculan derivadas temporales de segundo orden (delta-delta), éstas se añadirán a ot resultando un vector con 3Q componentes. En cualquier caso, el vector resultante es el vector de parámetros de cada trama. La secuencia de vectores obtenida conforma una secuencia de características ordenadas temporalmente según marca la evolución de la voz.

El cálculo de la etapa de análisis de la figura 3.12 se especifica mediante un número de

parámetros variables, entre los que se incluyen:

N número de muestras en la trama de análisis M número de muestras de avance entre tramas adyacentes p orden del analizador LP Q dimensión del vector cepstral derivado de LP K número de tramas sobre la que se calcula la derivada temporal cepstral

Aunque cada uno de estos parámetros puede variar sobre un amplio rango de valores, la

tabla 3.1 muestra valores típicos para sistemas de análisis con tres frecuencias de muestreo diferentes: 6.67 Khz, 8 Khz y 10Khz.

• Análisis LPC. En esta parametrización los elementos del procesador acústico son iguales al anterior a excepción que desaparecen la conversión y transformación de parámetros.

Page 65: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Juan L. Navarro Mesa

63

PARÁMETRO Fs=6,67 Khz Fs=8 Khz Fs=10 Khz

N 300 (45 ms) 240 (30 ms) 300 (30 ms) M 100 (15 ms) 80 (10 ms) 100 (10 ms) P 8 10 10 Q 12 12 12 K 3 3 3

• Banco de Filtros. Partimos igualmente del esquema de la figura 3.12 con la salvedad de

que ahora se suprimen los bloques de: autocorrelación, LPC, conversión y transformación. A la trama de señal enventanada se le aplica una FFT de la que se extrae su módulo para cada frecuencia, | FFT(k) |. Una vez hecho esto, se le aplica un banco de filtros en escala Mel en el sentido expresado en la ecuación (3.48) y al resultado se la aplica a su vez un logatirmo por cada coeficiente. Las derivadas temporales también son útiles y se usan.

• MFCC. El proceso de parametrización es similar al expresado en el banco de filtros con la salvedad de que ahora al resultado del logaritmo se le aplica una IDCT. Lo expresado en la figura 3.11 es similar con la salvedad de que ahora el logaritmo se aplica a la salida de los filtros y no antes.

Tabla 3.1: valores típicos de los parámetros del procesador acústico LP

Page 66: Procesador Acústico: El Bloque de Extracción de ...€¦ · evolución de las técnicas que permiten representar las características de las señales de voz en el dominio temporal

Procesador Acústico: El Bloqu e de Extracción de Caraterísticas

64

4.- Bibliografía Sin duda, la bibliografía sobre temas de reconocimiento automático de voz es muy amplia hoy día. Los libros dedicados a reconocimiento abarcan un margen más amplio del necesario para complementar las exposiciones de clase e incluso el alcance del temario propuesto para la asignatura de Tratamiento de la Señal de Voz (TSV) en lo referente a reconocimiento. A continuación se da una lista de tres referencias de las propuestas en la bibliografía de TSV. Para cada una de ellas damos la justificación de por qué se recomiendan para una clase como la que expone el concursante. 1 Juan L. Navarro Mesa y Pedro Quintana Morales

Codificación, Síntesis y Reconocimiento de Voz. Universidad de Las Palmas de Gran Canaria, 1994

Es una colección de cuatro libros de apuntes hecha para un curso de procesado de voz en general. La parte dedicada a reconocimiento (tomo 3) se puede tomar como una referencia básica para introducirse en el tema. Abarca lo fundamental sin llegar a profundizar. Algunas partes están pensadas más como transparencias que como apuntes en sí.

2 L. Rabiner y B.-H. Juang

Fundamentals of Speech Recognition. Ed. Prentice Hall, 1993

Tal como indica el título expone los fundamentos del reconocimiento automático del habla. Su alcance es muy superior al tema específico de reconocimiento pero aborda muy bien lo que nos interesa. En particular para todo lo relacionado con la parametrización tiene un apartado, el 3.3, íntegramente dedicado al “Modelo LPC para Reconocimiento”.

3 C. Bechetti, L. P. Ricotti

Speech Recognition. Theory and C++ Implementation. Marcel Dekker, 1992 Este es uno de los libros de quienes quieren desarrollar un sistema de reconocimiento. En cada capítulo aporta la base teórica sin excesivos desarrollos matemáticos yendo al grano y después da detalles de implementación. Además, proporciona un CD con los códigos fuente del sistema. Para el tema de parametrización se puede consultar el apartado 3.3 dedicado a la “extracción de características”. En este apartado se dan los conceptos necesarios para hacer una extracción de características de tipo MFCC.