Modelos de producción de voz
Tratamiento digital de la señal de voz 1
Modelos de producción de Modelos de producción de vozvoz
Curso de doctorado 2001/2002Inmaculada Herná[email protected]
Modelos de producción de voz
Tratamiento digital de la señal de voz 2
Modelos de producción de voz
Teoría de la producción del habla
El sintetizador de formantes
Modelos de producción de voz
Tratamiento digital de la señal de voz 3
Teoría de la producción del habla• Sistema sub-glotal: pulmones, bronquios y
tráquea, son la fuente de energía
• Tracto vocal (longitud media 17cm, sección de 0 a 20 cm:
•Glotis (aloja las cuerdas vocales)•Faringe•Cavidad bucal
• Tracto nasal: velo del paladar y nariz• Sonidos nasales: el velo del paladar baja y el
tracto vocal y nasal se acoplan acústicamente (producción de los sonidos nasales).
• Voz: Onda acústica radiada cuando los pulmones expulsan el aire y el flujo resultante es perturbado por alguna constricción en el tracto vocal.
Modelos de producción de voz
Tratamiento digital de la señal de voz 4
Teoría de la producción del habla
Modelos de producción de voz
Tratamiento digital de la señal de voz 5
Teoría de la producción del habla
Sonidos sonoros: el flujo del aire procedente de los pulmones es periódicamente interrumpido por la apertura y cierre de las cuerdas vocales. Es un flujo periódico de frecuencia fundamental F0 (frecuencia de pitch).Sonidos sordos: No hay vibración de las cuerdas vocales. El flujo de aire encuentra una constricción en el tracto vocal, tomando granvelocidad y formando turbulencias.Tracto vocal y tracto nasal: Actúan de cavidades resonantes, cuyas frecuencias de resonancia se conocen como Formantes. Los valores de los formantes dependen de la forma y dimensiones del tracto vocal. Por ello, las características espectrales de la voz varían en el tiempo como varía la forma del tracto vocal.
Modelos de producción de voz
Tratamiento digital de la señal de voz 6
Teoría de la producción del hablaHombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz másgrave.Mujeres y niños: Glotis más pequeña, cuerdas vocales más cortas, vozmás aguda.
Modelos de producción de voz
Tratamiento digital de la señal de voz 7
Teoría de la producción del habla
Modelos de producción de voz
Tratamiento digital de la señal de voz 8
Teoría de la producción del habla
Pulso de Rosenberg
g(t)
G(f)
Excitación Cavidad Resonante
Radiación labios
Modelos de producción de voz
Tratamiento digital de la señal de voz 9
Resonancias orales:
Teoría de la producción del habla
Modelos de producción de voz
Tratamiento digital de la señal de voz 10
Teoría de la producción del habla
Vocales: Desde la glotis, el aire atraviesa la cavidad bucal sinobstáculos. Las vocales siempre son sonoras. Consonantes: La lengua o los labios ayudados por los dientes y por elpaladar interrumpen total (oclusivas) o parcialmente (fricativas, africadas) el paso del aire.
Modelos de producción de voz
Tratamiento digital de la señal de voz 13
Modelos digitales
a) Modelo Tubo sin pérdidas
b) Sistema discreto equivalente
c) Retardos enteros
Modelos de producción de voz
Tratamiento digital de la señal de voz 14
Modelos digitales
Línea discontínua: terminación en cortocircuito
º
Modelos de producción de voz
Tratamiento digital de la señal de voz 16
Modelos digitales
GENERADORde PULSOS
PULSOGLOTALG(z)
GENERADORde RUIDO
x
x
TRACTOVOCALV(z)
RADIACIÓNLABIOSR(z)F0
AV
AUCOEFICIENTES
REFLEXIÓN
s(n)
EXCITACIÓNSONORA
EXCITACIÓNSORDA
GENERADORde
EXCITACIONES
TRACTOVOCALH(z)
u(n)
G(z) V(z) R(z)
Modelos de producción de voz
Tratamiento digital de la señal de voz 17
Modelos digitales
Modelo de fuente y tracto vocal:Separa totalmente características de fuente y de tracto vocal.Funciona mejor cuando los parámetros varían lentamente: sonidos más estacionarios.Filtro V(z) todo polos: solo tiene resonancias, no puede modelar los ceros de las nasales.Separa fuente ruidosa y sonora: no válido para todos los sonidos. Cambio brusco de una fuente a otra: no realista.
Modelos de producción de voz
Tratamiento digital de la señal de voz 18
Modelos de producción de voz
Teoría de la producción del hablaEl sintetizador de formantes
Modelos de producción de voz
Tratamiento digital de la señal de voz 19
El sintetizador de formantes
Esquema general basado en el modelo de fuente y tracto vocal. Es uno de los primeras técnicas utilzadas para síntesis de voz y conversión de texto a voz (Holmes-63, Klatt-80).El tracto vocal se implementa con tipos de configuraciones de filtros, en función del sonido de que se trate:
Modelos de producción de voz
Tratamiento digital de la señal de voz 20
El sintetizador de formantesLa rama paralelo está formada por resonadores de segundo orden conectados en paralelo. La propuesta de Holmesúnicamente incluía esta rama (Holmes-83). Es muy flexible, pero muy difícil de ajustar.
Modelos de producción de voz
Tratamiento digital de la señal de voz 21
El sintetizador de formantes
La rama serie está formada por una serie de resonadores de segundo orden conectados en cascada (o serie). Tiene menos parámetros de configuración (no pueden ajustarse las amplitudes) y modela muy bien la producción de las vocales. No puede utilizarse para las sordas.
Modelos de producción de voz
Tratamiento digital de la señal de voz 22
Circuito resonador digital de segundo orden:
sFB
s
eg
gcFPgb
cbazczb
azH
π
π
2
2
21
)2cos(2
11
)(
−
−−
−=
−=
⋅⋅⋅⋅=
−−=⋅−⋅−
=)2()1()()( −⋅+−⋅+⋅= nycnybnxany
P=Frecuencia del polo (500, 1500, 2500, 3500Hz)
B=Ancho de banda (50 y 100Hz para P1 y P2, y 50 para P3 y P4)
El valor de la respuesta aumenta con la frecuencia y disminuye con el ancho de banda. Esto debe considerarse cuando se combinen las respuestas de varios resonadores.
El sintetizador de formantes
Modelos de producción de voz
Tratamiento digital de la señal de voz 23
sFB
s
eg
gacFPgab
cba
zczbazH
π
π
2
2
21
'
)2cos(2''
11'
''')(
−
−−
−=
⋅=
⋅⋅⋅⋅⋅−=
−−=
⋅+⋅+=)2(')1(')(')( −⋅+−⋅+⋅= nxcnxbnxany
Circuito antirresonador digital de segundo orden:
P=Frecuencia del cero (500, 1500, 2500, 3500Hz)
B=Ancho de banda (50 Hz)
El sintetizador de formantes
Modelos de producción de voz
Tratamiento digital de la señal de voz 24
Excitación sonora: hay muchas propuestas para la configuración del pulso glotal.
El sintetizador de formantes
Modelos de producción de voz
Tratamiento digital de la señal de voz 25
Excitación sorda:
El sintetizador de formantes
Modelos de producción de voz
Tratamiento digital de la señal de voz 26
Vocales: valores de los formantes constantes.
300Hz
i e a o u
F1
F22200Hz
El sintetizador de formantes
Modelos de producción de voz
Tratamiento digital de la señal de voz 27
Bibliografía
Rabiner, L.R. Schfer, R.W (1978) Digital Processing of Speech Signal. Prentice-Hall Signal Processing Sreries Alan V. Oppenheim. SeriesEditor. 1978.RabinerKlatt, D., (1980) Software for a Cascade/Parallel Formant Synthesizer.Journal of the Acoustical Society of America, vol.67, pp.971-995Holmes, J. (1983), Formant Synthesizer- Cascade or Parallel? SpeechCommunication, vol 2, pp.251-273Holmes, J., Mattingly, I., Shearme, J. (1964) Speech Synthesis by Rule. Language an Speech, vol. 7, pp. 127-143