procesarea semnalelor vorbirii

Download Procesarea Semnalelor Vorbirii

Post on 28-Dec-2015

117 views

Category:

Documents

8 download

Embed Size (px)

DESCRIPTION

disertatie

TRANSCRIPT

Procesarea semnalelor vorbirii

Introducere

Recunoaterea vorbirii i identificarea vocal devin din ce n ce mai mult tehnologii populare n societatea de astzi. Pe lng faptul c are un cost ridicat i aduce un venit considerabil n toate cazurile n care este folosit, sistemul de recunoatere a vorbirii se adreseaz unei mari varieti de utilizri i implementri. Aceste implementri se ntind de la domeniul securitii pn la tendina sigur de cretere a productivitii. Prin fixarea ateniei asupra tehnologiei i a companiilor care manevreaz sistemele actuale de recunoatere vocal i de identificare, putem nva din

implementrile actuale i s stabilim tendinele viitoare.

De cele mai multe ori recunoaterea i verificarea vorbirii sunt procese de

antitez, prima etap n acest traseu fiind recunoaterea.

Recunoaterea vorbirii a fost mult timp unul dintre scopurile diferiilor proiectani de software. Muli au ncercat s scrie programe care s fie capabile s nlocuiasc tastatura cu microfonul. Au existat mai multe aplicaii de acest tip, dar Office XP este prima suit important care ofer aceast facilitate. Principala dificultate cu care se confrunt programele de recunoatere vocal o reprezint faptul c vocile a doi oameni nu sunt deloc asemntoare i chiar vocea aceleiai persoane poate varia n anumite situaii. Office XP ncearc s rezolve aceast problem prin crearea de profiluri corespunztoare fiecrui utilizator. Astfel, vor putea fi cunoscute caracteristicile vocilor diferitelor persoane. La fel ca i celelalte programe de recunoatere vocal i Office XP comite uneori greeli. Microsoft susine c 95% dintre cuvinte sunt recunoscute corect, adic doar un cuvnt din douzeci este greit. Exist unele aplicaii cu performane mai bune, dar nici una nu depete o rat de 97%. Totui, este un prim pas pe drumul care va duce la eliminarea tastaturii. Capitolul I Generarea vorbirii. Scheme echivalente 1.1 Caracteristici generale

Sistemele actuale de recunoastere a vorbirii se situeaza deocamdata n limite restrnse ale parametrilor caracteristici si dedicate unor aplicatii specifice. Din punct de vedere a dimensiunii vocabularului si al modului de vorbire, sistemele de recunoastere cu performante acceptabile, se mpart n trei categorii principale.

sisteme cu vocabular mic (10 100 cuvinte) ; sisteme cu vocabular mediu si mare si vorbire izolata (10 000 20 000 cuvinte) ; sisteme cu vocabular mediu si vorbire conectata sau continua, restrictiva la un domeniu de aplicabilitate (1 000 - 5 000 cuvinte) .Cele mai multe sisteme realizate, apartin claselor sistemelor mici si mijlocii cu recunoasterea vorbirii izolate. Sistemele de recunoastere a vorbirii continue, n marea lor majoritate, exista doar n forma experimentala, n conditii de laborator. Chiar si sistemele utilizate n practica, cele pentru vorbirea izolata sau conectata, nu sunt destul de robuste la zgomotul mediului n care functioneaza si la variabilitatea vorbirii. Toate sistemele dau performante mai bune, daca numarul de utilizatori este mai redus si daca cei care folosesc sistemul sunt cei cu a caror voce s-a folosit pentru nvatarea sistemului. Performantele se degradeaza semnificativ, daca vorbitorii se schimba sau daca sistemul este folosit cu alte cuvinte dect cu cele pentru care a fost antrenat.

Caracteristicile principale ale uni sistem de recunoastere automate a vorbirii, fara a aminti parametrii si metodele specifice prin care s-a implementat, sunt urmatoarele:

dimensiunea vocabularului, adica numarul de cuvinte capabil sa le recunoasca; monolocutor sau multilocutor (aici se poate preciza si sexul vorbitorilor) ; vorbirea izolata sau continua;

conditi de zgomot si robustetea sistemului;

domeniul de aplicabilitate ; timpul de operare, care poate fi n timp real, cu ntrziere sau off-line ; procentajul de recunoastere; costul . Pentru o mai bun nelegere a procesului de recunoatere a vorbirii, voi exemplifica fiecare din componentele acestui proces, astfel:

- analiza acustic este metoda prin care se extrag parametrii auditivi;

- analiza fonetic este metoda prin care ies n eviden caracteristicile sunetelor;

- analiza sintactic este metoda prin care se analizeaz coninutul sintactic al unui cuvnt pe baza cuvintelor exprimate n prealabil;

- analiza semantic este metoda prin care se verific nelesul cuvntului ales;

- analiza pragmatic este metoda prin care se face o estimare a cuvintelor care ar putea fi rostite.

1.2 Analiza vocii si a vorbirii

Vocea este rezultatul energiei respiratorii folosit pentru a mica corzile vocale, care genereaz sunetele, aceast manifestare fiind principala metod a comunicrii prin coduri comune, respectiv prin limbaj.

Producerea vorbirii este compus din dou funcii mecanice de baz: fonetic i articulaie. Fonetica reprezint producerea unui semnal acustic. Articulaia include modularea semnalului acustic, n special de ctre buze, limb i de palatul moale, precum i de rezonana n cavitatea supraglotic, oral i/ sau nazal.

Percepia vocii este general descris ca o transformare n cinci etape a semnalului audio n mesaj: analiza auditiv periferic, analiza auditiv central, analiza fonetico- acustic, analiza fonologic i analiza de ordin nalt (lexical, sintactic i semantic). Urechea uman este special adaptat s perceap vocea uman, spectrul de percepie fiind ntre 16-20000 Hz, cu o sensibilitate ridicat ntre 500-4000 Hz.

Printre primii specialiti care au dezvoltat o reprezentare vizual a unui cuvnt rostit s-a aflat Melville Bell, acesta dezvoltnd un sistem de simboluri scrise. n anul 1940 Potter, Kropp i Green, care lucrau pentru Bell Laboratories, au dezvoltat un proiect ce implica reprezentarea vizual a vocii cu ajutorul unui spectrograf de sunet, acesta analiznd trei parametri: frecven, intensitate i timp.

Astfel, au fost trasate liniile de baz pentru admisibilitatea identificrii vocii ca prob, susintorii pretinznd existena unui proces valid i pertinent de identificare, iar oponenii cernd efectuarea mai multor cercetri tiinifice care s susin admisibilitatea acestei probe n instan.

De-a lungul timpului au existat trei metode de identificare:

- recunoaterea vorbitorului prin ascultare;

- recunoaterea vorbitorului prin compararea vizual a spectrogramelor;

- recunoaterea automat a vorbitorului.

1. Recunoaterea vorbitorului prin ascultare are ca fundament principiul conform cruia procesul de percepie auditiv i procesul de identificare sunt esenialmente subiective, n sensul c o voce particular este asociat unui individ sau grup.

2. Recunoaterea vorbitorului prin compararea vizual a spectrogramelor are n vedere capacitatea de a decide asupra identitii sau nonidentitii unei voci, bazat pe examinarea vizual a spectrogramelor. O spectrogram este reprezentarea vizual a unui set de sunete, n parametrii timpului, frecvenei i amplitudinii.

3. Recunoaterea automat a vorbitorului folosete metode computerizate bazate pe teorii informatice, pe recunoaterea dup modele i pe sisteme de inteligen artificial. Pn n prezent, metoda nu a cunoscut dect o aplicaie limitat.

Tendina curent este de a integra rezultatele recunoaterii vorbitorului prin ascultare cu cele ale recunoaterii automate a vorbitorului i folosirea rezultatelor spectrogramelor doar pentru vizualizare. 1.3 Modelarea mecanismului de producere a vorbiriiPrelucrarea semnalului vocal este unul dintre domeniile n care tehnicile de prelucrare numeric sunt foarte eficiente. Aplicarea algoritmilor de prelucrare a semnalelor digitale s-a dovedit a fi deosebit de util n problemele de baz ale prelucrrii vorbirii : analiza i sinteza vorbirii, codarea vorbirii, recunoaterea vorbirii, .a.

Primele modele de producere a vorbirii sintetice au fost cele mecanice realizate nc din anii1779.Ulterior au fost realizate i modele electrice (1876-Graham Bell, 1939-Dudley, Riesz, Watkins). Un model electric liniar a fost propus de Fant n 1960.

Sunetele generate n timpul vorbirii sunt sonore sau nesonore, de trei tipuri:

Sunetele sonore( vocalizate) cum sunt a,e, i, o,u, , care sunt constituite din impulsuri cvasi-periodice

Sunetele fricative (v, z, f, s, , ..), echivalente cu un zgomot de band larg uniform distribuit

Sunetele plozive sonore (b, d, g) i sunetele plozive nesonore (p, t, k).

Sunetele sunt caracterizate prin intensitate, nlime i timbru. nlimea intensitii sunetului este fixat de frecvena fundamental. Inversul acesteia, T0 = 1/F0 se numete perioad fundamental (pitch-P). Frecvena fundamental poate varia ntre limitele:

80-100 Hz pentru o voce masculin

150-450 Hz pentru o voce feminin

200-600 Hz pentru o voce de copil

Fig.1. Modelul mecano-acustic de producere a vorbirii.

Timbrul unui sunet sonor este determinat de amplitudinile relative ale armonicelor fundamentalei.

S-au realizat diferite modelari ale procesului de generare a semnalului vocal, acusto-mecanice, electrice analogice sau digitale. n fig.1. este prezentat modelul acusto-mecanic pentru producerea vorbirii.

n cadrul modelrii acusto-mecanice este necesar s se tin seama de urmtoarele aspecte:

variaia temporal a parametrilor traseului vocal ;

pierderile prin viscozitate i conducie termic;

cuplarea cu traseul nazal;

modul de excitare.

n privina modului de excitare a traseului vocal, procesul poate avea loc n dou moduri eseniale:

a. Pentru fonemele sonore impulsul glotal are forma unei succesiuni de impulsuri periodice cu perioadaa T0, aa cum se arat n fig.2. O aproximare analitic a expresiei presiunii emis de glot este de forma:

Recommended

View more >