metoda za efikasno ma[insko prepoznavanje govornih ...r)an_1955-200…skriven markovljev model...

4
METODA ZA EFIKASNO MA[INSKO PREPOZNAVANJE GOVORNIH SEKVENCI KORI[]ENJEM AMPLITUDSKE I FREKVENTNE KARAKTERISTIKE SIGNALA Vladan Vu~kovi} 1 1 Elektronski fakultet u Ni{u Sadr`aj – U radu su izlo`ene teoretske i prakti~ne osnove metoda za ma{insko prepoznavanje govornih sekvenci u realnom vremenu. Metode su bazirane na upotrebi skrivenih Markovljevih modela i tehnike dinami~kog vremenskog pode{avanja. U radu je predlo`en nov efikasni metod za prepoznavanje, koji kombinuje dve karakteristike signala, frekventnu i amplitudsku. Metod je pogodan za implementaciju u prenosnim sistemima. 1. UVOD Metode za efikasno prepoznavanje izolovane govorne frekvence u realnom vremenu veoma su interesante ako se ima u vidu potreba za projektovanjem malih, kompaktnih i prenosivih uredjaja koji se mogu kontrolisati glasom. U radu su obja{njene neke od osnovnih metoda koje se mogu primeniti za re{avanje ovog problema. Takodje, autor je razvio, implementirao i testirao novu metodu baziranu na time-warping metodama pri ~emu se umesto samo jedne karakteristike (amplitudska) koja je kori{}ena do sada, u novoj metodi konkurentno koriste dve karakteristike – amplitudska i frekventna. Rezultati su izuzetno interesantni za primenu u mobilnim uredjajima za prepoznavanje. U toku rada na istra`ivanju problema prepoznavanja govornih sekvenci razvijeni su mnogi metodi i algoritmi za prepoznavanje koji se razlikuju kako po svojoj slo`enosti i primenjivosti, tako i po efikasnosti u brzini rada i faktoru uspe{nog prepoznavanja. Osnovni algoritmi za prepoznavanje govornih sekvenci u realnom vremenu su: pristup preko skrivenih Markovljevih modela (HMM) [1,3,4,5,6] , koji igra veliku ulogu prilikom re{avanja problema prepoznavanja kontinualnog govora, i dinami~ko vremensko pode{avanje (dznamic time warping) [1]. Ostali pristupi, pre svega pristup preko ve{ta~kih neuronskih mre`a i pristup modeliranjem preko haoti~nih procesa (fraktali) [7] su jo{ uvek u po~etnim fazama razvoja. 2. SKRIVENI MARKOVLJEVI MODELI (HMM) Markovljev stohasti~ki proces prvog reda karakteri{e se uslovnom gustinom verovatno}e koja se mo`e prikazati slede}om relacijom [2]: p[x(k)|x(k-1),x(k-2),..,x(0)] = p[x(k)|x(k-1)] (1) gde x(n), n=0..k predstavljaju odbirke stohasti~kog signala. Predhodna relacija pokazuje da uslovna verovatno}a da odre|eni odbirak poprimi vrednost x(k) zavisi samo od poslednjeg odbirka x(k-1) a ne i od svih predhodnih odbiraka. Na osnovu ove relacije mo`e se definisati Markovljev signal x(k) koji se generi{e slede}om rekurentnom relacijom: x(k+1) = ax(k)+bv(k) (2) gde su a i b konstante a v signal belog (Gausovog) {uma. Zavisnost uslovne verovarno}e odre|enog stanja samo od predhodnog po analogiji omogu}ava definisanje stohasti~kog kona~nog automata kao skupa stohasti~kih procesa koji emituju simbole. Skriven Markovljev model predstavlja dvostruki stohasti~ki proces koji proizvodi sekvencu simbola koji odgovaraju uzorku koji se prepoznaje [1,6,11].Primena skrivenih Markovljevih modela na prepoznavanje kontinualnog govora zasniva se na posmatranju govora kao serije stohasti~kih procesa koji nastaju variranjem spektra govornog signala u vremenskim intervalima dt. Svaki od stohasti~kih procesa koji se javljaju mo`e se posmatrati kao jedno stanje u Markovljevom modelu. Svako stanje S se karakteri{e verovatno}om emitovanja spektralnog vektora X. Prelazak iz jednog u drugo stanje obavlja se sa leva na desno i tako|e se karakteri{e odre|enom verovatno}om. Dozvoljen je prelazak samo u stanja sa istim ili ve}im indeksom. Automat se mo`e neko vreme zadr`ati u istom stanju i sa odre|enom verovatno}om emitovati seriju istih spektralnih komponenti. Omogu}eno je i preskakanje odre|enih stanja u automatu i prelazak na neko naredno stanje. Imaju}i u vidu da se pona{anje prikazanog stohasti~kog automata ne mo`e spolja videti ve} da se o njemu mo`e zaklju~ivati samo na osnovu emitovanih spektralnih vrednosti, automat se i naziva skriven Markovljev model (HMM). Skriveni Markovljevi modeli mogu se podeliti na tri grupe: Kontinualni HMM (CHMM) - kod kojih su emisione gustine verovatno}e kontinualne funkcije i imaju normalnu Gausovu raspodelu, Diskretne HMM (DHMM) - kod kojih su emisione gustine verovatno}e diskretne funkcije, Polukontinualni HMM (SCHMM) - kod kojih se gustine verovatno}e dobijaju iz zajedni~ke kodne knjige uz pomo} akumuliranih normalnih raspodela. Neki istra`iva~i dokazuju da kori{}enje SCHMM ima prednosti u odnosu na predhodna dva tipa skrivenih Markovljevih modela [4]. Na slede}oj slici prikazan je skup putanji kroz jedan HMM koji se druga~ije naziva i trelis dijagram : Slika 1. Skup putanji kroz jedan skriven Markovljev model (trelis dijagram). Proces prepoznavanja govora kori{}enjem skrivenih Markovljevih modela obavlja se na slede}i na~in: Zbornik radova 50. Konferencije za ETRAN, Beograd, 6-8. juna 2006, tom III Proc. 50th ETRAN Conference, Belgrade, June 6-8, 2006, Vol. III 191

Upload: others

Post on 29-Oct-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: METODA ZA EFIKASNO MA[INSKO PREPOZNAVANJE GOVORNIH ...R)AN_1955-200…Skriven Markovljev model predstavlja dvostruki stohasti~ki proces koji proizvodi sekvencu simbola koji odgovaraju

METODA ZA EFIKASNO MA[INSKO PREPOZNAVANJE GOVORNIH SEKVENCI KORI[]ENJEM AMPLITUDSKE I FREKVENTNE KARAKTERISTIKE SIGNALA

Vladan Vu~kovi} 1

1 Elektronski fakultet u Ni{u Sadr`aj – U radu su izlo`ene teoretske i prakti~ne osnove metoda za ma{insko prepoznavanje govornih sekvenci u realnom vremenu. Metode su bazirane na upotrebi skrivenih Markovljevih modela i tehnike dinami~kog vremenskog pode{avanja. U radu je predlo`en nov efikasni metod za prepoznavanje, koji kombinuje dve karakteristike signala, frekventnu i amplitudsku. Metod je pogodan za implementaciju u prenosnim sistemima. 1. UVOD

Metode za efikasno prepoznavanje izolovane govorne

frekvence u realnom vremenu veoma su interesante ako se ima u vidu potreba za projektovanjem malih, kompaktnih i prenosivih uredjaja koji se mogu kontrolisati glasom. U radu su obja{njene neke od osnovnih metoda koje se mogu primeniti za re{avanje ovog problema. Takodje, autor je razvio, implementirao i testirao novu metodu baziranu na time-warping metodama pri ~emu se umesto samo jedne karakteristike (amplitudska) koja je kori{}ena do sada, u novoj metodi konkurentno koriste dve karakteristike – amplitudska i frekventna. Rezultati su izuzetno interesantni za primenu u mobilnim uredjajima za prepoznavanje.

U toku rada na istra`ivanju problema prepoznavanja govornih sekvenci razvijeni su mnogi metodi i algoritmi za prepoznavanje koji se razlikuju kako po svojoj slo`enosti i primenjivosti, tako i po efikasnosti u brzini rada i faktoru uspe{nog prepoznavanja. Osnovni algoritmi za prepoznavanje govornih sekvenci u realnom vremenu su: pristup preko skrivenih Markovljevih modela (HMM) [1,3,4,5,6] , koji igra veliku ulogu prilikom re{avanja problema prepoznavanja kontinualnog govora, i dinami~ko vremensko pode{avanje (dznamic time warping) [1]. Ostali pristupi, pre svega pristup preko ve{ta~kih neuronskih mre`a i pristup modeliranjem preko haoti~nih procesa (fraktali) [7] su jo{ uvek u po~etnim fazama razvoja.

2. SKRIVENI MARKOVLJEVI MODELI (HMM)

Markovljev stohasti~ki proces prvog reda karakteri{e se uslovnom gustinom verovatno}e koja se mo`e prikazati slede}om relacijom [2]:

p[x(k)|x(k-1),x(k-2),..,x(0)] = p[x(k)|x(k-1)] (1) gde x(n), n=0..k predstavljaju odbirke stohasti~kog signala. Predhodna relacija pokazuje da uslovna verovatno}a da odre|eni odbirak poprimi vrednost x(k) zavisi samo od poslednjeg odbirka x(k-1) a ne i od svih predhodnih odbiraka. Na osnovu ove relacije mo`e se definisati Markovljev signal x(k) koji se generi{e slede}om rekurentnom relacijom:

x(k+1) = ax(k)+bv(k) (2) gde su a i b konstante a v signal belog (Gausovog) {uma.

Zavisnost uslovne verovarno}e odre|enog stanja samo od predhodnog po analogiji omogu}ava definisanje stohasti~kog kona~nog automata kao skupa stohasti~kih procesa koji emituju simbole. Skriven Markovljev model predstavlja dvostruki stohasti~ki proces koji proizvodi sekvencu simbola koji odgovaraju uzorku koji se prepoznaje [1,6,11].Primena skrivenih Markovljevih modela na prepoznavanje kontinualnog govora zasniva se na posmatranju govora kao serije stohasti~kih procesa koji nastaju variranjem spektra govornog signala u vremenskim intervalima dt. Svaki od stohasti~kih procesa koji se javljaju mo`e se posmatrati kao jedno stanje u Markovljevom modelu. Svako stanje S se karakteri{e verovatno}om emitovanja spektralnog vektora X. Prelazak iz jednog u drugo stanje obavlja se sa leva na desno i tako|e se karakteri{e odre|enom verovatno}om. Dozvoljen je prelazak samo u stanja sa istim ili ve}im indeksom. Automat se mo`e neko vreme zadr`ati u istom stanju i sa odre|enom verovatno}om emitovati seriju istih spektralnih komponenti. Omogu}eno je i preskakanje odre|enih stanja u automatu i prelazak na neko naredno stanje. Imaju}i u vidu da se pona{anje prikazanog stohasti~kog automata ne mo`e spolja videti ve} da se o njemu mo`e zaklju~ivati samo na osnovu emitovanih spektralnih vrednosti, automat se i naziva skriven Markovljev model (HMM). Skriveni Markovljevi modeli mogu se podeliti na tri grupe: • Kontinualni HMM (CHMM) - kod kojih su emisione

gustine verovatno}e kontinualne funkcije i imaju normalnu Gausovu raspodelu,

• Diskretne HMM (DHMM) - kod kojih su emisione gustine verovatno}e diskretne funkcije,

• Polukontinualni HMM (SCHMM) - kod kojih se gustine verovatno}e dobijaju iz zajedni~ke kodne knjige uz pomo} akumuliranih normalnih raspodela. Neki istra`iva~i dokazuju da kori{}enje SCHMM ima prednosti u odnosu na predhodna dva tipa skrivenih Markovljevih modela [4].

Na slede}oj slici prikazan je skup putanji kroz jedan HMM koji se druga~ije naziva i trelis dijagram :

Slika 1. Skup putanji kroz jedan skriven Markovljev model

(trelis dijagram). Proces prepoznavanja govora kori{}enjem skrivenih Markovljevih modela obavlja se na slede}i na~in:

Zbornik radova 50. Konferencije za ETRAN, Beograd, 6-8. juna 2006, tom III Proc. 50th ETRAN Conference, Belgrade, June 6-8, 2006, Vol. III

191

Page 2: METODA ZA EFIKASNO MA[INSKO PREPOZNAVANJE GOVORNIH ...R)AN_1955-200…Skriven Markovljev model predstavlja dvostruki stohasti~ki proces koji proizvodi sekvencu simbola koji odgovaraju

• U fazi pretprocesiranja govornog signala generi{e se serija spektralnih komponenti koja predstavlja ulazni vektor X du`ine L.

• Na osnovu referentnog HMM odre|uju se verovatno}e da ulazni vektor X poti~e od nekog od postoje}ih modela. Model kod koga je ova verovatno}a najve}a predstavlja rezultat prepoznavanja. Za izra~unavanje izlazne verovatno}e naj~e{}e se koristi Baum-Weltch [1] algoritam. Osnovna funkcija algoritma tra`enja je nala`enje optimalne putanje kroz HMM pri ~emu se radi pove}avanja efikasnosti ne ra~unaju verovatno}e za sve putanje dok se umesto apsolutnih vrednosti verovatno}a koriste njihove logaritamske vrednosti. Ukupna verovatno}a neke putanje predstavlja proizvod svih verovatno}a emitovanja spektralnih komponenti iz pojedinih stanja i verovatno}a prelaska iz stanja u stanje.

• Generisanje HMM modela i odre|ivanje emisionih verovatno}a obavlja se u fazi obu~avanja koriste}e Viterbi metod obu~avanja [1,5,6].

Osnovna karakteristika kod prepoznavanja kori{}enjem

skrivenih Markovljevih modela je okretanje smera prepoznavanja. Naime, kod ve}ine drugih algoritama na osnovu snimljenog uzorka govornog signala se na osnovu nekog od kriterijuma vr{i utvr|ivanje rastojanja tog uzorka od svakog referentnog uzorka u bazi. Kod primene HMM u toku tra`enja najoptimalnije putanje model sam generi{e sekvence izlaznih simbola od kojih se tra`i ona ~ija je verovatno}a najve}a i koja predstavlja prepoznatu ulaznu re~. Da bi ilustrovali proces prepoznavanja primenom HMM poslu`i}emo se slede}im primerom:

Neka komponente ulaznog vektora (vektor karakteristika ulaznog govornog signala) pripadaju gramatici G={A,B,C} i neka je ulazni vektor predstavljen sekvencom AACCB. Skriveni Markovljev model predstavljen je kona~nim stohasti~kim automatom kod koga zbog pojednostavljivanja nisu navedene emisione verovatno}e i verovatno}e stanja. Neka je referentni HMM prikazan slede}om tablicom:

Tabela 1. Tabela koja prikazuje referentni HMM model

(automat). Stanje 1 2 3 Mogu}i izlazi

A,C C B

Dati ulazni vektor mo`e se generisati slede}om sekvencom stanja definisanog HMM-a: Tabela 2. Tabela koja prikazuje mogu}e sekvence stanja za

definisani HMM.

Broj alternative Mogu}e sekvence stanja HMM-a

1. 1>1>1>1>3 2. 1>1>1>2>3 3. 1>1>2>2>3

Na osnovu utvr|enih ukupnih verovatno}a koje se, kao {to smo ve} napomenuli, dobijaju mno`enjem definisanih emisionih i prelaznih verovatno}a od navedene tri alternative kao rezultat prepoznavanja bira se ona sa najve}om verovatno}om. Za razliku od ovog jednostavnog modela kod koga se relativno lako do{lo do svih mogu}ih alternativa kod

slo`enih Markovljevih modela dolazi do eksponencijalnog rasta broja alternativa u funkciji broja mogu}ih stanja {to samim tim veoma smanjuje brzinu pretrage i primenjivost u aplikacijama za prepoznavanje u realnom vremenu. Sa druge strane, za postizanje visokih vrednosti faktora prepoznavanja neophodno je kori{}enje slo`enih modela i obimnih re~nika koji automatski prouzrokuju zahteve za hardverom visokih performansi, {to je i osnovni razlog za{to sistemi za prepoznavanje koji koriste pristup preko HMM za sada imaju probleme u fazi ekonomski opravdane realizacije [16]. 3. DINAMI^KO VREMENSKO PODE[AVANJE

Dinami~ko vremensko pode{avanje ima znatno jednostavniju teoretsku osnovu od metoda baziranih na HMM, pa je ova metoda pogodnija za ure|aje koji imaju limitirane procesne mogu}nosti. Prilikom izgovora govornih sekvenci usled mnogih parametara koji uti~u na proces stvaranja govora kao i zbog prisustva odre|enih promenjivih karakteristika samog biomehani~kog sistema kod ~oveka, dolazi do variranja gotovo svih govornih parametara. U testovima je dokazano da bez obzira na to koliko puta isti govornik ponavljao jednu istu govornu sekvencu ne mo`e da se desi da dve izgovorene sekvence imaju potpuno isti set govornih parametara [8,9]. Varijacije jo{ vi{e dolaze do izra`aja ako je subjekat nad kojim se vr{i testiranje pod uticajem odre|enih psihi~kih stanja kao {to je stres, strah, radost ili ako u govoru `eli da istakne neki svoj stav ili emociju. Na rezultate automatskog prepoznavanja govornih sekvenci veoma negativno deluje postojanje variranja du`ina vremenskih intervala pojedinih podsekvenci unutar same govorne sekvence. Zadatak algoritma dinami~kog vremenskog pode{avanja je da izvr{i normalizaciju uzoraka po vremenu i da omogu}i efikasno funkcionisanje pattern-matching algoritma u slede}oj fazi [9,15,17]. Ilustracija algoritma za prepoznavanje kori{}enjem dinami~nog vremenskog pode{avanja data je na slici:

Slika 2. Dinami~ko vremensko pode{avanje (dynamic time

warping).

Neka je popunjenom povr{inom prikazan grafik karakteristike referentnog uzorka a tankom linijom kontura grafika uzorka koji se prepoznaje. Zbog pomenutih karakteristika u govornom sistemu ~oveka dolazi do vremenskog izobli~avanja govornog signala tako da se trajanja pojedinih podsekvenci menjaju u odnosu na referentni uzorak {to onemogu}ava primenu prostih algoritama poklapanja. Zadatak dinami~kog vremenskog pode{avanja je da omogu}i vremensko pode{avanje uzorka tako da se u najve}oj mogu}oj meri poklopi sa odgovaraju}im referentnim uzorkom, odnosno da tim vremenskim pode{avanjem minimizuje rastojanje uzorka koji

192

Page 3: METODA ZA EFIKASNO MA[INSKO PREPOZNAVANJE GOVORNIH ...R)AN_1955-200…Skriven Markovljev model predstavlja dvostruki stohasti~ki proces koji proizvodi sekvencu simbola koji odgovaraju

se prepoznaje od referentnog uzorka. Ovo je ilustrovano na slici 2, gde je na slici 2a prvo prikazana situacija pre dinami~kog vremenskog pode{avanja dok je na slici 2b prikazana situacija posle vremenskog pode{avanja, posle koje je mogu}e primeniti izra~unavanje Euklidovog rastojanja u cilju nala`enja minimalnog odstupanja od referentnog uzorka. Algoritamski se ne mogu predvideti sve vremenske varijacije koje mogu nastati u ulaznom uzorku pa se problem vremenskog pode{avanja re{ava dinami~ki - kao rezultat iterativnog postupka dobija se redukovan spektralni oblik prikazuje variranje harmonijskih komponenti u strukturi govorne sekvence, na osnovu ~ega se mo`e izgraditi algoritam za prepoznavanje (Slika 3). Me|utim, re{avanje te{ko}a vezanih za konkretnu implementaciju na personalnom ra~unaru kao i za omogu}avanje efikasnog rada u realnom vremenu zahtevaju druge pristupe. Pri tome se koriste one karakteristike do kojih se mo`e do}i jednostavnijim i efikasnijim ra~unskim metodama. Sami algoritmi za prepoznavanje baziraju se nekoj od realizacija algoritama sa dinami~kim vremenskim pode{avanjem.

Slika 3. Dijagram toka koji prikazuje funkcionisanje aplikacije za prepoznavanje govornih sekvenci.

3.1 Ma{insko prepoznavanje izolovanih govornih sekvenci

Prilikom analize govornih sekvenci pomo}u spektrografa,

prime}uje se razlika u oblastima koje su periodi~ne (vokali) i onih koje su neperiodi~ne. Problem ma{inskog prepoznavanja izolovanih govornih sekvenci daleko je slo`eniji za re{avanje od parcijalnog problema prepoznavanja vokala upravo usled nepostojanja generalne osobine periodi~nosti u strukturi talasnog oblika govorne sekvence.

4. PROGRAMSKA IMPLEMENTACIJA METODE ZA PREPOZNAVANJE GOVORNIH SEKVENCI

Programska implementacija metode za prepoznavanje govornih sekvenci zasniva se na kori{}enju druga~ijih karakteristika od onih koje se upotrebljavaju kod aplikacija za prepoznavanje vokala [10],[12]. Prepoznavanje govornih sekvenci je me|utim znatno slo`eniji problem i njegovo re{avanje vezano je za upotrebu i energetskih i frekvencijskih karakteristika govornog signala [13],[14].

Najva`nija faza u predhodnom dijagramu je prepoznavanje govorne sekvence. Algoritam za prepoznavanje je jednoprolazni i za sve reference u bazi odre|uje Euklidova rastojanja od uzorka koji se prepoznaje, ~ijim se naknadnim sortiranjem odre|uje i naj

4.1 Realizacija algoritma za prepoznavanje

Prepoznavanje govorne sekvence obavlja se obradom digitalizovane WAV datoteke. Metoda koja se koristi prilikom realizacije algoritma za prepoznavanje zasniva se na kori{}enju karakteristika signala koje se mogu efikasno izdvojiti iz originalnog uzorka signala. U programu koji je implementiran paralelno se koriste dve karakteristike: energetska koja se zasniva na izra~unavanju sume intenziteta u nizu sukcesivnih prozora signala (blok u~itanog signala) kao i na frekvencijskoj karakteristici implementiranoj kao standardni algoritam za registrovanje broja prolazaka kroz nulu (zero-crossing). Pojedina~no kori{}enje ovih karakteristika za prepoznavanje govornih sekvenci poznato je u literaturi. Novina koja je uvedena u metodi je njihovo simultano kori{}enje u prepoznavanju. Proces prepoznavanja mogao bi se u kra}im crtama opisati na slede}i na~in: posle digitalizacije govorne sekvence obavlja se u~itavanje bloka sekvence koji se nalazi u formi MS WAV datoteke sa frekvencijom odabiranja od 22050 Hz i {esnaestobitnim uzorkovanjem. U~itavanje signala obavlja se blok po blok i u ovoj fazi tako|e se odre|uju i pomenute karakteristike signala. Na taj na~in program ve} u ovoj osnovnoj fazi vr{i redukciju osnovnih informacija na primarne karakteristike koje se dalje obra|uju u nastavku procesa prepoznavanja. Posle zavr{ene prve faze signal je predstavljen u vidu niza energetskih i frekvencijskih karakteristika. U slede}im fazama odre|uje se po~etak i kraj govorne sekvence i obavljaju se operacije normalizacije (amplitudska, vremenska i rotacija) ~ime je ulazni govorni signal sveden na normalizovan oblik. U zarvr{noj fazi obavlja se operacija prepoznavanja odre|ivanjem Euklidovog rastojanja normalizovanih karakteristika uzorka od svih referentnih uzoraka u bazi.

{...} function recognize_file(s:string):string; begin ucitaj_signal(s,pocetak_niza,kraj_niza); amplitudska_normalizacija(pocetak_niza,kraj_niza); odredi_granice_signala(pocetak_niza,kraj_niza); vremenska_normalizacija(pocetak_niza,kraj_niza); rotacija_uzorka(pocetak_niza,kraj_niza); recognize_file:=recognize; end; {...}

4.2 Funkcija za prepoznavanje

Poslednji korak u procesu prepoznavanje obavlja

procedura recognize. Na osnovu generisanih normalizovanih karakteristi~nih oblika ova procedura obavlja izra~unavanje Euklidovog rastojanja uzorka od svih referenci u bazi. Vrednosti Euklidovih rastojanja sortiraju se po rastu}em redosledu a kao rezultat prepoznavanja vra}a se niz karaktera - ime uzorka sa najmanjim Euklidovim rastojanjem. Sam proces izra~unavanja Euklidovih rastojanja je jednostavan jer ona predstavljaju sume apsolutnih vrednosti razlika korespodentnih vrednosti elemenata u uzorku i odgovaraju}oj referenci u bazi. Na Slici 4. prikazani su karakteristi~ni energetski i frekventni oblici nekih uzoraka iz baze pri ~emu gornji grafici predstavljaju energetsku a donji frekventnu karakteristiku:

193

Page 4: METODA ZA EFIKASNO MA[INSKO PREPOZNAVANJE GOVORNIH ...R)AN_1955-200…Skriven Markovljev model predstavlja dvostruki stohasti~ki proces koji proizvodi sekvencu simbola koji odgovaraju

Slika 4. Karakteristi~ni energetski i frekventni oblici nekih uzoraka.

Predhodna slika pokazuje normalizovane karakteristike

uzoraka u jednoj konkretnoj bazi dobijenih na osnovu prikazanih transformacija. Amplitudska i vremenska normalizacija uz rotaciju nizova karakteristika predstavljaju osnovu za efikasno funkcionisanje realizovanog algoritma za prepoznavnje izolovanih govornih sekvenci. Jasno uo~ljiva karakteristika metode je da se osnovne transformacije obavljaju u fazama normalizacije dok je sama procedura za prepoznavanje trivijalna - sastoji se od odre|ivanja sume apsolutnih vrednosti razlika izme|u odgovaraju}ih elemenata uzorka i baze. 5. ZAKLJU^AK

U radu su prikazani teoretski metodi kao i prakti~ne procedure koji predstavljaju osnovu za realizaciju algoritama za efikasno ma{insko prepoznavanje izolovanih govornih sekvenci. Prema primeni mo`e se re}i da se skriveni Markovljevi modeli (HMM) samostalno ili u kombinaciji sa ve{ta~kim neuronskim mre`ama koriste u velikom broju slu~ajeva. Dinami~ko vremenko pode{avanje (time-warping), rezultuje daleko ve}om brzinom izvr{avanja ali uz slabije rezultate vezane za procenat uspe{nog prepoznavanja. Nova metoda, koja je prikazana u radu, predstavlja jednu verziju algoritma dinami~kog vremenskog pode{avanja, pri ~emu se konkurentno koriste dve karakteristike: amplitudska i vremenska. Ta taj na~in posti`u se bolji rezultati u prepoznavanju, uz zadr`avanje postoje}e brzine rada. Dalji tok istra`ivanja }e biti usmeren na pove}avanje faktora uspe{nog prepoznavanja i na tretiranje razli~itih govornika kroz prilago|avanje baze uzoraka. Tako|e, dalji eksperimenti }e se vr{iti u smislu analize uticaja drugih karekteristika na parametre prepoznavanja. LITERATURA [1] Richard D. Peacocke, Daryl H. Grat “An Introduction to

Speech and Speaker Recognition” , IEEE Computer, Vol. 23, No. 8, str. 26-34, August 1990.

[2] Mili} R. Stoji} “Digitalni sistemi upravljanja”, III izdanje, Nauka, Beograd, 1994.

[3] Biing-Hwang Juang, Kuldip K. Paliwal “Hidden Markov Models with First-Order Equalization for Noisy Speech Recognition” , IEEE Transactions on signal processing, Vol. 40, No. 9, str. 2136-2143, September 1992.

[4] X.D.Huang “Phoneme Classification Using Semicontinous Hidden Markov Models” , IEEE Transactions on signal processing, Vol. 40, No. 5, str. 1062-1067, May 1992.

[5] Radoslav Brki} “Prepoznavanje kontinualnog govora” , Diplomski rad, Elektronski fakultet u Ni{u.

[6] Ljiljana Stanimirovi} “Kori{}enje HMM-ova u prepoznavanju govora” , XXXVIII Konfrencija za ETRAN, Sveska II, Komisija za Akustiku, str. 193-194, Ni{, 7-9 juna 1994.

[7] Z.Uro{evi}, Milan D.Savi}, S.Ili}, B.Savi} “Primena BOX counting metode za segmentaciju govora” , XXXVIII Konfrencija za ETRAN, Sveska II, Komisija za Akustiku, str. 197-198, Ni{, 7-9 juna 1994.

[8] R. Rabiner, R. W. Schafer “Digital Processing of Speech Signals”, Bell Laboratories, Prentice-Hall, Inc. , U.S.A. , 1978.

[9] Sadaoki Furui “Digital Speech Processing, Synthesis and Recognition” , III version, NTT Human Interface Laboratories, Nippon Telegraph and Telephone Corporation, Tokio, Japan.

[10] Richard D. Peacocke, Daryl H. Grat “An Introduction to Speech and Speaker Recognition” , IEEE Computer, Vol. 23, No. 8, str. 26-34, August 1990.

[11] Biing-Hwang Juang, Kuldip K. Paliwal “Hidden Markov Models with First-Order Equalization for Noisy Speech Recognition” , IEEE Transactions on signal processing, Vol. 40, No. 9, str. 2136-2143, September 1992.

[12] Ludvik Gyergzek, Nikola Pave{i}, Slobodan Ribari} “Uvod u raspoznavanje uzoraka” , Tehni~ka knjiga, Zagreb, Septembar 1988.

[13] S.M.Kr~o, V.D.Deli}, V.S.Milo{evi} “Realizacija sistema za prepoznavanje izolovano izgovorenih re~i” , XXXVIII Konfrencija za ETRAN, Sveska II, Komisija za Akustiku, str. 195-196, Ni{, 7-9 juna 1994.

[14] Milan D. Savi}, Z. Uro{evi}, B. Savi} “Segmentacija izolovano izgovorenih re~i na manje govorne jedinice” , XXXVIII Konfrencija za ETRAN, Sveska II, Komisija za Akustiku, str. 199-200, Ni{, 7-9 juna 1994.

[15] James W. Pitton, Kuansan Wang, Biing-Hwang Juang “Time-Frequency Analyses and Auditory Modeling for Automatic Recognition of Speech” , Invited Paper, Proceedings of the IEEE, Vol. 85, No.9, str. 1199-1215, September 1996.

[16] Vladan Vu~kovi} “Metodi i sistemi za automatsko prepoznavanje govornih sekvenci”, IX Telekomunikacioni forum TELFOR 2001, Zbornik radova str. 467-470, Beograd, 20.-22. Novembar 2001.

[17] Vladan Vu~kovi} “Digitalna obrada i ma{insko prepoznavanje izolovanih govornih sekvenci”, magistarska teza, Elektronski fakultet u Ni{u, maj 1997.

Abstract: This paper is concerned with the theoretical (Dznamic Time-Warping and Hidden Marcov Models) and implementation details connected with the machine isolated speech recognition in real-time. The new efficient method which combines two characteristic, amplitude and frequent, is developed. The method is suitable for the portable speech recognition.

THE METHOD OF THE EFFICIENT SPEECH SEQUENCE

MACHINE RECOGNITION USING AMPLITUDE AND FREQUENT CHARACTERISTIC

Vladan Vu~kovi}

194