- phd - v1.0.pdf · Želeo bih da se najiskrenije zahvalim mentoru prof. dr. nikoli tesli ću ne...
TRANSCRIPT
UNIVERZITET U NOVOM SADU
FAKULTET TEHNIČKIH NAUKA
mr Ištvan Pap
Prilog rešenju obrade govornog signala korišćenjem
mikrofonskog niza
– D O K T O R S K A D I S E R T A C I J A –
Mentor:
prof. dr. Nikola Teslić
Novi Sad, 2009
Želeo bih da se najiskrenije zahvalim mentoru prof. dr. Nikoli Tesliću ne samo na strpljenju i iskrenoj podršci, već i na motivaciji i inspiraciji pri izradi teze. Zahvalio bih se i svim članovima komisije na poklonjenoj pažnji i korisnim sugestijama.
Zahvaljujem se i najbližim saradnicima koji su učestvovali u
istraživanju jer su svojim zalaganjem i drugarskim odnosom obezbedili dodatnu motivaciju. Posebnu zahvalnost dugujem dr. Zoranu Šariću za podršku u naučno-istraživačkom radu i objavljivanju naučnih radova.
Mnogo dugujem svojoj porodici koji su imali reči ohrabrenja,
razumevanje za moja odsustvovanja i danonoćni rad, i bez čije podrške ne bih uspešno završio ovu disertaciju.
УНИВЕРЗИТЕТ У НОВОМ САДУ ФАКУЛТЕТ ТЕХНИЧКИХ НАУКА 21000 НОВИ САД , Трг Доситеја Обрадовића 6
КЉУЧНА ДОКУМЕНТАЦИЈСКА ИНФОРМАЦИЈА
Редни број, РБР:
Идентификациони број, ИБР:
Тип документације, ТД: Монографска документација
Тип записа, ТЗ: Текстуални штампани материјал
Врста рада, ВР: Докторски рад
Аутор, АУ: Мр Иштван Пап, дипл. инж.
Ментор, МН: проф. др Никола Теслић
Наслов рада, НР: Прилог решењу обраде говорног сигнала коришћењем микрофонског низа
Језик публикације, ЈП: Српски / латиница
Језик извода, ЈИ: Српски
Земља публиковања, ЗП: Република Србија
Уже географско подручје, УГП: Војводина
Година, ГО: 2009.
Издавач, ИЗ: Ауторски репринт
Место и адреса, МА: Нови Сад; трг Доситеја Обрадовића 6
Физички опис рада, ФО: (поглавља/страна/ цитата/табела/слика/графика/прилога) 7 поглавља / 159 страна / 140 цитат / 26 табела / 77 слика
Научна област, НО: Електротехника и рачунарство
Научна дисциплина, НД: Рачунарска техника
Предметна одредница/Кqучне речи, ПО: Дигитална обрада сигнала, дигитални сигнал процесор, обрада говорног сигнала у реалном времену, микрофонски низ
УДК
Чува се, ЧУ: У библиотеци Факултета техничких наука, Нови Сад
Важна напомена, ВН: Извод, ИЗ: Ова докторска теза се бави истраживањем у области примене дигиталне
обраде говорног сигнала и микрофонског низа у слободној говорној комуникацији. Циљ тезе је развој акустичког подсистема заснованог на микрофонском низу, одговарајућој физичкој архитектури и програмској подршци, који је са становишта квалитета и сложености погодан за примену у уређајима потрошачке електронике. У тези се анализирају релевантни аспекти проблематике, предлаже се решење за рад у реалном времену, и примењују се објективне и субјективне мере за поређење перформанси. Основни допринос тезе је у предложеном оригиналном решењу са повољним односом сложености и квалитета, као и у предложеној методологији развоја и оцене квалитета ограничених решења за рад у реалном времену.
Датум прихватања теме, ДП: 29.10.2008.
Датум одбране, ДО:
Чланови комисије, КО: Председник: др Миодраг Темеринац, ред. проф.
Члан: др Владимир Ковачевић, проф. емеритус
Члан: др Мирослав Поповић, ред. проф. ч
Потпис ментора
Члан: др Зоран Шарић, виши научни сарадник
Члан, ментор: др Никола Теслић, ванр. проф.
Образац Q2.НА.06-05- Издање 1
UNIVERSITY OF NOVI SAD FACULTY OF TECHNICAL SCIENCES 21000 NOVI SAD, Trg Dositeja Obradovića 6
KEY WORDS DOCUMENTATION
Accession number, ANO:
Identification number, INO:
Document type, DT: Monographic publication
Type of record, TR: Textual printed material
Contents code, CC: PhD Thesis
Author, AU: Ištvan Pap, MSc
Mentor, MN: Nikola Teslić, PhD
Title, TI: One approach to speech signal processing based on microphone array
Language of text, LT: Serbian
Language of abstract, LA : Serbian
Country of publication, CP: Republic of Serbia
Locality of publication, LP: Vojvodina
Publication year, PY: 2009.
Publisher, PB: Author’s reprint
Publication place, PP: Novi Sad, Dositeja Obradovica sq. 6
Physical description, PD: (chapters/pages/ref./tables/pictures/graphs/appendixes) 7 chapters / 159 pages/ 140 references / 26 tables / 77 pictures
Scientific field, SF: Electrical Engineering
Scientific discipline, SD: Computer Engineering, Engineering of Computer Based Systems
Subject/Key words, S/KW: Digital signal processing, digital signal processor, real-time speech signal processing, microphone array
UC
Holding data, HD: The Library of Faculty of Technical Sciences, Novi Sad, Serbia
Note, N: Abstract, AB : The PhD thesis addresses the problem of digital speech signal processing
based on microphone array in hands-free voice communication. The main focus of the thesis is a development of acoustic front.-end based on microphone array, appropriate hardware platform and software. The quality and the complexity of the proposed solution makes it suitable for application in consumer electronic products. The thesis analyses the relevant aspects of the problem, proposes a real-time solution, and applies objective and subjective measures for performance comparison of various solutions. The main contribution of the thesis is the original solution with beneficial complexity/quality ratio, as well as the proposed methodology for development and benchmarking of constrained real-time systems. Accepted by the Scientific Board on, ASB : 29.10.2008.
Defended on, DE:
Defended Board, DB: President: dr Miodrag Temerinac, Professor
Member: dr Vladimir Kovačević, Professor Emeritus
Member: dr Miroslav Popović, Professor Č
Menthor's sign
Member: dr Zoran Šarić, Senior Research Associate
Member, Mentor: dr Nikola Teslić, Associate Professor
Obrazac Q2.НА.06-05- Izdanje 1
SADRŽAJ
I
SADRŽAJ
POGLAVLJE 1. UVOD ............................................................................................1
POGLAVLJE 2. PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA I
POSTAVKA CILJEVA ISTRAŽIVANJA ...............................................................3
2.1 Postavka ciljeva istraživanja ....................... .................................................................. 12
POGLAVLJE 3. PREGLED RELEVANTNIH IZVORA INFORMACIJA ....... 15
3.1 Postoje ća rešenja za slobodnu komunikaciju ................. ............................................ 15
3.2 Pregled baze patenata............................... ..................................................................... 20
3.3 Namenski sistemi za obradu digitalnih signala ...... ..................................................... 23
3.4 Pregled mogu ćih platformi za realizaciju obrade signala u realno m vremenu......... 28
3.5 Pregled nau čnih dostignu ća u oblasti obrade signala mikrofonskih nizova ..... ....... 33
3.5.1 Potiskivanje akustičkog eha......................................................................................... 34
3.5.2 Odreñivanje pravca izvora pomoću mikrofonskog niza................................................ 44
3.5.3 Prostorno filtriranje....................................................................................................... 48
3.5.4 Potiskivanje šuma........................................................................................................ 54
3.5.5 Automatska kontrola pojačanja.................................................................................... 56
POGLAVLJE 4. PREGLED MERA ZA OCENU PERFORMANSI SISTEMA
ZA OBRADU GOVORNOG SIGNALA .............................................................. 59
4.1 Mere za ocenu složenosti rešenja................... .............................................................. 60
4.2 Postupak ocene ta čnosti bloka za odre ñivanje položaja govornika.......................... 63
4.3 Mere za ocenu kvaliteta govornog signala........... ........................................................ 65
SADRŽAJ
II
POGLAVLJE 5. SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU ..73
5.1 Sistem za slobodnu govornu komunikaciju............. .................................................... 77
5.2 Opis ciljnih platformi i sprežnog podsistema ....... ....................................................... 81
5.3 Koraci razvoja programske podrške.................. ........................................................... 88
5.4 Algoritmi za poboljšanje kvaliteta govornog signala .................................................. 90
5.4.1 Ulazni i izlazni stepen .................................................................................................. 93
5.4.2 Postupak potiskivanja akustičkog eha ......................................................................... 95
5.4.3 Odreñivanje pozicije aktivnog govornika.................................................................... 102
5.4.4 Prostorno filtriranje..................................................................................................... 108
5.4.5 Post-procesiranje....................................................................................................... 111
5.4.6 Potiskivanje stacionarnog šuma ................................................................................ 115
5.4.7 Automatska regulacija pojačanja ............................................................................... 118
5.4.8 Adaptivno sabiranje signala....................................................................................... 122
5.5 Integracija razvijenog sistema sa TV ure ñajem ............................................... .......... 124
POGLAVLJE 6. REZULTATI MERENJA PERFORMANSI REŠENJA .... 127
6.1 Merenje složenosti rešenja......................... ................................................................. 127
6.2 Merenje ta čnosti bloka za odre ñivanje položaja govornika.......................... ............ 135
6.3 Merenje kvaliteta izlaznog signala objektivnim mera ma........................................... 136
6.4 Subjektivno merenje kvaliteta obra ñenog signala ....................................... ............. 144
6.5 Testiranje rešenja od strane eksperata u oblasti po troša čke elektronike............... 147
6.6 Poreñenje sa drugim rešenjima ........................... ....................................................... 152
POGLAVLJE 7. ZAKLJU ČAK ......................................................................... 157
SPISAK SLIKA
III
SPISAK SLIKA
Slika 2.1 Vremenski prikaz dominantnih proizvoda iz oblasti potrošačke elektronike ................ 4
Slika 2.2 Vrste telekomunikacija (preuzeto iz [Anttalainen]) ....................................................... 7
Slika 2.3 Istorija telekomunikacijskih usluga (preuzeto iz [Anttalainen])..................................... 8
Slika 2.4 Šematski prikaz govorne komunikacije ........................................................................ 9
Slika 2.5 Slobodni dvosmerni komunikacioni sistem u tipičnom akustičkom ambijentu ........... 10
Slika 3.1 AcoustiMagic VoiceTracker Array Microphone (levo), ............................................... 16
Slika 3.2 Voice Array Microphone ............................................................................................. 16
Slika 3.3 Linguatronic sistem u Mercedes vozilima (levo) i LifeSize(desno) ............................ 17
Slika 3.4 The Voice (levo) i Mitel 5310 IP (desno) .................................................................... 18
Slika 3.5 Dizajn namenskog sistema za obradu signala........................................................... 24
Slika 3.6 Tok razvoja i realizacije algoritama ............................................................................ 25
Slika 3.7 Glavna petlja tipične DSP aplikacije........................................................................... 27
Slika 3.8 Zapis označenih brojeva u nepokretnom zarezu ....................................................... 31
Slika 3.9 Zapis brojeva u pokretnom zarezu............................................................................. 32
Slika 3.10Model sistema za slobodnu komunikaciju u akustičkom okruženju .......................... 34
Slika 3.11 Upotreba adaptivnog filtra za identifikaciju sistema (str. 76).................................... 35
Slika 3.12 Mera potiskivanje eha u zavisnosti od vrednosti faktora adaptacije (preuzeto iz
[Tabus])............................................................................................................................. 38
Slika 3.13 Odnos performansi i kompleksnosti algoritama ....................................................... 43
Slika 3.14 Akustički ambijent u reverberantnom okruženju ...................................................... 44
Slika 3.15 Adaptivni potiskivač bočnih petlji.............................................................................. 51
Slika 4.1 Postavka za ocenu kvaliteta bloka za lociranje govornika ......................................... 64
Slika 4.2 Koncept merenja poboljšanja odnosa signal-šum...................................................... 66
Slika 4.3 Koncept merenja potiskivanja eha ............................................................................. 66
Slika 4.4 Ocena sistema za obradu zvuka................................................................................ 67
Slika 4.5 Blokovi PESQ metode (preuzeto iz ITU-T P.862) ...................................................... 69
Slika 4.6 Merenje kvaliteta govora na osnovu razumljivosti...................................................... 70
Slika 4.7 Odnos razumljivosti rečenica, reči i logatoma u zavisnosti od nivoa šuma ............... 72
Slika 5.1 Analiza relevantnih informacija................................................................................... 73
Slika 5.2 Predlog arhitekture rešenja ........................................................................................ 74
Slika 5.3 Formiranje zahteva i ograničenja ............................................................................... 76
Slika 5.4 Struktura dvosmernog sistema za slobodnu govornu komunikaciju .......................... 79
Slika 5.5 Scenario upotrebe SEA2M......................................................................................... 79
Slika 5.6 Struktura sistema ....................................................................................................... 80
Slika 5.7 Realizacija množenja u nepokretnom zarezu (preuzeto iz [AADSP1]) ...................... 85
Slika 5.8 Frekventni odziv upotrebljenih mikrofonskih elemenata (preuzeto iz [WM61]).......... 86
Slika 5.9 Sprežni podsistem...................................................................................................... 87
SPISAK SLIKA
IV
Slika 5.10 Faze u razvoju algoritama ........................................................................................ 89
Slika 5.11 Blok dijagram algoritama .......................................................................................... 91
Slika 5.12 Prozorska funkcija wi, wi2 i primena na ulazni blok podataka ................................. 94
Slika 5.13 Blok dijagram MC-AEC algoritma............................................................................. 97
Slika 5.14 Zavisnost vrednosti faktora adaptacije Fµ od vremena (u sekundama) .................. 98
Slika 5.15 Detaljni prikaz modula za potiskivanje eha i DTD modula ....................................... 99
Slika 5.16 Zavisnost vrednosti faktora fα od frekvencije ....................................................... 101
Slika 5.17 Vrednost faktora Dtd u funkciji frekvencije za slučaj kada je prisutan samo signal
eha (levo) i u slučaju prisutnosti i lokalnog signala (desno) ........................................... 101
Slika 5.18 Ugao azimuta θ ka govorniku (levo) i ..................................................................... 102
Slika 5.19 Formirani mikrofonski parovi i odgovarajući frekventni opsezi............................... 103
Slika 5.20 Blok dijagram modula za odreñivanje pravca govornika i prostorno filtriranje ....... 104
Slika 5.21 Geometrijski raspored mikrofona i govornika ......................................................... 108
Slika 5.22 Blok dijagram algoritma za prostorno filtriranje ...................................................... 109
Slika 5.23 Prostorna karakteristika filtra u govornom opsegu................................................. 111
Slika 5.24 Blok dijagram modula za post filtriranje.................................................................. 112
Slika 5.25 Blok dijagram algoritma za potiskivanje šuma ....................................................... 116
Slika 5.26 Blok dijagram modula za automatsku regulaciju pojačanja (AGC) ........................ 118
Slika 5.27 Zavisnost pojačanja od nagiba za Pin=0.1Pnom ................................................... 121
Slika 5.28 Blok dijagram modula za adaptivno sabiranje signala ........................................... 122
Slika 5.29 Modul za slobodnu govornu komunikaciju ............................................................. 124
Slika 5.30 Blok dijagram sistema integrisanog u TV ureñaj (preuzeto iz [IFA2007]) .............. 125
Slika 5.31 Maketa TV prijemnika sa integrisanim sistemom................................................... 126
Slika 6.1 Merenje kompleksnosti na skupom reprezentativnih testnih signala ....................... 130
Slika 6.2 Rezultati merenja angažovane memorije po blokovima obrade .............................. 133
Slika 6.3 Rezultati merenja broja izvršenih operacija po blokovima obrade ........................... 134
Slika 6.4 Rezultati merenja tačnosti lociranja aktivnog govornika – serija A .......................... 135
Slika 6.5 Rezultati merenja tačnosti lociranja aktivnog govornika – serija B .......................... 136
Slika 6.6 Grafički prikaz konfiguracije prostorije za snimanje testnih signala ........................ 138
Slika 6.7 Koraci automatskog snimanja testnih signala .......................................................... 140
Slika 6.8 Postupak objektivnog merenja ................................................................................. 140
Slika 6.9 Rezultati merenja PESQ nad skupom ulaznih testnih signala ................................. 141
Slika 6.10 Rezultati merenja ERLE nad skupom ulaznih testnih signala................................ 142
Slika 6.11 Rezultati merenja SNRE nad skupom ulaznih testnih signala ............................... 143
Slika 6.12 Konfiguracija za merenje razumljivosti ................................................................... 144
Slika 6.13 Grafički prikaz rezultata prepoznavanja logatoma ................................................. 146
Slika 6.14 Rezultati prepoznavanja logatoma u graničnim konfiguracijama........................... 147
Slika 6.15 Dijagram sistema prikazanog na IFA 2005 (preuzeto iz [IFA2005])....................... 148
SPISAK SLIKA
V
Slika 6.16 Izgled makete prikazane na IFA 2005.................................................................... 149
Slika 6.17 Izgled makete prikazane na CeBIT 2006 ............................................................... 150
Slika 6.18 Dijagram sistema prikazanog na CeBIT 2006 (preuzeto iz [CeBIT2006]) )........... 150
Slika 6.19 Scenario upotrebe sistema prikazanog na IFA 2007 (preuzeto iz [IFA2007]) ) ..... 151
SPISAK TABELA
VII
SPISAK TABELA
Tabela 3.1 Pregled LMS algoritma 36
Tabela 3.2 Pregled NLMS algoritma 37
Tabela 3.3 Pregled AP algoritma 40
Tabela 3.4 Pregled RLS algoritma 41
Tabela 3.5 Pregled kompleksnosti algoritama 42
Tabela 3.6 Pregled parametrizovanog Wienerovog filtra 55
Tabela 4.1 MOS skala za ocenjivanje kvaliteta signala testovima slušanja 68
Tabela 4.2 Primer tabele logatoma 71
Tabela 5.1 Prikaz postupaka poboljšanja signala i smetnji koje potiskuju 75
Tabela 5.2 Uporedni prikaz karakteristika ciljnih platformi 82
Tabela 5.3 Pregled relativne tačnosti u zavisnosti od aritmetike 84
Tabela 5.4 Jednačine potiskivanja eha zasnovanog na NLMS 97
Tabela 5.5 Jednačine potiskivanja eha za potrebe DTD 99
Tabela 5.6 Tabela razmatranog frekventnog opsega i faktora decimacija za pojedina rastojanja
elemenata mikrofonskih parova 106
Tabela 6.1 Detaljan izveštaj profilisanja referentnog modela po tipovima operacija i
matematičkim funkcijama 129
Tabela 6.2 Sumarni pregled upotrebe memorije i broja potrebnih aritmetičkih operacija 130
Tabela 6.3 Detaljan izveštaj po tipovima operacija i matematičkim funkcijama 132
Tabela 6.4 Relativni udeo pojedinih modula obrade u ukupno potrebnoj memoriji 132
Tabela 6.5 Relativni udeo pojedinih modula obrade u broju ukupno izvršenih operacija 134
Tabela 6.6 Raspored pobuda po kanalima 137
Tabela 6.7 Pregled testnih slučajeva 139
Tabela 6.8 Raspored testnih signala po kanalima 139
Tabela 6.9 Rezultati prepoznavanja logatoma 145
Tabela 6.10 Pregled mogućnosti pojedinih rešenja 153
Tabela 6.11 Pregled složenosti odabranih rešenja 154
Tabela 6.12 Pregled indikatora kvaliteta odabranih rešenja 155
SKRAĆENICE
IX
SKRAĆENICE
3SQM Single Sided Speech Quality Measure ABF Acoustic Beam Forming ADC Analog to Digital Converter AEC Acoustic Echo Canceller AED Adaptive Eigenvalue Decomposition AGC Automatic Gain Control AM Adaptive Mixing AP Affine Projection ASIC Application Specific Integrated Circuit ASR Automatic Speech Recognition BF Beam Forming DECT Digital Enhanced Cordless Telecommunications DFT Discrete Fourier Transform DI Directivity Index DMA Direct Memory Access DOA Direction Of Arrival DSB Delay and Sum Beamformer DSP Digitalni Signal Processor DTD Double Talk Detector DVD Digital Video Disc EPO European Patent Office ERLE Echo Return Loss Enhancement FAP Fast Affine Projection FFT Fast Fourier Transform FIR Finite Impulse Response FPGA Field Programmable Gate Array FSB Filter and Sum Beamformer FW FrameWork GCC Generalized Cross Correlation GPS Global Positioning System GSC Generalized Sidelobe Canceller GSM Global System for Mobile communications IFA Internationalle FunkAusstellung IIR Infinite Impulse Response ISDN Integrated Services Digital Network ITU International Telecommunication Union JPEG Joint Photographic Experts Group LCD Liquid Crystal Display LMS Least Mean Squares MAC Multiply And Accumulate MC-AEC MultiChannel Acoustice Echo Canceller MCC Multichannel Cross Correlation MEMS MicroElectroMechanical System MFLOPS Millions FLoating point Operations Per Second MIPS Million Instructions Per Second ML Maximum Likelyhood MMSE Minimum Mean Square Error MOS Mean Opinion Score MPEG Moving Picture Experts Group MVDR Minimum Variance Distortionless Response NLMS Normalized Least Mean Squares NR Noise Reduction PESQ Perceptual Evaluation of Speech Quality PF Post Filter
SKRAĆENICE
X
PHAT PHAse Transform PSQM Perceptual Speech Quality Measure RAM Random Access Memory RISC Reduced Instruction Set Computer RLS Recursive Least Squares ROM Read Only Memory SD-BF Super Directive Beam Former SEA2M Speech Enhancement Algorithms for Array of Microphones SIMD Single Instruction Multiple Data SNR Signal-to-Noise Ratio SNRE Signal-to-Noise Ratio Enhancement TDE Time Delay Estimation TDOA Time Delay Of Arrival TOA Time Of Arrival TOSQA Telecommunication Objective Speech Quality Assessment USPTO US Patent and Trademark Office VAD Voice Activity Detection VAD Voice Activity Detector VHDL Very High-level Design Language VoIP Voice over IP WIPO World Intellectual Property Organization
POGLAVLJE 1 - UVOD
1
POGLAVLJE 1. UVOD
Digitalna obrada signala je postala jedna od najznačajnijih oblasti potrošačke
elektronike današnjice. Mikroprocesori su prisutni u svakom digitalnom ureñaju.
Posebna klasa namenskih mikroprocesora – digitalni signal procesori – su sastavni deo
mnogih sistema različitih složenosti, počevsi od jednostavnih senzora, u telefonima,
digitalnim fotoaparatima, TV ureñajima, telekomunikacionoj opremi, itd. Glavna
karakteristika takvih sistema jeste rad u realnom vremenu, uz angažovanje ograničenih
resursa.
U savremenom svetu i komunikacija je digitalizovana, ali ljudski govor je i
dalje najrasprostranjeniji vid komunikacije. Tokom vremena, prenosni mehanizmi
govora su se menjali, pa i način korišćenja komunikacionih kanala. Trenutni trend je
da se ta komunikacija olakša (npr. u obliku slobodne komunikacije), i da se poboljša
kvalitet veze. Širi prenosni kanal obezbeñuje verniji prenos glasa, ali potreban je
odgovarajući akustički sprežni sistem koji obezbeñuje odgovarajući kvalitet izvornog
govora.
Slobodna komunikacija (engl. hands-free) je sve prisutnija u poslovnoj, ali i u
privatnoj sferi u formi konferencijskih poziva, često kombinovana i sa video
komunikacijom. Slobodna komunikacija podrazumeva veoma složen akustički
ambijent, sa postojanjem značajnih smetnji u okruženju. U cilju poboljšanja kvaliteta
veze, savremeni sprežni sistemi su zasnovani na mikrofonskom nizu, koji u
POGLAVLJE 1 - UVOD
2
kombinaciji sa odgovarajućim postupcima obrade obezbeñuju značajno potiskivanje
smetnji.
Teza se bavi istraživanjem u oblasti razvoja sistema za obradu signala
mikrofonskog niza u realnom vremenu. Cilj teze je da se razvije akustički sprežni
sistem zasnovan na mikrofonskom nizu i odgovarajućem DSP, koji je zadovoljava
sledeće uslove:
- da je po složenosti i mogućnostima pogodan za primenu u govornim
komunikacionim sistemima potrošačke elektronike, i
- da zadovoljava očekivanja u pogledu kvaliteta signala.
U poglavlju 2 dat je pregled razvoja oblasti digitalne obrade signala, sa osvrtom
na probleme koji se postavljaju pred sistem i okvire istraživanja.
Poglavlje 3 se bavi istraživanjem dosadašnjih dostignuća u oblasti. U cilju
postavljanja okvira sistema analizirani su postojeći proizvodi na tržištu. Baze patenata
sa jedne strane predstavljaju veoma značajan izvor naučnih informacija, dok sa druge
pružaju uvid u zaštićena rešenja koja su srodna ciljnom sistemu. Dat je i pregled
savremenih naučnih dostignuća obrade signala mikrofonskog niza sa aspekta
složenosti i kvaliteta, sa ciljem da se odaberu najpogodniji postupci sa stanovišta
odnosa složenosti i kvaliteta.
U poglavlju 4 opisane su objektivne i subjektivne mere koje se koriste za ocenu
kvaliteta i performansi razvijenog sistema. Pojedine mere se koriste za upravljanje
postupkom razvoja algoritama (npr. mera složenosti), dok ostale obezbeñuju osnovu za
merenje kvaliteta celokupnog sistema ili pojedinih blokova.
U poglavlju 5 dat je detaljan opis sistema, fizičke arhitekture i odgovarajuće
programske podrške, kao i postupaka obrade signala mikrofonskog niza.
Poglavlje 6 se bavi rezultatima merenja ranije opisanim merama. Dat je i sažetak
evaluacije rezultata od strane eksperata u oblasti potrošačke elektronike. Na kraju
poglavlja, izložena je komparativna analiza realizovanog rešenja sa postojećim
rešenjima.
U poglavlju 7 dat je zaključak istraživanja sa daljim pravcima razvoja.
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
3
POGLAVLJE 2. PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA I POSTAVKA CILJEVA ISTRAŽIVANJA
Pojam potrošačke elektronike se prvi put pojavljuje 1920-tih godina kao
posledica masovne prodaje radioprijemnika i elektronskih fonografa. Pojava
tranzistora na početku 1950-tih, kao i pojava integrisanih kola 1960-tih godina je
dovela do mnogih novih i poboljšanih proizvoda, kao na primer prenosivih radio
prijemnika i ručnih kalkulatora. Do kraja dvadesetog veka potrošačka elektronika je
postala jedan od vodećih sektora svetske ekonomije sa veoma raznovrsnom paletom
proizvoda, kao na primer televizora, kamkordera, video i DVD ureñaja, video igara,
akustičke opreme, mobilnih telefona, GPS sistema, prenosivih i personalnih računara,
itd.
Značajan faktor u brzom razvoju oblasti je digitalna obrada signala (engl. Digital
Signal Processing – DSP). Obrada signala se može definisati kao namenska
modifikacija signala, sa ciljem da se poboljša prenos, skladištenje ili upotreba istog. To
obezbeñuje da korisnici upotrebljavaju pojedine funkcije ureñaja bez poznavanja
detalja i načina rada. Od 1960-tih, pa sve do danas, dostignuća digitalne obrade signala
su igrala izuzetno značajnu ulogu u razvoju potrošačke elektronike.
Slika 2.1 prikazuje dominantne proizvode potrošačke elektronike u proteklim
decenijama. Svi navedeni ureñaji, počevši od 1920-tih godina, na neki način uključuju
obradu signala, prosto iz razloga što su oni namenjeni za komunikaciju, zabavu ili za
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
4
neku drugu vrstu obrade informacija, pri čemu informacije se prenose u obliku
električnih signala.
Do sedamdesetih godina prošlog veka, ureñaji potrošačke elektronike su
prvenstveno bili analogni. Iako je obrada signala bila prisutna, ona se realizovala
analognim komponentama, a ključnu ulogu su odigrali inžinjeri koji su projektovali
ureñaj. Početkom sedamdesetih godina, sa pojavom kalkulatora i video igara, digitalna
elektronika je zamenila analognu. Ureñaji proizvedeni 80-tih godina do danas najčešće
koriste digitalne komponente, a time većinom uključuju i digitalnu obradu signala na
neki način.
Slika 2.1 Vremenski prikaz dominantnih proizvoda iz oblasti potrošačke elektronike
Obrada digitalnih signala se može realizovati na raznim fizičkim arhitekturama –
platformama (mikroprocesorima ili mikrokontrolerima), ali najveći uticaj na razvoj
potrošačke elektronike je imala pojava integrisanih kola namenjenih obradi digitalnih
signala, digital signal procesora (engl. Digital Signal Processor – DSP).
Prvi DSP procesori su se pojavili ranih 80-tih. Neki od njih su:
• Texas Instruments TMS32010,
• AMI S2811,
• Intel 2920,
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
5
• NEC muPD7720,
• Motorola 56000, itd.
Danas postoji veliki broj raznovrsnih DSP. Neki su DSP procesori opšte namene,
postoje procesori namenjeni obradi odreñenih vrsta signala (zvuk, slika), dok postoje i
vrlo specijalizovani, namenjeni obavljanju specifičnih zadataka (automatska
sekretarica, prepoznavanje govora i sl.). DSP se danas primenjuju za obradu signala
prvenstveno u sledećim oblastima:
• U obradi zvuka za pretvaranje iz analognog domena u digitalni i
obrnuto, kompresiju, realizaciju ispravljanja grešaka, sintezu govora i
muzike, prepoznavanje govora, realizaciju standarda kodovanja kao
npr. MP3.
• U obradi slike za digitalno kodovanje slike, ispravljanje grešaka,
kompresiju, poboljšanje kvaliteta slike, analizu slike, za realizaciju
standarda kodovanja kao npr. JPEG i MPEG, pretvaranje formata slike.
• U telekomunikaciji za realizaciju modema.
• U kontrolnim strukturama za obradu signala senzora i generisanja
odgovarajućih upravljačkih signala.
Za razliku od procesora opšte namene, fizička arhitektura DSP procesora je
prilagoñena zadacima koji se obavljaju na njima. Dok su procesori opšte namene
poseduju von Neumann arhitekturu, arhitektura DSP je najčešće Harvard, čime se
obezbeñuje paralelizam na nivou fizičke arhitekture u pogledu pristupa memoriji
[LPRS].
Ureñaji u kojima se koriste DSP procesori najčešće su namenjeni radu u realnom
vremenu. To podrazumeva obradu ulaznih podataka i generisanja izlaznih podataka
jednakom ili većom brzinom od brzine pristizanja podataka, što predstavlja ozbiljne
zahteve pred fizičku arhitekturu, ali i pred dizajn i realizaciju postupaka obrade [SPP].
U cilju poboljšanja performansi, DSP se proširuju specifičnim elementima koji
obezbeñuju efikasnije izvršavanje tipičnih operacija u digitalnoj obradi signala, npr.:
• brze jedinice za množenje koje generišu rezultat u jednom taktu,
• specifične jedinice koje su u stanju da obave množenje dva operanda i
sabiranje sa trećim (engl. Multiply and Accumulate – MAC). Ova
operacija je tipična za obradu zvučnih signala, npr. konvoluciju.
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
6
• paralelni pristup resursima procesora u smislu da je moguće dobaviti
više podataka u jednom taktu.
• izvoñenje iste obrade nad većim brojem podataka (engl. Single
Instruction Multiple Data – SIMD).
Pojava DSP je uticala na industriju potrošačke elektronike u nekoliko aspekata:
• Omogućila je dalja poboljšanja postojećih ureñaja (kamkorderi,
automatske sekretarice)
• Povećanjem raspoložive procesorske snage i odgovarajućim sprežnim
sistemima omogućila je razvoj novih proizvoda, a time i proširivanje
palete proizvoda (digitalne kamere, interaktivne igračke, mobilni
telefoni)
• Povećanjem odnosa cena/performanse obezbedila je pristupačnost
proizvoda širem potrošačkom krugu (video igre, mobilni telefoni)
• Omogućila je formiranje širokog tržišta kroz standardizaciju formata za
razmenu (multimedijalnog) materijala
Do kraja 1970-tih, digitalna obrada signala je pre svega bila teorijska oblast, s
obzirom da je postojalo svega nekoliko velikih (engl. mainframe) i super-računara koji
su bili u stanju da obave obradu digitalnih signala. Obrada digitalnih signala u realnom
vremenu je doživela skok pojavom pristupačnih DSP procesora početkom osamdesetih
godina. Prvi primerci su bili 16-bitni procesori sa 8 ili 10 bitnim analogno digitalnim
konvertorima (engl. Analog Digital Converter – ADC), koji su bili primereni
jednostavnim aplikacijama kao što su igračke koje govore, jednostavni kontroleri i
koderi govora u telekomunikacijama. Oni su bili dovoljno jeftini da bi se mogli
ugrañivati u ureñajima potrošačke elektronike.
S napredovanjem poluprovodničke tehnologije, računska moć, ali i odnos cene i
performanse DSP procesora se povećavala. To je prouzrokovalo pojavu novih primena
DSP procesora i porast složenosti realizovanih algoritama obrade. Pojavili su se 24-
bitni i 32-bitni DSP sa aritmetiku u nepokretnom zarezu, a zatim i DSP procesori koji
koriste aritmetiku u pokretnom zarezu.
Teorija obrade signala nudi razne pristupe rešavanju problema koji se značajno
razlikuju po računskoj složenosti i potrebnim resursima, ali i kvalitetu. Odabir
odredišne platforme postavlja značajna ograničenja pred realizaciju algoritama po
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
7
pitanju zahtevnosti, i često iziskuje odabir možda ne najkvalitetnijeg uopšte, nego
najkvalitetnijeg algoritma koji se može realizovati na datoj platformi.
Kao što je rečeno, DSP poseduju specifične elemente koji povećavaju efikasnost
pri izvoñenju tipičnih operacija algoritama, što se može protumačiti kao prilagoñenje
platforme algoritmima. Sa druge strane, i algoritmi se razvijaju imajući u vidu
mogućnosti odredišnih DSP platformi. U naučnom domenu postoje algoritmi koji su
možda superiorni, ali preveliki zahtevi u pogledu resursa odredišne platforme
onemogućuju njihovu primenu u ureñajima potrošačke elektronike. Razvoj algoritma
koji se može realizovati na odredišnoj platformi i obezbediti očekivani kvalitet, može
biti složen proces.
Telekomunikacije su jedan on najrazvijenijih oblasti današnjice. Pre nekoliko
decenija, poznavanje načela telefonske mreže je omogućavala upotrebu tada postojećih
tehnologija telekomunikacija. Danas, oblast telekomunikacija uključuje razne,
savremene tehnologije i usluge, usled čega postojeće telekomunikacijsko okruženje je
veoma složeno (slika 2.2).
Slika 2.2 Vrste telekomunikacija (preuzeto iz [Anttalainen])
Razvoj telekomunikacije je započeto pojavom telegrafa kao sistema za prenos
podataka. Kao logičan korak u razvoju, pojavio se telefon, koji je omogućavao
govornu komunikaciju. Nakon toga, u dvadesetom veku, usledio je skokovit razvoj
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
8
telekomunikacija, sa pojavom mnoštva tehnologija koje omogućuje prenos glasa, slike
ili generalno podataka, u analognom, i sve više, u digitalnom obliku (slika 2.3).
Telekomunikacija je veoma bitna i za funkcionisanje poslovnog sveta.
Proširivanjem palete usluga i razvojem tehnologija redukuju se troškovi, a time usluge
postaju pristupačnije krajnjem korisniku.
Govorna komunikacija čini najveći deo ukupnih telekomunikacija. Danas se
javlja u raznim oblicima, počevši od klasičnih telefonskih usluga, preko bežičnih GSM
mreža, sve do satelitskih telefona. Sve veća prisutnost računara, kao i veliki stepen
povezanosti korisnika računarskim mrežama velikih brzina (engl. broadband),
omogućile su prenos zvučnog signala preko računarskih mreža (engl. Voice Over IP -
VoIP) po veoma povoljnim cenama. Dobavljači usluga stalno teže poboljšanju sistema
sa stanovišta efikasnosti, kao i razvoju novih usluga koje se nude krajnjim korisnicima.
Slika 2.3 Istorija telekomunikacijskih usluga (preuzeto iz [Anttalainen])
U terminalima koji se koriste u govornoj komunikaciji, neophodan je akustički
sprežni podsistem i odgovarajuća komponenta za digitalnu obradu signala. Zadatak
akustičkog sprežnog podsistema je akvizicija zvuka na lokalnoj strani u komunikaciji
(engl. near-end) pomoću mikrofona i reprodukcija zvuka udaljenog korisnika (engl.
far-end) pomoću slušalica ili zvučnika (slika 2.4). Takoñe, u ovom podsistemu se
obavlja pretvaranje signala iz analognog u digitalni domen, i obratno.
Sa ciljem da se omogući što verniji prenos i reprodukcija govora na udaljenom
kraju, u podsistemu postoji i specifična obrada, čiji je zadatak da poboljša kvalitet
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
9
snimanog govora i prilagodi ga prenosu preko komunikacionog kanala. Komponenta
koja je zadužena za kontrolu i obradu signala u realnom vremenu je najčešće DSP ili
neki namenski procesor.
Nakon toga, komunikacioni kontroler preuzima podatke i stara se o samom
prenosu podataka preko kanala. Obrada može da uključuje modifikacije dolaznog
zvuka, sa ciljem da se prilagodi reprodukcija istog nameni sistema.
Slika 2.4 Šematski prikaz govorne komunikacije
Ukoliko akustički sprežni podsistem sadrži slušalicu i mikrofon, komunikacija je
visokog kvaliteta (odnos snaga signala i šuma je visok), ali podrazumeva odreñena
ograničenja: korisnik mora držati slušalicu pored glave, i razgovor je ograničen u
pogledu broja učesnika. Savremeni sistemi nude mogućnost slobodne komunikacije,
kada je komunikacioni terminal opremljen zvučnikom i mikrofonom. U tom slučaju,
korisnik ne drži slušalicu, stoga se taj režim rada naziva slobodnom komunikacijom
(engl. hands-free). Razlikujemo sisteme koji obezbeñuju tok signala u jednom pravcu
u datom momentu (engl. half-duplex) i dvosmerne sisteme (engl. full-duplex).
Sistemi za slobodnu dvosmernu komunikaciju se upotrebljavaju u mnogim
aplikacijama, kao na primer: video-telefonskim sistemima, telekonferencijskim
sistemima, slobodnim sistemima za automobile, sprežnim sistemima zasnovanim na
govoru, itd. Primena takvih sistema podrazumeva promenljivu poziciju korisnika u
akustičkom okruženju, i konfiguraciju sistema koja nije unapred poznata, i koja se čak
može menjati u vremenu. Slobodna komunikacija u takvim uslovima se suočava sa
nizom tehničkih problema koji ometaju komunikaciju, i koji moraju da se reše da bi se
obezbedio potreban kvalitet komunikacije.
Savremena tehnička rešenja se zasnivaju na sistemima za digitalnu obradu
signala (DSP) u realnom vremenu uz upotrebu više mikrofona, kombinovanim sa
odgovarajućim postupcima obrade mikrofonskih signala [Huang]. Glavni izazov u
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
10
razvoju takvih sistema jeste postizanje zadovoljavajućih performansi u pogledu brzine
rada, uz zadovoljavanje očekivanja po pitanju kvaliteta signala. To uvodi ograničenja
vezanih za koncept sistema i složenost platforme, i postavlja okvire za moguće
postupke obrade signala. Kao platforma za realizaciju sistema logičan izbor je DSP,
usled zadovoljavajućeg odnosa kompleksnosti, procesne moći i fleksibilnosti [Katona].
Slobodna dvosmerna govorna komunikacija odvija se najčešće u zatvorenim
akustičkim prostorima kao što su konferencijske dvorane, radne ili kućne prostorije,
automobilski prostori, itd. Reč je, dakle, o zatvorenim ambijentima različitih
dimenzija, (primer takvog ambijenta je prikazan na slici 2.5), u kojima mogu postojati
mnogi izvori različitih smetnji sa veoma kompleksnom raspodelom akustičke energije.
Ud
alje
ni
kom
un
ika
cion
i kra
j
Slika 2.5 Slobodni dvosmerni komunikacioni sistem u tipi čnom akustičkom ambijentu
U dvosmernoj slobodnoj komunikaciji, korisnik sistema je udaljen od
komunikacionog terminala. U zavisnosti od namene sistema, to može biti nekoliko
desetina centimetara, do nekoliko metara. Signal sa udaljenog kraja se reprodukuje
pomoću zvučnika, pri čemu snaga reprodukcije mora da bude dovoljna da bi zvučni
talasi, kada stignu do korisnika, imali dovoljnu snagu za komfornu komunikaciju.
Osnovna smetnja u slobodnoj dvosmernoj govornoj komunikaciji jeste akustički
eho koji nastaje prenosom dela akustičke energije iz zvučnika u mikrofon, tako da
sagovornik na udaljenom kraju čuje sopstveni glas kao smetnju. Akustički eho nastaje
kao zbir akustičkog talasa koji direktno stiže iz zvučnika u mikrofon i svih njegovih
refleksija od zidova, plafona, poda, nameštaja, ljudi i drugih predmeta u posmatranoj
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
11
prostoriji. Ako se na oba kraja komunikacionog kanala koriste, na primer, zvučnici za
slobodnu komunikaciju, onda može doći do obostrane akustičke sprege i pojave
oscilovanja sistema i potpune blokade konverzacije. Dakle, primarni zadatak u
slobodnim dvosmernim komunikacionim sistemima je potiskivanje akustičkog eha.
Pored eha u ambijentu se pojavljuju i smetnje različite prirode i uzroka. One
mogu biti stacionarne (na primer kao što su šum računara ili buka u automobilu) ili
nestacionarne (pozadinska muzika ili govor), i mogu poticati od više izvora lociranih
na različitim pozicijama u odnosu na govornika.
Pored toga, u zatvorenim prostorima (npr. radne sobe, sale, automobilska kabina)
pojavljuje se efekat reverberacije kao posledica višestrukih refleksija zvučnih talasa.
Trajanje reverberacije zavisi od apsorpcione moći reflektujućih površina; ako je
apsorpcija neke površine veća, reflektujuća akustička energija je manja, trajanje
reverberacije je manje i njen nivo opada eksponencijalno sa vremenom. Reverberacija
se karakteriše vremenom reverberacije, sa oznakom T60. To je vreme za koje nivo
zvuka u prostoriji, nakon impulsa, smanji se za 60 dB. Za tipične radne prostorije T60
je reda 300 do 600 ms [Hänsler].
Zvučni talas korisnika, koji najkraćim putem stiže do mikrofona, je direktni
talas. Nakon direktnog talasa, do mikrofona dopiru i (višestruke) refleksije istog
zvučnog izvora, oslabljene usled apsorpcije reflektujućih površina i zakašnjene u
vremenu usled konačne brzine zvuka. Mikrofon registruje zbir direktnog talasa i svih
refleksija, pri čemu snaga zbira refleksija može nadmašiti i snagu direktnog talasa.
Ukoliko postoji više izvora u akustičkom ambijentu (korisni izvor, izvor eha i izvor
šuma), tada je scenario još složeniji – očitavanja mikrofona odgovaraju zbiru svih
direktnih talasa i svih refleksija svih izvora u okruženju.
Posebnu specifičnost akustičkog ambijenta čini potencijalna pokretljivost
govornika kao i drugih izvora smetnji, a posebno drugih govornika. To sve zajedno
čini akustičku scenu veoma dinamičnom a od komunikacionog sistema se zahteva brza
adaptacija na nove ambijentalne uslove komuniciranja. Sama činjenica da se radi o
slobodnoj komunikaciji (tj. da je govornik udaljen od mikrofona) dovodi do toga da je
odnos snaga signala i šuma mali, što dodatno otežava kvalitetno izdvajanje željenog
signala iz signala mikrofona.
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
12
Postoje savremeni algoritmi koji manje ili više uspešno rešavaju gore opisane
probleme. Digitalnom obradom signala mikrofonskih nizova moguće je izdvojiti
koristan signal, potisnuti eho i smetnje, i ublažiti efekte reverberacije. Algoritmi se
značajno razlikuju po samom pristupu, složenosti, zahtevnosti u pogledu resursa, pa i
kvalitetu. Najnovija naučna dostignuća obezbeñuju najbolji kvalitet, ali su često
previše zahtevni za realizaciju na raspoloživim platformama, uz rad u realnom
vremenu.
Zakoni tržišta potrošačke elektronike postavljaju odreñena ograničenja pred
proces realizacije takvog proizvoda, u smislu da ureñaj treba da zadovolji očekivanja
po pitanju mogućnosti, kvaliteta i složenosti. To značajno utiče na odabir odredišne
platforme i komponenti sistema, i indirektno zadaje okvire postupaka koji se mogu
primeniti za obradu ulaznih podataka. Fleksibilnost akustičkog sprežnog podsistema
omogućuje njegovu upotrebu u raznim sistemima kao akustička sprega ka korisniku,
pri čemu on postaje deo akvizicionog sistema. To može na primer biti prepoznavanje
govora, komandovanje glasom, prenos preko komunikacionog kanala, itd.
2.1 Postavka ciljeva istraživanja
U ovoj tezi potrebno je identifikovati činioce koji utiču na razvoj ureñaja koji
obavlja funkciju akustičkog sprežnog podsistema, pri čemu je težište postavljeno na
rešavanje složenog problema interaktivne, slobodne govorne komunikacije u datom
akustičkom ambijentu za potrebe razvoja ureñaja potrošačke elektronike. Glavne
karakteristike takvog okruženja su:
• rastojanje govornika do mikrofona je do 4 metara,
• vreme reverberacije prostorije (akustičkog ambijenta) je 300 ms,
• postoji lokalni izvor visoko-kvalitetnog stereo zvuka koji se reprodukuje
zajedno sa govorom udaljene strane,
• u akustičkom ambijentu mogu da postoje i izvori stacionarnog šuma, i
• komunikacija je interaktivna i dvosmerna.
• mogućnosti sistema treba da podrže upotrebu u različitim scenarijima
slobodne komunikacije (kuća, kancelarija, automobil)
Dominantne smetnje u takvoj postavci su:
POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA
13
• prisutnost akustičkog eha usled postojanja zvučnika i mikrofona u istom
ambijentu,
• efekta reverberacije, koji nastaje zbog velikog rastojanja izmeñu govornika
i mikrofonskog niza,
• malog odnosa snage korisnog signala i smetnji, takoñe zbog udaljenosti
korisnika,
• postojanje prostorno rasporeñenih izvora akustičkih smetnji.
Cilj teze je da predloži rešenje koje rešava probleme u slobodnoj govornoj
komunikaciji, pri čemu je složenost rešenja uporediva sa postojećim rešenjima, i time
omogućava primenu istog u ureñajima potrošačke elektronike.
U okviru teze potrebno je istražiti raspoložive izvore informacija (baze patenata,
izvore naučnih informacija i postojeća rešenja), i na osnovu dobijenih rezultata
postaviti ograničenja i zahteve sistema u pogledu:
• složenosti
• kvaliteta i
• mogućnosti.
Potrebno je odabrati odgovarajuću platformu za realizaciju rešenja, koje treba da
se uklapa u postavljena ograničenja. Postupke obrade signala je potrebno birati imajući
u vidu mogućnosti odredišne platforme.
Teza će se eksperimentalno potvrditi realizacijom obrade na odabranoj platformi.
Merenje performansi rešenja je potrebno obaviti u skladu sa postavljenom
metodologijom, u realnom vremenu.
Nova naučna dostignuća koja su rezultat istraživanja potrebno je zaštititi
odgovarajućim mehanizmima zaštite intelektualne svojine.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
15
POGLAVLJE 3. PREGLED RELEVANTNIH IZVORA INFORMACIJA
Sa ciljem adekvatnog pozicioniranja teme istraživanja, potrebno je analizirati
aktuelna dostignuća u raznim domenima. Sa stanovišta ove teze, smatra se da su
sledeće oblasti od važnosti:
• postojeća industrijska rešenja (ureñaji) za slobodnu komunikaciju,
• baze patenata,
• potencijalne platforme za eksperimentalnu potvrdu teze i
• naučna dostignuća u digitalnoj obradi signala mikrofonskih nizova.
U daljem tekstu da je pregled relevantnih oblasti. Nakon analize, utvrñuju se
okviri istraživanja sa jasnim ciljem – realizacije dvosmernog komunikacionog sistema
u realnom vremenu, za potrebe slobodne govorne komunikacije zasnovane na
mikrofonskom nizu.
3.1 Postoje ća rešenja za slobodnu komunikaciju
U okviru teze istražuju se mogućnosti razvoja sistema za dvosmernu slobodnu
govornu komunikaciju, koji je namenjen širokom tržištu potrošačke elektronike. Ta
činjenica nameće odreñene zahteve u pogledu rada u realnom vremenu, kao i
konkurentnosti sa postojećim rešenjima u pogledu mogućnosti, kvaliteta i složenosti.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
16
Da bi se to postiglo, potrebno je analizirati postojeća industrijska rešenja po raznim
aspektima.
Danas na tržištu postoji niz proizvoda koji nude mogućnost slobodne govorne
komunikacije u različitim oblicima. Savremeni sistemi se zasnivaju na upotrebi
mikrofonskih nizova u cilju poboljšanja kvaliteta govora, i kombinuju ih sa naprednim
algoritmima za eliminisanje pojedinih smetnji u toj komunikaciji.
Kompanija AcousticMagic nudi ureñaj sa 8 linearno rasporeñenih mikrofona
Voice Tracker Array Microphone [ProdVoiceTracker], koji je namenjen kao
alternativa za klasični mikrofon. Ureñaj se koristi u proizvoljnom sistemu kao
prostorno selektivni mikrofon, koji je u stanju da potisne prostorno rasporeñen izvor
šuma. Na osnovu očitavanja više mikrofona odreñuje pravac željenog izvora, a nakon
toga formira akustički snop ka njemu, pri čemu se potiskuju izvori (šuma) van tog
snopa. Poseduje i potiskivač stacionarnih smetnji. Ureñaj ne poseduje blok za
potiskivanje ili poništavanje akustičkog eha, stoga nije pogodan za dvosmernu
komunikaciju. Iako poseduje 8 mikrofona, efikasni domet ureñaja je svega 2.5 metara.
Slika 3.1 AcoustiMagic VoiceTracker Array Microphone (levo),
DA-350 Hands Free Linear Array Microphone(desno)
Sličan ureñaj nudi i kompanija GN Netcom pod imenom Voice Array
Microphone [ProdVAM], pri čemu je ureñaj namenjen za primenu u računarskom
okruženju, sa dometom do 1 metra. Koristi usmerene mikrofone, i obezbeñuje
indikaciju da li je detektovan korisnik u aktivnoj zoni propuštanja.
Slika 3.2 Voice Array Microphone
DA-350 Hands Free Linear Array Microphone [ProdDA350] je ureñaj namenjen
za izdvajanje govora korisnika i potiskivanje šuma pre svega u automobilima. Koristi 4
mikrofona, a u pogledu mogućnosti je sličan gore opisanim rešenjima.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
17
Kompanija AKG [ProdAKG] nudi veoma sličan ureñaj, uz dodatnu mogućnost
potiskivanja eha, koji se ugrañuje u retrovizore Mercedes automobila, sa ciljem da se
obezbedi kvalitetan signal sistemu za kontrolu glasovnim komandama LinguaTronic
[ProdLinguatronic].
Slika 3.3 Linguatronic sistem u Mercedes vozilima (levo) i LifeSize(desno)
LifeSize je ureñaj koji je namenjen konferencijskom tipu komunikacije
[ProdLifeSize]. Koristi 16 mikrofona, cirkularno rasporeñenih. Poseduje i detekciju
aktivnosti i pravca trenutnog govornika, čiji se govor nakon toga izdvaja i poboljšava.
Nema potiskivanja eha, pa obezbeñuje samo naizmeničnu komunikaciju.
Direction Finding – Beam Forming [ProdDFBF] predstavlja ureñaj za
konferencijsku komunikaciju. Sastoji se od dva niza od po 8 mikrofona postavljenih
pod uglom od 90 stepeni, i odgovarajućeg DSP procesora. Obezbeñuje odreñivanje
pozicije govornika, i izdvajanje njegovog govora iz ambijentalnog šuma.
ForteMedia FM1073 [ProdForteM] je integrisano kolo koje omogućuje upotrebu
2 usmerena mikrofona postavljenih u suprotnim pravcima. Obezbeñuje potiskivanje
eha, kao i potiskivanje šuma. Mikrofoni se koriste za poboljšanje usmerene
karakteristike, sa fokusom na željenu polusferu prečnika do 2 metra. Proizvoñač
navodi impresivne podatke o potiskivanju eha do 30 dB, sa dodatnih 35 dB
potiskivanja pomoću nelinearnih filtara. Integrisano kolo je namenjeno primeni u
sistemima za slobodnu govornu komunikaciju.
Kompanija Intel je ugradila podršku za mikrofonske nizove u platformu Centrino
[ProdCentrino], u raznim konfiguracijama, do 16 mikrofona. Od različitih algoritama
podržani su poništavanje eha, praćenje pozicije govornika, prostorno filtriranje, kao i
potiskivanje šuma.
Ureñaj LVA-7280 ClearVoice Digital Microphone [ProdClearVoice] kompanije
Labtec je namenjen sistemima za prepoznavanje govora na bazi računara. Koristi 4
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
18
logaritamski rasporeñena mikrofona za odreñivanje položaja govornika, izdvajanje
korisnog signala i potiskivanja šuma. U cilju poboljšanja performansi, postoje i
blokovi za potiskivanje eha i reverberacija.
Ureñaj The Voice [ProdVoice] kompanije Aertha predstavlja telefonski ureñaj za
telekonferencije. Koristi 3 usmerena, cirkularno rasporeñena mikrofona. Poseduje blok
za potiskivanje eha, što omogućuje dvosmernu komunikaciju. Osim toga, poseduje
blokove za potiskivanje šuma i automatsku regulaciju pojačanja.
Slične mogućnosti nudi i ureñaj kompanije Mitel sa oznakom 5310 IP
Conference Unit [ProdMitel], koji je namenjen za glasovnu komunikaciju preko
računarske mreže.
Digital Super Directional Array [ProdDSDA] kompanije Andrea Electronics
Corporation je mikrofonski sistem veoma usmerene karakteristike, i koji se sastoji od
2 do 8 mikrofonskih elemenata. Adaptivno prostorno filtriranje omogućuje
potiskivanje prostorno dislociranih izvora šuma, kao i znatno smanjenje efekata
reverberacije. Namenjen je za slobodnu govornu komunikaciju u automobilima,
računarskom sistemima, kao i prenosivim ureñajima.
Slika 3.4 The Voice (levo) i Mitel 5310 IP (desno)
Posebnu grupu čine savremeni ureñaji za videotelefonske veze. Ovi ureñaji,
pored govorne komunikacije, omogućuju i prenos pokretne slike preko
komunikacionog kanala, koji može biti ISDN ili računarska mreža. Primeri takvih
ureñaja su Maia kompanije Aethra i ureñaji mm225, mm745 i mm146 kompanije
Motion Media. Svi oni poseduju nekoliko režima rada, pa i slobodnu komunikaciju. Za
poboljšanje kvaliteta zvuka u tom režimu rada koriste se mikrofonski nizovi u
kombinaciji sa potiskivanjem eha i ambijentalnog šuma. Usled veličine ekrana, u
tipičnom slučaju korisnik je blizu samog ureñaja, tako da je domet sistema do 1metra.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
19
Najnoviji operativni sistem Vista [ProdVistaAP] kompanije Microsoft ima
ugrañenu podršku za mikrofonske nizove. Istraživanja su pokazala da su korisnici
nerado vezani za računar, i nisu skloni da duže vremena nose slušalice. Iz tog razloga,
novi operativni sistem je proširen sa mogućnostima kao što su prostorno filtriranje,
potiskivanje eha i stacionarnog šuma, kao i automatska kontrolu nivoa. Namena
navedenih algoritama je poboljšanje kvaliteta govora za potrebe slobodnih govornih
komunikacija, kao i pomoć sistemu za komandovanje glasom.
Podržane su predefinisane konfiguracije od 2 ili 4 mikrofona. Algoritmi su
optimizovani za unapred zadat raspored mikrofona. Očekuje se da se mikrofonski niz
ugrañuje u gornji okvir monitora, na najpogodniju poziciju za poboljšanje govora
osobe koja sedi ispred računara. Za te potrebe, razvija se novi tip digitalnih
minijaturnih mikrofona na bazi mikro-mehaničkih elemenata (engl.
microelectromechanical systems - MEMS) [ProdAkustica]. Glavne karakteristike
pomenutih mikrofona je što se radi o integrisanim kolima koji se montiraju površinski
i generišu digitalni izlaz. Oni integrišu sve komponente neophodne za analogno-
digitalnu konverziju signala (mikrofonski element, pojačalo i konvertor), što ih čini
neosetljivim na elektromagnetske smetnje, te se mogu koristiti i blizu LCD panela.
Pregled postojećih proizvoda je pokazao da se u modernim komunikacijama sve
više koriste sistemi za slobodnu komunikaciju zasnovani na nizu mikrofona, u
kombinaciji sa raznim tehnologijama kao što su fiksne telefonske veze, računarske
mreže, GSM, itd. Postoje rešenja na nivou fizičke arhitekture, zatim u obliku
programskih biblioteka, pa i samostalnih proizvoda, koji su danas dostupni i širokom
krugu potrošača. Fizička arhitektura je najčešće bazirana ili na DSP procesoru uz
odgovarajuću programsku podršku ili na namenskom integrisanom kolu. Složenost
rešenja je umerena, što omogućava primenu u raznim scenarijima, prvenstveno zbog:
• malih dimenzija,
• male potrošnje, i
• mogućnosti pasivnog hlañenja.
Mikrofonski nizovi su se pokazali kao superiorni u odnosu na jedno-mikrofonske
sisteme u pogledu performansi u slobodnoj komunikaciji. Broj upotrebljenih
mikrofona kod većine ureñaja je izmeñu 2 i 8, što je posledica kompromisa kvaliteta i
ograničenja procesne moći kompleksnošću ureñaja.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
20
Ipak, ne postoji univerzalno i fleksibilno rešenje za problem dvosmerne slobodne
govorne komunikacije. Mnogi proizvodi pokrivaju segment oblasti (npr. naizmenična
komunikacija, nepostojanje potiskivanja eha), dok drugi nemaju fleksibilnost koja bi
omogućila primenu proizvoda u proizvoljnom sistemu (npr. telekonferencijski
sistemi). Iz tog razloga, u svetu se sve više bavi razvojem mikrofonskih nizova i
odgovarajućih algoritama.
Performanse mikrofonskog niza pored broja, rasporeda i karakteristika
mikrofona, u najvećoj meri zavise od primenjenih algoritma. Tokom analize je
ustanovljeno da ne postoje jasne mere perfomansi koje bi omogućile jednostavno
poreñenje pojedinih rešenja. Proizvoñači retko obezbeñuju relevantne podatke, i
navode se opšti ili najbolji rezultati, na osnovu kojih je teško porediti proizvode.
Na osnovu pregleda ponude sličnih ureñaja na tržištu, moguće je postaviti okvire
ciljnog sistema, imajući u vidu ograničenja ciljne arhitekture. Da bi se na pravi način
iskoristio potencijal platforme, potrebno je detaljno analizirati savremenih dostignuća
u obradi govornog signala.
3.2 Pregled baze patenata
U današnjem poslovnom svetu tendencija svetskih poznatih kompanija je da
svoju intelektualnu svojinu zaštite patentima. Mnoga dostignuća i rešenja iz oblasti
slobodne komunikacije i upotrebe mikrofonskih nizova su takoñe zaštićena patentima,
stoga je potrebno iscrpno istražiti i bazu dostupnih meñunarodnih patenata. Osim cilja
da se otklone mogući problemi u plasiranju proizvoda, patenti predstavljaju i značajan
izvor informacija korisnih za istraživanje. Kao baze patenata, korišćeni su:
• Američki patentni zavod (US Patent and Trademark Office - USPTO)
[USPTO],
• Evropski patentni zavod (European Patent Office - EPO) [EPO] i
• Svetski patentna organizacija (World Intellectual Property Organization
- WIPO) [WIPO].
Kompanija Fujitsu je patentirala sistem za videokonferencije koja koristi
mikrofonski niz za lociranje aktivnog govornika i izdvajanje njegovog govora
[PatFujitsu]. Informacija o poziciji govornika se koristi i za usmeravanje kamere u
datom pravcu, čime se postiže efekat da je trenutni govornik uvek vidljiv na udaljenoj
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
21
strani. Patent pokriva idejno rešenje sistema, ne zalazeći u detalje algoritama koji se
koriste. Sličan patent poseduje i kompanija Agere [PatAgere], koji se zasniva na
adaptivnoj dekompoziciji na sopstvene vrednosti dva mikrofonska signala.
Samsung je patentirao sistem koji koristi kružni mikrofonski niz od 8 elemenata
[PatSamsung1] u cilju utvrñivanja pozicije govornika i potiskivanja prostornih
akustičkih smetnji.
Philips je patentirao algoritam za mikrofonski niz koji objedinjuje akustičko
poništavanje eha i prostorno filtriranje [PatPhilips]. Na taj način se smanjuje ukupan
broj operacija potrebnih za obradu podataka, kao i količina potrebnog memorijskog
prostora.
Microsoft je podneo patentni zahtev koji opisuje metodu prostornog filtriranja za
proizvoljan raspored elemenata u mikrofonskom nizu [PatMicrosoft1]. Postupak je
neosetljiv i na tip mikrofonskih elemenata. Drugi patent iste kompanije opisuje
postupak post-obrade inicijalnih informacija o poziciji govornika metodom
klasterovanja [PatMicrosoft2]. Ovim pristupom se povećava preciznost i robustnost
konačne izlazne informacije o poziciji.
Kompanija Mitel je podnela patent koji razmatra pitanje lokacije govornika u
slučaju dva govornika ili jednog govornika i jake refleksije koristeći mikrofonski niz
[PatMitel]. Postupak se zasniva na analizi kroskorelacije kružno rasporeñenih parova
mikrofona.
ForteMedia poseduje patent koji opisuje mikrofonski niz od 2 mikrofona sa
odgovarajućim postupcima za poništavanje eha i potiskivanje ambijentalnog šuma
metodom prostornog filtriranja [PatForte]. Algoritam je u stanju da kompenzuje
nelinearhnost izvora akustičkog eha.
Kompanija 3Com je podnela patent za automatsku regulaciju pojačanja
[Pat3Com], zasnovanu na nelinearnoj funkciji pojačanja u zavisnosti od ulazne snage.
Opisani postupak je u stanju da uvaži i kompenzuje nelinearnosti mikrofona i zvučnika
u sistemu.
Patent kompanije Tellabs opisuje interesantnu ideju adaptivne kontrole nivoa
signala [PatTellabs], koji je moguće uključiti u sistem algoritama sačinjen od
potiskivača eha, potiskivača šuma i koder govora. U sistemu postoji blok koji obavlja
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
22
regulaciju nivoa signala nad komprimovanim podacima, bez ponovne rekompresije,
čime se redukuje broj operacija potrebnih za obradu.
Kompanija Polycom, poznata po telekonferencijskim ureñajima, poseduje patent
koji opisuje konferencijski sistem sa dva mikrofonska niza – jedan postavljen u
horizontalnom pravcu, dok je drugi u vertikalnom [PatPolycom]. Pomenuta
konfiguracija omogućuje lociranje govornika u obe ravni, što omogućuje usmeravanje
video kamere u pravcu glave govornika.
Microsoft poseduje patent koji opisuje sistem za udaljenu saradnju, uz postojanje
zvučne i vizuelne komunikacije [PatMicrosoft3]. Jedan od detalja – izgled
komunikacionog terminala – je srodan sistemu razvijenog u okviru ove teze, ali je
smešten u drugačiji kontekst.
Pored gore navedenih, slične patente poseduju i mnoge druge, dobro poznate
kompanije iz različitih oblasti:
• Lucent [PatLucent],
• Nokia [PatNokia1, PatNokia2],
• Ericsson [PatEricsson],
• Broadcom [PatBroadcom],
• Samsung [PatSamsung2], itd.
Pregledom baze patenata iz oblasti slobodne govorne komunikacije ustanovljeno
je da postoji značajan broj patenata koji načelno opisuju komunikacione sisteme, bez
objašnjavanja detalja ili rešavanja tehničkih problema. Oni se prvenstveno fokusiraju
na kombinovanje gradivnih blokova na nov način.
Drugi, pak, se fokusiraju na neki segment problema i nude rešenja obrade
mikrofonskih signala: poništavanje eha, lociranje govornika, prostorno filtriranje,
kontrola nivoa, potiskivanje šuma, itd. Teksta patenta retko obezbeñuje dovoljno
informacija za potpunu rekonstrukciju rešenja, ali ukazuje na primenjeni pristup.
S obzirom da se patenti generišu sa ciljem da se zaštiti intelektualna svojina, teži
se da budu dovoljno specifični, ali što je moguće širi, da bi se pokrio veći segment
mogućih primena. Takoñe, postupci opisani u patentima ne moraju nužno da
obezbeñuju bolji rezultat. Zbog toga, nije moguće osloniti se njih kao jedini izvor
informacija, potrebno je analizirati savremena dostignuća naučnih istraživanja.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
23
3.3 Namenski sistemi za obradu digitalnih signala
Glavne odlike namenskih sistema za obradu signala (engl. embedded signal
processing system) koje ih razlikuju od računarskih sistema opšte namene je njihova
predvidiva reakcija na pobude u realnom vremenu, njihov dizajn koji je optimizovan
po pitanju kompleksnosti i veličine, i njihova saglasnost sa zahtevanim ili zadatim
ponašanjem i funkcijama [Madisetti]. Druge odlike, kao što su pouzdanost, otpornost
na greške, mogućnost održavanju su osobine koje su zajedničke za mnoge digitalne
ureñaje.
Namenski sistem se sastoji od komponenata fizičke arhitekture kao što su
procesor, memorija, sprežni sistemi, ali i od programske podrške koja kontroliše sistem
i realizuje njegove funkcije. Kod namenskih sistema, fizička arhitektura je odabrana za
datu specifičnu funkciju, stoga je stepen fleksibilnosti manji. Karakteristike fizičke
arhitekture, zajedno sa funkcionalnim zahtevima uvode ograničenja za programsku
podršku.
Dizajn namenskog sistema za obradu signala se može razložiti na nekoliko
koraka [DeFatta] prikazanih na slici (Slika 3.5). Nakon definicije zahteva, sledi analiza
sistema sa ciljem da se ustanove karakteristike signala. Zatim se odabiraju algoritmi
koji obezbeñuju odgovarajuće obrade i formira se algoritamski koncept sistema na
nivou blokova obrade. Na ovom nivou, potrebno je poznavati širok spektar algoritama,
kao i njihove karakteristike. Potrebno je odabrati algoritme koji sa jedne strane
obezbeñuju zadovoljavajuće performanse, a sa druge strane su dovoljno jednostavni za
realizaciju na odabranoj platformi, uz prisustvo drugih obrada. U ovom koraku, sistem
je potrebno posmatrati kao celinu, tj. potrebno je naći optimum na nivou skupa
algoritama, a ne pojedinačnog.
Analizom resursa se procenjuje složenost odabranih algoritama sa stanovišta
procesne moći, memorijskog prostora i brzine razmene podataka. Ukoliko su
ograničenja u pogledu resursa zadovoljena, sledi analiza konfiguracije sistema. U
suprotnom, potrebno je revidirati zahteve ili dizajn algoritama. Analizom konfiguracije
sistema se formira koncept sistema na nivou gradivnih blokova fizičke arhitekture i
programske podrške.
Ukoliko su svi zahtevi zadovoljeni, pristupa se dizajnu platforme i programske
podrške. Kao što se i na dijagramu 3.5 vidi, proces je iterativan. Razlog ponavljanja
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
24
pojedinih koraka je netačna procena odabranih algoritama, ili pojava novih momenata
u detaljnijoj analizi.
Slika 3.5 Dizajn namenskog sistema za obradu signala
Tokom ranih faza dizajna sistema moguće je samo grubo proceniti potrebne
resurse. Neki pokazatelji složenosti algoritma može biti i broj aritmetičkih operacija,
pre svega broj množenja u jedinici vremena [Shynk]. Ta mera je primenljiva za
poreñenje složenosti algoritama za obradu zvuka na jedinstvenoj platformi (npr. u
alatima kao što je Matlab, uz upotrebu aritmetike u pokretnom zarezu), ali usled
različitih karakteristika platformi, zahtevnost konačne realizacije može značajno da
odstupa od procenjene.
Tipičan tok realizacije algoritama na ciljnoj platformi je prikazan na slici 3.6,
pod pretpostavkama da se kao okruženje za razvoj algoritama koristi programski alat
Matlab, a ciljna platforma poseduje aritmetiku u nepokretnom zarezu [Papp2].
Navedeni pristup sadrži slične korake kao što je opisano u [DeFatta], stim da se
podrazumeva postojanje razvojne (najčešće personalni računar) i ciljne platforme
(DSP, ASIC).
Prvi korak jeste razvoj algoritama upotrebom komfornih alata visokog nivoa
(Matlab, Mathematica) na bazi inicijalnih zahteva u smislu kvaliteta i resursa. Takvi
alati omogućuju fokusiranje na sam algoritam, ne vodeći računa o samom načinu
realizacije. Obezbeñuju veoma visoku tačnost računa korišćenjem aritmetike u
pokretnom zarezu, dvostruke preciznosti. U ovom koraku algoritmi se biraju na
osnovu procene složenosti.
Nakon dostizanja željenog kvaliteta i složenosti, sledeći korak je realizacija
referentne implementacije, koja je nezavisna od alata visokog nivoa i strukturno veoma
liči na konačnu implementaciju. Zadržava se aritmetika u pokretnom zarezu, ali sa
jednostrukom tačnošću. Ta činjenica omogućava da se referentna implementacija
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
25
poredi sa osnovnom realizacijom sa veoma velikim stepenom slaganja rezultata, a sa
druge strane, po strukturi i angažovanim resursima je bliža konačnoj realizaciji.
Osnovna realizacija algoritama(Matlab)
Osnovna realizacija algoritama(C, aritmetika u pokretnom zarezu)
Osnovna realizacija algoritama(C, aritmetika u nepokretnom zarezu)
Zadovoljenizahtevi?
Kraj
Inicijalni zahtevi
Zadovoljenizahtevi?
Zadovoljenizahtevi?
Da
Da
Da
Ne
Ne
Ne
Analiza zahteva i signala
Slika 3.6 Tok razvoja i realizacije algoritama
Na složenost realizacije algoritama utiču i karakteristike odabrane fizičke
platforme, npr. skup instrukcija ili dužina reči procesora. Nedostatak često korišćenih
aritmetičkih operacija (npr. deljenja) i funkcija (npr. logaritam) može prouzrokovati
nagli skok zahtevnosti u konačnoj realizaciji, koji može biti skriven tokom formiranja
koncepta. Takoñe, sa kraćom dužinom reči, performanse algoritama mogu biti
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
26
narušene usled akumulacije grešaka tokom izvoñenja računskih operacija [Caraiscos].
Često su potrebne dodatne operacije i memorijski prostor za razvoj rešenja koje
obezbeñuju dovoljan kvalitet, uvoñenjem aritmetike pokretnog zareza na nivou
blokova [Lukač]. Iz toga proizilazi da je realno očekivati povećanje zahtevnosti usled
smanjenja numeričke preciznosti aritmetike nepokretnog zareza i postojanja samo
osnovnih operacija.
Razvoj algoritama i realizacija istih na ciljnoj platformi sa ograničenim
resursima je iterativni proces. Da bi se optimizovao odnos kompleksnosti i performansi
namenskog ureñaja, potrebno je maksimalno iskoristiti mogućnosti ciljne platforme.
Ukoliko se u nekom koraku razvoja ustanovi da ograničenja i zahtevi nisu zadovoljeni,
vraća se na neki od prethodnih koraka, u zavisnosti od ozbiljnosti detektovanog
problema. Ako se problem može otkloniti optimizacijom i reorganizacijom realizacije
postojećeg algoritma, vraća se na korake 3 ili 2 respektivno, u suprotnom, potrebno je
vratiti se do koraka 1 – redizajna algoritama.
Postoji i druga mogućnost, da se nakon realizacije ustanovi da postoje
neiskorišćeni resursi čija upotreba može da poboljša kvalitet sistema. U tom slučaju,
takoñe može doći do redizajna algoritama.
U situacijama kada je previše (ili premalo) angažovanih resursa, potrebno je
tačno ustanoviti u kojem opsegu složenost treba da se menja. Potrebno je uvesti
metriku koja omogućuje praćenje složenosti, i omogućuje relativno poreñenje dve
realizacije. Takav pristup je opisan u [Papp2], gde se količina angažovanih resursa
meri tokom izvršavanja programa prebrojavanjem svih aritmetičkih operacija,
korišćenog memorijskog prostora i poziva funkcija iz matematičke biblioteke.
Predloženo rešenje omogućuje profilisanje obrada koje koriste aritmetiku bilo u
pokretnom bilo u nepokretnom zarezu, uz primenu odgovarajućih biblioteka za
emulaciju aritmetike [Domazetovic].
Sistemi za rad u realnom vremenu obrañuju ulazne podatke i generišu
odgovarajuće izlazne podatke, bez gubitaka. Na slici 3.7 prikazana je glavna petlja
jedne tipične DSP aplikacije, koja se sastoji od dva glavna koraka:
- analize ulaznih podataka i
- sinteze izlaznih podataka.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
27
Slika 3.7 Glavna petlja tipične DSP aplikacije
Glavna petlja se ponavlja za svaki blok ulaznih podataka, pri čemu blok može
biti veličine 1 (čest slučaj kod adaptivnih algoritama koji rade u vremenskom domenu)
ili više (npr. ulaz u FFT i obrada u frekventnom domenu). Potreban uslov za rad u
realnom vremenu je da se data petlja izvrši za vreme τmax koje je kraće od vremena
pristizanja jednog bloka ulaznih podataka. Ukoliko je BS dužina ulaznog bloka
podataka u odbircima, a DRinput je brzina pristizanja ulaznih podataka, tada se može
napisati sledeća jednačina:
inputDR
BS<maxτ
Za slučaj kada se ulazni signal odabira brzinom od 8 kHz a veličina bloka je 512
odbiraka, dobija se:
mssodbiraka
odbiraka64
/ 8000
512max ==τ
Taj podatak se može iskoristiti za procenu broja ciklusa procesora za obavljanje
obrade jednog bloka na sledeći način:
FC ⋅= maxmax τ ,
pri čemu je F frekvencija rada procesora. Za F=200MHz, dobija se:
6max 108.1220064 ⋅=⋅= MHzmsC
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
28
Pošto je većina DSP procesora RISC, a RISC arhitekture u jednom ciklusu
izvršavaju jednu instrukciju, to znači da je za obradu jednog bloka na raspolaganju oko
12 miliona instrukcija, pri čemu je potrebno uzeti u obzir i instrukcije koje nisu
aritmetičke.
Tokom profilisanja sistema, potrebno je imati na umu da se paralelno sa
obradom, obavljaju se i prenosi podataka od ulaznih sprežnih sistema ka memoriji i od
memoriji ka izlaznih sprežnim sistemima, mehanizmom direktnog pristupa memoriji
(engl. Direct Memory Access – DMA). Iako navedeni mehanizam ne zahteva česte
intervencije kontrolnog jezgra DSP procesora, zahteva deo propusne moći magistrale
ka memoriji, što se mora uvažiti za vreme analize performansi.
3.4 Pregled mogu ćih platformi za realizaciju obrade signala u
realnom vremenu
Postavljeni zahtevi pred fizičku arhitekturu koja služi kao platforma za
eksperimentalnu verifikaciju teze uvode klasifikaciju meñu potencijalnim platformama
po pitanju pogodnosti.
U koraku analize potencijalnih platformi, razmatraju se sledeće klase arhitektura:
• Procesori opšte namene
• Digitalni signal procesori
• Namenska integrisana kola
• Programabilna logička kola (FPGA)
Procesori opšte namene su prilagoñeni rukovanju podacima, pri čemu protok i
tipično količina podataka dominiraju nad količinom matematičke obrade koja se nad
njima obavlja. Izvršavaju složene operativne sisteme i aplikacije namenjenih
svakodnevnom radu ili usluživanju. Njihova arhitektura se zasniva na konceptu von
Neuman-a, koji podrazumeva jedinstven memorijski prostor za podatke i programski
kod. Pomenuti koncept pruža visok nivo fleksibilnosti koji je neophodan za platformu
opšte namene. U cilju povećanja performansi, memorijski podsistem je organizovan u
nivoe, pri čemu se skrivenoj memoriji višeg nivoa pristupa značajno brže od glavne
memorije, ali takve memorije ima manje u sistemu. Glavni razlog za to je tehnologija
koja se koristi za proizvodnju procesora, jer se uključivanje lokalne memorije u
procesor značajno povećava kompleksnost kola. Glavne karakteristike savremenih
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
29
procesora su radna frekvencija od reda veličine 1 GHz, količina skrivene memorije od
512 kB ili 1 MB, količina glavne memorije 1 GB, kompleksnost oko 200 miliona
tranzistora. Potrošnja takvih procesora se kreće u opsegu od 10 W do 120 W, i
zahtevaju aktivno hlañenje. Aktivno hlañenje se sastoji od pokretnih mehaničkih
struktura, podložni su kvaru i stvaraju buku.
Potrebno je napomenuti da savremeni procesori opšte namene (x86, PowerPC)
poseduju specifična proširenja arhitekture u cilju podrške digitalnoj obradi signala, ali
to ne menja gore datu klasifikaciju. Proširenja su orijentisana ka SIMD instrukcijama,
bilo nad celobrojnim podacima, ili podacima zapisanih u pokretnom zarezu sa
jednostrukom ili dvostrukom tačnošću. To omogućuje postizanje boljih performansi,
prvenstveno paralelizacijom obrade. Današnji trend je povećavanje broja jezgra u
procesoru u cilju povećanja propusne moći. Programi se razvijaju upotrebom
programskih jezika višeg nivoa, a skup razvojnih alata je veoma razvijen.
Sa druge strane, digitalni signal procesori su namenjeni obavljanju matematičkih
operacija nad ulaznim podacima, pri čemu je količina obrade dominira nad količinom
podataka. Arhitektura DSP je prilagoñena tipičnim postupcima koji se primenjuju u
digitalnoj obradi signala, na primer:
- podrška efikasnoj realizaciji tipičnih operacija u obliku jedinstvene
instrukcije pomnoži-i-saberi (engl. Multiply and Accumulate –
MAC).
- podrška aritmetici sa limitovanjem rezultata (engl. saturation) ili
zaokruživanje
- podrška kružnim baferima,
- automatsko generisanje adresa u petljama, itd.
Njihova arhitektura je najčešće zasnovana na Harvard arhitekturi, koja
podrazumeva odvojene memorije (a i odgovarajuće magistrale) za programski kod i za
podatke. Njihova kompleksnost je značajno manja od procesora opšte namene. Radni
takt tipičnih predstavnika DSP je od nekoliko desetina MHz do 1 GHz. Ako poseduju
cache (skrivenu) memoriju, ona se meri u kilobajtima, dok je količina glavne memorije
do nekoliko megabajta. Usled manje kompleksnosti, potrošnja struje je značajno manja
(reda veličine do nekoliko W), što omogućava rad bez dodatnog hlañenja. DSP
procesori često poseduju protočnu strukturu za izvršavanje programskog koda vidljivu
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
30
programeru. Savremeni DSP sadrže nekoliko jedinica za izvršavanje programa, što
omogućava odreñeni stepen paralelizacije obrade. U cilju povećanja procesne snage,
najnoviji DSP prate tendenciju procesora opšte namene povećanja broja jezgara unutar
jednog procesora. Razvoj programske podrške se obavlja pomoću jezika višeg nivoa
(prvenstveno C), ali i uz upotrebu asemblerskog jezika.
Namenska integrisana kola (engl. Application Specific Integrated Circuits –
ASIC) su komponente koje su razvijene sa ciljem obavljanja specifične funkcije, sa
jasno specificiranom spregom. Funkcija je zadata samom arhitekturom, i
nepromenljiva je. Fleksibilnost takvih kola je mala, na njihov rad je moguće uticati
kontrolnim kanalom, pomoću parametara. Opisana kola se na primer koriste kao
komponente za konverziju signala, kodiranja govora, mobilnim telefonima, itd.
Namenska integrisana kola su usko specijalizovana za datu obradu, i time veoma
optimizovana. To se odražava smanjenom kompleksnošću. Primena takvih kola je
opravdana u slučaju velikih serija proizvodnje, uz nepromenljive postupke obrade.
Dizajn takvih kola se obavlja uz upotrebu alata i jezika za opis fizičke arhitekture,
najčešće VHDL ili Verilog.
Programabilna logička kola (FPGA) su fizičke arhitekture sa promenljivom
funkcijom. FPGA se tipično koriste u fazi razvoja ASIC, kao platforma za verifikaciju,
ali i u primenama kada je potrebno obezbediti kritične vremenske okvire, ili kada je
obrada izrazito paralelna. Funkcija FPGA se zadaje jezicima za opis fizičke arhitekture
na nivou logičkih celina (registara, operacija), u kombinaciji sa odgovarajućim
programskim alatima za sintezu. FPGA poseduju veći stepen fleksibilnosti od ASIC,
ali ipak manji nego npr. DSP.
Na osnovu pregleda potencijalnih platformi, ustanovljeno je da je najpogodnija
platforma DSP, iz sledećih razloga:
- obezbeñuje dovoljan stepen fleksibilnosti za potrebe realizacije ciljanog
sistema, dok pristup sa ASIC i FPGA to ne obezbeñuje
- brzina razvoja programske podrške je na nivou razvoja za platforme opšte
namene, a brža od razvoja ASIC i FPGA
- kompleksnost sistema je veća od ASIC, ali ipak značajno manja od FPGA
ili procesora opšte namene.
- poseduje dovoljno resursa za realizaciju željene obrade i
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
31
- potrošnja struje je u rangu sa ASIC, i ne zahteva aktivno hlañenje za
nesmetan rad, za razliku od procesora opšte namene. To je značajan faktor s
obzirom na namenu ciljanog ureñaja – primena u govornoj komunikaciji.
Digitalna obrada signala spada u matematički najzahtevnije primene. Nad
relativno malom količinom ulaznih podataka, izvodi se značajan broj aritmetičkih i
logičkih operacija. Različite (gore navedene) arhitekture takve zadatke obavljaju sa
različitim performansama. Osim arhitekture, na učinak utiču i tipovi podataka koji se
koriste. U savremenom računarskom svetu, najrasprostranjeniji su zapisi brojeva u
nepokretnom (engl. fixed point) i pokretnom zarezu (engl. floating point). Celobrojni
zapis brojeva je specijalan slučaj upotrebe nepokretnog zareza.
Karakteristika zapisa broja u nepokretnom zarezu jeste da je (logička) tačka
brojne osnove uvek na istom mestu, i opseg brojeva koji se mogu predstaviti u datom
zapisu je diktiran brojem bita predviñenih za ceo broj (ispred tačke), i brojem bita
predviñenih za razlomljeni deo (iza tačke brojne osnove). Vrednost broja zapisanog na
ovaj način se može izraziti kao:
∑−
−=
+⋅⋅−=1
22)1(M
Ni
ii
M bsV
pri čemu M označava broj bita predviñenih za predstavu celobrojnog dela vrednosti
broja, dok je N broj bita predviñenih za predstavu razlomljenog dela, a M+N+1 je
jednak širini reči. Logička tačka brojne osnove nalazi se izmeñu 0-tog i -1-og bita:
Slika 3.8 Zapis označenih brojeva u nepokretnom zarezu
Za oznaku formata brojeva zapisanih u nepokretnom zarezu se često koristi i Q-
notacija u obliku Qm.n [Oberstar], gde m i n odgovaraju veličinama M i N iz gornje
jednačine. Ukoliko je m 0, ne zapisuje se. Tako na primer, Q15 predstavlja format u
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
32
kojem je za razlomljeni deo dodeljeno 15 bita (bez znaka), bez bita predviñenih za
celobrojnu vrednost. Format Q1.14 predstavlja format u kojem je za celobrojni deo
dodeljen 1 bit, a za razlomljeni 14 bita. U oba slučaja, dužina reči je 16 bita.
Fiksna pozicija logičke tačke brojne osnove rezultuje fiksnim opsegom [-2M, 2M-
2-N]. To je upravo i najveći nedostatak ovog zapisa, jer se cela obrada mora
normalizovati sa ciljem da se svi operandi svedu na isti vrednosni opseg, što dovodi do
gubitka tačnosti. To dovodi do produženog vremena razvoja programske podrške, i
sam postupak postaje osetljiviji na greške. Usled smanjenje preciznosti, potrebno je
uložiti više vremena u verifikaciju realizovanog rešenja. Prednosti zapisa u
nepokretnom zarezu je da je fizička arhitektura koja obavlja operacije nad takvim
zapisom značajno jednostavnija, i lako se realizuje upotrebom kombinacionih mreža.
Operacije se često izvode u jednom taktu procesora.
Za razliku od zapisa u nepokretnom zarezu, zapis brojeva u pokretnom zapisu
obezbeñuje značajno veći opseg, i istu tačnost u svim delovima opsega. Da bi se
obezbedila interoperabilnost raznih sistema, zapis brojeva je standardizovan
[IEEE754]. U tom zapisu, brojevi se zadaju pomoću normalizovane mantise m i
eksponenta exp, dajući tako vrednost broja V kao:
exp2⋅= mV
U zavisnosti od broja bita rezervisanih za predstavljanje mantise i eksponenta
opseg i tačnost variraju. Najčešće korišćeni formati su jednostruka tačnost (8 bita za
označeni eksponent, i 24 bita za označenu mantisu) i dvostruka tačnost (11 bita za
označeni eksponent, i 53 bita za označenu mantisu):
Slika 3.9 Zapis brojeva u pokretnom zarezu
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
33
Nedostatak predstave vrednosti u nepokretnom zarezu je povećana složenost
fizičke arhitekture potrebne za realizaciju aritmetičkih i logičkih operacija. Uzrok tome
leži u činjenici da se brojevi predstavljeni na ovaj način se moraju prvo pripremiti za
datu operaciju (na primer za sabiranje, mantise se moraju svesti na isti eksponent), a
nakon toga, da se ne bi gubilo na tačnosti, rezultat je potrebno normalizovati
(pretpostavljeni bit uvek mora imati vrednost 1). Izvoñenje operacija u pokretnom
zarezu tipično zahteva nekoliko taktova procesora. Savremene arhitekture ublažavaju
taj efekat uvoñenjem protočnih struktura. Sa druge strane, posedovanje odgovarajuće
fizičke arhitekture koja podržava operacije u pokretnom zarezu obezbeñuje veliki
komfor u projektovanju i realizaciji postupaka obrade, a time i značajno efikasniji
razvoj programske podrške. Danas, pojava pristupačnih DSP procesora sa aritmetikom
u pokretnom zarezu omogućila je njihovu primenu u sve većem broju ureñaja
potrošačke elektronike.
3.5 Pregled nau čnih dostignu ća u oblasti obrade signala
mikrofonskih nizova
Mnoga praktična rešenja i poboljšanja bazičnih algoritama (poništavanje eha,
prostorno filtriranje, odreñivanje pravca izvora, potiskivanje šuma i kontrola nivoa) su
predložena poslednje dve decenije, kao što su adaptivno filtriranje u frekvencijskom
domenu, lociranje govornika u reverberantnoj prostoriji, superdirektivnost
mikrofonskog niza, razni post-filterski algoritmi, primena psihoakustičkih kriterijuma
u optimizaciji algoritama, itd. Meñutim, koliko god da su ovi algoritmi pojedinačno
optimalni, oni nisu stigli do krajnjeg korisnika u odreñenoj integralnoj formi, koja
može biti primenjena u različitim aplikacijama slobodne govorne komunikacije
namenjenim za rad u realnom vremenu.
Ova činjenica se može pripisati velikom raskoraku izmeñu akademskih
istraživanja i praktičnih implementacija, kao i činjenici da nema univerzalnog
algoritma koji može rešiti sve kompleksne probleme akustike prostorije koji se
pojavljuju u slobodnoj govornoj komunikaciji, uz ograničenje količine angažovanih
resursa.
Sistemi zasnovani na mikrofonskim nizovima, uz odgovarajuće algoritme,
pokazali su se kao rešenje za slobodnu komunikaciju u složenim akustičkim
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
34
ambijentima. Omogućuju postizanje znatno boljeg kvaliteta zvuka od jedno-
mikrofonskih sistema, a nude i dodatne mogućnosti kao što je odreñivanje pravca
izvora, što se može iskoristiti u sistemu za druge, napredne funkcije (npr. automatsko
usmeravanje kamere ka govorniku).
3.5.1 Potiskivanje akusti čkog eha
Osnovni problem u dvosmernom, slobodnom sistemu za govornu komunikaciju
je potiskivanje akustičkog eha kao najznačajnije smetnje koja degradira kvalitet
govorne komunikacije. Ovaj problem se rešava primenom tehničkog rešenja sa
nazivom akustički potiskivač eha (engl. Acoustic Echo Canceller - AEC).
Konvencionalno, potiskivanje signala eha obavlja adaptivni filtar procenom prenosne
funkcije akustičkog puta izmeñu zvučnika i mikrofona, tako da se na njegovom izlazu
dobija približno isti signal kao što je signal akustičkog eha [Haykin1]. Oduzimanjem
ova dva signala potiskuje se akustički eho. Meñutim, AEC nije idealan zbog
nelinearnosti sistema i nestacionarnosti akustičkog ambijenta. Kao rezultat pojavljuje
se zaostali signal eha. Pri tome ostaje osnovni zahtev da snimljeni govorni signal na
bližem kraju ne sme biti izobličen primenom postupka potiskivanja eha.
Slika 3.10 Model sistema za slobodnu komunikaciju u akustičkom okruženju
Ukoliko je akustički pritisak relativno mali, i nema preopterećenja na sprežnom
sistemu, ovaj sistem se može smatrati linearnim, i modelovati sistemom kao na gornjoj
slici.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
35
Signali označeni na slikama su:
• x(n) je signal koji prouzrokuje pojavu akustičkog eha. U slučaju
komunikacionog sistema, to je zvuk koji stiže sa udaljenog kraja
komunikacionog kanala, i smatra se poznatim.
• hi(n) je prenosna funkcija akustičkog ambijenta u kojem se nalaze izvor
eha (zvučnik) i prijemnik (mikrofon)
• s(n) je korisni signal koji se prenosi na udaljenu stranu (npr. glas
lokalnog govornika).
• b(n) je signal šuma koji postoji u prostoriji
• d(n) je signal eha detektovan na mikrofonu
• y(n) je ukupan signal detektovan na mikrofonu,
)()()()( nbnsndny ++=
Cilj postupka poništavanja eha zasnovanog na adaptivnim filtrima je da se
podešavanjem (adaptacijom) koeficijenata filtra )(ˆ nh identifikuje nepoznati sistem
hi(n), tj. da u slučaju potiskivanja akustičkog eha, filtar modeluje inverznu prenosnu
funkciju akustičkog ambijenta.
Slika 3.11 Upotreba adaptivnog filtra za identifikaciju sistema (str. 76)
Teškoće u procesu adaptacije filtra predstavljaju nepoznavanje šuma b(n) i
korisnog signala s(n), kao i dinamike sistema u smislu vremenski promenljivog
akustičkog ambijenta, i dinamike pojedinih zvučnih izvora.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
36
Savremeni algoritmi za potiskivanje akustičkog eha najčešće primenjuju jednu
od sledećih metoda za adaptaciju koeficijenata filtra:
• Metoda najmanjeg srednjeg kvadrata (engl. Least Mean Square - LMS)
i normalizovana metoda najmanjeg srednjeg kvadrata (engl. Normalized
Least Mean Square - NLMS)
• Metoda afine projekcije (engl. Affine Projection Algorithm – APA)
• Rekurzivna metoda najmanjih kvadrata (engl. Recursive Least Squares .
RLS)
Navedene metode se prvenstveno razlikuju u primenjenom kriterijumu greške
koji se minimizuje. Algoritmi su navedeni po rastućoj računskoj složenosti, i po
rastućoj brzini konvergencije. Ipak, brza konvergencija ne obezbeñuje uvek bolje
performanse u smislu adaptacije filtra, jer je tada adaptacija znatno osetljivija na
prisustvo jakog šuma.
3.5.1.1 Metoda najmanjeg srednjeg kvadrata i normalizovana metoda
najmanjeg srednjeg kvadrata
Uopšteno, jednačina za ažuriranje koeficijenata adaptivnog filtra su sledećeg
oblika:
)(ˆ)(ˆ)1(ˆ nnn hhh ∆+=+
Metoda LMS spada u stohastičke gradijentne metode [Widrow1]. Zasniva se na
minimizaciji snage greške izmeñu signala registrovanog na mikrofonima y(n) i
procene eha )(ˆ nd .
)(ˆ)()( ndnyne −=
Metoda traži najstrmiji gradijent u datom momentu, i adaptacija se obavlja u tom
pravcu. Kompletno izvoñenje metode je dato u [Widrow2].
Korak obrade Jednačine
Estimacija signala eha )()(ˆ)(ˆ nnnd H xh=
Greška )(ˆ)()( ndnyne −=
Ažuriranje koeficijenata filtra )(*)()(ˆ)1(ˆ nennn xhh µ+=+
Tabela 3.1 Pregled LMS algoritma
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
37
Pregled ključnih jednačina koje se koriste u LMS su date u gornjoj tabeli.
Nedostatak metode leži u činjenici da konstantan faktor koraka µ dovodi do pojačanja
greške računanja gradijenta za velike vrednosti ulaza )(nx .
Do rešenja tog problema se dolazi normalizacijom koraka adaptacije po snazi
ulaznog signala, pri čemu se dolazi do nove konstante µ i sledećih jednačina:
Korak obrade Jednačine
Estimacija signala eha )()(ˆ)(ˆ nnnd H xh=
Greška )(ˆ)()( ndnyne −=
Ažuriranje koeficijenata filtra 2
)(
)(*)()(ˆ)1(ˆ
n
nennn
x
xhh µ+=+
20 ≤≤ µ
Tabela 3.2 Pregled NLMS algoritma
Izvoñenje gore navedenih jednačina se može naći u [Hänsler].
Iz formule za adaptaciju koeficijenata se vidi da je delitelj skalarni broj. To
dovodi do toga da je vektor koraka )(ˆ nh∆ kolinearan sa vektorom ulaznog signala x(n),
što znači da se adaptacija obavlja u istom pravcu. S obzirom da to nije i neophodno
pravac minimuma, usled značajne korelisanosti uzastopnih vektora ulaznog govornog
signala x(n), potrebno je više koraka adaptacije da bi se dostigao minimum, a time je
konvergencija filtra ka optimumu sporija.
U zavisnosti od vrednosti parametra µ menja se i brzina konvergencije i mera
potiskivanja akustičkog eha. Za veće µ , brzina konvergencije raste, ali mera
potiskivanja u ustaljenom stanju je manja [Haykin2]. Za manje vrednosti µ , brzina
konvergencije opada, ali mera potiskivanja u stabilnom stanju je veća, tj. filtar se bolje
obuči.
Ova karakteristika se može poboljšati primenom vremensko-promenljivog
faktora ( )nµ i uvoñenjem regularizacionog parametra )(n∆ [Haykin2], pri čemu
jednačina adaptacije koeficijenata filtra postaje:
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
38
)()(
)(*)()()(ˆ)1(ˆ
2nn
nennnn
∆++=+
x
xhh µ
Kontrolom ovih faktora postižu se bolje performanse algoritma. U početnim
momentima, dok je trenutno stanje sistema daleko od optimalnog, poželjno je koristiti
veliku vrednost za µ i i malu za ∆ (npr. µ = 1 i ∆ = 0). Tokom približavanja
optimalnom filtru, potrebno je postepeno smanjivati µ, a povećavati ∆. U idealnom
ustaljenom režimu µ → 0, a ∆ → ∞.
Slika 3.12 Mera potiskivanje eha u zavisnosti od vrednosti faktora adaptacije
(preuzeto iz [Tabus])
U većini NLMS sistema samo je jedan od faktora vremenski promenljiv. Ovaj
pristup je adekvatan za okruženja sa normalnim nivoom šuma (npr. kancelarija), dok
za bučna okruženja sa visokim nivoom šuma moguće je primeniti i kombinovanu
kontrolu oba faktora [Mader].
Moguće pseudooptimalne strategije za upravljanje faktorom adaptacije i
regularizacionim parametru su [Yamamoto]:
)(
)()(
2
2
ne
nen u
opt =µ i 2
2
)(
)()(
n
nnNnopt
∆
=∆h
,
gde su:
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
39
- )(neu – signal neizobličene greške, )()()( nnne Hu xh∆=
- )(ne – signal greške, )()()( nnnene u +=
- )(nn – signal lokalnog šuma
- )(n∆h – vektor razdešenosti sistema
Iako su oba pristupa teorijski ekvivalentna, u praktičnoj primeni preovladava
kontrola faktora adaptacije. Najvažniji razlog je što faktor adaptacije prima vrednosti
iz ograničenog opsega ]1,0[∈µ , dok vrednost regulacionog parametra je u opsegu
],0[ ∞∈∆ . Ova činjenica može predstavljati problem, naročito za implementacije
algoritama na DSP procesorima koji koriste aritmetiku u nepokretnom zarezu.
U realnim situacijama, pored lokalnog šuma, postoji i lokalni signal (govor) koji
se smatra korisnim signalom, i koji se na mikrofonima superponira na akustički eho.
Cilj poništavanja eha je da se akustički eho u što većoj meri potisne, a da se koristan
signal ne degradira. Kada je prisutan i koristan signal, potrebno je smanjiti adaptaciju
filtra da bi se sprečilo udaljavanje sistema od optimuma. To se može postići
varijacijom koraka adaptacije u zavisnosti od informacije da li je detektovan izvor
korisnog signala. Detekciju je moguće izvesti na bazi snaga signala u sistemu
[Gänsler1] ili na bazi mere razdešenosti sistema. Kao mera razdešenosti mogu se
koristiti rezultati analize korelacije [Gänsler2] ili kepstralne analize [Oppenheim].
Kompleksnost NLMS algoritma je ranga O(N), što znači da broj operacija za
realizaciju obrade linearno zavisi od količine ulaznih podataka N. Faktor zavisnosti je
2. Uvoñenje vremenske kontrole faktora adaptacije ( )nµ i regularizacionog parametra
)(n∆ zahteva dodatne računske operacije, koje mogu značajno da povećaju obim
računa.
Prednosti NLMS algoritma su robustnost, niska računska složenost i činjenica da
se adaptacija izvodi na osnovu trenutnih vrednosti signala, što doprinosi smanjenju
obima potrebnih memorijskih resursa i računskih operacija. Algoritam se može
realizovati i pomoću aritmetike u fiksnom zarezu, jer ne koristi rekurzivne strukture, i
time nije numerički uslovljen tačnosću.
Mana algoritma je sporija konvergencija za obojene signale u poreñenju sa
najnovijim metodama. Teoretska granica potiskivanja eha pomoću NLMS u
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
40
ustaljenom stanju je u opsegu 30-40 dB, u zavisnosti od vrednosti faktora adaptacije i
regulacionog parametra, što je sasvim dovoljno za primenu u realnim aplikacijama.
3.5.1.2 Metoda afine projekcije
Dok NLMS algoritam uzima u obzir samo trenutnu vrednost greške, metoda
afine projekcije (engl. Affine Projection – AP) koristi i vrednost greške računatu na
osnovu proteklih vektora ulaznih signala i trenutnih vrednosti koeficijenata adaptivnog
filtra. Posledica ovog pristupa je povećanje računske složenosti algoritma u poreñenju
sa NLMS algoritmom, kao i potreba za dodatnom memorijom, ali je povećana brzina
konvergencije.
Matrica signala )(nX se formira na sledeći način:
[ ])]1(),...,1(),()( +−−= MnxnxnxnX
i sadrži tekuću vrednost signala i (M-1) prethodnih vrednosti. M je red AP
algoritma. Treba primetiti, da za M=1, AP algoritam se svodi na NLMS. Afine
projekcije se mogu posmatrati kao generalizacija LMS i RLS algoritama. Za primenu
AP za poništavanje eha preporučene vrednosti za M su izmeñu 2 i 5.
Nakon izvoñenja datog u [Proakis], dobijaju se sledeće jednačine koje
karakterišu AP algoritam:
Korak obrade Jednačine
Estimacija signala eha )(ˆ)()(ˆ * nnnd T hX=
Greška )(ˆ)()( ndnyne −=
Ažuriranje koeficijenata filtra [ ] )(*)()()()(ˆ)1(ˆ 1nennnnn H −
+=+ XXXhh µ
Tabela 3.3 Pregled AP algoritma
U navedenoj tabeli se može videti da korak ažuriranja koeficijenata filtra zahteva
matrične operacije, pa i inverziju matrice. Čak i za male vrednosti M, računska
složenost AP algoritma značajno nadmašuje NLMS, što je veliki problem za praktičnu
primenu.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
41
Sa ciljem da se smanji kompleksnost algoritma i da se svede na O(N),
predloženo je nekoliko metoda . Rezultat su tkzv. brzi algoritmi afine projekcije (engl.
Fast Affine Projection – FAP).
Smanjenje obima računa do linearne zavisnosti moguće je postići sledećim
pristupima [Gay1, Oh]:
- Pojednostavljenje procesa ažuriranja vektora greške
- Uvoñenje modifikovanog vektora koeficijenata, koji omogućuje
jednostavniju adaptaciju
- Efikasno računanje inverzne normalizacione matrice – direktno za
male vrednosti M=2..4, ili iterativno za veće M Levinson-
Durbinovom rekurzijom
Metoda AP se odlikuje bržom konvergencijom od NLMS, uz povećane zahteve
za memorijskim prostorom i većim obimom računa. Brzim metodama se broj
računskih operacije može redukovati, ali je tada algoritam veoma osetljiv na tačnost
primenjene aritmetike, što otežava implementaciju na procesorima sa aritmetikom u
nepokretnom zarezu.
3.5.1.3 Rekurzivna metoda najmanjih kvadrata
Rekurzivna metoda najmanjih kvadrata umesto matematičkog očekivanja
kvadrata greške minimizuje kriterijum sumu kvadrata greške. Time se postiže bolja
adaptacija filtra i brža konvergencija.
Nakon izvoñenja detaljno opisanog u [Hänsler], dobijaju se sledeće jednačine
koje karakterišu RLS algoritam:
Korak obrade Jednačine
Estimacija signala eha )()1(ˆ)1|(ˆ nxnhnnd H −=−
Greška )1|(ˆ)()1|( −−=− nndnynne
Ažuriranje koeficijenata filtra
)()1(ˆ)(1
)()1(ˆ)(
11
11
nnn
nxnn
xxh
xx
xRx
R
−+−=−−
−−
λλγ
)1(ˆ)()()1(ˆ)(ˆ 11111 −−−= −−−−− nnnnn xxH
xxxx RxRR γλλ
)1|()()1(ˆ)(ˆ * −+−= nnennn γhh
Tabela 3.4 Pregled RLS algoritma
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
42
Kao što se iz tabele vidi, za ažuriranje koeficijenata potrebno je naći inverznu
matricu autokorelacione matrice )(ˆ nxxR . Dimenzija matrice je NxN, pri čemu je N
dužina adaptivnog filtra. Tipične vrednosti za N su 256 za okruženja kao što je
unutrašnjost automobila, pa do nekoliko hiljada za veće prostorije (npr. kancelarije).
To zahteva veoma velik broj računskih operacija, koje rastu sa kvadratom dužine filtra
– kompleksnost RLS algoritma je O(N2).
Postoje razni pristupi koji značajno ubrzavaju rad RLS metode [Hiroshi,
Skidmore], približavajući kompleksnost ka O(N). Jedna od najefikasnijih je metoda
brzog transverzalnog filtra, opisanog u [Cioffi]. Ali, primenom pomenutih pristupa
problem konačne tačnosti ciljne platforme postaje veoma izražen. S obzirom da se radi
o rekurzivnim postupcima, dolazi do numeričke nestabilnosti sistema.
3.5.1.4 Pregled algoritama za adaptaciju filtara za potrebe
poništavanja akustičkog eha
Nakon analize raznih algoritama za adaptaciju filtara, može se zaključiti da RLS
obezbeñuje najbolje rezultate u pogledu brzine konvergencije, mere potiskivanja u
ustaljenom stanju i robusnost u prisustvu šuma. U isto vreme, RLS je daleko
najzahtevnija i u pogledu računskih operacija i potrebnog memorijskog prostora
(Tabela 3.5).
Algoritam Kriterijum Kompleksnost Memorijski prostor
NLMS 2)(neE ONLMS(N)~2N N
AP
−∑
−
=
1
0
2)|(
L
i
nineE OAP(N)~2LN
postoji brza verzija LN
RLS 10,)|(0
2 ≤<∑=
− λλn
l
ln nle ORLS(N)~N2
postoji brza verzija N2
Tabela 3.5 Pregled kompleksnosti algoritama
Brza verzija metode afine projekcije poseduje malo slabije performanse, ali
znatno manju kompleksnost. Obe metode su u osnovnom obliku prezahtevne za
primenu u proizvodu, a brze verzije su osetljive na tačnost računa, i potencijalno su
numerički nestabilne. Postoje metode za stabilizaciju algoritma [Benallal, Ren], ali one
zahtevaju dodatne računske operacije, i tako dalje povećavajući računsku složenost.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
43
Pokazalo se da je NLMS najskromnija po pitanju složenosti i memorijskih
zahteva, ali daje i najslabije rezultate (Slika 3.13). Ipak, kontrolom parametara
adaptacije, performanse se mogu dovesti na nivo koji zadovoljava zahteve postavljene
pred proizvod potrošačke elektronike. Stabilnost i robusnost, koje su odlike NLMS
algoritma, su neophodne za takav ureñaj.
Pe
rfo
rma
nse
Slika 3.13 Odnos performansi i kompleksnosti algoritama
Nakon poreñenje pristupa, NLMS se pokazao kao pogodan za primenu u bloku
za poništavanje eha.
Metoda se dodatno može ubrzati realizacijom u frekvencijskom domenu. Iako je
potrebno potrošiti približno 2Nlog2N operacija za transformaciju u i iz frekventnog
domena, operacija konvolucije i korelacije zahtevaju znatno manje računskih operacija
nego u vremenskom domenu. Time se implementacija algoritma može ubrzati i 10 puta
[Shynk].
U sistemu koji koristi mikrofonski niz od M elemenata, postoji M ulaznih
signala. Svi signali sadrže i akustički eho, i ambijentalni šum, kao i korisni signal. Ali,
svi oni su različiti s obzirom da je relativna pozicija svakog mikrofona u odnosu na
izvore različita. Problem se može rešiti uvoñenjem M posebni blokova za poništavanje
eha, koji se nezavisno adaptiraju. Postoje i metode koje koriste kros-korelaciju ulaznih
signala za smanjenje obima računa i ubrzavanja algoritma čak i za faktor 2, uz mali
gubitak kvaliteta [Lindstrom].
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
44
Postojanje više korelisanih izvora eha (zvučnika) u sistemu može usporiti
konvergenciju adaptivnog filtra. Dekorelacijom izvora (kanala) moguće je poboljšati
adaptaciju, ali to zahteva modifikaciju signala pre reprodukcije [Yasukawa]. Iako se
radi modifikacijama koje su nečujne u opsegu govornog signala, često te metode nisu
poželjne, naročito u sistemima sa visokim kvalitetom zvuka.
3.5.2 Odreñivanje pravca izvora pomo ću mikrofonskog niza
Odreñivanje pravca u prostoru na kome se nalazi izabrani govornik i
usmeravanje karakteristike usmerenosti mikrofonskog niza ka njemu je važan problem
u slobodnoj komunikaciji. Postupci odreñivanja pravca su veoma osetljivi na sve
smetnje prisutne u ambijentu, na postojanje reverberacije, i posebno na nestacionarnost
izabranog govornika (kada se on kreće u ambijentu) i kada se u datom ambijentu nalazi
više govornika koji istovremeno govore (engl. cocktail-party effect). Odreñivanje
pravca aktuelnog govornika u odnosu na mikrofonski niz u horizontalnoj ravni, tj.
odreñivanje ugla azimuta, veoma je važno u video-telefonskim i telekonferencijskim
sistemima zbog upravljanja karakteristikom usmerenosti mikrofonskog niza, ali se
veoma često informacija o koordinatama govornika koristi i za kontrolu video kamere
u sistemu.
Slika 3.14 Akustički ambijent u reverberantnom okruženju
Metode za odreñivanje pravca se najčešće zasnivaju na proceni vremenskog
kašnjenja signala (engl. Time Delay Estimation – TDE). U zavisnosti od načina
odreñivanja vremenskog odnosa signala, metode se dele na dve velike grupe metoda:
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
45
- metode odreñivanja vremena prispeća signala (engl. Time of Arrival – TOA) i
- metode odreñivanja vremenske razlike prispeća signala (engl. Time Difference
of Arrival – TDOA).
Prva grupa metoda se najčešće koristi u aktivnim sistemima kao što su radari i
sonar, i meri vremensku razliku izmeñu odašiljanja pulsa i prijema odjeka. Druga
grupa metoda teži da ustanovi relativnu vremensku razliku izmeñu signala
detektovanih na dislociranim senzorima, što je najčešće slučaj kod pasivnih sistema
kao što su mikrofonski nizovi.
U idealnom slučaju, pored uvek prisutnog šuma okruženja, do mikrofona stiže
samo direktni talas izvora. To je moguće u slučaju beskonačno (ili dovoljno) velike
prostorije ili ukoliko zidovi prostorije u potpunosti apsorbuju snagu zvučnih talasa. U
suprotnom, što je i realna situacija, postoje refleksije zvuka - reverberacije. Takvo
okruženje se naziva reverberantnim. U takvom okruženju, mikrofon registruje i
direktni talas, kao i sve refleksije. Refleksije su zakasnele u odnosu na direktni talas, i
manje su snage. S obzirom da ih ima više, njihova ukupna snaga može nadmašiti i
snagu direktnog talasa. Granica, na kojoj se izjednačava snaga direktnog talasa i snaga
svih refleksija, naziva se direktnim poljem. U visoko reverberantnim okruženjima,
direktno polje je reda veličine 1 do 2 metra u okolini izvora, i zavisi od karakteristika
akustičkog okruženja [Papp1]. Direktno polje se može odrediti primenom akustičkog
modela sobe zasnovanog na virtuelnim izvorima koji odgovaraju refleksijama,
opisanom u [Allen].
Lociranje govornika, uz prisustvo ambijentalnog šuma i reverberacije je veoma
složen problem, naročito na rastojanjima koja premašuju dimenzije direktnog polja.
3.5.2.1 Metoda generalizovane kros-korelacije
Metoda generalizovane kros-korelacije (engl. Generalized Cross-Correlation
Method – GCC) je najčešće korišćena metoda za odreñivanje vremenskog kašnjenja.
Zasniva se na modelu idealne propagacije signala [Huang], uz upotrebu dva senzora.
Vremensko kašnjenje se dobija pronalaženjem maksimuma težinski uobličene kros-
korelacije, formulom:
][ˆmaxargˆ nGCCn
GCC Ψ=τ
pri čemu je
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
46
∑−
=
Φ=Ψ1
0
2
10 ][][][ˆN
k
N
nkj
xxGCC ekSknπ
generalizovana kros-korelaciona funkcija, Sx0x1 = EX0[k] X 1*[k] je kros-
spektar, X[k] su koeficijenti Furijeove transformacije signala x(n), ][kΦ je težinska
funkcija, a N je broj odbiraka u bloku.
Oblik težinske funkcije ][kΦ značajno utiče na performanse algoritma. Postoji
nekoliko mogućih pristupa, npr. uglačana transformacija koherence (SCOT) [Carter],
Roth procesor [Roth], Echart filtar, transformacija faze (PHAT), procesor maksimalne
verovatnoće (engl. Maximum Likelyhood - ML) [Knapp], Hassab-Boucher
transformacija [Hassab], itd.
Metoda transformacije faze (PHAT) koristi težinsku funkciju sledećeg oblika:
][1
][10 kS
kxx
PHAT =Φ
Dobra osobina navedene težinske funkcije je da metodu čini neosetljivom na
snagu signala. Dinamika signala u govornim aplikacijama čini PHAT metodu
najpogodnijom za primene u mnogim aplikacijama.
Postoji proširenje algoritma koje uvoñenjem spektralne težinske funkcije
favorizuje onaj deo spektra, u kojem je odnos signal-šum veći, a informacija od pravcu
se robustificira klasifikacijom u klastere, na osnovu ranijih rezultata algoritma
[Kukolj1]. Uvoñenjem detektora aktivnosti na osnovu ocene zvučnosti govornih
segmenata pouzdanost izlazne informacije o pravcu se dalje može povećati [Kukolj2].
Metode zasnovane na generalizovanoj kros-korelaciji (GCC) računski su veoma
efikasne i jednostavne za implementaciju. Pouzdane su u uslovima kada je odnos
signal-šum pogodan. Padom odnosa signal-šum i rastom reverberacije metoda postaje
manje pouzdana, jer se metoda oslanja na pretpostavku da je direktni talas dominantan
u registrovanom signalu [Champagne].
3.5.2.2 Metoda višekanalne kros-korelacije
Signal jednog mikrofona niza mikrofona nije potpuno nezavisan od signala koje
primaju drugi mikrofoni. Metoda višekanalne kros-korelacije (engl. Multichannel
Cross-Correlation Algorithm - MCC) utvrñuju meñuzavisnost signala predikcijom
signala jednog senzora na osnovu signala preostalih senzora [Haykin3].
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
47
Metoda je proširenje klasične kros-korelacione metode na više kanala. Koristi
matricu prostorne korelacije meñu signalima različitih senzora za utvrñivanje
vremenskog kašnjenja.
Dobra osobina metode je da koristi sličnost meñu kanalima istovremeno, i
utvrñuje jedinstveno vremensko kašnjenje za sistem, koje je optimalno u LMS smislu.
Nedostatak metode je što mikrofonski niz mora biti veoma precizno dizajniran i
kalibrisan.
3.5.2.3 Metoda adaptivne dekompozicije na sopstvene vrednosti
Dok se ranije navedene metode se zasnivaju na pretpostavci o idealnoj
propagaciji signala, metoda adaptivne dekompozicije na sopstvene vrednosti (engl.
Adaptive Eigenvalue Decomposition Algorithm – AED) koristi realniji, reverberantni
model okruženja. Osnovni algoritam koristi dva mikrofona.
Ukoliko se izjednači konvolucija jednog mikrofonskog signala x0 (x1) sa
prenosnom funkcijom od izvora do drugog mikrofona h1 (h0) dobija se sledeća relacija:
011010 *][**][*][ hnxhhnshnx ==
koja se može predstaviti u matričnom obliku [Benesty2].
0][][][ 0110 =−= hnhnn TTT xxux
Množenjem sistema sa x[n] i uzimanjem matematičkog očekivanja dobija se
jednačina:
R[n]u = 0,
gde je ][][][ nnEn TxxR = matrica kovarijanse mikrofonskih signala. Vektor u
je sopstveni vektor za sopstvenu vrednost 0, koji se sastoji od dva impulsna odziva. U
idealnom slučaju, sistem ima jedinstveno rešenje [Xu]. Postojanje šuma dovodi do
regularizacije matrice R[n], zbog čega sistem nema sopstveni vektor za 0. Pronalaženje
vremenskog kašnjenja se svodi na procenu vektora u uz minimizaciju izraza uTR[n]u,
sa ograničenjem .1=u Do procene sopstvenog vektora se može doći npr. adaptivnim
LMS algoritmom [Benesty], koji je dovoljno jednostavan i efikasan u situacijama kada
se akustički ambijent sporo menja.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
48
Metoda AED identifikuje impulsne odzive dvaju kanala bez pretpostavki. To je
izvodljivo ukoliko su impulsni odzivi kratki, u suprotnom odzivi se pogrešno
detektuju. Jedna mogućnost da se otkloni ovaj problem je primena više mikrofona.
Odgovarajuća metoda je adaptivna procena vremenskog kašnjenja (engl. Adaptive
MultiChannel Time Delay Estimation – AMC TDE) zasnovana na identifikaciji kanala
bez pretpostavki.
Ova metoda predstavlja generalizaciju AED metode za N mikrofona. Takoñe
primenjuje LMS algoritam za adaptaciju matrice koja sadrži sve impulsne odzive, bilo
u vremenskom ili frekventnom domenu [Huang].
Metode zasnovane na generalizovanoj kros-korelaciji (GCC i MCC) su robusnije
na šum od metoda zasnovanih na „slepoj“ identifikaciji kanala, a reverberacija
predstavlja značajan problem. Uvoñenjem većeg broja mikrofona, metoda MCC
obezbeñuje najbolje rezultate. Ipak, za korektan rad metode, mikrofonski niz mora biti
veoma precizno dizajniran i kalibrisan. Adaptivne metode AED i AMC su pogodne za
primenu u sporo promenljivim sistemima, što je značajno ograničenje imajući u vidu
karakteristike sistema za slobodnu komunikaciju.
3.5.3 Prostorno filtriranje
Pošto akustički ambijent sadrži pored govornika najčešće i druge izvore smetnji,
mora se izvršiti izdvajanje željenog signala od ostalih izvora smetnji kako bi se
omogućilo samo njegovo snimanje. Konvencionalno, ovaj problem se rešava
primenom mikrofonskog sistema koji se sastoji od N mikrofona [Brandstein].
Primenom naprednih algoritama na mikrofonske signale postiže se usmerena
karakteristika osetljivosti mikrofonskog sistema. Pomenuta klasa algoritama spada u
metode prostornog filtriranja (engl. Acoustic Beamforming - ABF).
Ovakav mikrofonski sistem ima dovoljno usmerenost da u prostoru ambijenta
izdvoji samo odabranog govornika, dok ostale prostorno dislocirane izvore smetnji
može potisnuti i time ostvariti dobitak. Veličina poboljšanja zavisi od:
- karakteristike usmerenosti mikrofonskog niza (širine osnovne
petlje),
- veličine bočnih petlji,
- prostorne separabilnosti govornika i izvora smetnji,
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
49
- veličine reverberacije,
- nestacionarnosti svih izvora signala, itd.
Opšti oblik jednačine prostornog filtriranja u frekventnom domenu je:
XWY H= ,
pri čemu je Y izlaz sistema predstavljen u frekventnom domenu, W je matrica
koeficijenata BF, a X je matrica ulaznih signala.
Zadatak BF je da favorizuje signal koji dolazi iz zadatog pravca, i da minimizuje
snagu signala iz drugih pravaca. Da bi se eliminisalo trivijalno rešenje W=0, uvodi se
ograničenje koje obezbeñuje da se željeni signal ne izobličuje. Odgovarajuće jednačine
su:
WWmin XXH
WΦ - minimizacija snage izlaza BF
1=dW H - uslov da se signal iz željenog pravca ne izobličuje
Vektor d je vektor usmerenosti mikrofonskog niza, i oblika je:
[ ]110110 ,...,, −−
−−−= Nj
NjjT eaeaea ωτωτωτd ,
gde konstante ai i vremenska kašnjenja iτ odgovaraju geometriji mikrofonskog
niza i pravcu korisnog signala.
Rešenje opisanog sistema je jednačina pod nazivom minimalna varijansa bez
distorzije (engl. Minimum Variance Distortionless Response - MVDR) [Cox]:
dΦd
dΦW
1
1
−
−
=VV
H
VV
pri čemu je VVΦ matrica koherencije šuma.
Najjednostavnija metoda za fiksno prostorno filtriranje je metoda zakasni-i-
saberi (engl. Delay-and-Sum Beamformer - DSB). Pod pretpostavkom da je šum
prostorno nekorelisan, matrica koherencije se svodi na jediničnu matricu, i koeficijenti
MVDR su oblika:
dWN
1=
Metoda DSB se svodi na kompenzaciju kašnjenja meñu kanalima, i sabiranjem
vremenski poravnatih kanala se dobija pojačanje korisnog signala, dok se signali iz
ostalih pravaca delimično potiru.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
50
Složeniji tip fiksnih BF su filtriraj-i-saberi (engl. Filter-and-Sum Beamformer -
FSB), kada se signali mikrofona filtriraju pre sabiranja, tj. svakom ulaznom signalu
pridružen je filtar dužine L>1. DSB je specijalni slučaj, kada je L=1.
Indeks usmerenosti (engl. Directivity Index – DI) mikrofonskog niza je mera
potiskivanja difuznog polja šuma [Simmer]. Indeks direktivnosti se definiše kao:
∫ ∫ Ω
Ω=Ω
π πθϕθθϕ
π
θϕ
0
22
0
2
0010
)sin(),),(exp(4
1),),(exp(
log10)(ddjb
jbjDI
gde je ),),(exp( θϕΩjb prostorna (3D) karakteristika mikrofonskog niza, Ω је
normalizovana učestanost, а ϕ0 i θ0 su sferne koordinate aktivnost govornika.
Metode za prostorno filtriranje koje obezbeñuju veći indeks usmerenosti od
DSB, nazivaju se super-direktivnim. To mogu obezbediti bilo fiksni ili adaptivni
algoritmi.
Glavna odlika fiksnih BF je niska računska složenost i mala potrošnja
memorijskog prostora. Takoñe, veoma su robusni u prisustvu šuma i reverberacije.
Udvostručavanjem broja mikrofona, DSB obezbeñuje dodatno potiskivanje prostorno
rasporeñenog šuma za 3dB, FSB i više.
Najpoznatiji adaptivni algoritam za prostorno filtriranje je Frostov [Frost], u
kojem se koeficijenti filtra adaptiraju LMS metodom, a kriterijum adaptacije je
minimizacija izlazne snage sa održanjem željene frekvencijske karakteristike u
zadatom pravcu.
Kao alternativa za Frostov BF, u [Griffiths] predložen je potiskivač bočnih petlji
(engl. Generalized Sidelobe Canceller - GSC). Sastoji se od dve strukture – od fiksnog
BF koji obezbeñuje ne-adaptivni izlaz, i od adaptivne strukture za potiskivanje bočnih
petlji. Adaptivnoj strukturi prethodi blokirajuća matrica, koja potiskuje signal iz
željenog pravca, tako da se koeficijenti filtra podešavaju samo na osnovu zajedničkih
signala obe grane (Slika 3.15).
Usled reverberacije, do mikrofonskih nizova stižu i zakasnele refleksije od
zidova. Zbog toga, smetnje (šum i refleksije) postaju korelisane sa korisnim signalom.
Nedostatak MVDR metode je što usled nepoznavanja prenosne funkcije sistema dolazi
do delimičnog potiskivanja korisnog signala.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
51
Slika 3.15 Adaptivni potiskivač bočnih petlji
U [Papp1] je prikazan adaptivni algoritam koji je otporan na pojavu
reverberacije, jer se prenosna funkcija estimira na bazi matrica kovarijansi signala i
šuma, nakon čega se ona primenjuje na MVDR BF. Rezultati pokazuju da su
performanse algoritma poboljšane u odnosu na postojeća rešenja. Jedini nedostatak
pristupa jeste u povećanoj računskoj složenosti - u okviru postupka zahteva se
inverzija kovariacione matrice i pronalaženje sopstvenih vrednosti, što značajno
ograničava primenu algoritma u sistemima za rad u realnom vremenu.
U [Simmer] je pokazano su da se teorijski MMSE (engl. Minimum Mean Square
Error) optimalni adaptivni potiskivač bočnih smetnji za širokopojasne signale može
dekomponovati na dva bloka. Prvi blok je višekanalni potiskivač šuma MVDR iza
koga sledi drugi blok obrade za tzv. postprocesiranje, predstavljen jednokanalnim
Wienerovim filtrom:
4342143421filterpostWiener
outnnss
ss
MVDR
nnH
nnopt
−
−
−
+=
φφφ
dΦddΦ
W 1
1
gde je Wopt vektor optimalnih koeficijenata mikrofonskog niza, φss je spektralna
gustina snage korisnog signala, φnnout je spektralna gustina snage šuma na izlazu
potiskivača, a nnΦ , Hnn E nnΦ = je kovarijaciona matrica šuma mikrofonskih
signala. Operator E. označava matematičko očekivanje, H predstavlja konjugovano
kompleksno transponovanje.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
52
dΦddΦ
w1
1
−
−
=nn
Hnn
outnnss
sspostH
φφφ+
=
Prvi faktor relacije je težinski vektor MVDR potiskivača, dok drugi faktor
predstavlja jednokanalni Wienerov filtar za postprocesiranje. Veličine φss i φnnout nisu
unapred poznate, te ih stoga treba proceniti na osnovu ulaznih signala.
Najznačajniji postupak procene filtra za post-procesiranje iznet je u [Marro],
baziran na rezultatima opisanih u [Zelinski]. U proceni parametara post-filtra Zelinski
usvaja pretpostavku o nekorelisanosti šuma na mikrofonima. Iako navedena
pretpostavka u realnim prostorijama nije u potpunosti ispunjena, u praksi ovim
postupkom se ostvaruje značajno poboljšanje kvaliteta signala.
Postupak se zasniva na sledećim pretpostavkama:
P1) Signal i šum su meñusobno nekorelisani što se izražava relacijom
( )miisnE isni,1,,0* =∀==φ
P2) Spektralna gustina snage šuma mikrofonskih signala je jednaka na svim mikrofonima
( )innE nniinn ii∀== ,* φφ
P3) Signali šuma na mikrofonu i i j su meñusobno nekorelisani
( )jinnE jinn ji≠∀== ,0*φ
Iz navedenih pretpostavki izvode se relacije za auto i kros-spektralne gustine
snage mikrofona:
nnssxx iiφφφ += ssxx ji
φφ =
gde su sa miii xx ,...,1, =φ označene spektralne gustine snage mikrofona, a sa
mjiji xx ,...,1,, =φ kros spektri mikrofona. Uobičajeno je da se spektralne gustine
snage i kros spektri estimiraju rekurzivno sa eksponencijalnim zaboravljanjem prema
relaciji:
)()()1()1(ˆ)(ˆ * txtxtt jixxxx jijiλφλφ −+−=
gde je λ eksponencijalni faktor zaboravljanja (0 < λ < 1), a t vremenski indeks bloka
ulaznih podataka koji se obrañuje. Sa (* ) je označena operacija kompleksne
konjugacije.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
53
Zelinski usvaja još jednu pretpostavku da je šum na izlazu mikrofonskog niza
približno jednak šumu na ulazu nnoutnn φφ ≈ . Primenjujući relacije gornje relacije na sve
parove mikrofona i smenjujući procene snage signala i šuma, post-filtar Hpost-zel se
može izraziti relacijom:
∑∑∑
∑∑∑−
=
−
=
−
+=
−
=
−
=
−
+=−
=1
0
22
0
1
1
*
1
0
22
0
1
1
*
m
ixxi
m
i
m
ijji
m
ii
m
i
m
ijxxji
zelpost
ii
ji
wwwRe
wwwRe
H
φ
φ
gde su wi elementi težinskog vektora i koeficijenti MVDR potiskivača.
U primeni gornje relacije postoje problemi pre svega vezani za ispunjenost
pretpostavke P3. Smatrajući da je polje šuma u prostoriji sa reverberacijom idealno
difuzno, funkcija koherencije dva bliska mikrofona se opisuje relacijom
==Γ
c
fdsinc ij
nnnn
nn
ij
jjii
jiπ
φφ
φ 2
gde je jinnφ kros-spektar šuma mikrofona i i j, f je učestanost signala, dij je rastojanje
mikrofona, c je brzina zvuka. Pretpostavka P3 je ispunjena jedino na učestanostima
)2/( ijdkcf = , k=1,2,… na kojima je koherencija ijΓ jednaka nuli. Na učestanostima
na kojima vrednost ijΓ nije jednak nuli, postfiltar zelpostH − unosi dodatnu distorziju
govornog signala.
Problem ocene post-filtra u uslovima kada koherencija nije jednaka nuli, ali je
poznata, razmatran je u [McCowan1-2]. Naime, pokazuje se da se poznavanjem
teorijskog oblika funkcije koherencije može znatno poboljšati procena parametara
post-filtra. Dobitak koji se može ostvariti pomenutim algoritmom limitiran je
činjenicom da funkcija koherencije realne prostorije znatno odstupa od teorijski
izvedene za idealno difuzno polje.
U [Šarić2] opisan je postupak koji ne zahteva apriorno znanje o funkciji
koherencije, jedino je potrebno da funkcija koherencije bude vremenski nepromenljiva,
što je ispunjeno u stacionarnim uslovima kada mikrofonski niz i prisutne smetnje ne
menjaju svoj položaj u prostoru. U tim uslovima, optimalni post-filtar se može izraziti
preko faktora slabljenja šuma, koji se iz dostupnih merenja ocenjuju rekurzivno.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
54
3.5.4 Potiskivanje šuma
Kod snimanja govora u akustičkom ambijentu uvek se pojavljuje problem
aditivnog stacionarnog i/ili nestacionarnog šuma kao i rezidualnog šuma u obradi
akustičkog signala. Ovi šumovi narušavaju kvalitet snimljenog govornog signala a
ukoliko su dovoljno intenzivni mogu izazvati i narušavanje njegove razumljivosti.
Postoji mnogo algoritama za potiskivanje šuma (engl. Noise Reduction - NR),
optimiziranih za pojedine vrste šumova, ali se uvek postavlja zahtev da se ostvari
odreñen dobitak u poboljšanju odnosa signal/šum pod uslovom da se ne unesu
izobličenja u govorni signal i time dodatno ne naruši njegova razumljivost.
Osnovni filtar za potiskivanje šuma je Wienerov filtar [Gay2]. Osnovna
pretpostavka prilikom izvoñenja filtra je da su svi signali u sistemu stacionarni. Ako je
signal )(ns narušen aditivnim šumom )(nv , mikrofon registruje sledeći signal:
)()()( nvnsny +=
Ukoliko su signal i šum nekorelisani, mogu se napisati sledeće jednačine snaga u
frekventnom domenu:
)()()( ωωω vsy PPP += i
)()()( ωωω vys PPP −=
Poslednja jednačina - oduzimanju snage u spektru - definiše osnovni koncept za
najveći broj metoda za potiskivanje šuma. Minimizacijom kvadrata greške
2)(ˆ)( nsns − dobija se ocena signala i prenosna karakteristika filtra:
)()()(ˆ ωωω YHS WW = )(
)()(
)()(
)()(
ωωω
ωωωω
y
vy
vs
sW P
PP
PP
PH
−=
+=
Može se primetiti da Wienerov filtar predstavlja primenu pojačanja zavisnog od
frekvencije na spektar ulaznog signala. On potiskuje spektralne komponente u
zavisnosti od zašumljena istih: slabljenje zašumljenih komponenata je veće u odnosu
na nezašumljene komponente.
S obzirom da snage signala i snaga šuma nisu poznate, te veličine se moraju
proceniti na osnovu ulaznog signala y(n). Rezultat efikasnosti filtra zavisi od
korektnosti procene snage šuma. Najčešće, snaga šuma se procenjuje u momentima
kada ne postoji signal, tj. u momentima pauze. Često se koristi i aproksimacija:
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
55
2
22
)(
)()()(
ωωω
ωY
VYHW
−≅
Slične jednačine se dobijaju i metodama oduzimanja snage (engl. Power
Subtraction - PS) [Ephraim] i oduzimanja amplitude (engl. Magnitude Subtraction –
MS) [Boll]
2
22
)(
)()()(
ωωω
ωY
VYHPS
−=
)(
)()()(
ωωω
ωY
VYHMS
−=
Sva tri gore navedena pristupa za potiskivanje šuma se mogu predstaviti
generalnom formom, koja nosi naziv parametrizovani Wienerov filtar [Lim].
βγ
ωω
ω
−=
)(
)(1)(
Y
VHG
U zavisnosti od parametara γ i β jednačina se svodi na jednu od metoda. Pregled
metoda i odgovarajućih vrednosti parametara je dat u tabeli:
Metoda γ β
Wienerov filtar 2 1
Oduzimanje snage 2 1/2
Oduzimanje amplitude 1 1
Tabela 3.6 Pregled parametrizovanog Wienerovog filtra
Iako postoji generalni oblik jednačine, nije dokazano da varijacije sa
proizvoljnim parametrima obezbeñuju optimalno rešenje.
Metode zasnovane na oduzimanju u spektru, kao posledica modifikacije spektra,
unose izobličenja koja podsećaju na muzičke tonove [Vary]. Oni nastaju usled
pogrešne procene pojedinih parametara sistema (npr. snage šuma ili snage signala),
velike fluktuacije faktora utišanja pojedinih frekvencija ili nesavršenosti obrade koja
ne obezbeñuje savršenu rekonstrukciju.
Efekat pojave muzičkih tonova se može ublažiti uvoñenjem faktora pojačanja
koji ograničava promenu pojačanja ukoliko ne postoji korisni signal. Modifikovan
sistem je opisan jednačinom:
)())(|()()(ˆ1 ωωωω YYHPHS WG =
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
56
u kojoj H1 označava hipotezu da je korisni signal prisutan u ukupnom signalu, a
))(|( 1 ωYHP odgovarajuću verovatnoću.
Da bi se to postiglo, razvile su se metode sa blagim detektorom aktivnosti (engl.
Soft Voice Activity Detector – Soft VAD) [Boll, McAulay]. Oni umesto binarne odluke
o postojanju korisnog signala na izlazu daju vrednost u opsegu (0,1), koja se nakon
toga može koristiti za kontrolu fluktuacije koeficijenata filtra.
Metoda za spektralno potiskivanje šuma opisana u [Ephraim] zasniva se na
kratkotrajnoj, optimalnoj proceni amplitude. Ova metoda, za razliku od metode
oduzimanja snage, obezbeñuje najmanju srednju kvadratnu grešku u oceni spektralne
amplitude. Za visok odnos snage signala i šuma, metoda konvergira ka Wienerovom
estimatoru. Za smanjenje efekata muzičkih tonova, metoda uvodi meru neodreñenosti
prisustva signala (engl. signal presence uncertainty) kao adaptivni faktor pojačanja.
U [Valin2] opisana je proširena metoda potiskivanja šuma za mikrofonski niz,
koja se zasniva na post-filtru za prostorno filtriranje u okruženju sa jednim korisnim
signalom i stacionarnim pozadinskim šumom [Cohen]. Poboljšana metoda je efikasna
čak i u prisustvu više korisnih izvora, koji su ispravno locirani. Koristi sistem za
razdvajanje izvora (engl. source separation) u kombinaciji sa potiskivanjem šuma, koji
je u stanju da potisne i stacionarni šum, ali i smetnje koje nastaju kao posledica
preslušavanja izvora nakon razdvajanja.
Najnovija istraživanja u oblasti koriste psihoakustički model za potiskivanje
šuma. U [Tsoukalas] predstavljena je metoda modifikacije spektralnih pojačanja koja
koristi perceptualni model za potiskivanje samo onih komponenti šuma koji su iznad
pragova čujnosti. Pragovi su dinamični i adaptiraju se u zavisnosti od spektralnih
promena govora. Ukoliko je nivo šuma precizno odreñen, nivo razumljivosti govora se
značajno poboljšava.
3.5.5 Automatska kontrola poja čanja
Promenljivi ambijentalni uslovi i posebno, promenljivo rastojanje govornik-
mikrofonski niz, zahtevaju automatsku kontrolu pojačanja sistema (engl. Automatic
Gain Control - AGC), kako bi nivo glasa govornika bio što stabilniji i prijatniji za
slušaoca na udaljenom kraju telekomunikacionog kanala.
POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA
57
Ustanovljeno je da karakteristike okruženja kao i govora sa udaljenog kraja
kanala značajno utiču na ponašanje govornika na bližem kraju. Taj fenomen naziva se
Lombardovim efektom. Jačina govora raste sa jačinom pozadinskog šuma. Osim toga,
detektovane su i promene u dinamici i spektralnim karakteristikama govora [Hanson].
Osnovni pristup za kontrolu pojačanja jeste brzo-promenljiva i sporo-
promenljiva estimacija snage signala u datom momentu, njihova obrada, a zatim
adaptacija faktora pojačanja. Na izlazu iz sistema faktor pojačanja se primenjuje na
ulazni signal. Na taj način, usrednjena snaga izlaznog signala u momentima kada
postoji aktivnost postaje stabilna.
Brzo-promenljiva i sporo-promenljiva estimacija snage signala obezbeñuje
informaciju o prisustvu ili odsustvu govorne aktivnosti. Ta informacija na
odgovarajući način kontroliše adaptaciju faktora pojačanja:
- Ukoliko je prisutan govor, faktor pojačanja se menja u zavisnosti od odnosa
ulazne snage i izlazne
- Ukoliko nema govorne aktivnosti, zadržava se prethodni nivo pojačanja.
Da bi se izbegli neželjeni efekti skoka faktora pojačanja u vidu čujnih distorzija,
promena pojačanja se glača IIR filtrom prvog reda u vremenu.
Automatska kontrola pojačanja u sistemima koji rade u punom dupleksu zahteva
dodatne informacije od detektora aktivnosti govora na bližem kraju, detektora
aktivnosti govora na daljem kraju kao i potiskivača akustičkog eha. Takoñe, u sistemu
sa mikrofonskim nizovima, na osnovu informacija o prostornom rasporedu snage
signala, odnos signal/šum izlaznog signala se dalje može poboljšati, prvenstveno
utišavanjem delova signala kada je prisutan samo šum. Od pouzdanosti detekcije šuma
značajno zavisi kvalitet signala. U slučaju pogrešne procene, moguć je gubitak dela
govornog signala, što je veoma nepoželjan efekat.
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
59
POGLAVLJE 4. PREGLED MERA ZA OCENU PERFORMANSI SISTEMA ZA OBRADU GOVORNOG SIGNALA
U fokusu istraživanja nalazi se razvoj integralnog sistema za govornu
komunikaciju, zasnovanog na DSP procesoru sa ograničenim resursima. Realizovani
sistem se sastoji od odgovarajuće fizičke arhitekture i programske podrške, koja utiču
na performanse celokupnog sistema.
Odabir odredišne platforme uvodi ograničenja po pitanju kompleksnosti
postupaka obrade. Sa druge strane potrebno je da programska podrška obezbedi
potreban kvalitet izlaznog signala.
Ideja je da se ocena kvaliteta obavi na sličan način kao što bi to uradio krajnji
korisnik. To podrazumeva da se sistem posmatra kao celina, sa jasno definisanim
ulazima i izlazima. Uvode se objektivne i subjektivne mere koje daju osnov za
poreñenje i praćenje performansi sistema u raznim fazama istraživanja. Objektivne
mere su neophodne da se postupak razvoja jednoznačno usmerava ka rešenju sa
željenim performansama, dok su subjektivne mere neophodne za ocenu performansi na
način blizak krajnjem korisniku.
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
60
4.1 Mere za ocenu složenosti rešenja
Ograničeni resursi odredišne platforme zadaju jasne granice moguće
kompleksnosti programske podrške. Ukoliko ta ograničenja nisu zadovoljena, obradu
je nemoguće realizovati na odabranoj platformi, ili je rad u realnom vremenu narušen.
Tradicionalno, složenost programske podrške se u ranim fazama razvoja samo
grubo ocenjuju, dok se stvarna zahtevnost meri tek nakon realizacije sistema. Ukoliko
se pokaže da ograničenja nisu zadovoljena, potrebno je vratiti se na neki od ranijih
koraka razvoja, što dovodi do produžavanja vremena razvoja.
Ideja predstavljena u ovoj tezi je da se složenost precizno procenjuje i nadgleda
tokom svih faza razvoja, tako da je rizik vraćanja na ranije korake značajno smanjen.
Za potrebe obezbeñivanja rada u realnom vremenu, prate se sledeći pokazatelji:
- broj matematičkih operacija u jedinici vremena potrebnih za
realizaciju obrade u realnom vremenu,
- količina radne memorije za podatke potrebna za realizaciju obrade
(engl. Random Access Memory – RAM) i
- količina programske memorije za smeštanje izvršnog koda (engl. Read
Only Memory – ROM).
Broj matematičkih operacija u jedinici je realni pokazatelj kompleksnosti date
obrade, i pruža objektivni osnov za poreñenje različitih implementacija na istoj ili
sličnoj platformi [Shynk]. Uzimajući u obzir da su savremeni DSP zasnovani na RISC
arhitekturi i u stanju su da izvršavaju jednu instrukciju po taktu procesora, potencijal
takvih procesora se može opisati brojem izvršenih instrukcija u sekundi (engl. Million
Instructions Per Second – MIPS). Vrednost indikatora značajno zavisi od same
arhitekture, npr. od broja izvršnih jedinica, postojanja paralelnih struktura unutar
procesora, protočne strukture, itd. Za odabrane platforme, indikator MIPS se poklapa
sa radnim taktom procesora. MIPS je realan pokazatelj ukoliko se koriste aritmetičke
operacije u nepokretnom zarezu, jer se one većinom izvršavaju u jednom taktu, osim
množenja, koja najčešće zahteva nekoliko taktova procesora. Protočna struktura u
procesoru, u kombinaciji sa kvalitetnim programskim razvojnim alatima je u stanju da
kompenzuje tu činjenicu.
Drugi sličan pokazatelj je broj operacija u pokretnom zarezu u jedinici vremena
(engl. Millions FLoating point Operations Per Second - MFLOPS), koja opisuje
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
61
mogućnost platforme u izvršavanju operacija u nepokretnom zarezu. Usled veće
složenosti ovih operacija, MFLOPS je tipično manji od MIPS.
S obzirom da su za odabrane platforme poznate samo vršne, teoretske vrednosti
MIPS i MFLOPS koje se odnose na optimalne programe, u radu se predlaže sledeći
pristup za realnu ocenu mogućnosti platformi:
- kao prvi korak da se realizuje reprezentativni primer obrade koji je po
strukturi sličan konačnoj obradi (npr. blokovska obrada podataka u
frekventnom domenu, sa prozoriranjem i FFT transformacijom na
ulazu, i inverznim operacijama na izlazu). Primer treba da obezbedi
sličan odnos obrade podataka i rukovanja podacima (transfer).
- zatim, da se upotrebom kasnije opisanih mehanizama na realnom
ulaznom signalu prebroje izvršene matematičke operacije na razvojnoj
platformi u jedinici vremena Odevref
- nakon toga se reprezentativni primer realizuje na odredišnoj platformi,
i meri se opterećenje procesora αtargetref u procentima.
Na osnovu odnosa tih veličina, moguće je izvesti sledeću relaciju:
%100arg
max
etreft
dev
devref
O
O α= ,
iz čega sledi:
%100arg
max ⋅=etreft
devrefdev
OO
α
što daje indikaciju maksimalnog broja operacija u jedinici vremena, koji je moguće
izvršiti u realnom vremenu. Ukoliko prebrojavanje operacija na razvojnoj platformi
pokaže da za datu obradu je u jedinici vremena potrebno izvršiti manje od Odevmax
operacija, sa velikom sigurnošću se može tvrditi da će obrada realizovana na
odredišnoj platformi zadovoljiti vremenska ograničenja.
Prednosti ovog pristupa su da se upotrebom odgovarajućih alata tokom rada na
razvojnoj platformi mogu se proceniti okviri kompleksnosti konačnih algoritama, bez
ulaganja značajnog truda za realizaciju algoritama na ciljnoj platformi.
Za potrebe prebrojavanja izvršenih operacija, ali i za merenje upotrebljene
količine radne memorije, razvijeni su pomoćni programski alati [Papp2]. Njihovim
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
62
proširenjem podrškom za emulaciju željene aritmetike modelovan je i uticaj
karakteristika različitih platformi na kvalitet izlaznog signala [Domazetovic].
Koncept se zasniva na realizaciji posebnih tipova podataka u jeziku C++ koji
modeluju tip podataka odabrane platforme, tj.:
- za procesor MAS 35xx to je 20-bitna reč u nepokretnom zarezu
- za procesor MIPS 4KEc to je 32-bitna reč u nepokretnom zarezu
- za procesore TMS320C6727 to je 32-bitna reč u pokretnom zarezu
- za potrebe poreñenja sa rezultatima programskog alata Matlab, može
biti i 64-bitna reč (dvostruke preciznosti) u pokretnom zarezu.
Odgovarajuća programska podrška je realizovana u obliku programske
biblioteke, koja osim tipova podataka, modeluje i odgovarajuće aritmetičke operacije i
njihovu tačnost. Da bi se obezbedila realna slika koja je dobija nakon merenja,
bibliotečke matematičke funkcije (npr. sinus) se takoñe modeluju. Parametri biblioteke
za emulaciju aritmetike su:
- tip aritmetike: nepokretni ili pokretni zarez
- širina reči: 20 bita (nepokretni zarez), 32 bita (pokretni ili nepokretni
zarez) ili 64 bita (pokretni zarez).
Uključivanje biblioteke u program podrazumeva upotrebu definisanih tipova
podataka (DSP20, DSP32, FLOAT) umesto ugrañenih tipova jezika C/C++ (npr. short,
int, float, double). Zatim, tokom izvršavanja programa, biblioteka prikuplja podatke o
angažovanju resursa i generiše odgovarajući izveštaj.
Za realizaciju programa u aritmetici nepokretnog zareza potrebno je prilagoditi
algoritme karakteristikama tipova podataka i operacija. To podrazumeva detaljnu
analizu algoritama, opsega pojedinih promenljivih, i prilagoñavanje mogućnostima
ciljne platforme. Da bi se očuvala tačnost i kvalitet rezultata, često je potrebno uvesti
dodatne resurse [Lukač].
Nakon realizacije algoritama na razvojnoj platformi, moguće je izmeriti i
kompleksnost sistema, ali i kvalitet. U cilju dobijanja relevantnih rezultata profilisanja
bibliotekom za emulaciju aritmetike, potrebno je izvršiti algoritme nad realnim
ulaznim signalima. Nakon izvršavanja, generiše se izveštaj koji sadrži informacije o:
- broju izvršenja pojedinih matematičkih operacija Odev
- broju poziva bibliotečkih funkcija mapiranim na operacije Olib
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
63
- količini angažovane statičke memorije u rečima (globalne
promenljive, baferi) Mstat
- količini angažovane dinamičke memorije (npr. stek) Mdyn
Poreñenjem zbira Odev i Olib sa Odevmax dobija se informacija da li je zahtev za
radom u realnom vremenu zadovoljen. Poreñenjem zbira Mstat i Mdyn sa unapred
zadatom maksimalnom količinom radne memorije Mmax (120 hiljada reči) dobija se
informacija da li je datu obradu moguće realizovati na ciljnoj platformi. Ukoliko bilo
koji od ovih kriterijuma nije zadovoljen, potrebno je modifikovati (redukovati ili
optimizovati) obradu, nakon čega se opet pristupa merenju performansi.
Opisanim pristupom moguće je objektivno izmeriti složenost algoritama nakon
realizacije na ciljnoj platformi, ali proceniti i znatno ranije, već u fazi razvoja
algoritama. Na taj način, moguće je prilagoditi složenost postupaka mogućnostima
unapred odabrane platforme, pri čemu se ponavljanje koraka razvoja svodi na najmanji
mogući, i time ubrzava razvoj. Takoñe, emulacija aritmetike omogućuje procenu
kvaliteta i preduzimanje potrebnih koraka u cilju poboljšanja istog, na razvojnoj
platformi.
4.2 Postupak ocene ta čnosti bloka za odre ñivanje položaja
govornika
Blok za odreñivanje položaja aktivnog govornika predstavlja sastavni deo
celokupnog sistem za poboljšanje kvaliteta govora uz upotrebu mikrofonskog niza. U
tom bloku se na osnovu obrade parova signala mikrofona odreñuje relativni položaj
aktivnog govornika u odnosu na mikrofonski niz. Efektivno, rezultat obrade je ugao
koji zaklapa pravac govornika sa osom mikrofonskog niza.
Informacija o položaju aktivnog govornika se koristi u daljim blokovima kao
ulazni parametar. Na primer, u bloku za prostorno filtriranje na osnovu detektovanog
položaja govornika se podešava usmerenost mikrofonskog niza. Takoñe, na osnovu
detektovanog pravca mogu se kontrolisati i neke druge komponente sistema, kao što je
video kamera u videotelefonskom sistemu.
U svakom slučaju, podatak o pravcu mora biti ispravan, jer jedino je tada
obezbeñeno ispravno funkcionisanje sistema. U slučaju prostornog filtriranja, tačnost
detekcije pravca indirektno utiče na kvalitet rada datog bloka, a time i celog sistema. Iz
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
64
tog razloga, uvedena je mera koja predstavlja kvalitet rada bloka za lociranje aktivnog
korisnika.
Postavka koja se koristi u oceni kvaliteta bloka za lociranje govornika prikazana
je na slici 4.1:
Slika 4.1 Postavka za ocenu kvaliteta bloka za lociranje govornika
Sistem je smešten u akustički ambijent koji obezbeñuje uslove kao i planirani
scenariji upotrebe, sa vremenom reverberacije prostorije od 300 ms. Nivo korisnog
signala je 70 dB.
Tokom merenja, izvor korisnog signala je postavljan na označene pozicije. Kao
izvor koristi se računar i zvučnik koji emituje unapred definisani testni signal zadatog
nivoa. Stvarni ugao θ se računa na osnovu poznate pozicije izvora korisnog signala po
formuli:
)(L
Darctg=θ
Sa druge strane, beleže rezultati bloka za lociranje nakon obrade signala
mikrofonskog niza θ’. Uporeñivanjem dveju vrednosti za sve odabrane pozicije
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
65
korisnog signala dobija se ocena tačnosti bloka za lociranje aktivnog govornika.
Tokom merenja primenjuju se dva rastojanja L1 = 130 cm (serija A) i L2 = 200 cm
(serija B), za svako po 7 pozicija simetrično rasporeñenih oko ose mikrofonskog niza.
4.3 Mere za ocenu kvaliteta govornog signala
U cilju da se obezbede što bolje performanse celokupnog sistema, potrebno je
uvesti odgovarajuće mere koje omogućuju procenu trenutnog kvaliteta rešenja. Takve
mere omogućavaju nadgledanje performansi tokom celog razvojnog ciklusa sistema,
što umnogome olakšava postizanje odgovarajućeg kvaliteta.
Tradicionalne objektivne mere kvaliteta koje karakterišu performanse pojedinih
blokova za poboljšanje kvaliteta govora su često direktno vezani za funkciju bloka.
Neke osnovne metode su:
- poboljšanje odnosa signal-šum (engl. Signal Noise Ration Enhancement –
SNRE) i
- mera potiskivanja eha (engl. Echo Return Loss Enhancement - ERLE).
SNRE je po definiciji razlika izmeñu odnosa signal-šum ulaznog signala SNRin i
izlaznog signala SNRout:
][][][ dBSNRdBSNRdBSNRE inout −=
inout SSout
in
in
in
out
out
N
N
N
S
N
S
=
=−= 2
2
2
2
2
2
log10log10log10
pri čemu S je koristan signal, a N označava signal šuma. Poslednja jednačina se
koristi za procenu SNRE u segmentima ulaznog signala kada koristan signal nije
prisutan, i daje meru potiskivanja šuma u decibelima. U slučaju da obrañeni signal
sadrži manje šuma, SNRE daje pozitivan rezultat. Za detekciju pauze koristi se
detektor aktivnosti govora (VAD).
Slika 4.2 prikazuje signale koji se porede radi dobijanja mere poboljšanja
signala. Sistem koji se testira može biti složen sistem, pojedinačni algoritam ili niz
blokova obrade. SNRE se pretežno koristi za ocenu sistema za potiskivanje šuma, bilo
stacionarnog, nestacionarnog (NR) ili prostorno rasporeñenog (BF).
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
66
Slika 4.2 Koncept merenja poboljšanja odnosa signal-šum
Mera potiskivanja eha (engl. Echo Return Loss Enhancement - ERLE) je mera
takoñe izražena u decibelima, koja opisuje performanse potiskivača eha [ITU-T
G.168]. Može se primeniti bilo na AEC blok ili na sistem u celini. Rezultat ERLE
pokazuje slabljenje signala eha u ukupnom signalu.
Vrednost ERLE se računa na osnovu poreñenja snaga signala pre i posle AEC.
Slika 4.3 Koncept merenja potiskivanja eha
Da bi se obezbedila objektivnost rezultata, ERLE se mora meriti na segmentima
kada postoji signal eha, što podrazumeva postojanje bloka za detekciju aktivnosti eho
signala. Pouzdanost VAD bloka značajno utiče na rezultat ERLE.
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
67
Jednačina za računanje mere ERLE je:
[ ] )/(log10 10 outin PPdBERLE =
pri čemu su outP snaga obrañenog signala, ainP snaga ulaznog signala.
ERLE pokazuje slabljenje prisutnog eha u ulaznom signalu poredivši snage
signala. Pozitivne vrednosti ERLE ukazuju na efikasnije potiskivanje eha.
U sistemima za dvosmernu slobodnu govornu komunikaciju veoma je bitan
kvalitet izlaznog signala koji prenosi na udaljenu stranu. Na kvalitet signala utiču
karakteristike analognih komponenti (mikrofoni, pojačala), ali posebno i osobine
primenjenih algoritama obrade.
Cilj takvog sistema je da obezbedi prirodan, razumljiv govorni signal na
udaljenoj strani, sa što manje izobličenja i smetnji. Relevatno merilo za kvalitet signala
je ljudski sluh. Jedna od čestih metoda za ocenjivanje kvaliteta zvuka jeste testiranje
subjektima. Subjekti, ocenjujući odnos kvaliteta originalnog i obrañenog signala,
formiraju opštu ocenu kvaliteta sistema za obradu zvuka (Slika 4.4). Obrada se često
sastoji od kompresije i dekompresije zvuka (npr. kodera i dekodera govora).
Slika 4.4 Ocena sistema za obradu zvuka
Ukoliko se ocene zadaju na predefinisanoj skali, radi se o metodi srednje
vrednosti ocene (engl. Mean of Opinion Score - MOS). Testiranje je potrebno izvesti u
skladu sa preporukama opisanih u [ITU-T P.800], čime se obezbeñuje statistička
pouzdanost rezultata. U [ITU-T P.800] predlaže se sledeća skala za ocenjivanje
kvaliteta obrañenog signala sa originalnim na osnovu testova slušanja:
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
68
Subjektivni kvalitet signala Ocena
Veoma dobar 5
Dobar 4
Srednji 3
Slab 2
Loš 1
Tabela 4.1 MOS skala za ocenjivanje kvaliteta signala testovima slušanja
Rezultat testiranja subjektima su parovi signala i odgovarajuća ocena. S obzirom
na relativno velik broj subjekata i signala, smatra se da srednja vrednost uzorka
predstavlja validnu ocenu sistema.
Izvoñenje testova pomoću subjekata je veoma složen posao. Zahteva značajne
napore u smislu organizacije, potrebno je angažovati odreñen skup ljudi za izvoñenje
testova, a samo testiranje je dugotrajno. Ponavljanje takvog testiranja je veoma skupo.
Rezultati mogu da zavise i od samih subjekata (na primer posle značajnog
angažovanja), a time se unosi dodatna varijansa u rezultat.
Da bi se eliminisali pomenuti problemi, razvijene su metode za objektivnu ocenu
subjektivnog kvaliteta. To su metode koje se primenjuju na signale, mogu se koristiti
automatski u računarskim sistemima i obezbeñuju rezultate koje se slažu sa testovima
koji su izvedeni pomoću testnih subjekata.
Sa ciljem da se obezbedi odgovarajući kvalitet usluga u telefonskim
komunikacijama, u [ITU-T P.861] opisana je mera za perceptualni kvalitet govora
(engl. Perceptual Speech Quality Measure - PSQM). Ona je namenjena pre svega za
ocenu uticaja primenjenih tehnika kompresija govora na kvaliteta signala u
telefonskim sistemima. Razmatrani opseg ulaznih signala je od 300Hz do 3400Hz.
Metoda se zasniva na perceptualnom modelu. Ulazni signali se konvertuju u internu
predstavu, zatim se računa njihovo rastojanje u tom prostoru, koji se zatim na bazi
kognitivnog modela generiše rezultat u formi MOS.
PSQM metoda je pokazala odreñene nedostatke: nije bila u stanju da
kompenzuje promenljivo kašnjenje izmeñu signala, bio je veoma osetljiv na efekte
filtriranja i nije mogao da na odgovarajući način rukuje kratkotrajnim izobličenjima.
Kao zamena za PSQM, razvila se metoda za perceptualnu procenu subjektivnog
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
69
kvaliteta (engl. Perceptual Evaluation of Speech Quality – PESQ), opisana u [ITU-T
P.862].
Zasniva se na PSQM metodi, ali je proširuje sa nedostajućim funkcijama, kao i
kompenzacijom vremenskog kašnjenja i nivoa u obliku pred-obrade. Perceptualni i
kognitivni modeli koji se koriste su poboljšani. Metoda je primenljiva i za merenja
kvaliteta izmeñu krajnjih tačaka kanala.
Slika 4.5 Blokovi PESQ metode (preuzeto iz ITU-T P.862)
Rezultat PESQ metode za par ulaznih signala je vrednost u opsegu od -0.5 do
4.5, ali u najvećem broju slučajeva vrednost je izmeñu 1.0 i 4.5, što odgovara MOS
skali koja se primenjuje u testovima slušanja [ITU-T P.862.1]. Eksperimenti su
pokazali da se rezultati PESQ metode veoma dobro slažu sa rezultatima subjektivnog
testiranja, čak sa pouzdanošću od 95% [Psytechnics]. U slučaju postojanja akustičkih
putanja u sistemu, pojava šuma unosi degradaciju ocene, ali relativni odnos ocena i
kvaliteta ostaje validan [Valin1]. Metoda PESQ je implementirana kao jedna od mera
kvaliteta u okviru alata Opera kompanije Opticom [Opera], a uz standard postoji i
referentna realizacija u programskom jeziku C.
Dalje unapreñenje merenja subjektivnog kvaliteta je metoda za objektivnu
procenu kvaliteta govora u telekomunikacijama (engl. Telecommunication Objective
Speech Quality Assessment – TOSQA) [TOSQA]. Metoda je u stanju da osim
električnih, uvaži i akustičke sprežne sisteme. S obzirom da nije javno raspoloživa, u
radu neće biti dalje razmatrana.
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
70
Gore navedene metode se zasnivaju da perceptualnom poreñenju referentnog i
obrañenog signala. Za primenu tih metoda, neophodno je poznavanje referentnog
signala, što nije uvek moguće, npr. tokom nadgledanja kvaliteta veza u sistemu.
Metoda jednostranog merenja kvaliteta govora (engl. Single Sided Speech
Quality Measure – 3SQM) opisana standardom [ITU-T P.563] omogućuje procenu
kvaliteta na prijemnom kraju kanala, pod pretpostavkom da je na drugom kraju kanala
izvor referentnog signala. Analizom prijemnog signala na osnovu modela ljudskog
govornog sistema i ljudske percepcije izobličenja u govoru, formira se mera
degradacije govora. Ova mera se prenosi na MOS skalu. Eksperimenti su pokazali da
3SQM metoda ne obezbeñuje zadovoljavajuće rezultate u scenarijima kada je odnos
signal-šum nepovoljan, kao na primer u slobodnoj komunikaciji.
Drugi pristupi ocene kvaliteta govornog signala koriste meru razumljivosti
obrañenog govora. Takve metode se zasnivaju na uočljivoj korelaciji kvaliteta prenosa
govora sa uspešnošću prepoznavanja i razumevanja govora. Pošto se u tezi predlaže
ideja da se kvalitet ocenjuje na način blizak krajnjem korisniku, ovaj pristup je
pogodan za takvu ocenu.
Za ocenu uspešnosti prepoznavanja govora moguće je koristiti i testne subjekte,
a i sisteme za automatsko prepoznavanje govora (engl. Automatic Speech Recognition
– ASR) [Liu].
Slika 4.6 Merenje kvaliteta govora na osnovu razumljivosti
U takvom scenariju, na osnovu baze testova formiraju se ulazni signali sistema
koji se posmatra. Nakon obrade, izlazni signal se prosleñuje ili sistemu za automatsko
prepoznavanje govora ili testnom subjektu. I jedan i drugi beleže rezultate
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
71
prepoznavanja govora, nakon čega se rezultati porede sa bazom podataka. Uspešnost
prepoznavanja se najčešće zadaje kao odnos ispravno prepoznatih elemenata govora
(to su najčešće reči) i ukupnog broja elemenata:
%100⋅=ukupno
tacnih
L
LSRR
Upotreba sistema za automatsko prepoznavanje govora obezbeñuje visok nivo
ponovljivosti merenja, učestala testiranja i male napore za organizaciju i izvoñenje
merenja. Sa druge strane, ti sistemi nisu savršeni, te njihov kvalitet značajno utiče na
rezultate.
Angažovanje testnih subjekata zahteva više napora, pa je mogućnost učestalih
testiranja manja. Predlog teze je da se tokom razvoja koriste objektivne mere
subjektivnog kvaliteta, a da se u ključnim momentima obavi testiranje prepoznavanja
reči testnim subjektima.
U slučaju testnih subjekata postoji problem rekonstrukcije reči na osnovu dela
reči ili konteksta govora. Da bi se ti efekti izbegli, tokom testiranja se koristi rečnik
koji se sastoji od reči bez značenja – logatoma (engl. nonsense syllables) [Steeneken].
Od ukupnog skupa logatoma formiraju se skupovi testova u obliku tabela (Tabela 4.2),
koje obezbeñuju ponovljivost tokom testiranja. U toku istraživanja korišćenje su tabele
od 50 dvosložnih logatoma.
ŽAZU ZISO SUZA
VUHI NANJO MANU
RULA JARI JURO
Tabela 4.2 Primer tabele logatoma
Usled eliminacije mogućnosti prepoznavanja na osnovu konteksta razgovora,
procenat razumljivosti logatoma je značajno niža od razumljivosti izdvojenih (ali
postojećih) reči i rečenica.
Istraživanja pokazuju da 75% razumljivosti logatoma približno odgovara 95%
razumljivosti reči i 100% razumljivosti rečenica [Levitt]. Imajući u vidu namenu
sistema – upotrebu u interaktivnoj govornoj komunikaciji – kao odgovarajući nivo
POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI
72
razumljivosti logatoma odabran je prag od 50%. Očekuje se da će razumljivosti u
tipičnoj upotrebi sistema biti odgovarajuća.
Slika 4.7 Odnos razumljivosti rečenica, reči i logatoma u zavisnosti od nivoa šuma
(slika je preuzeta iz [Levitt])
Objektivne mere kao što su SNRE i ERLE se oslanjaju na informaciju o snagama
posmatranih signala, bez osvrtanja na degradaciju korisnog signala. Iako obrada može
da unese izobličenja korisnog signala, to neće uticati na rezultate – šta više, može ih
prividno poboljšati. Da bi se obezbedila potpun prikaz performansi sistema, one
moraju da se kombinuju sa metodama koje se fokusiraju na subjektivni kvalitet
signala, sa PESQ i sa subjektivnim testiranjem.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
73
POGLAVLJE 5. SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
Motivacija za razvoj sistema za slobodnu komunikaciju potiče od činjenice da je
govorna komunikacija danas pristupačna sve većem broju korisnika, u raznim
oblicima: klasični telefon, VoIP pomoću računara, GSM, itd. Tradicionalni sistemi se
zamenjuju sa novima koji obezbeñuju mogućnost slobodne komunikacije (engl. hands
free), pa i konferencijskih razgovora. Kritični momenti u takvim rešenjima su
složenost sistema, rad u realnom vremenu, kao i kvalitet govornog signala koji se
prenosi, jer su u takvoj postavci akustički uslovi znatno pogoršani.
U cilju formiranja predloga rešenja proučeni su raspoloživi izvori informacija.
Baza patenata
Analiza tržišta
Predlog rešenja
Ideje
Zaštićena rešenja Konkurentna
rešenja
Zahtevi tržišta
Baza znanja
Slika 5.1 Analiza relevantnih informacija
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
74
Pretraga baze patenata rezultovala je skupom relevantnih patenata, ali pored toga
dala je i uvid u savremena istraživanja, i ukazala na neke nove ideje i trendove u datoj
oblasti. Pokazalo se da u veoma složenim uslovima slobodne govorne komunikacije
kvalitet izlaznog signala je moguće poboljšati upotrebom mikrofonskog niza, uz
odgovarajuće postupke obrade. U oblasti obrade signala mikrofonskih nizova postoji
porast aktivnosti poslednjih godina u pogledu zaštite intelektualne svojine. Svetski
poznate kompanije su zainteresovane za tu tehnologiju što se vidi iz broja patenata iz
te oblasti, što ukazuje na aktuelnost i potencijal ovog pristupa.
U okviru analize tržišta tragalo se za rešenjima za slobodnu govornu
komunikaciju, što je dovelo do formiranja skupa mogućnosti koje je potrebno
podržati, ali su i identifikovani konkurenti i nedostaci postojećih rešenja. Pokazalo se
da postoje komercijalna rešenja u odgovarajućem opsegu performansi i zahtevanih
resursa, ali obezbeñuju samo odreñene funkcije (npr. potiskivanje prostorno
rasporeñenih smetnji ili potiskivanje ambijentalnog šuma). Time je stepen
fleksibilnosti takvih ureñaja manja. Takoñe, ustanovljeno je da ne postoji celovito
rešenje koje je u stanju da se izbori sa svim akustičkim smetnjama. Analiza je pokazala
da se ureñaji potrošačke elektronike pretežno zasnivaju na ASIC ili DSP platformama,
čiji radni takt tipično ne prelazi 100 MHz, a količina upotrebljene memorije se meri u
desetinama kilobajta.
U tezi kao rešenje problema slobodne govorne komunikacije visokog kvaliteta,
predlaže se upotreba mikrofonskog niza u kombinaciji sa DSP fizičkom arhitekturom i
odgovarajućim postupcima poboljšanja govornog signala (slika 5.2).
Mikrofonski niz
DSP Algoritmi
Slika 5.2 Predlog arhitekture rešenja
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
75
Upotreba mikrofonskog niza omogućuje rekonstrukciju prostorne akustičke slike
ambijenta, što uz primenu digitalne obrade signala olakšava izdvajanje željenog
govornika i potiskivanje smetnji, i time obezbeñuje bolji kvalitet komunikacije.
Kompleksnost fizičke arhitekture i primenjeni postupci obrade zavisni su usled
potrebe rada u realnom vremenu. Na osnovu prikupljenih informacija, odabrana je
DSP kao osnova fizičke arhitekture, sa sledećim karakteristikama:
• Radni takt do 200 MHz
• 128 hiljada reči radne memorije, pri čemu širina reči odgovara širini
podataka aritmetičke jedinice procesora
• Aritmetika u nepokretnom i pokretnom zarezu
Na osnovu gore navedenog, izabrane su sledeće DSP platforme:
• DSP sa 20-bitnom aritmetikom nepokretnog zareza, serije MAS 35xx,
• MIPS 4KEc sa 32-bitnom aritmetikom nepokretnog zareza,
• DSP sa 32-bitnom aritmetikom pokretnog zareza, serije Texas
Instruments TMS320C6727.
Na osnovu istraživanja, izabrani su i odgovarajući postupci za potiskivanje
pojedinih smetnji. Prikazani su u sledećoj tabeli:
Smetnja
Postupak Ak
ust
ičk
i e
ho
Efe
ka
t re
ve
rbe
raci
je
Pro
sto
rno
ra
spo
ređ
en
izv
or
sme
tnji
Ne
sta
cio
na
rni
šum
Sta
cio
na
rni
šum
Ne
po
vo
lja
n o
dn
os
sig
na
/šu
m
Potiskivanje akustičkog eha
Utvrđivanje pravca govornika i
prostorno filtriranje
Post procesiranje
Potiskivanje šuma
Automatska regulacija nivoa
Tabela 5.1 Prikaz postupaka poboljšanja signala i smetnji koje potiskuju
Algoritmi su birani imajući u vidu dozvoljenu složenost platforme, postojeće
smetnje i željeni kvalitet izlaznog signala. Sledi kratak opis pojedinih algoritama,
zajedno sa poboljšanjima predloženim u ovoj tezi.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
76
Postupak za potiskivanje akustičkog eha zasniva se na NLMS, u kojem je
primenjeno višestruko iteriranje, čime se ubrzava konvergencija filtra. NLMS je
kombinovan sa detektorom aktivnosti lokalnog govornika, koji kontroliše adaptaciju
filtara. To doprinosi stabilnosti adaptacije u promenljivom akustičkom ambijentu.
Prostorno filtriranje je zasnovano na neadaptivnom filtru sa superdirektivnom
karakteristikom. Kombinovano je sa odreñivanjem pravca govornika u smislu da se
podatak o pravcu govornika koristi za podešavanje usmerenosti mikrofonskog niza. Za
odreñivanje pravca koristi se poboljšana GCC metoda, čija je robustnost povećana
primenom težinske funkcije i kombinovanjem rezultata obrade nezavisnih
mikrofonskih parova u jedan.
Predloženo post procesiranje na bazi jednokanalnog Wiener-ovog filtra ne
podrazumeva idealno difuzno polje šuma - time obezbeñuje bolju estimaciju
koeficijenata post-filtra.
Za automatsku kontrolu pojačanja predložen je dinamički kompresor opsega,
koji je kontrolisan procenom nestacionarnosti signala (prisustvom govora).
U tezi predlaže se kombinacija svih elemenata sistema (mikrofonskog niza,
fizičke arhitekture i postupaka obrade) u celovito rešenje - ureñaj. Cilj je da se
realizovani ureñaj lako spreza sa proizvoljnim sistemom, time povećavajući oblast
primene.
Kvalitet
Složenost
Mogućnosti
SEA2M
Postojeća komercijalna rešenja
Naučna istraživanja
Slika 5.3 Formiranje zahteva i ograničenja
Očekuje se da se predloženo rešenje pozicionira meñu postojećim rešenjima
kako je prikazano na slici 5.3. Cilj je da se obezbedi bolji kvalitet od trenutno
postojećih komercijalnih rešenja, ali da složenost sistema ne prelazi granice
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
77
postavljene razvojem ureñaja široke potrošnje. Sa druge strane, pristupi koji danas
obezbeñuju najbolji kvalitet, često su parcijalna rešenja, i čija realizacija zahteva
angažovanje značajnih resursa (npr. RLS naspram NLMS).
U toku istraživanja generisano je nekoliko nacionalnih patenata [Pat1, Pat2, Pat3,
Pat4], jedan meñunarodni patent [Pat5] i zaštićen je žig koji imenuje razvijeno rešenje
[SEA2M].
5.1 Sistem za slobodnu govornu komunikaciju
U dvosmernoj, slobodnoj govornoj komunikaciji pojavljuje se niz akustičkih
smetnji koje značajno narušavaju kvalitet komunikacije. To su postojanje akustičkog
eha, prisustvo ambijentalnog šuma, ali i prostorno rasporeñenih smetnji, postojanje
efekta reverberacije, značajnog slabljenja signala, itd.
Nisu svi problemi prisutni u svakom scenariju upotrebe. Na primer, u slučaju
naizmenične komunikacije (engl. half-duplex), problem akustičkog eha ne postoji, ali
strane koje učestvuju u komunikaciji moraju da komuniciraju naizmenično. U slučaju
dvosmerne komunikacije, akustički eho je uvek prisutan, i za ostvarenje kvalitetne
govorne veze potrebno ga je značajno potisnuti.
Rastojanje mikrofonskog sistema od izvora korisnog signala (govornika) varira u
zavisnosti od konfiguracije sistema. Najpogodnija situacija je kada je govornik bliže
mikrofonima od svih izvora smetnji, jer je tada odnos snage signala i šuma
najpovoljniji. Što je govornik dalje od mikrofona, smetnje su sve izraženije.
Na primer, kada je govornik udaljen nekoliko metara od mikrofonskog niza,
snaga akustičkog eha značajno premašuje snagu korisnog signala. Suma odbijenih
zvučnih talasa dominira nad direktnim talasom, što značajno otežava lociranje
govornika i dovodi do izobličenja njegovog govora. Takoñe, odnos snage korisnog
signala i ambijentalnog šuma je značajno manji, a snaga prostorno rasporeñenih izvora
je uporediva sa izvorom korisnog signala.
Teza se fokusira na istraživanje mogućih pristupa za realizaciju sistema zadate
složenosti koji otklanja prisutne smetnje u posmatranom akustičkom ambijentu, i koji
obezbeñuje željeni kvalitet uz rad u realnom vremenu.
Predloženo rešenje omogućuje nesmetanu slobodno govornu komunikaciju na
značajnom rastojanju od mikrofonskog niza. Željeni kvalitet se obezbeñuje upotrebom
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
78
mikrofonskog niza u kombinaciji sa odgovarajućim postupcima, a zahtevnost
postupaka je u skladu sa ograničenjima ciljne platforme. Sprežni sistem rešenja
obezbeñuje fleksibilnost sistemu, i omogućuje njegovu integraciju u raznim
konfiguracijama.
Rešenje je imenovano sa SEA2M, što odgovara skraćenici engleskog nazivu
Speech Enhancement Algorithms for Array Microphones [SEA2M]. SEA2M je sistem
koji obezbeñuje odgovarajuće performanse za primenu u ureñajima potrošačke
elektronike, sa stanovišta angažovanja resursa (cene) je takoñe u rangu komercijalnih
rešenja, a po mogućnostima i kompletnosti nadmašuje postojeće slične ureñaje.
Blok dijagram SEA2M sistema je prikazan na slici 5.4. Sistem poseduje
(M+1+L) analognih ulaza, pri čemu M je broj elemenata mikrofonskog niza, a L broj
izvora eha – zvučnika - u sistemu. Govor sa udaljenog kraja je signal koji dolazi sa
drugog kraja telekomunikacionog kanala, tj. govor sagovornika. Signal eha lokalnog
izvora je signal visokog kvaliteta koji se lokalno generiše i koje se reprodukuje na
zvučnicima.
Jedan izlaz sistema je signal zvučnika, koji nastaje adaptivnim sabiranjem (engl.
Adaptive Mixing – AM) govora sa udaljenog kraja i lokalnog signala eha, i takoñe je
visokog kvaliteta. Adaptivnost se ogleda u prilagoñavanju nivoa pojedinih signala u
bloku za sabiranje, čime se pokrivaju razni scenariji upotrebe. Ovaj signal se
reprodukuje na zvučnicima u sistemu, i stoga je uzrok pojave akustičkog eha.
Drugi izlaz je govor aktivnog lokalnog govornika, očišćen od akustičkih smetnji
nastalih zbog prisustva šuma okoline, reverberacije i eha, i poboljšan sa stanovišta
razumljivosti.
Sistem se sastoji od fizičke arhitekture sa odgovarajućim komponentama za
obradu signala (DSP) i sprežnim podsistemom za akustičke signale. Značajan deo
sistema je i skup algoritama za poboljšanje kvaliteta govora, koji se izvršavaju u
realnom vremenu na DSP.
Opisani sistem se može upotrebiti u nekoliko mogućih scenarija. Na primer,
ukoliko ne postoji akustički eho ili se radi o naizmeničnom režimu rada, može se
koristiti kao veoma osetljiv, usmeren mikrofon za govornu komunikaciju. Takav
scenario je moguć na primer u sistemima za komandovanje glasom ili u sistemima za
naizmeničnu komunikaciju.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
79
Lokalni akustički ambijent
M
1
L
1
Mikrofonski niz
Govor sa udaljenog kraja
Zvučnici
Govor ka udaljenom kraju
+
SEA2M
2
Signal eha lokalnog izvora
2
Slika 5.4 Struktura dvosmernog sistema za slobodnu govornu komunikaciju
Najsloženiji slučaj je upotreba sistema u terminalu za dvosmernu slobodnu
govornu komunikaciju, i to u slučaju kada je na lokalnom sistemu osim govora
udaljenog korisnika istovremeno potrebno reprodukovati i multimedijalni materijal
visokog kvaliteta, npr. sprezanje sa TV prijemnikom (slika 5.5).
Akustički ambijent
Multimedijalni komunikacioni terminal
SEA2M
Mikrofonski niz
Govor sa udaljenog kraja
Govor ka udaljenom kraju
Lokalni izvor zvuka
Lokalni zvuk +govor udaljenog sagovornika
Lokalni govornik
Slika 5.5 Scenario upotrebe SEA2M
U takvom okruženju, korisnik je u stanju da terminal koristi za govornu
komunikaciju sa udaljenim sagovornikom, pri čemu se TV ureñaj nesmetano može
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
80
koristiti i na uobičajen način za reprodukciju zvuka i slike, i sa uobičajenog rastojanja.
U takvoj postavci prisutne su smetnje akustičkog eha, reverberacije i šuma, a i odnos
signal-šum je veoma nepovoljan. Mikrofonski niz zajedno sa algoritmima poboljšava
kvalitet komunikacije i omogućava nesmetan razgovor čak i u slučaju kada smetnje
dominiraju nad korisnim signalom (govorom lokalnog korisnika). Neke moguće
primene sistema su sprega izmeñu čoveka i računara (engl. Man-Machine Interface).
Sličan sistem je primenjen i u robotu koji služi kao pokretni komunikacioni terminal sa
mogućnošću reprodukcije multimedijalnog sadržaja [Papp3]. Dalje mogućnosti su
integracija u mobilne telefone sledeće generacije, pa čak i u automobile za bezbedno
obavljanje telefonskih razgovora.
Na slici 5.6 prikazana je struktura sistema. Sastoji se od odgovarajuće fizičke
arhitekture i programske podrške koja uključuje i obradu signala.
Fizička arhitektura se sastoji od DSP koji obavlja digitalnu obradu signala i
odgovarajućih sprega. Sprežni podsistem obezbeñuje vezu sa okruženjem (signali,
podaci, komande), i time postavlja okvire upotrebe sistema. Podržava analogne i
digitalne akustičke signale, ali i digitalne upravljačke signale.
Kao fizička platforma za realizaciju odabran je DSP. Izbor je voñen činjenicom
da se radi o rešenju koje može da se unapreñuje i menja u toku životnog ciklusa, što je
potrebno podržati fleksibilnošću ciljne platforme.
Slika 5.6 Struktura sistema
Programska podrška integriše upravljanje sistemom, rukovanje sprežnim
podsistemom, ali obavlja i proces obrade signala SEA2M. Performanse programske
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
81
podrške treba da obezbede obradu ulaznih podataka u realnom vremenu na odabranim
platformama. Skup algoritama SEA2M rešava pojedinačne probleme akustičkog
okruženja, ali čine integralno rešenje koje je optimizovano na nivou celokupnog
sistema.
Realizacija jednog takvog sistema zahteva detaljno projektovanje, pažljiv izbor
elemenata fizičke arhitekture, kao i složen proces razvoja programske podrške. Fizička
arhitektura postavlja jasna ograničenja u pogledu raspoloživih resursa i sprega.
Mogućnost povezivanja sistema direktno utiče na primenu, a time i na potrebnu
obradu. Izbor algoritama obrade signala zavisi od raspoloživih resursa i mogućnosti
platforme. Pošto su ta dva aspekta veoma zavisna, moraju razmatrati paralelno.
5.2 Opis ciljnih platformi i sprežnog podsistema
Pod ciljnom platformom podrazumeva se fizička arhitektura na kojoj se izvršava
programska podrška. Na kompleksnost celokupnog rešenja najviše utiče izbor DSP,
kao centralne komponente. Kao što je ranije rečeno, kriterijum za izbor platforme je da
kompleksnost bude uporediva sa postojećim rešenjima. Kriterijum kompleksnosti se
preslikava na raspoložive resurse date platforme.
U postavci ciljeva rešenja odabrane su ciljne platforme DSP koji poseduju slične
mogućnosti sa stanovišta resursa, ali poseduju različite aritmetičko-logičke
mogućnosti. Navedeni procesori su odabrani kao predstavnici pojedinih klasa
procesora – relativno složenih sa podrškom za aritmetiku u pokretnom zarezu, i
značajno jednostavnijih sa podrškom za nepokretni zarez sa širinom reči od 20 i 32
bita. U tabeli 5.2 sa glavnim karakteristikama procesora je naveden i procesor koji se
koristi u stonim računarima, iz razloga što se koristio za platforma za razvoj
programske podrške, i za koji se smatra da ne postavlja nikakva ograničenja u pogledu
resursa:
• količina radne memorije za podatke u rečima pokazuje količinu
raspoložive memorije na datoj platformi. Kao jedinica odabrana je
širina reči, kao osnovna jedinica sa kojom DSP barata. Na taj način se
postiže bolja korelacija potrebne memorije sa količinom podataka (npr.
odbiraka).
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
82
• širina reči pokazuje od koliko bita se sastoji reč procesora. Ovaj
podatak ukazuje i na tačnost u obavljanju matematičkih operacija.
Uticaj ove karakteristike će se ispitati u tezi poreñenjem realizacije
istog algoritma na različitim platformama, uz uvažavanje ograničenja.
• aritmetika u pokretnom zarezu obezbeñuje znatno komforniju
realizaciju obrade nego aritmetika u nepokretnom zarezu. U tipičnoj
aplikaciji nije potrebno voditi računa o opsegu vrednosti promenljivih,
stoga je implementacija algoritama na osnovu postojeće reference
značajno pojednostavljena. Nedostatak je u povećanoj složenosti
platforme za realizaciju aritmetičkih operacija, što dovodi do smanjenja
broja izvršenih operacija u jedinici vremena.
• ukoliko se radi o sličnim arhitekturama, takt procesora obezbeñuje
jedan jednostavan način poreñenja procesorske snage. U slučaju
različitih arhitektura, potrebno je uvesti faktore korekcije. Izvršavanje
operacija u pokretnom zarezu zahteva veći broj taktova procesora od
operacija u nepokretnom zarezu. Sa druge strane, za realizaciju nekih
obrada potrebno je više operacija u nepokretnom zarezu nego u
pokretnom zarezu.
Platforma Koli čina
memorije [reči]
Širina reči
[bita] Tip aritmetike
Takt
[MHz]
Intel x86 eksterna
>>128k 32 Pokretni zarez >>200
Texas
Instruments
TMS320C6727
64k + eksterno
64k 32 Pokretni zarez 200
MIPS 4KEc eksterna
>>128k 32
Nepokretni
zarez 200
MAS 35xx 128k 20 Nepokretni
zarez 200
Tabela 5.2 Uporedni prikaz karakteristika ciljnih platformi
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
83
DSP kompanije Texas Instruments pripada novoj seriji optimizovanih procesora
koji podržavaju aritmetiku u pokretnom zarezu. Tipično se primenjuju u numerički
zahtevnim aplikacijama koje zahtevaju preciznost, npr. u obradi višekanalnih signala,
komunikacionim sistemima, upravljačko-kontrolnim sistemima, itd.
Odabrani procesor ne poseduje dovoljno memorije u samom kolu, ali poseduje
memorijski kontroler koji je u stanju da rukuje eksternom memorijom. Postojanje
skrivene (engl. cache) memorije za instrukcije i skrivene memorije za podatke reda
veličine nekoliko kB značajno poboljšava performanse pristupa spoljašnjoj memoriji,
stoga se performanse tipičnih aplikacija ne smanjuju značajno usled upotrebe eksterne
memorije. Za DSP kompanije Texas Instruments na raspolaganju su kvalitetni razvojni
alati, tako da se realizacija programske podrške veoma efikasna, i obavlja se u
programskom jeziku C, uz rad u komfornom razvojnom okruženju i razvojnim
pločama.
Procesori MIPS 4KEc su 32-bitni procesori sa podrškom za aritmetiku u
nepokretnom zarezu. Arhitektura procesora omogućava da se oko njih izgradi
samostalan ureñaj uz minimalno uključivanje dodatnih komponenti. Prilagoñeni su
aplikacijama koje uključuju i kontrolne funkcije, kao i prenos i obradu podataka.
Karakterišu ih značajne performanse uz malu potrošnju, što ih čini pogodnim za
primenu u različitim namenskim sistemima, kao što su mrežna čvorišta, TV ureñaji,
kontrolni sistemi, itd. Ne poseduju memoriju na samom kolu, ali postojanje skrivene
memorije za instrukcije i podatke kompenzuje tu činjenicu.
Procesori serije MIPS 4KEc poseduju proširenje skupa instrukcija koje značajno
poboljšava performanse u obradi signala. To je prvenstveno postignuto uvoñenjem
MAC jedinice za brzu realizaciju tipičnih operacija. Procesor je u stanju da obavi
množenje operanada širine 16 i 32 bita u jednom taktu, dok je za realizaciju množenja
dva operanda od 32 bita potrebno dva ciklusa. U tom slučaju, u cilju očuvanja tačnosti
rezultata, rezultat je moguće smestiti u registarski par, ukupne širine od 64 bita.
Ispravnim rasporedom instrukcija protočna struktura se iskorišćava na najefikasniji
način, tako obezbeñujući teoretski maksimum od jedne MAC operacije u jednom
ciklusu.
MIPS procesori su veoma dobro podržani odgovarajućom programskom
podrškom i alatima za razvoj. Postojanje efikasnih prevodioca zasnovanih na GCC
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
84
prevodiocu omogućuje efikasan razvoj programske podrške u programskom jeziku C.
Kao operativni sistem veoma često se koristi Linux.
Za potrebe razvoja programske podrške na PC platformi korišćena je programska
biblioteka za emulaciju aritmetike MIPS procesora. Biblioteka obezbeñuje tipove
podataka koji modeluju registre i akumulatore procesora, kao i odgovarajuće
aritmetičke operacije nad njima. Upotreba biblioteke omogućila je modeliranje
mogućnosti i tačnosti procesora tokom istraživanja, uz korišćenje komfornim
razvojnih alata na PC platformi.
Procesor MAS je veoma jednostavan RISC procesor sa širinom reči od 20 bita.
Pokazuje se da za realizaciju najrasprostranjenijih audio standarda (MP3, DTS, Dolby
Digital, AC3, AAC) data širina reči u kombinaciji sa 20-bitnom aritmetičkom
jedinicom i 40-bitnim akumulatorima obezbeñuje zadovoljavajući kvalitet, uz ulaganje
odgovarajućeg napora u razvoj programske podrške. Prototip procesora poseduje 128
hiljada reči memorije, i radni takt od 200 MHz. Podržava samo aritmetiku u
nepokretnom zarezu. Pošto poseduje duboku protočnu strukturu, u stanju je da izvrši
jednu aritmetičku operaciju u jednom taktu. Programska podrška se razvija u
asemblerskom jeziku i uz upotrebu simulatora.
Da bi se razvoj programske podrške olakšao, korišćena je programska biblioteka
za emulaciju aritmetike procesora MAS. Ona uvodi nove tipove podataka koji
modeluju 20-bitne reči i 32-bitne akumulatore procesora, kao i pripadajuće
aritmetičko-logičke operacije. Upotreba biblioteke je omogućila razvoj programske
podrške u programskom jeziku C, uz modeliranje tačnosti obrade na ciljnoj platformi.
Usled različitih aritmetika, odabrani procesori obezbeñuju različitu tačnost u
obradi. Maksimalna moguća tačnost prilikom obrade ograničena je brojem bita za
zapis podataka. Tako na primer, važe sledeće relacije:
Tip aritmetike Broj bita u re či Greška
Pokretni zarez 32 Erelativna ~ 10-7
32 Eapsolutna ~ 10-9 Nepokretni zarez
20 Eapsolutna ~ 10-6
Tabela 5.3 Pregled relativne tačnosti u zavisnosti od aritmetike
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
85
Ograničenje broja bita reči i tip aritmetike utiču na kvalitet izlaznog signala.
Manji broj bita za predstavu podataka dovodi do grublje diskretizacije vrednosti, što
unosi šum u obradi signala, i smanjuje se SNR.
Zapis brojeva u pokretnom zarezu obezbeñuje istu relativnu grešku u celom
opsegu, što je pogodnije sa stanovišta odnosa signal-šum, jer je kvalitet održan i za
signale male vrednosti. Predstava brojeva u nepokretnom zarezu uvek unosi istu
apsolutnu grešku, koja za male vrednosti signala, prerasta u veliku relativnu grešku, i
time nepovoljno utiče na SNR. Na arhitekturama sa nedovoljnom tačnošću se često se
pribegava dodatnim programskim tehnikama, npr. normalizaciji vrednosti na nivou
blokova u cilju smanjenja relativne greške [Lukač], emulaciji pokretnog zareza ili
dodeljivanju dodatnih memorijskih reči za čuvanje podataka.
Od osnovnih operacija, sabiranje i oduzimanje su manje osetljivi na ograničenje
opsega i tačnosti, ali potrebno je voditi računa o prekoračenju opsega. Sa stanovišta
tačnosti, operacija množenja je znatno kritičnija, jer u zavisnosti od mogućnosti ciljne
arhitekture dolazi do odsecanja najmanje značajnih bita rezultata. Kada u množenju
učestvuju male vrednosti, odsecanje prouzrokuje značajnu relativnu grešku.
Z a-1 a-M
OPERAND A
Z b-1 b-1
OPERAND B
X
Z c-1 c-2M
REZULTAT C=AxB
Z c-1 c-M
IZABRANI DEOREZULTATA
bit znaka
decimalna tačka
bit znaka
decimalna tačka
bit znaka
decimalna tačka
bit znaka
Slika 5.7 Realizacija množenja u nepokretnom zarezu (preuzeto iz [AADSP1])
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
86
Prilikom množenja dveju vrednosti predstavljenih u nepokretnom zarezu, za
tačnu predstavu rezultata potrebno je 2M+1 bita, pri čemu M je broj bita za predstavu
vrednosti, uz još jedan bit za predstavu znaka (slika 5.7).
Ukoliko se rezultat smešta u registar od M+1 bita, dolazi do odsecanja preostalih
M bita. U zavisnosti od pozicije tačke brojne osnove, fizička arhitektura odseca
odgovarajući broj viših ili nižih M bita, čime se unosi apsolutna greška 2-M+1. Na
gornjoj slici prikazana je operacija množenja, pri čemu su vrednosti u opsegu [-1, 1).
Postojanje akumulatora sa više bita u okviru procesora omogućava postizanje
bolje tačnosti, prvenstveno u pomnoži-i-saberi (MAC) operacijama tipičnim za DSP
[AADSP1]. Najčešće širine akumulatora su 32 (MAS 3500), 40 (Texas Instruments
TMS320C6xxxx serija) ili 64 bita. U tom slučaju, neke arhitekture omogućuju
upotrebu registarskog para kao akumulatora (npr. MIPS 4KEc). Akumulatori se
prvenstveno koriste u iterativnim postupcima (npr. konvolucija, korelacija), gde se
unutar petlje koriste akumulatori za smeštanje privremenih rezultata, dok se odsecanje
obavlja nakon petlje. Time se izbegava akumulacija greške unutar cikličnih struktura.
Na osnovu analize ciljnih platformi, DSP TMS320C6727 je odabran kao osnov
za realizaciju platforme. Prednosti ovog DSP su u smanjenoj kompleksnosti,
zahvaljujući novoj tehnologiji izrade, postojanja veoma kvalitetnog skupa razvojnih
alata, kao i raspoloživog sistema za brzi razvoj.
Zadatak sprežnog podsistema je prenos ulaznih signala i komandi iz okruženja
do DSP i generisanje izlaznih signala. Realizovani sistem poseduje 5 analognih ulaza
sa mikrofonskim pred-pojačalima, na koji se povezuju mikrofonski elementi koji čine
niz.
Slika 5.8 Frekventni odziv upotrebljenih mikrofonskih elemenata (preuzeto iz [WM61])
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
87
Tokom istraživanja korišćeni su mikrofonski elementi sa ne-usmerenom
karakteristikom [WM61], jer je jedna od pretpostavki teze da je pozicija izvora
korisnog signala sporo promenljiva u vremenu. Frekventni odziv upotrebljenih
mikrofona u posmatranom, govornom opsegu je veoma dobar.
Zbog značajnog rastojanja izvora korisnog signala i mikrofonskog niza, potrebno
je koristiti osetljive mikrofone. Mikrofonska predpojačala su neophodna zbog veoma
niskih nivoa signala mikrofonskih elemenata, ali ne smeju unositi smetnje i izobličenja
u signal. Usled raznolikih mogućnosti primene sistema, potrebno ih je projektovati
veoma pažljivo.
Postoje i dva analogna ulaza za lokalni izvor zvuka, i jedan za govor udaljenog
govornika. Svi analogni signali se vode na odgovarajuće A/D konvertore, a zatim do
odgovarajućih sprega DSP. Signali mikrofona se odabiraju na 8 kHz, dok signali
lokalnog visokokvalitetnog izvora sa 48 kHz.
DSP
Mikrofonski niz
ADC
DAC
8kHz
ADC
ADC
DAC
5
48kHz 48kHz
5
2 2
8kHz
8kHz
Lokalni izvor zvuka
Kontrolni kanal
Komunikacioni kanal
Sistem za slobodnu govornu komunikaciju
Slika 5.9 Sprežni podsistem
Na izlazu iz sistema generiše se visoko-kvalitetni analogni signal koji se
reprodukuje na zvučnicima - zvuk lokalnog izvora pomešan sa zvukom udaljene
strane. Drugi izlaz sistema je poboljšani signal lokalnog govornika, i koji se
potencijalno prenosi na drugu stranu komunikacionog kanala. Kao komunikacioni
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
88
kanal mogu se koristiti postojeći sistemi, npr. Bluetooth modul koji uspostavlja vezu sa
drugim ureñajima, računar ili čak i postojeći telekonferencijski sistemi.
5.3 Koraci razvoja programske podrške
Programska podrška sistema je odgovorna za kontrolu sistema i obavljanje
funkcija sistema u realnom vremenu. Obrada signala je računski najkompleksnija,
stoga se obratilo najviše pažnje upravo tom delu programske podrške.
U okviru razvoja algoritama prošlo se kroz nekoliko faza (slika 5.10), pri čemu
se pre završetka svakog koraka proveravala ispunjenost postavljenih zahteva.
U prvoj fazi razvoja koristilo se razvojno okruženje Matlab [Matlab], zbog
veoma dobre podrške za brz razvoj algoritama. Matlab koristi aritmetiku u pokretnom
zarezu, dvostruke preciznosti. Izlaz iz tog koraka je specifikacija algoritama u
programskom jeziku Matlab, zajedno sa izveštajem o ispunjenosti zahteva, ali
realizacija ne ispunjava uslove za rad u realnom vremenu. U ovoj fazi je moguće
oceniti kvalitet primenom odgovarajućih mera na izlaz algoritma, ali ocena potrebnih
resursa je prilično gruba.
U sledećem koraku, Matlab realizacija prevodi se u program napisan u
programskom jeziku C, koji koristi aritmetiku u pokretnom zarezu, ali u jednostrukoj
preciznosti. U ovom obliku znatno preciznije se mogu odrediti neophodni resursi.
Uključivanjem programske biblioteke za analizu resursa mogu se dobiti precizne
informacije o potrošnji resursa, što omogućava objektivnu osnovu za poreñenje
složenosti raznih programskih implementacija [Papp2].
U prethodnim koracima koristila se razvojna platforma PC, za koji se smatra da
ima beskonačno resursa iz aspekta realizacije algoritma. Zbog toga, algoritmi treba da
se prilagode ciljnim, namenskim platformama. U narednom koraku, postojeća
implementacija se optimizuje na nivou C jezika. Tipične operacije koje se obavljaju u
toku adaptacije namenskim strukturama su:
- optimizacija matematičkih funkcija (često uz pomoć tabela),
- kontrola upotrebe memorijskog prostora – korišćenje istog memorijskog
prostora u nezavisnim segmentima programa,
- eliminacija nepotrebnih ili dupliranih obrada,
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
89
- formiranje jezičkih konstrukcija koje omogućuju korišćenje MAC operacije
ciljne platforme.
Zahtevi
Matlab PC
Pokretni zarez (DP) Testni scenariji
Programski jezik C PC
Pokretni zarez (SP)
Programski jezik C DSP
Pokretni zarez (SP)
Programski jezik C DSP – 20 bita
Nepokretni zarez
Programski jezik C DSP – 32 bita
Nepokretni zarez
Slika 5.10 Faze u razvoju algoritama
Na kraju, potrebno je realizaciju prilagoditi platformama sa aritmetikom u
nepokretnom zarezu. U ovom koraku potrebno je voditi računa o opsezima
promenljivih, i u svakom momentu kontrolisati tačnost slaganja sa referentnom
implementacijom. Razlika u aritmetici često može maskirati grešku nastalu tokom
prilagoñenja algoritma. Aritmetika u fiksnom zarezu ne pruža komfor kao aritmetika u
pokretnom zarezu, stoga je znatno teže obezbediti isti kvalitet izlaznog signala.
Izmene realizacije algoritma u ovom koraku su značajne. Prilagoñenje ciljnoj
platformi podrazumeva zamenu tipova promenljivih i realizaciju obrade pomoću
raspoloživih operacija u fiksnom zarezu. Za olakšanje zamene, koriste se biblioteke za
emulaciju 20-to bitne i 32-bitne aritmetike u nepokretnom zarezu [Domazetović].
Upotreba biblioteke za emulaciju obezbeñuje preciznu informaciju o utrošenim
resursima i o potrebnoj procesorskoj snazi za dostizanje rada u realnom vremenu.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
90
Navedene informacije se prikupljaju tokom izvršavanja algoritma nad skupom
odabranih testnih ulaza.
U nekim momentima, usled ograničenja preciznosti fiksne aritmetike, potrebno
je vratiti se na sam početak razvoja i modifikovati odabrani pristup. Na primer, usled
velike računske osetljivosti RLS algoritma veoma ga je teško realizovati platformi sa
fiksnim zarezom, za razliku od NLMS.
Nakon svakog koraka, obavlja se kontrola kvaliteta i resursa. Ukoliko se
ispostavi da neki od kriterijuma nisu zadovoljeni, potrebno je vratiti se jedan ili više
koraka unazad, i izvršiti korektivne akcije u cilju dostizanja željenih performansi. To
može biti primena nekih tehnika optimizacije, a čak i dorada inicijalnog modela u
Matlabu.
Konačno, nakon svih koraka, polazni algoritam iste funkcionalnosti postoji u
nekoliko oblika:
- Matlab program
- program u programskom jeziku C koji koristi aritmetiku u
pokretnom zarezu, pri čemu ograničenja u pogledu resursa nisu
nužno zadovoljena, ali kvalitet odgovara željenom. Namenjen je
platformama opšte namene.
- program u programskom jeziku C koji koristi aritmetiku u
pokretnom zarezu, prilagoñen DSP.
- program u programskom jeziku C koji koristi aritmetiku u
nepokretnom zarezu, prilagoñen DSP.
Pojedini oblici istog algoritma se razlikuju po raznim osobinama: količini
angažovanih resursa, po aritmetici koju koriste, po kvalitetu, kao i po nameni. Kvalitet
je približan u svim verzijama, ali se uticaj različitih aritmetika može iskazati
odgovarajućim objektivnim merama.
5.4 Algoritmi za poboljšanje kvaliteta govornog sig nala
Algoritmi za digitalnu obradu signala mikrofonskog niza su centralni deo
programske podrške SEA2M sistema. Na osnovu ulaznih signala i postavljenih
parametara rada generišu odgovarajuće izlazne signale, pri čemu direktno utiču na
kvalitet i performanse sistema. Predstavljaju računski najzahtevnije obrade u sistemu.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
91
Na slici (Slika 5.11) prikazana je osnovna struktura skupa algoritama SEA2M,
kao i njihova povezanost. Konfiguracija sistema je prilagoñena primeni u scenarijima
koji uključuju multimedijalne mogućnosti, npr. u komunikacionom sistemu
zasnovanom na TV ureñaju ili multimedijalnom robotu. Iz toga proističu i ograničenja
i zahtevi u pogledu broja i tipa ulaznih signala.
Slika 5.11 Blok dijagram algoritama
SEA2M koristi linearni mikrofonski niz od 5 elemenata. Broj elemenata niza je
odabran formiranjem kompromisa izmeñu kvaliteta, fizičkih dimenzija sistema i
računske složenosti algoritma.
S obzirom da je rastojanje izmeñu susednih mikrofona nekoliko centimetara,
dimenzije odabranog mikrofonskog niza omogućuju laku mehaničko sprezanje sa
proizvoljnim sistemom. Takoñe, zbog postojanja stereo zvučnog signala visokog
kvaliteta koji je potrebno reprodukovati istovremeno sa govorom udaljene strane,
podržana su i dva zvučnika.
Rastojanje izmeñu mikrofona se bira tako da je manje od talasne dužine najveće
značajne frekvencije signala (polovina učestanosti odabiranja). Pošto je u takvoj
konfiguraciji fazna razlika izmeñu signala pojedinih mikrofona uvek manja od jedne
periode, postiže se najbolji učinak mikrofonskog niza sa prostornog aspekta. U ovom
sistemu, uzimajući u obzir željene učestanosti rada od 8000 Hz i 11025 Hz, odabrano
je rastojanje mikrofona od 6 cm (λmin je minimalna talasna dužina, vs je brzina zvuka u
vazduhu, a fmax je maksimalna frekvencija signala nakon odabiranja).
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
92
mHzs
m
f
vs 06.05.5512
330
maxmin ≈==λ
Sistem je skalabilan u smislu veličine i dimenzija mikrofonskog niza, kao i broja
zvučnika. Promena broja mikrofona ili zvučnika na odgovarajući način utiče i na
složenost obrade.
Sprega sistema sa okolinom je realizovana odgovarajućim signalima. Ulazni
signali u sistem su mikrofonski signali (označeni sa x1 do x5), kao signali sa bližeg
kraja komunikacionog kanala, i signali zvučnika (x7 i x8), koji sadrže govor sa
udaljenog kraja i signal lokalnog izvora, na primer TV ureñaja. Svi ulazni signali se
digitalizuju i transformišu iz vremenskog u frekvencijski domen u okviru ulaznog
stepena.
Nakon ulaznog stepena, ulazni signali dospevaju u blok za višekanalno
potiskivanje eha MC-AEC (engl. Multichannel Acoustic Echo Canceller – MC-AEC),
koji poništava akustički eho koji je nastao usled reprodukcije zvuka na zvučnicima u
istom akustičkom okruženju. Mikrofonski signali sa potisnutim ehom (SAEC1 do SAEC5)
se prosleñuju narednim blokovima.
U bloku DOA (engl. Direction of Arrival - DOA), na osnovu signala mikrofona
sa potisnutim ehom, obavlja se lociranje aktivnog govornika u horizontalnoj ravni.
Informacija o poziciji, ugao azimuta θa, prosleñuje se bloku za prostorno filtriranje
SD-BF (engl. Superdirective Beamformer – SD-BF). Od M ulaznih mikrofonskih
signala, a na osnovu informacije o položaju željenog izvora, blok za prostorno
filtriranje izdvaja jedan signal u kojem dominira signal izvora koji se nalazi na
željenom pravcu. Na taj način se ostvaruje prostorna selekcija aktuelnog govornika u
odnosu na ostale izvore (smetnji) u prostoriji, ali i smanjenje efekta reverberacije.
U blokovima PF (engl. Post Filter – PF) i NR (engl. Noise Reduction – NR) vrši
se dodatno potiskivanje svih rezidualnih signala smetnji koji nisu potisnuti prethodnom
obradom signala, i dodatno ostvaruje poboljšanje odnosa signal-šum.
Konačno, u bloku AGC (engl. Automated Gain Control – AGC) obavlja se
funkcija automatskog podešavanja nivoa izlaznog, obrañenog govornog signala. U
ovom algoritmu koristi se više informacija iz celokupnog sistema za odlučivanje o
strategiji potiskivanja preostalih smetnji u pauzama i korekcije nivoa izlaznog signala.
Na taj način se može obezbediti približno isti nivo predajnog govornog signala
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
93
nezavisno od udaljenosti aktuelnog govornika od mikrofonskog niza, a time obezbediti
njegovu bolju razumljivost na udaljenom kraju komunikacionog kanala.
Glavna karakteristika razvijenog sistema je da predstavlja integralno rešenje, što
podrazumeva potiskivanje raznih smetnji nastalih usled specifičnosti okruženja i
načina upotrebe. Tokom istraživanja, težilo se optimumu rada celokupnog sistema.
Rešenje je moguće programski prilagoditi i optimizovati željenim uslovima rada.
5.4.1 Ulazni i izlazni stepen
Ulazni mikrofonski signali se odmeravaju sa učestanošću odabiranja od 8000 Hz
ili 11025 Hz, što je zadovoljavajuće za govorne komunikacije. Povećanje učestanosti
odabiranja direktno povećava broj potrebnih matematičkih operacija za realizaciju
obrade. Osim toga, i adaptivni filtri treba da se adekvatno povećaju, jer da bi na
odgovarajući način modelovali impulsni odziv okruženja, moraju pokriti dovoljan
vremenski period zadat reverberacijom prostorije.
Obrada signala se vrši u frekventnom domenu. Signal se deli na blokove od N
tačaka koji se preklapaju 50%. Na svakom bloku se primenjuje prozorska funkcija wi,
i=1,N/2 definisana relacijama:
25.0
πθ+
=N
ii , 4/,1 Ni =
2
)cos1( 85.1i
iyθ−=
≤<≤<−≤<−
≤≤
=
+−
+
+−
NiNy
NiNy
NiNy
Niy
w
iN
iN
iN
i
i
4/3,
4/32/,1
2/4/,1
4/1,
1
2/
12/
Prozorska funkcija wi se u toku obrade primenjuje dva puta. Prvi put se njome
množe odbirci signala ulaznog bloka (N tačaka). Drugi put se njome množi rezultat
obrade nakon inverzne Furijeove transformacije na samom izlazu iz obrade. Budući da
se blokovi obrade preklapaju 50%, idealna rekonstrukcija se ostvaruje kada je kvadrat
prozorske funkcije antisimetričan oko apcise N/4. Slika 5.12 pokazuje da kvadrat
prozorske funkcije wi ispunjava ovaj uslov.
Ulazni podaci izlaznog stepena (označen sa SAGC na blok dijagramu prikazanog
na slici 5.11) su DFT koeficijenti izlaznog signala, koji se koristi za sintezu izlaza
sistema. Nad njima se prvo primenjuje inverzna Furijeova transformacija, čime se
dobija vremenski oblik obrañenog bloka. Zatim se nad dobijenim podacima i drugi put
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
94
primenjuje prozor wi, a dobijeni odbirci se 50% preklapaju sa prethodnim rezultatima.
Primenom ove metode ostvaruje se idealna rekonstrukcija bez impulsnih smetnji na
granicama blokova obrade. Preklapanje blokova obrade povećava broj potrebnih
računskih operacija, jer se svaki podatak obrañuje dva puta, ali značajno doprinosi
stabilnosti algoritama i konačnom kvalitetu izlaznog signala.
0 100 200 300 400 500 600 700 8000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
wi
wi2
2iw
2121 +−− iNw
Prethodni pod-blok [384]
Tekući pod-blok [384]
0 [128]
0 [128]
0 1024 Slika 5.12 Prozorska funkcija wi, wi2 i primena na ulazni blok podataka
Veličina osnovnog bloka podataka koji se obrañuje je N=1024 odbiraka (slika
5.12, donji deo). Vremensko napredovanje je 384 odbiraka, pri čemu blok obrade
sadrži dva takva pod-bloka, i dopunjuje se nula odbircima do veličine bloka obrade.
Ova veličina predstavlja kompromis izmeñu zahteva rada u komunikacionim
sistemima u realnom vremenu, računske složenosti i kvaliteta. Zbog primene u sistemu
koji se koristi u interaktivnom režimu, zbir algoritamskog kašnjenja i vremena prenosa
podataka mora biti manje od 150 ms [ITU-T G.114]. Odabrano napredovanje u
vremenu zadovoljava taj uslov (48 ms), i obezbeñuje prostor za prenos podataka do
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
95
vremenskog ograničenja od 150 ms. Veličina osnovnog bloka od 1024 (210=1024)
odbiraka omogućuje efikasnu realizaciju diskretne FFT transformacije na računaru.
Sa druge strane, dužina adaptivnih filtara za potrebe potiskivanja eha, a time i
veličina FFT bloka mora da bude dovoljna za efikasno modelovanje impulsnog odziva
prostorije. Imajući u vidu da je vreme reverberacije T60 ciljanih prostorija oko 300 ms,
a očekivana efikasnost bloka za potiskivanje eha je od 20dB do 30dB, odabrana dužina
bloka obrade zadovoljava i modelovanje impulsnog odziva do momenta kada snaga
reverberantnih signala opadne za 20 do 30 dB, što odgovara trećini vremena
reverberacije T60.
Realizacijom obrade u frekvencijskom domenu značajno se smanjuje broj
potrebnih operacija, kao i količina potrebnih resursa.
Ukoliko je poznato da je dužina adaptivnog filtra M, za računanje M rezultata
konvolucije u vremenskom domenu potrebno je ~M2 množenja. Isto važi i za operaciju
korelacije. Za realizaciju diskretne FFT transformacije potrebno je ~Nlog2N množenja,
gde je N veličina FFT bloka, i N=2M [Oppenheim]. Za realizaciju operacije
konvolucije i korelacije u frekventnom domenu potrebno je ~4N množenja. Ukupno za
obradu u frekventnom domenu (FFT, konvolucija i IFFT) potrebno je:
Nlog2N + 4N + Nlog2N = 2Nlog2N + 4N
= 4M log2(2M) + 8M
= 4M log2M + 12M
U tom slučaju pokazuje se da za M=1024, realizacija obrade u frekventnom
domenu naspram obrade u vremenskom domenu je skoro 20 puta brža.
5.4.2 Postupak potiskivanja akusti čkog eha
Funkcija MC-AEC bloka je potiskivanje eha u svakom od mikrofonskih signala,
nastalog usled reprodukcije signala na zvučnicima. Blok dijagram višekanalnog
algoritma za potiskivanje akustičkog eha je prikazan na slici Slika 5.13. Postoje
metode koje istovremeno obrañuju sve ulazne kanale i time smanjuju računsku
složenost, ali po kvalitetu zaostaju za odabranom metodom. Pošto se obrañeni signali u
kasnijim koracima koriste za odreñivanje pozicije govornika i prostorno filtiranje,
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
96
odabran je pristup u kojem se potiskivanje eha obavlja na svakom mikrofonskom
kanalu nezavisno, i time obezbeñuje najbolji kvalitet.
Potiskivanje eha se postiže procenom signala eha u ukupnom ulaznom signalu
dobijenih sa mikrofona, i oduzimanjem istog od mikrofonskih signala. Procena signala
eha se obavlja adaptacijom FIR filtra na osnovu poznatih signala koji stvaraju eho
(signali koji se reprodukuju na zvučnicima, X7 i X8) i signala mikrofona (X1 do X5). Cilj
adaptacije filtra je modelovanje stvarnog akustičkog puta od zvučnika do mikrofona.
Potiskivanje se obavlja na svakom paru signala nezavisno, što podrazumeva postojanje
adaptivne strukture za svaki mikrofonski signal ponaosob (NLMS1 do NLMS5), pri
čemu svaki blok krije onoliko filtara koliko ima zvučnika u sistemu.
Za adaptaciju filtra koristi se NLMS metoda. Prednosti NLMS algoritma
naspram RLS i APA su niža računska složenost, manja memorijska zahtevnost,
računska robustnost postupka i manja osetljivost na preciznost upotrebljene aritmetike
(u pokretnom ili nepokretnom zarezu). S obzirom da neke od ciljnih platformi
poseduju samo podršku aritmetici u fiksnom zarezu, računska stabilnost je takoñe
veoma značajan kriterijum izbora postupka.
Obučavanje adaptivnih struktura je kontrolisana blokom za detekciju govorne
aktivnosti (engl. Double Talk Detector – DTD) na lokalnoj strani. Zadatak DTD bloka
je da detektuje situacije kada postoje i drugi signali osim signala eha. Značajna
adaptacija filtara je tada nepovoljna, jer stanje sistema se potencijalno udaljava od
željenog optimuma. Jedan tipičan primer takve situacije je i slučaj istovremenog
govora oba učesnika u konverzaciji – adaptacija u takvom slučaju dovodi do
poništavanja i degradacije korisnog signala govora.
Adaptacija filtara se obavlja na osnovu mikrofonskih signala predstavljenih u
frekventnom domenu, referentnih signala zvučnika, kao i kontrolnog signala iz DTD
bloka. Svaki adaptivni filtar modelira prenosnu funkciju akustičkog puta od svakog
zvučnika do odgovarajućeg mikrofona. Tako na primer, NLMS1 modelira prenosne
funkcije hL1 od zvučnika Sp-L do mikrofona M1 i hR1 od zvučnika Sp-R do mikrofona
M1 u stereo sistemu. Primenom adaptiranih filtara na signale zvučnika dobija se
procena signala na mikrofonima koji su nastali kao posledica akustičkog eha.
Oduzimanjem ova dva signala postiže se potiskivanje eho signala na izlazu NLMS
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
97
algoritama. U cilju stabilnije adaptacije i boljeg potiskivanja eha koriste se DFT
koeficijenti iz prethodnih 5 blokova obrade mikrofonskih signala.
DTD
M1
NLMS 1
NLMS 5 M5
Sp-L
Sp-R
hR1
hR5
hL1
hL5
X1
X5
Xref1
Xref2
sAEC1
sAEC5
MC-AEC
Slika 5.13 Blok dijagram MC-AEC algoritma
Korišćeni faktor adaptacije predstavlja kombinaciju raznih činilaca – energije
signala, dinamike sistema i prisustva ometajućih signala. Poboljšanje se sastoji od
uvoñenja vremenski promenljivog Fµ i indikacije prisutnih signala osim eha, Dtd.
Dodatno poboljšanje brzine konvergencije algoritma postiže se i uvoñenjem
promenljive L, koji simulira višestruku iteraciju nad istim ulaznim podacima.
Uvoñenjem gore opisanih faktora i izvoñenjem dobijaju se sledeće jednačine:
Korak obrade Jednačine
Estimacija ukupnog signala eha
od svih izvora za dati mikrofonski signal i
Hji
ij XrefHD ⋅=∑
=,
2
1
ˆˆ
Greška za dati mikrofonski signal jjj DXE ˆ−=
Ažuriranje koeficijenata filtra 2,,,
*)(ˆ)1(ˆ
i
jijijiji
Xref
EXrefnHnH
⋅+=+ µ
Korak adaptacije L
ref
itdji P
XrefDF )1(1
2
, µµ −−=
L = 6
Tabela 5.4 Jednačine potiskivanja eha zasnovanog na NLMS
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
98
Fµ je vremenski opadajući faktor koji teži da stabilizuje proces adaptacije filtara
u vremenu. Njegov zadatak je da ograniči adaptaciju nakon odreñenog broja koraka.
Računa se nakon svake iteracije kao:
Fµ(n+1) = alfaF * Fµ(n) + (1-alfaF) * Fµ(∞),
sa početnim vrednošću Fµ(0) izmeñu 0.5 i 1, a konačnom vrednošću Fµ(∞) izmeñu 0 i
0.5, pri čemu je alfaF vrednost bliska 1 (Slika 5.14).
0 100 200 300 400 500 600
0.4
0.5
0.6
0.7
0.8
0.9
1
Slika 5.14 Zavisnost vrednosti faktora adaptacije Fµ od vremena (u sekundama)
Uvoñenje faktora Fµ je voñeno idejom da se nakon značajnog broja iteracija,
stanje filtara je blizu optimuma i potrebno je smanjiti mogućnost divergencije
adaptivnih struktura.
Drugi faktor koji utiče na brzinu adaptacije je Dtd. Pomenuti faktor se generiše u
modulu DTD. Cilj je da se detektuju nepovoljni momenti za adaptaciju, i da se tada
smanjivanjem faktora Dtd ograniči modifikacija koeficijenata filtra. Time se smanjuje
efekat udaljavanja od ciljnog stanja.
Ulazni stepen modula DTD je NLMS-DTD blok. Njegov zadatak je gruba
procena prenosne funkcije eha i procena samog eha. Za potrebe DTD, obrañuje se
samo prvi mikrofonski kanal. Na osnovu tih podataka, DTD blok kasnije odlučuje da li
je eho signal dominantan, i koliko je bezbedno adaptirati filtre.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
99
NLMS DTD
10 ≤≤ tdD
M1
7
8
8 c
han
nel
- F
F T
e
$y
NLMS 1
NLMS 5
MC-AEC
M5
Sp-L
Sp-R
hR1
hR6
hL1
hL6
1
5
Soft decision
Py power estimation
Power comparison
Far-end power
X1
X5
Pref power estimation
DTD
Cs
Cs refP
Dtd X7
X8
refP
yP
refP
sAEC1
sAEC5
Slika 5.15 Detaljni prikaz modula za potiskivanje eha i DTD modula
Jednačine adaptacije brzog NLMS-DTD bloka su:
Korak obrade Jednačine
Estimacija ukupnog signala eha
od svih izvora za dati mikrofonski signal i
Hi
iDTD XrefHD ⋅=∑
=
ˆˆ2
1
Greška za dati mikrofonski signal DTDDTD DXE ˆ1 −=
Ažuriranje koeficijenata filtra 2
*)(ˆ)1(ˆ
i
DTDiDTDii
Xref
EXrefnHnH
⋅+=+ µ
Korak adaptacije
L
ref
iDTDDTD P
Xref)1(1
2
µµ −−=
10 ≤< DTDµ , L = 6
Tabela 5.5 Jednačine potiskivanja eha za potrebe DTD
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
100
Koeficijenti NLMS-DTD bloka brzo konvergiraju, jer ne postoje promenljivi
faktori koji ograničavaju adaptaciju – faktor DTDµ je konstantan u vremenu, i ne zavisi
od ulaznih signala. Takoñe, kao i NLMS primenjen u prethodnom bloku, primenjen je
postupak višestruke iteracije nad istim ulaznim podacima. Na taj način, NLMS-DTD je
u stanju da se brzo prilagodi promenama u akustičkom sistemu i agresivno potisne eho.
Dolazi i do degradacije korisnog signala ukoliko je prisutan, ali to ne utiče značajno na
utvrñivanje da li je signal eha dominantan.
Izlaz iz ovog algoritma su dva signala e i y . Prvi signal e je procena govora
bliskog govornika na mikrofonu M1. Drugi signal y je estimacija aditivne
komponente signala eha u signalu mikrofona M1. Oba ova signala se koriste za
detekciju dvostruke govorne aktivnosti u narednim blokovima.
Prvi korak je računanje procena snage eha i signala eha, Py i Pref, respektivno. Na
snage oba signala se primenjuje rekurzivno usrednjavanje, tako da se dobijaju
usrednjene snage signala eha u mikrofonu M1 i signala na zvučnicima koji proizvode
eho:
yyy PPP 02.098.0 += ,2
yPy =
refrefref PPP 02.098.0 += , 2
2
8
2
7 xxPref
+=
Estimacija odnosa ove dve snage po svim frekvencijama se odreñuje veličinom
Cs, koja ukazuje na generalno pojačanje signala od zvučnika do mikrofona:
∑∑
=
== 2/
0
2/
0
)(
)(fs
f ref
fs
f y
sfP
fPC
Cs se koristi za skaliranje snaga signala zvučnika Pref za potrebe donošenja
odluke u narednom bloku, gde se odreñuje odsustvo bližeg govornika u mikrofonskom
signalu na bazi meke odluke definisane relacijom:
+
+=
δ
δλα
210
)(log
e
PCD refs
ftd , 0,0 >≈ δδ
gde je: fα - frekvencijski zavisna konstanta kojom se veštački favorizuje
dozvola za adaptaciju na višim frekvencijama, gde su snage signala manje, a time i
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
101
manja mogućnost divergencije NLMS-DTD algoritma. Veličina λ definiše minimalni
odnos snage eho signala i bliskog govornika za koji je faktor adaptacije pozitivan broj.
0 1000 2000 3000 4000 5000 60000
1
2
3
4
5
6
Slika 5.16 Zavisnost vrednosti faktora fα od frekvencije
Kontrolni signal Dtd se ograničava na opseg (0, 1], i koristi se u modulu za
potiskivanje eha u svim mikrofonskim signalima. U slučaju ako je procena snage eha
)( refsPC znatno veća od snage govora bliskog govornika 2
e , Dtd teži 1, i time je
adaptacija omogućena. Ukoliko je procena snage eha mnogo manja od snage korisnog
signala, Dtd teži 0, i sprečava adaptaciju.
0 1000 2000 3000 4000 5000 60000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 1000 2000 3000 4000 5000 60000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Slika 5.17 Vrednost faktora Dtd u funkciji frekvencije za slučaj kada je prisutan samo signal eha
(levo) i u slučaju prisutnosti i lokalnog signala (desno)
Slika 5.17 ilustruje dve tipične situacije kada modul DTD omogućuje ili
usporava adaptaciju filtara. U prvom slučaju (levo), mikrofoni registruju samo signal
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
102
eha i ambijentalni šum. Blok DTD to registruje, i povećanjem faktora vezanih za
pojedine frekvencije omogućuje adaptaciju u celom opsegu. U drugom slučaju,
prisutan je i dominantni glas lokalnog govornika, stoga su vrednosti znatno umanjene,
a adaptacija usporena.
5.4.3 Odreñivanje pozicije aktivnog govornika
Lociranje govornika u prostoru podrazumeva odreñivanje ugla azimuta, tj.
pravca iz kojeg direktni zvučni talas govornika stiže do mikrofonskog niza (ugao θ na
slici 5.18, levo). Informacija i relativnoj poziciji govornika u odnosu na mikrofonski
niz je moguće koristiti u nekoliko mogućih scenarija, npr. za zadavanje usmerenosti
prostornog filtriranja, zatim za usmeravanje kamere u pravcu trenutnog govornika u
videokonferencijskim sistemima, kao i za razne oblike interakcije sa korisnikom.
Δ
Govornik
Slika 5.18 Ugao azimuta θ ka govorniku (levo) i
razlika u putu ∆ kao uzrok vremenskog kašnjenja (desno)
Rešenje predloženo u ovoj tezi se zasniva na generalizovanoj kroskorelacionoj
analizi mikrofonskih signala, sa težinskom funkcijom PHAT. Karakteristike navedenih
algoritama niska računska zahtevnost, robustnost u prisustvu umerenog šuma i
reverberacije. Jedna od osobina sistema za slobodnu komunikaciju na rastojanjima od
nekoliko metara je da je odnos signal-šum veoma nepovoljan, i nakon potiskivanja
eha, korisni signal je često veoma male snage. Težinska funkcija PHAT čini metodu
neosetljivom na snagu signala, što je u ovakvoj postavci takoñe bitan faktor.
Specifičnost primenjenog algoritma jeste u primeni filterske funkcije )(nW koja
u cilju izdvajanja relevantnih komponenata koristi osnovne prozodijske karakteristike
govornog signala, pre svega energetsku dinamiku formantnih struktura vokala.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
103
Na slici 5.18, desno, prikazane su putanje direktnog talas od prvog i poslednjeg
elementa niza. Usled konačne brzine prostiranja zvuka kroz vazduh, zvučni talas do
prvog elementa niza stiže ranije, a do poslednjeg kasnije. Metoda generalizovane kros-
korelacije upravo odreñuje to vreme – maksimum kros-korelacione funkcije ukazuje
na relativno vremensko kašnjenje talasa izmeñu dva signala. Preduslov za primenu
metode je da se signali mikrofona odmeravaju u istim momentima, sinhrono. Na
osnovu vremenskog kašnjenja moguće je proračunati i ugao govornika naspram
mikrofonskog niza.
Usled postojanja više mikrofonskih elemenata, moguće je formirati razne parove
mikrofonskih signala i kombinovati rezultate obrade. Time se značajno povećava
pouzdanost rezultata.
Slika 5.19 Formirani mikrofonski parovi i odgovarajući frekventni opsezi
U okviru teze predložena je sledeća kombinacija od 5 elemenata mikrofonskog
niza:
1. formirana su 4 para od susednih mikrofona (rastojanje je d): 1-2, 2-3, 3-
4 i 4-5
2. formirana su 2 para od elemenata na rastojanju od 2d: 1-3 i 3-5
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
104
3. formiran je 1 par od krajnih elemenata, 1-5, pri čemu je rastojanje
izmeñu mikrofona 4d
Pošto je geometrija pojedinih parova mikrofona različita, potrebno je dobijene
rezultate kros-korelacije fazno uskladiti. Sa druge strane, u zavisnosti od rastojanja
izmeñu elemenata, osetljivost parova je različita u pojedinim delovima frekventnog
opsega. Mikrofonskim parovima manjeg rastojanja uspešnije se detektuje vremensko
kašnjenje talasa viših frekvencija, dok se povećanjem rastojanja raste osetljivost u
nižim delovima spektra. Tu činjenicu je takoñe potrebno uvažiti tokom spajanja kros-
korelacija svih parova, favorizacijom odreñenog dela spektra u funkciji rastojanja.
Blok dijagram modula za odreñivanje dolaznog ugla i prostorno filtriranje
prikazan je na slici 5.20. Funkcije odreñivanja dolaznog ugla θ i prostorno filtriranje
su povezani kroz donošenje odluke o validnosti ocenjenog dolaznog pravca u bloku za
selekciju validnog ugla.
PHAT
Kros-korelaciona
analiza
Odreñivanje težinske funkcije
)(nW
Gi,j
Gi ,j
Estimacija ugla
θ
X1
XM
θ
Fazno usklañivanje
SD BF
Selektor validnog
ugla θ v
PhatG~
)(τP hatR
B FS
DOA
Slika 5.20 Blok dijagram modula za odreñivanje pravca govornika i prostorno filtriranje
Ulaz u DOA algoritam su DFT koeficijenti mikrofonskih signala X1,…,XM iz
kojih je posredstvom AEC bloka prethodno utišan eho. Izlaz iz DOA modula je ocena
dolaznog ugla θ v akustičkog talasa bliskog govornika, proračunatu na bazi ocene
vremenskog kašnjenja signala izmeñu mikrofona.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
105
Prvi korak u odreñivanju položaja govornika jeste rekurzivno ocenjivanje
kratkovremenih korelacija Gi,j(n,f), gde i i j predstavljaju redni broj mikrofona u
mikrofonskom nizu, pri čemu indeksi jednoznačno odreñuju mikrofonski par (Slika
5.19). Ocenjivanje se vrši rekurzivnim usrednjavanjem sa dva faktora usrednjavanja α+
i α-, relacijom (n označava vremensku dimenziju, a f frekvencijski bin):
≥−−+−<−−+−
=−−
++
),(),(),1(),,(),()1(),1(
),(),(),1(),,(),()1(),1(),(
*,
*,
*,
*,
,fnXfnXfnGfnXfnXfnG
fnXfnXfnGfnXfnXfnGfnG
jijijiji
jijijiji
ji αααα
Konstante α+ i α- se biraju tako da zadovoljavaju nejednakosti 0 < α+ < α- < 1.
Pod tim uslovima se favorizuje uticaj članova ),(),( * fnXfnX ji sa većim modulom.
Isticanje frekvencijskih binova sa najvećom snagom obezbeñuje se primenom
težinskog vektora ),( fnW koji se odreñuje na osnovu snage i dinamike signala na
sledeći način:
1) Računa se trenutna srednja snaga mikrofona na svim frekvencijskim binovima f
relacijom
∑ == M
k kkt fnXfnXM
fnP1
* ),(),(1
),(
2) U cilju robustifikacije sistema, vrši se filtriranje spektra snage pokretnim
usrednjavanjem:
∑ =+= 2/
2/),(),(
L
Lk tke kfnPwfnP
gde su w-L/2, w-L/2+1, … , wL/2-1, wL/2 težinski koeficijenti usrednjavanja.
3) Primenjuje se isticanje članova sa porastom trenutne snage signala, jer je nagli rast
snage signala u vezi sa pojavom direktnog talasa nakon kratke pauze. Ovo se
realizuje tako što se trenutna snaga prvo filtrira u vremenu, a zatim izdvaja
pozitivan gradijent porasta snage signala relacijama:
)(,2.0),1(8.0),( fPfnPfnP epp +−=
0),,1(),(max)( fnPfnPfw pe −−=
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
106
Postepeni pad snage signala potiče velikim delom od reverberacije prostorije,
stoga se negativne vrednosti w(f) se izjednjačavaju sa nulom.
4) Odreñivanje minimuma snage signala koji predstavlja stacionarni šum. Ovo se
realizuje rekurzivnim usrednjavanjem trenutne srednje snage sa dva faktora
usrednjavanja relacijom, pri čemu su koeficijenti odabrati tako da se ističu manje
vrednosti snaga.
−≤+−−>+−
=),1(),(),,(8.0),1(2.0
),1(),(),,(002.0),1(998.0),(
fnPfnPfnPfnP
fnPfnPfnPfnPfnP
ee
ee
λλ
λλλ
5) Smatra se da ukupna snaga signala treba da je znatno veća od nivoa stacionarnog
šuma. Ukoliko je srednja snaga signala manja od praga odluke definisanog sa
),( fnPD λαλ = , odgovarajući član težinskog vektora ),( fnW se izjednačava sa
nulom. Konačan izraz za ),( fnW jednak je:
( ) )(0,),(),(max),( fwfnPfnPsignfnW e λα−=
gde je α, α=2, faktor uvećanja prvobitne procene snage smetnji za 3dB.
Rastojanje elemenata
[cm]
Frekventni opseg
[Hz]
Faktor decimacije
1d = 6 cm 2000-3800 4
2d = 12cm 1200-3600 2
4d = 24 cm 600 - 1800 1
Tabela 5.6 Tabela razmatranog frekventnog opsega i faktora decimacija za pojedina rastojanja
elemenata mikrofonskih parova
U narednom bloku se obavlja fazno usklañivanje korelacionih funkcija u cilju
generisanja jedinstvene procene kompleksne kros-korelacije svih razmatranih
mikrofonskih parova. Obavljaju se sledeće operacije:
1) Ponderisanje svih ulaznih kroskorelacija Gi,j(n,f) težinskim vektorom ),( fnW
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
107
2) Na osnovu rastojanja izmeñu elemenata mikrofonskog para, bira se frekventni
opseg koji je pogodan za dato rastojanje (Tabela 5.6). Komponente signala van
odabranog opsega se anuliraju, i time se njihov uticaj eliminiše.
3) Na osnovu rastojanja, bira se i faktor decimacije za objedinjavanje kros-
korelacionih funkcija u jedinstvenu funkciju (Tabela 5.6). Faktor decimacije se
koristi za usklañivanje faznih stavova korelacionih funkcija parova mikrofona
različitog rastojanja. Nakon usklañivanja, korelacione funkcije se sabiraju. Izlaz iz
ovog sabirača je kompleksna kroskorelacija GPhat (n,f) koja odgovara rastojanju
mikrofona 1 i 5.
4) Da bi se umanjila varijansa procene korelacione funkcije, dobijena kompleksna
korelacija GPhat(n,f) se dodatno filtrira IIR filtrom u vremenu:
),(
),(5.0),1(
~5.0),(
~
ftG
ftGftGftG
Phat
PhatPhatPhat +−=
U bloku sa oznakom PHAT realizuje se fazna transformacija. Naime,
normalizacijom kroskorelacije na svoj moduo gubi se informacija o snazi signala, a
ostaje samo informacija o fazi u kojoj je sadržano relativno vremensko kašnjenje
signala. Vremenski domen generalizovane kroskorelacije ),( τnRPhat , u zavisnosti od
diskretne vrednosti kašnjenja τ, dobija se relacijom:
∑−
=
=1 2
),(~
),(~
),(N
of
N
fj
Phat
PhatPhat e
fnG
fnGnR
τπ
τ
Gornji izraz predstavlja inverznu DFT transformaciju kompleksne fazne
trasformacije ),(
~),(
~
fnG
fnG
Phat
Phat , gde je N broj tačaka za DFT.
Nalaženjem maksimuma generalizovane kroskorelacije ),( τnRPhat odreñuje se
relativno vremensko kašnjenje τr akustičkih talasa na mikrofonima. Budući da je
kroskorelacija ),( τnRPhat grubo diskretizovana u vremenu, u cilju preciznijeg
odreñivanja kašnjenja vrši se kvadratna interpolaciji na intervalu od 3 tačke u okolini
lokalnog maksimuma. Na osnovu procene vremenskog kašnjenja τr, geometrijskog
rasporeda mikrofona i brzine zvuka, na izlazu bloka za estimaciju ugla dobija se
trenutna procena pravca aktivnog govornika izraženu uglom θt.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
108
Na slici 5.21 prikazan je geometrijski raspored mikrofonskog niza i govornika. S
obzirom da su tipične dimenzije mikrofonskog niza desetine centimetara, a rastojanje
govornika L je nekoliko metara, može se pretpostaviti da je ugao φ veoma blizak
pravom uglu. Tada, ukoliko se uzima da je 0→L
d, ugao θt se može izračunati kao:
)arcsin(dMt ⋅
∆≈θ
Mik
rofo
nski
niz
Slika 5.21 Geometrijski raspored mikrofona i govornika
Korektnost ocenjenog ugla θt testira se primenom superdirektivnog prostornog
filtra. U tom cilju se superdirektivni prostorni filter usmeri u pravcu poslednje procene
ugla θt(n) i u pravcu (tekućeg) validnog ugla θv(n-1) iz prethodnog bloka obrade n-1.
Ukoliko je snaga signala iz pravca θt(n) veća od snage signala iz pravca θv(n-1), ugao
θt(n) postaje validan (θv(n)=θt(n)). U suprotno zadržava se prethodna validna ocena
(θv(n)=θv(n-1)).
5.4.4 Prostorno filtriranje
U razvijenom sistemu prostorno filtriranje je realizovano neadaptivnim filtrom
sa superdirektivnom prostornom karakteristikom. Razlog izbora superdirektivnog
mikrofonskog niza je njegova robusnost u odnosu na reverberaciju prostorije. U
dizajniranju superdirektivne karakteristike se koriste dve pretpostavke:
1) Akustičko polje šuma u prostoriji je difuzno, što znači da akustičke smetnje
podjednako dolaze iz svih pravaca. Ovom pretpostavkom se dobro aproksimira
situaciju kada je izvor šuma dosta udaljen od mikrofonskog niza te je njegov
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
109
direktni talas mnogo slabiji od ukupne snage reflektovanih talasa (mikrofonski
niz je van direktnog polja).
2) Upadni ugao direktnog talasa aktivnog govornika je poznat i da je on jednak θv.
Na slici 5.22 dat je blok dijagram algoritma za prostorno filtriranje. Suština
formiranja superdirektivnog prostornog filtra jeste u odreñivanju njegovih težinskih
koeficijenata WML. Oni se odreñuju na bazi koherencije parova susednih mikrofona u
mikrofonskom nizu, uz pretpostavku difuznog akustičkog polja u prostoriji sa
reverberacijom, i vektora usmerenja na pravac odabranog govornika definisan
azimutom θv .
X1
θv Vektor usmerenja
Težinski koeficijenti
SBF
d
Prostorno
filtriranje
WML
XM
SD-BF
Slika 5.22 Blok dijagram algoritma za prostorno filtriranje
Prostorni filter se realizuje težinskim sabiranjem mikrofonskih signala prema
relaciji:
XWS *=BF
gde je S izlaz iz prostornog filtra, W je vektor kompleksnih težinskih koeficijenata, a
X je matrica DFT koeficijenata mikrofonskih signala. Sa * je označeno konjugovano
kompleksno transponovanje vektora. Kada je poznata matrica kroskorelacija šuma na
mikrofonima nnΦ , optimalni vektor težinskih koeficijenata W se odreñuje rešenjem
MVDR kriterijuma [Simmer]:
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
110
dΦd
dΦW
1
1
−
−
=nn
Hnn
gde je sa d označen vektor usmerenja mikrofonskog niza na odabrani pravac θ opisan
relacijom:
))1(2exp()2exp(1[ θθ τπτπ fmjfj −−−= Ld , c
d vθτ θsin
=
pri čemu d je rastojanje mikrofona, a c brzina zvuka. U slučaju difuznog šuma,
kovarijaciona matrica nnΦ se zamenjuje matricom koherencija:
=
nnn
n
nn
ГГ
ГГ
L
LLL
L
1
111
Γ
čiji se elementi izražavaju relacijom:
=
≠−
−
=
jiza
jiza
c
djif
c
djif
Г ij
1
2
2sin
π
π
Iz gornjih jednačina sledi izraz:
dd
dW
1
1
−
−
ΓΓ=
nnH
nn
Nedostatak rešenja izraženog gornjom relacijom je potencijalna nestabilnost za
one učestanosti za koje je matrica blizu singulariteta ( det( nnΓ ) ≈ 0 ). Da bi se
otklonila ova nestabilnost, uvodi se regularizacioni član na dijagonali:
dd
dW
1
1
)(
)(−
−
+Γ+Γ=
I
I
nnH
nn
δδ
Sa stanovišta računske implementacije algoritma, matrica 1)( −+Γ= Inn δP se
računa za svaku učestanost jedanput, na početku, u toku inicijalizacije algoritma, dok
se vektor d računa za svaku promenu usmerenja θv. I pored toga računanje težinskih
koeficijenata je dosta zahtevno i sadrži približno (m x m) kompleksnih množenja za
svaki DFT bin. Da bi se broj računskih operacija redukovao, eksplicitno se računaju
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
111
koeficijenti težinskog vektora W za svaki 4-ti bin, dok se vrednosti ostalih binova
linearno interpoliraju.
-100 -50 0 50 100-40
-35
-30
-25
-20
-15
-10
-5
0
5
Ugao [stepen]
Pot
iski
vanj
e [d
B]
Prostorna karakteristika filtra
500 Hz
1000 Hz1500 Hz
2000 Hz
Slika 5.23 Prostorna karakteristika filtra u govornom opsegu
Primenom gore opisanog postupka, postignuta je prostorna karakteristika
prikazana na slici 5.23. Kao što se vidi, na nižim frekvencijama je potiskivanje
prostorno rasporeñenih smetnji manja, dok porastom frekvencije karakteristika je sve
uža, tj. mikrofonski niz je sve usmereniji.
5.4.5 Post-procesiranje
U domenu mikrofonskih nizova, pod postprocesiranjem se podrazumeva obrada
signala nakon prostornog filtriranja jednokanalnim filtrom za potiskivanje šuma.
Teorijska optimalnost postprocesiranja opisana je u [Simmer]. Pokazano je da se
optimalni MMSE (Minimum Mean Square Error) potiskivač bočnih smetnji za
širokopojasne signale može dekomponovati na dva bloka. Prvi blok je višekanalni
potiskivač šuma minimalne varijanse bez distorzije MVDR (Minimum Variance
Distortionless Response) iza koga sledi drugi blok obrade za tzv. postprocesiranje,
predstavljen jednokanalnim Wienerovim filtrom:
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
112
4342143421filterpostWiener
outnnss
ss
MVDR
nnH
nnopt
−
−
−
+=
φφφ
dΦddΦ
W1
1
U okviru bloka za prostorno filtriranje je opisan prvi član gornjeg izraza. U
modulu za post-procesiranje potrebno je proceniti veličine φss i φnnout da bi se došlo do
prenosne funkcije post filtra:
outnnss
sspostH
φφφ+
=
Osnovni problem u dizajniranju postfiltra jeste procena odnosa signal/šum i
primena te procene za kreiranje optimalnog filtra. U većini slučajeva se usvaja
pretpostavka da je polje šuma idealno difuzno. Realno polje naravno odstupa od
pretpostavljenog idealnog modela. U okviru rešenja implementirano je originalno
rešenje [Šarić1] koje ne zahteva da polje šuma bude idealno difuzno. Potrebno je
jedino da funkcija koherencije bude vremenski nepromenljiva, što je ispunjeno u
stacionarnim uslovima kada mikrofonski niz i prisutne smetnje ne menjaju svoj
položaj u prostoru. Pod tim uslovima optimalni post-filtar se može izraziti preko
faktora slabljenja šuma AΓ (recipročna vrednost pojačanja mikrofonskog niza), koji se
iz dostupnih merenja ocenjuje rekurzivno.
X1
Procena AΓ
SPF
XM
SBF
Procena Φxx
Procena Φyy
Računanje
koeficijenata post-filtra
xxφ
ΓA Post- filtriranje
postH
POST-PROCESSING
yyφ
Slika 5.24 Blok dijagram modula za post filtriranje
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
113
Slika 5.24 prikazuje blok dijagram modula za post filtriranje. Generalno, modul
se može podeliti na tri dela:
1. Procenu vrednosti potrebnih za računanje koeficijenata post-filtra
2. Odreñivanje koeficijenata post-filtra
3. Post-filtriranje
U tezi je predložen nov postupak estimacije postfiltra, koji je primenjiv i u
slučaju kada je koherencija različita od nule, a pri tom nepoznata. Estimacija
optimalnog post-filtra je moguća uz pretpostavku da je koherencija vremenski
nepromenljiva.
Signali na mikrofonima, opisani m-dimenzionim vektorom x=[x1,…,xm]′, gde je
m broj mikrofona, generišu se modelom:
ndx += s
gde je s skalarni govorni signal odabranog govornika, d je vektor prenosa od
odabranog govornika do svakog od mikrofona, a n, n=[n1,…,nm]′, je vektor aditivnih
smetnji na mikrofonima. Ne umanjujući opštost modela, pretpostavimo da vektor
prenosa d sadrži samo kašnjenja signala iz čega sledi
dH d = m
gde je m broj mikrofona. Izlaz iz prvog bloka MVDR potiskivača, opisuje se
relacijom:
xwHy =
Iz uslova jediničnog pojačanja za koristan signal (kriterijum za MVDR) sledi:
wHd = 1
Uz pretpostavku da su signal i šum meñusobno nekorelisani, snaga signala na
izlazu MVDR bloka * yyEyy =φ , jednaka je:
nnssnnH
ssyy A φφφφ Γ+=+= wΦw
gde je AΓ faktor potiskivanja šuma. Srednja snaga signala mikrofona xxφ ,
∑−
== 1
0
1 m
i ixixxx mφφ jednaka je nnssxx φφφ += , na osnovu čega se dobijaju procene snage
signala i šuma, izraženi preko gustina spektra snage ulaznih signala u modul:
Γ
Γ
−−
=A
A xxyyss 1
φφφ
Γ−−
=A
yyxxnn 1
φφφ
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
114
Veličine xxφ i yyφ je moguće estimirati rekurzivno sa:
mtttt Hxxxx /)()()1()1(ˆ)(ˆ xxλφλφ −+−=
wxxw )()()1()1(ˆ)(ˆ tttt HHyyyy λφλφ −+−=
Faktor potiskivanja šuma AΓ je takoñe nepoznata veličina i ocenjuje rekurzivno
na osnovu gustina spektra snage mikrofonskih signala i izlaza prostornog filtra.
Ako se isključe neki specijalne slučajevi superdirektivnih mikrofonskih nizova,
prirodna ograničenja za AΓ su:
0 < AΓ < 1
Neka je promenljiva )(~
tAΓ zadata sa:
)()(
)()(
)(
)()(
~
tt
tAt
t
ttA
nnss
nnss
xx
yy
φφφφ
φφ
++== Γ
Γ
za koju važi sledeća nejednakost:
1)(~
0 <≤< ΓΓ tAA
Može se zaključiti da je donja granica promenljive )(~
tAΓ upravo )(tAΓ , a ona se
dostiže za vreme pauze u govoru, odnosno kada je 0)( =tssφ . To se može iskoristiti za
procenu faktora slabljenja šuma )(tAΓ . Kao jedan od mogućih postupaka estimacije,
predlaže se rekurzivno usrednjavanje IIR filtrom prvog reda sa različitim konstantama
uspona i pada prema relaciji:
)1(ˆ)(~
)1(ˆ)(~
),(~
)1()1(ˆ),(
~)1()1(ˆ
)(ˆ−≥−<
−+−−+−=
ΓΓ
ΓΓ
ΓΓ
ΓΓΓ
tAtAza
tAtAza
tAtA
tAtAtA
ss
pp
αααα
10 <<< sp αα
gde su αp i αs konstante eksponencijalnog usrednjavanja redom za vreme pada,
odnosno rasta procene )(ˆ tAΓ . Manja konstanta αp u odnosu na αs obezbeñuje bržu
adaptaciju na manje vrednosti vrednosti )(~
tAΓ i time bolju procenu )(tAΓ . Sa druge
strane, premala vrednost αp smanjuje robusnost procene u odnosu na prisutna
odstupanja sa ekstremno niskom vrednošću )(~
tAΓ . Stoga je potrebno opredeliti se za
kompromisnu vrednost αp.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
115
Smenom procena umesto xxφ , yyφ i )(tAΓ u jednačinu za post-filtar, dobija se
relacija za koeficijente post-filtra:
( ) )(ˆ)(ˆ1
)(ˆ)(ˆ)(ˆ
)(ˆ)(ˆ)(ˆ
)(ttA
ttAt
tt
ttH
yy
xxyy
nnss
sspost φ
φφφφ
φ
Γ
Γ
−−
=+
=
Zbog mogućih grešaka u oceni parametra, uvodi se dodatno ograničenje filtra
Hpost(t), 0 ≤ Hpost(t) ≤ 1.
U praksi se pokazuje korisnim da faktor adaptacije αs u početku ima manju
vrednost, da bi početna konvergencija procene )(ˆ tAΓ bila brža. U ustaljenom režimu
αs treba da ima veću vrednost kojom se postiže mala varijansa procene. Da bi se ovo
postiglo faktor αs se menja sa svakim blokom obrade prema relaciji:
ess ααα 1.09.0 +=
uz početni uslov αs=α0 za t=0, pri čemu je ispunjeno 0 < αp < α0 < αs < αe < 1. Faktor
adaptacije αp je konstantan.
Na osnovu relacije za koeficijente post-filtra, računaju koeficijente post-filtra, i
primenjuju na ulazni signal SBF, i na taj način se generiše izlazni signal SPF.
Predloženi postupak je pogodan za DSP implementaciju, budući da je manje
zahtevan sa stanovišta potrebnih računarskih i memorijskih resursa u odnosu na
poznate algoritme koji zahtevaju procenu i memorisanje matrice korelacija
mikrofonskih signala.
5.4.6 Potiskivanje stacionarnog šuma
Modul za potiskivanje stacionarnog šuma se zasniva na metodi oduzimanja
spektra. Cilj modula je da se na osnovu karakteristika ulaznog signala ocene prenosna
karakteristika Wienerovog filtra, čijom primenom se potiskuje šum u ulaznom signalu.
Na slici je prikazana struktura modula za potiskivanje šuma. Ulaz u sistem je
signal SPF, koji sadrži govorni signal i rezidualne signale smetnji, koji se u ovom
algoritmu tretiraju kao aditivni šum N, i koji potiču od akustičkog eha, akustičkih
smetnji u prostoriji i reverberacije prostorije. Redukcija šuma se obavlja Wienerovim
filtrom koji za formiranje svoje prenosne karakteristike koristi estimaciju snage šuma
NP . Ona se odreñuje pomoću tri modula:
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
116
• brzog algoritma estimacije šuma,
• sporog algoritma estimacije šuma i
• nelinearnog kompresora dinamike estimacije šuma realizovanog u četiri
spektralna podopsega.
SPF
SNR
Spora procena šuma
Nelinearni
kompresor
Potiskivanje šuma
NRH
NR
Brza procena šuma
SN
FN
Slika 5.25 Blok dijagram algoritma za potiskivanje šuma
U prva dva bloka vrši se procena šuma na bazi estimacije minimuma snage
signala. U oba bloka se procena šuma vrši estimacijom snage sa bržom adaptacijom na
minimum snage (negativan trend procene) i sporom adaptacijom na maksimum snage
(pozitivan trend procene snage) relacijama:
≤−+>−+=+
−−
++
),(ˆ),(),,()1(),(ˆ),(ˆ),(),,()1(),(ˆ
),1(ˆfnNfnNzafnNfnN
fnNfnNzafnNfnNfnN
FFF
FFFF αα
αα
≤−+>−+=+
−−
++
),(ˆ),(),,()1(),(ˆ),(ˆ),(),,()1(),(ˆ
),1(ˆfnNfnNzafnNfnN
fnNfnNzafnNfnNfnN
SSS
SSSS αα
αα
pri čemu n označava redni broj bloka podataka koji se obrañuje, f označava frekvenciju
u spektru, N(n,f) je gustina spektra ulaznog signala. Za izbor vrednosti faktora
adaptacije važi relacija:
1 0 <<<<< ++−− SFSF αααα
Trenutna adaptacija na minimum snage ne daje dobre rezultate, jer DFT
koeficijenti na pojedinim blokovima imaju ekstremno nisku snagu, čime se naglo
remeti prethodna procena snage šuma.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
117
U algoritam su uvedena dva estimatora iz razloga što spora procena šuma sporo
reaguje na pad snage signala na krajevima fonema. Ako bi se ona upotrebila za
Wienerovo filtranje, došlo bi do odsecanja delova fonema sa umanjenom energijom i
smanjila bi se razumljivost govora. Da bi se ovo sprečilo, procena šuma treba brzo da
pada na delovima na kojima pada i snaga govornog signala. Ovo se postiže algoritmom
sa brzom adaptacijom. Sa druge strane, brza procena šuma nije dobra, jer proizvodi
prekomerno odsecanje govornog signala. Iz ovoga sledi zaključak da su potrebne obe
procene i iz njih treba na pogodan način oceniti stvarnu snagu šuma.
Brza i spora procena šuma se kombinuju u narednom bloku označenom kao
nelinearni kompresor. Tu se primenjuje sledeća nelinearna funkcija:
≤
>
=
SFF
SF
S
FS
NNzaN
NNzaN
NN
N
ˆˆˆ
ˆˆˆ
ˆˆ
ˆ
β
βα
gde se parametrom α, (0.25≤α<0.5) reguliše stepen kompresije dinamike procene
šuma, a parametrom β definiše uvećanje procene šuma (engl. noise power
overestimation). Smisao nelinearne transformacije je u sledećem:
• Kada je brza procena šuma FN veća od spore procene SN , primenom brze
procene došlo bi do prekomernog utišavanja korisnog signala. U tom slučaju se
vrši kompresija dinamike procene šuma.
• U slučaju kada je brza procena manja od spore procene, ne primenjuje se
kompresija kako bi procena šuma što brže opala. Time se sprečava otsecanje
delova fonema na krajevima reči kada zbog brzog pada snage signala visoka
vrednost procene šuma sporog estimatora ne može da prati dinamiku pada
snage signala.
Odnos korisnog govornog signala i šuma je znatno nepovoljniji na visokim
učestanostima zbog prirodnog pada snage govora u tom delu spektra. Stoga se definišu
posebni parametri kompresora α i β za 4 karakteristična opsega učestanosti (0-
2000Hz), (2000-2500Hz), (2500-3500Hz) i (3500-5012Hz), saglasno očekivanom
odnosu signal/šum.
Konačno, u bloku za filtriranje Wienerovim filtrom vrši se potiskivanje šuma
primenom sledeće prenosne funkcije:
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
118
−= 0,
)(
ˆ)(max)( 2
22
fS
NfSfH
PF
PF
NR
Realizovani algoritam je u stanju da potisne stacionarni šum za 6dB. U slučaju
pojave nestacionarnih smetnji, moguća je pojava muzičkih tonova, što je i poznati
nedostatak pristupa zasnovanih na oduzimanju spektra. Efekat je ublažen
odgovarajućim podešavanjem parametara algoritama.
5.4.7 Automatska regulacija poja čanja
Blok za automatsku regulaciju pojačanja se nalazi na samom kraju lanca obrade,
iz razloga što unosi nelinearnu modifikaciju u signal, što bi bio ometajući faktor za rad
ostalih blokova ukoliko bi se on našao na samom početku lanca. Cilj uvoñenja AGC
bloka je da adaptivnim pojačavanjem i utišavanjem pojedinih segmenata signala
doprinese kvalitetu izlaznog signala, povećavajući njegovu razumljivost.
Zadaci AGC bloka su:
• da pojača slabe govorne signale, ali i da oslabi previše jake signale
prema unapred zadatoj karakteristici kompresije dinamike signala, i
time održava relativnu konstantnu snagu signala
• da na delovima ulaznog signala gde je prisutan samo smetnja (eho
signala, stacionaran šum ili konkurentni govornik), smanji pojačanje
kako bi se ove smetnje potisnule, i
• da utiša delove ulaznog signala gde su jednovremeno prisutni i koristan
govorni signal i smetnje, a da pri tome očuva razumljivost govora.
AGC
γ
Pn
Računanje nagiba karakteristike kompresora
Kompresor dinamike sa adaptivnim nagibom
karakteristike
Pecho
SNR SAGC
Slika 5.26 Blok dijagram modula za automatsku regulaciju pojačanja (AGC)
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
119
Osnovnu funkciju AGC algoritma obavlja modul za kompresiju dinamike
govornog signala. Karakteristika kompresije je adaptivna kako bi ispunila prethodno
postavljene zahteve, a nagib karakteristike kompresije se na kompleksan način
odreñuje estimiranim snagama govornog signala, eha i difuznog šuma.
Da bi se realizovao prvi zadatak, vrši se procena snage govornog signala Pd iz
datog pravca (nakon prostornog filtriranja) eksponencijalnim usrednjavanjem sa
trenutnom adaptacijom na vršnu vrednost Pdt:
∑ == N
f NRd fSN
P1
2)(
1
−<−+−−≥
=)1()(),()1()1(
)1()(),()(
tPtPjeakotPtP
tPtPjeakotPtP
dpddddpd
dpdd
dp αα, αp=0.98.
Na osnovu tako dobijene procene vršne snage govornog signala računa se
pojačanje signala koje je veće ukoliko je snaga signala manja od željenog nivoa
signala. Iz više razloga, ne vrši se potpuna, već delimična kompenzacija nivoa signala.
Relacija koja povezuje izlazni nivo Lout = 20log10(Pout), nominalni (željeni) nivo
izlaza Lnom i ulazni nivo Lin = 20log10(Pin) data je formulom:
Lout = Lnom + γ(L in - Lnom)
Kada je nagib γ jednak 1, tada nema kompresije, jer je izlazni nivo signala
jednak ulaznom Lin. Kada je nagib jednak γ =0, tada je kompresija potpuna, jer za bilo
koji ulazni nivo, nivo signala na izlazu je jednak nominalnom. U normalnom režimu
rada algoritma, promenljiva γ je veća od 0, a manja od 1. Regulacijom pojačanja se u
uvom slučaju pojačavaju slabi ulazni signali, ali se u izlaznom signalu ipak zadržava
odreñena dinamika ulaza. Da bi se dostigla regulacija nivoa prema zadatoj relaciji,
ulazni signal treba pomnožiti izračunatom konstantom pojačanja Aagc prema relaciji:
)1(5.0 γ
α
−
+=
nomin
nomagc PP
PA α=0.001
gde konstanta α, ima funkciju da ograniči pojačanje kada je snaga ulaznog signala
jednaka nuli, Pnom je nominalna snaga, tj. željeni nivo izlaza, a Pin je snaga ulaznog
signala koji se sastoji od korisnog signala, rezidualnog eha i šuma, i zadaje se kao:
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
120
nechodpin PPPP ++=
Signal rezidualnog eha se dobija iz bloka za potiskivanje eha, dok se procena
aditivnog difuznog šuma dobija od post-filtra. Snaga rezidualnog eha i procena
aditivnog difuznog šuma se dodaju proceni trenutne snage signala u cilju sprečavanja
isticanja signala akustičkih smetnji u prostoriji.
Neposredna primena relacije za računanje pojačanja za unapred fiksiranu
vrednost veličine γ ne daje dobre rezultate, jer jednako tretira zaostale smetnje i
koristan signal. Kada su prisutne samo smetnje dolazi do njihovog pojačanja, što je
nepoželjan efekat. Da bi se to izbeglo, potrebno je detektovati i razdvojiti sledeće
slučajeve:
a) pauza u korisnom signalu,
b) prisutan rezidualni eho, i
c) konkurentni govornik ili akustička smetnja.
Kada se detektuje bilo koji od ovih slučaja, potrebno je promenljivu γ izjednačiti
sa vrednošću 1 i tako sprečiti pojačavanje smetnji.
Pauza u korisnom signalu se razlikuje od govornog signala po stacionarnosti.
Govorni signal, ma koliko bio slabog intenziteta, nestacionaran je u vremenu, dok je u
pauzi prisutan sporopromenljivi ambijentalni šum. Linearni trend snage signala TP
normalizovan na snagu je dobar pokazatelj nestacionarnosti signala. Tome treba dodati
i pokazatelj konveksnosti trajektorije CP koji je negativan na lokalnom maksimumu.
( )∑ =−−= 3
0)(2/39375.0
i dpP itPiT
[ ] 0,)3()()2()1(1.5938max −−−−+−−= tPtPtPtPC dpdpdpdpP
Na osnovu gornjih vrednosti se računa indikator govorne aktivnosti Vt na osnovu
nestacionarnosti trajektorije snage:
nomdp
PPt PP
CTV
006.0++=
Vt se dodatno filtrira u vremenu da bi se sprečilo odsecanje kraja reči sa malom
energijom, ali u slučaju porasta Vt adaptacija je trenutna, u cilju brže detekcije početka
govora:
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
121
−<+−−≥
=)1(,07.0)1(93.0
)1(,)(
tVVjeakoVtV
tVVjeakoVtV
tt
tt
a zatim se V(t) ograničava na opseg 0 ≤ V(t) ≤ 1.
Veličina γ predstavlja stepen kompresije dinamike signala. Izračunava se na
osnovu prethodno izračunate veličine V(t) i veličine γmax koja predstavlja zadatu
maksimalnu vrednosti nagiba. Veličina γ se računa relacijom:
3max
3
max )(5.2
)(5.21
tV
tV
++=
γγγ
Granične vrednosti nagiba γ su:
=
→=+=
kompresijenematVza
kadavelikajekompresijatVza
,0)(1
0,1)(5.2
5.3
maxmax γ
γγγ
Slika 5.27 ilustruje slučaj kada je snaga ulaznog signala 10 puta manja od željene
snage. U zavisnost od stacionarnosti ulaznog signala zavisi i nagib, pa se pojačanje
bira sa date krive.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 11
1.5
2
2.5
3
3.5
4
4.5
Nagib
Poj
acan
je
Zavisnost pojacanja od nagiba
Slika 5.27 Zavisnost pojačanja od nagiba za Pin=0.1Pnom
Izračunato pojačanje se primenjuje na samom izlazu iz modula na ulazni signal:
SAGC=SNR⋅Aagc
Realizovani algoritam veoma efikasno pojačava željeni signal, pri čemu se na
odgovarajući način obrañuju situacije kada smetnje dominiraju. Detekcija govorne
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
122
aktivnosti na osnovu nestacionarnosti signala uspešno detektuje period govora, stoga
se problemi gubitka fonema na početku i kraju reči ne javljaju. Takoñe, uključivanje
procene snage smetnji u odlučivanje povoljno utiče na upravljanje pojačanjem, u
smislu da se akustičke smetnje u signalu ne pojačavaju.
5.4.8 Adaptivno sabiranje signala
Potreba za adaptivnim sabiranjem signala se javlja usled postojanja i dolaznog
kanala, kao i lokalnog izvora zvuka koji se reprodukuje zajedno sa govorom udaljene
strane. Zadatak modula je da ta dva signala sabere na način koji obezbeñuje najbolju
razumljivost govora udaljene strane, ali uz istovremenu reprodukciju zvuka lokalnog
izvora.
Dolazni zvuk SRemote je jednokanalni, i obično je to govorni komunikacioni
kanal, pri čemu su odbirci odmeravani na 8 kHz ili 11 kHz. Signal lokalnog izvora SLR
je stereo, visokog kvaliteta (44.1 kHz ili 48 kHz), i može biti raznolikog sadržaja –
govor, muzika, itd.
AM
Računanje
koeficijenata pojačanja
SLR
SRemote
GLR
GRemote
SAM
Slika 5.28 Blok dijagram modula za adaptivno sabiranje signala
Govor udaljene strane se smatra dominantnim - ukoliko postoji, potrebno je
utišati zvuk lokalnog izvora, pojačati govor i sabrati ta dva signala:
motemoteLRLRAM SGSGS ReRe+=
Snaga rezultujućeg signala treba da bude kao i signal lokalnog izvora:
LRmotemoteLRLRAM PPGPGP ≈+≈ Re2Re
2
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
123
Kada nema govora sa udaljene strane, zvuk lokalnog izvora se reprodukuje
nepromenjeno.
Prvi korak obrade je odreñivanje zvučne aktivnosti na pojedinim kanalima. To se
najjednostavnije može uraditi poreñenjem snage signala sa graničnom vrednošću PVTH.
VLR i VRemote su indikatori aktivnosti na kanalima lokalnog izvora i udaljenog govora
respektivno, pri čemu mogu imati vrednosti 0 ili 1, gde 1 označava postojanje
aktivnosti.
U zavisnosti od vrednosti VRemote, pristupa se adaptaciji pojačanja GLR po sledećoj
relaciji:
=−+−=−+−
=++
−−
0)(,)1()1(
1)(,)1()1()(
max
min
tVGtG
tVGtGtG
remoteLRLRLRLR
remoteLRLRLRLRLR αα
αα
Tipične vrednosti konstanti su: 1,1.0,99.0,5.0 maxmin ==== +− LRLRLRLR GGαα .
Kada je Vremote(t) = 1, vrednost faktora adaptacije obezbeñuje da pojačanje GLR
brzo konvergira ka minimalnom pojačanju, što dovodi do utišavanja zvuka lokalnog
izvora, time dajući mogućnost da udaljeni govor doñe do izražaja.
U suprotnom slučaju, vrednost pojačanja GLR polako raste ka maksimalnoj
vrednosti, ali tek nakon odreñenog vremena neaktivnosti, reda veličine nekoliko
sekundi. Umeren rast pojačanja obezbeñuje prijatniju dinamiku signala tokom govorne
komunikacije.
Na osnovu vrednosti VLR odreñuje se vršna procena snage SLR signala. Procena se
obavlja rekurzivno sa različitim faktorima za rast, pri čemu VLR koristi za detektovanje
pauza u signalu. Procena vršne snage signala lokalnog izvora )(ˆ tPLR se obavlja kada je
VLR = 1, po relaciji:
−≥−+−−<−+−=
++
−−
)1(ˆ)(),()1()1(ˆ)1(ˆ)(),()1()1(ˆ
)(ˆtPtPtPtP
tPtPtPtPtP
LRLRLRPLRP
LRLRLRPLRPLR αα
αα
pri čemu se −Pα i +Pα biraju tako da je zadovoljen uslov 10 <<< −+ PP αα i 1→−Pα .
Na isti način se odreñuje i procena vršne snage )(Re tP mote .
Zatim se proračunava ciljno pojačanje )(Re tG mote na osnovu odnosa željene snage
)(ˆ tPLR i procene snage )(Re tP mote kao:
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
124
),)(ˆ
)(ˆ))(1(min()( max
Re
22
Re GtP
tPtGtG
mote
LRLRmote
−=
Da bi se izbegle nagle promene pojačanja, )(Re tG mote se rekurzivno filtrira na
sledeći način:
−≥−+−−<−+−
=++
−−
)1()(),()1()1(
)1()(),()1()1()(
ReReReRe
ReReReReRe tGtGtGtG
tGtGtGtGtG
motemotemoteRmoteR
motemotemoteRmoteRmote αα
αα
10 <<< −+ RR αα
Izračunata pojačanja se zatim primenjuju na blok podataka po već ranije
navedenom izrazu. Izlaz iz modula je stereo zvuk visokog kvaliteta, u kojem dominira
govorni signal udaljene strane, ukoliko postoji. U suprotnom, zvuk lokalnog izvora se
reprodukuje bez ikakvih degradacija. Odabrani parametri algoritma omogućavaju brzu
reakciju na pojavu govora i ne narušavaju razumljivost govora, a opet onemogućavaju
pojavu neprijatnih skokova pojačanja i oscilaciju sistema. Realizovani algoritam je
pogodan za primenu u interaktivnim sistemima za govornu komunikaciju.
5.5 Integracija razvijenog sistema sa TV ure ñajem
Realizovani sistem za dvosmernu govornu komunikaciju poseduje niz
mogućnosti za povezivanje sa drugim sistemima. Za potrebe eksperimentalne potvrde
teze realizovana je fizička arhitektura sa odgovarajućim sprežnim podsistemom u
obliku modula. Modul koristi Texas Instruments TMS320C6727 DSP za obradu
podataka, i poseduje jasno definisane sprege. Realizovan je i kontrolni kanal koji
omogućuje upravljanje radom modula.
Slika 5.29 Modul za slobodnu govornu komunikaciju
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
125
DSP izvršava programsku podršku koja obezbeñuje rukovanje sprežnim
podsistemom, nadgleda i kontroliše rad modula, i obavlja obradu signala. Pošlo se od
realizacije algoritma u pokretnom zarezu u jednostrukoj tačnosti. U skladu sa
očekivanjima, postignut je rad u realnom vremenu, i programska podrška zadovoljava
sve postavljene zahteve.
Sa ciljem modelovanja najsloženijeg scenarija upotrebe, modul je proširen sa
Bluetooth modulom i integrisan je sa TV ureñajem, čineći tako celovitu platformu za
komunikaciju. Kao komunikacioni kanal, moguće je koristiti GSM mrežu ili VoIP
preko računara, pri čemu se oni povezuju sa Bluetooth bežičnom vezom. Tako
prošireni TV ureñaj postaje komunikacioni terminal za slobodnu govornu
komunikaciju. Blok dijagram integralnog sistema dat je na slici:
Slika 5.30 Blok dijagram sistema integrisanog u TV ureñaj (preuzeto iz [IFA2007])
Da bi se obezbedila odgovarajuća sprega sa korisnikom, programska podrška TV
prijemnika je modifikovana. Dodate su mogućnosti za interakciju sa korisnikom, sa
namenom:
• konfiguracije sistema,
• rukovanja adresarom i
• rukovanja pozivima.
Sistem omogućava odabiranje sagovornika iz adresara koji se preuzima preko
Bluetooth veze od mobilnog telefona ili PC, pozivanje istog i razgovor sa njim pomoću
TV prijemnika i uz upotrebu daljinskog upravljača.
POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU
126
Tokom razgovora, zvučni signali se prenose preko komunikacionog kanala, bilo
preko GSM ili VoIP. Obrada signala realizovana na DSP eliminiše postojeće smetnje, i
obezbeñuje nesmetanu komunikaciju i u najsloženijim uslovima. Akustičke smetnje su
potisnute, i tako poboljšan glas željenog govornika se prenosi na drugu stranu.
Istovremeno, moguće je pratiti i TV program, zajedno sa pratećim zvukom. Dolazni
govor se na adaptivni način sabira sa visokokvalitetnim zvukom TV programa.
Adaptivno sabiranje je realizovano na način koji uvek obezbeñuje dobru čujnost i
razumljivost udaljenog govornika, ali istovremeno omogućuje i praćenje TV programa.
Slika 5.31 Maketa TV prijemnika sa integrisanim sistemom
za slobodnu govornu komunikaciju
Integracijom realizovanog sistema za obradu signala mikrofonskog niza sa TV
prijemnikom stvorena je maketa koja se koristi za eksperimentalnu potvrdu teze i
merenje performansi rešenja. Na slici 5.31 prikazana je maketa sa mikrofonskim nizom
od 5 elemenata ugrañenog u gornji deo TV prijemnika. Na slici je prikazana i grafička
korisnička sprega, koja upotrebom daljinskog upravljača obezbeñuje kontrolu nad
sistemom.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
127
POGLAVLJE 6. REZULTATI MERENJA PERFORMANSI REŠENJA
6.1 Merenje složenosti rešenja
Ideja opisana u ovoj tezi podrazumeva da se ograničenja odredišne platforme
uvažavaju od samog početka razvoja, i da one obezbeñuju smernice za projektovanje i
razvoj sistema željenih performansi. To podrazumeva da se relevantni pokazatelji
performansi sistema ocenjuju tokom razvoja, a da se njihova zadovoljenost pokaže
merenjem nad finalnim rešenjem.
Tokom razvoja, potrebno je nadgledati složenost rešenja, da bi konačni sistem
radio u realnom vremenu na odabranim platformama. Potrebno je da se zadovolje
ograničenja ciljne platforme u pogledu radne memorije i složenosti programske
podrške. Merenja se izvode upotrebom razvijenih programskih biblioteka za emulaciju
aritmetike ciljnih platformi (DSP) na razvojnoj platformi (PC). Merenja se obavljaju
nad reprezentativnim skupom ulaznih testnih signala, i generišu informacije o
složenosti rešenja.
Na složenost programske podrške najviše utiču:
• programska podrška za rukovanje sprežnim podsistemom i
• postupci obrade signala.
Rukovanje sprežnim podsistemom zahteva odreñenu memoriju za smeštanje
ulaznih i izlaznih podataka, koja takoñe mora da se uzme u obzir tokom projektovanja
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
128
sistema. Obrada podataka sa stanovišta sprežnog podsistema se svodi na transfer
podataka. Pošto se na svim odabranim platformama koristi mehanizam DMA za
prenos podataka, to ne utiče značajno na složenost rešenja.
Polazna tačka za razvoj algoritama je okruženje visokog nivoa, npr. Matlab ili
Mathematica. U toj fazi, moguće je samo proceniti potrebnu količinu memorije i
složenost, jer pomenuta okruženja obezbeñuju veliki broj primitiva koje skrivaju te
podatke. Nakon projektovanja obrade u okruženju Matlab, u cilju tačnije procene
složenosti, postupci obrade se realizuju u programskom jeziku C. Da bi proces
verifikacije bio što jednoznačniji, ta realizacija koristi aritmetiku u pokretnom zarezu,
bilo u jednostrukoj ili dvostrukoj preciznosti.
Nakon toga, postupak obrade se prilagoñava osobinama i mogućnostima
odredišnih platformi. To rezultuje razvojem različitih verzija iste obrade. U toku
istraživanja, mere se performanse sledećih oblika:
• program u programskom jeziku C koji koristi aritmetiku u pokretnom
zarezu, prilagoñen procesoru Texas Instruments TMS320C6727.
Poseduje iste performanse kao i Matlab realizacija, ali po strukturi
odgovara konačnom rešenju. Smatra se referentnom realizacijom, i u
daljem tekstu će se označavati sa FLOAT.
• program u programskom jeziku C koji koristi 32-bitnu aritmetiku u
nepokretnom zarezu, prilagoñen procesoru MIPS 4KEc. U daljem
tekstu će se označavati sa FIXED32.
• program u programskom jeziku C koji koristi 20-bitnu aritmetiku u
nepokretnom zarezu, prilagoñen procesoru MAS 35xx. U daljem tekstu
će se označavati sa FIXED20.
Prilikom postavljanja ograničenja po pitanju složenosti potrebno je obaviti
mapiranje mogućnosti ciljne platforme na metriku primenljivu na razvojnoj platformi –
broj obavljenih matematičkih operacija po jedinici vremena. Ovaj korak podrazumeva
razvoj i profilisanje reprezentativne obrade.
U okviru istraživanja realizovan je reprezentativni model obrade signala
mikrofonskog niza uz upotrebu tipičnih algoritama. Model koristi aritmetiku u
pokretnom zarezu jednostruke tačnosti. Obrada se obavlja u frekventnom domenu.
Model sadrži osnovne blokove za:
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
129
- potiskivanje eha,
- lociranje aktivnog korisnika i prostorno filtriranje,
- potiskivanje šuma i
- automatsku regulaciju pojačanja.
Uz pomoć programskih biblioteka opisanih u ovoj tezi model je profilisan na
razvojnoj platformi. Dobijeni su sledeći rezultati:
Broj operacija FLOAT
* 95744233 / 17456802
+,- 91639381 MAC 0
Broj poziva funkcijama
Pow 18440 Sin 220543 Cos 220500
atan2 22 Sqrt 45801 Log 0
Ukupan broj operacija
220595944
Tabela 6.1 Detaljan izveštaj profilisanja referentnog modela po tipovima operacija i
matematičkim funkcijama
Sledeći korak je profilisanje obrade na ciljnoj platformi, u ovom slučaju Texas
Instruments TMS320C6727. Tokom merenja korišćen je simulator platforme.
Ustanovljeno je da realizacija modela značajno izlazi van okvira realnog vremena, i da
je mereno opterećenje procesora reda veličine 500%, tj.:
%500arg =etreftα , 610221⋅=devrefO
Ukoliko se ove vrednosti uvrste u ranije datu relaciju, dobija se:
66
argmax 1045%100
%500
10221%100 ⋅≈⋅⋅=⋅=
etreft
devrefdev
OO
α
Dobijena vrednost za maxdevO odreñuje gornju granicu broja operacija koje
ciljna platform može da obavi u realnom vremenu.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
130
U cilju prikupljanja statistički validnih rezultata, sve realizacije se izvršavaju
nad reprezentativnim skupom ulaznih signala. Tokom rada, obrañuju se ulazni signali
koji odgovaraju datom testnom slučaju, i generiše se izlazni signal. Sa stanovišta
merenja kompleksnosti oblik izlaznog signala nije bitan, jer se pretpostavlja da je
realizacija ispravna. Beleži se najgori rezultat (najviše upotrebljene memorije ili
najveći broj aritmetičkih operacija), koji nakon izvršavanja svih testnih slučajeva
postaje konačni (slika 6.1).
Izveštaj o kompleksnosti Baza
testnih signala
Implementacija koja se testira
(FLOAT/FIXED32/FIXED20)
Memorija i
operacije
Slika 6.1 Merenje kompleksnosti na skupom reprezentativnih testnih signala
Nakon izvršavanja obrade ulaznih testnih signala, kao rezultat, dobija se
sumarni pregled kao u tabeli 6.2. Ona pokazuje da je ograničenje u pogledu
memorijskog prostora zadovoljeno, jer svaka realizacija koristi manje od 120k reči.
Memorijski prostor ciljnih platformi je fizički ograničen na 128k reči. Granica od 120k
reči je odabrana imajući u vidu postojanje operativnog sistema, čija se memorijska
zahtevnost procenjuje da je manja od 8k reči.
Sumarni pregled FLOAT TMS320C6727
FIXED32 MIPS 4KEc
FIXED20 MAS35xx
Memorija [memorijskih re či]
107713 113076 116967
Memorija [%] 88 92 95
Broj operacija u sekundi
36182006
64679923
70813322
Opterećenje procesora [%]
92 - -
Tabela 6.2 Sumarni pregled upotrebe memorije i broja potrebnih aritmetičkih operacija
Primećuje se da usled promene tipa aritmetike potreban memorijski prostor se
povećava, zajedno sa brojem izvršenih operacija. Razlog takvog ponašanja je održanje
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
131
kvaliteta izlaznog signala. Da bi se obezbedila dovoljna tačnost u poreñenju sa
realizacijom u pokretnom zarezu, potrebno je prilagoditi postupak aritmetici u
nepokretnom zarezu. Promene u postupku (npr. emulacija pokretnog zareza na nivou
bloka podataka) najčešće zahtevaju uvoñenje dodatnih programskih promenljivih i
koraka obrade, što dovodi do povećanja složenosti rešenja, ali i potencijalne
degradacije kvaliteta [Keča].
Tabela pokazuje da je broj operacija u sekundi realizacije koja koristi
aritmetiku u pokretnom zarezu 61036⋅=devO , gornja granica je
6max 1045⋅=devO ,
stoga je uslov maxdevdev OO < zadovoljen. Očekivani faktor opterećenja procesora je:
%80ˆmax
_arg ≈=dev
devdevett O
Oα
Stvarno opterećenje procesora je mereno nakon realizacije na ciljnoj
platformi. Realizacija algoritama koja koristi aritmetiku u pokretnom zarezu je
prevedena postojećim razvojnim alatima za ciljnu platformu TMS320C6727.
Opterećenje procesora je prvobitno mereno u simulatoru, a nakon toga potvrñeno i na
fizičkoj arhitekturi, i iznosi:
%92_arg ≈devettα
Stvarno opterećenje MIPS i MAS platformama nije mereno s obzirom da bi
konačna realizacija na tim ciljnim platformama zahtevalo značajno vreme. U okviru
teze ispitan je uticaj aritmetike na kvalitet obrade, i pokazano je da upotreba manje
precizne aritmetike dovodi do angažovanja značajnijih resursa u cilju održanja
kvaliteta. Takoñe, ustanovljeno je da konverzija algoritma iz pokretnog zareza u
nepokretni zarez zahteva značajne napore koji su upravo zavisni od mogućnosti ciljne
platforme: konverzija u aritmetiku sa manjom tačnošću zahteva više vremena.
Moguće je generisati i detaljan izveštaj po tipovima pojedinih operacija i
pozivima bibliotečkih matematičkih funkcija, kao u tabeli 6.3.
Na osnovu izveštaja moguće je identifikovati kritične bibliotečke funkcije,
čijom optimizacijom je moguće smanjiti ukupan broj izvršenih operacija. U slučaju
realizacije u nepokretnom zarezu, pomenute funkcije su zamenjene ručno
optimizovanima. One se oslanjaju na predefinisane tabele, te se broj poziva funkcija ne
beleži, nego se operacije potrebne za realizaciju direktno ubrajaju u osnovne operacije.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
132
Broj operacija FLOAT FIXED32 FIXED20
* 10760950 14026355 0 / 496938 421133 0
+,-,pomeranje 12693510 43133311 53706593 MAC 0 7099124 17106729
Broj poziva funkcijama
Pow 29 0 0
Sin 172 0 0 Cos 143 0 0
atan2 29 0 0 Sqrt 28647 0 0 Log 29400 0 0
Ukupan broj operacija
36182006
64679923
70813322
Tabela 6.3 Detaljan izveštaj po tipovima operacija i matematičkim funkcijama
Programska biblioteka omogućuje i sakupljanje informacija o složenosti i po
modulima obrade. Sa stanovišta analize sistema, interesantno je obaviti dato merenje
za pojedine postupke obrade. Na slici prikazan je relativni utrošak memorije po
blokovima obrade:
Memorija FLOAT [%]
FIXED32 [%]
FIXED20 [%]
MC-AEC 38 39 32
DOA 6 8 11 SD-BF 14 16 11
NR 14 10 14 PF 3 4 5
AGC 1 5 1
FW 24 18 26 Tabela 6.4 Relativni udeo pojedinih modula obrade u ukupno potrebnoj memoriji
Blokovi obrade su označeni skraćenicama koje ukazuju na funkcionalnost
bloka, pri čemu FW (engl. framework) sadrži globalnu memoriju potrebnu za rad
sistema (npr. ulazno/izlazni baferi, konfiguracija sistema, itd.). Memorijski
najzahtevniji blok obrade jeste AEC, iz razloga što se u njemu koriste signali svih
mikrofonskih elemenata, a i za čuvanje koeficijenata adaptivnih struktura je potrebno
rezervisati značajan memorijski prostor. Postupci koji se obavljaju nakon prostornog
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
133
filtriranja su jednokanalni, tako da je njihov rad potrebno odvojiti manje radne
memorije.
Slika 6.2 Rezultati merenja angažovane memorije po blokovima obrade
Na dijagramu se jasno vidi da su modul za lociranje aktivnog govornika i
modul za potiskivanje šuma dosta nepogodni za realizaciju na arhitekturi sa
nepokretnim zarezom, i zahtevaju dodatnu memoriju za smeštanje pomoćnih
promenljivih. Naravno, to dovodi i do povećanog broja operacija.
Informaciju o utrošku memorije pojedinih blokova je moguće iskoristiti
prilikom dimenzionisanja novog sistema na osnovu predloženog rešenja, koji uključuje
samo pojedine blokove obrade. Takoñe, ukoliko se radi o sistemu sa drugačijim
brojem mikrofona, utrošak memorije višekanalnih postupaka je moguće skalirati na
odgovarajući način.
Gore navedeno važi i za kompleksnost pojedinih modula sa stanovišta broja
izvršenih operacija. Iz tabele se jasno vidi da je udeo broja izvršenih operacija u
modulima DOA i NR značajno porastao u slučaju aritmetika sa nepokretnim zarezom.
Da bi se održala tačnost i pokrio željeni dinamički opseg, uvedene su dodatne
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
134
programske promenljive i odgovarajuće obrade (npr. pokretni zarez na nivou bloka, ili
emulacija dvostruke tačnosti).
Operacije FLOAT [%]
FIXED32 [%]
FIXED20 [%]
MC-AEC 49 28 42
DOA 13 20 23 SD-BF 6 6 5
NR 6 10 14 PF 2 4 5
AGC 0 2 1
FW 24 30 10
Tabela 6.5 Relativni udeo pojedinih modula obrade u broju ukupno izvršenih operacija
Računski najzahtevniji blok je potiskivanje eha (AEC), što je i očekivano
imajući u vidu da se radi o višekanalnom algoritmu, i da se uvažavaju i dva signala
eha. Primenjeni NLMS algoritam je značajno jednostavniji od AP ili RLS, stoga se
pokazao kao ispravan izbor. Primena AP ili RLS bi znatno povećala računsku
složenost sistema, a posledica bi bila nemogućnost rada u realnom vremenu.
Slika 6.3 Rezultati merenja broja izvršenih operacija po blokovima obrade
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
135
Iz gornjih rezultata zaključuje se da predloženo programsko rešenje
zadovoljava ograničenja ciljnih platformi u pogledu složenosti i memorijske
zahtevnosti, stoga je rad u realnom vremenu na odabranim platformama omogućen.
6.2 Merenje ta čnosti bloka za odre ñivanje položaja govornika
Lociranje aktivnog govornika se obavlja na osnovu signala mikrofonskog niza u
odgovarajućem bloku za odreñivanje pozicije aktivnog govornika. U postupku se
obradom pojedinačnih parova mikrofona, a zatim njihovom kombinacijom se dobija
relativni ugao u odnosu na osu mikrofonskog niza.
U cilju procene tačnosti odreñivanja pozicije, izvedene su dve serije merenja za
različita rastojanja L1 i L2. U toku merenja korišćena je realizacija algoritama u
programskom jeziku C, koja koristi aritmetiku u pokretnom zarezu.
Rezultati prve serije merenja je prikazana na slici 6.4. Nakon poreñenja teorijski
izračunatih uglova i merenih uglova, ustanovljeno je da je slaganje rezultata veoma
dobro, i da su odstupanja reda veličine nekoliko stepeni.
Slika 6.4 Rezultati merenja tačnosti lociranja aktivnog govornika – serija A
U drugoj seriji rastojanje izmeñu mikrofonskog niza i izvora korisnog signala je
povećano, sa ciljem da se ispita ponašanje sistema kada je mikrofonski niz van
direktnog polja izvora korisnog signala.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
136
Slika 6.5 Rezultati merenja tačnosti lociranja aktivnog govornika – serija B
Rezultati pokazuju veoma dobro slaganje sa očekivanim vrednostima i na
povećanom rastojanju, te se pouzdanost rezultata bloka za odreñivanje pozicije
aktivnog govornika može smatrati veoma dobrom. Detektovana odstupanja ne utiču
značajno na rad ostalih blokova koji koriste tu informaciju, jer primenjeni algoritmi
(npr. prostorno filtriranje) nisu osetljivi na tako mala odstupanja.
6.3 Merenje kvaliteta izlaznog signala objektivnim merama
S obzirom da se u tezi istražuje integralno rešenje namenjeno upotrebi u
složenim akustičkim ambijentima, ideja je da se kvalitet sistema ocenjuje na osnovu
kvaliteta izlaznog signala. Za potrebe merenja kvaliteta, potrebno je definisati
reprezentativni skup testnih signala. Pomenuti signali treba da pokriju tipične uslove
upotrebe sistema, ali i razmatrane granične slučajeve. Na taj način se obezbeñuje
ponovljivost testiranja, što doprinosi robusnosti konačnog rešenja.
Kao što je već ranije navedeno, glavne smetnje koje se razmatraju tokom
istraživanja su:
• akustički eho, koji nastaje od dvokanalnog lokalnog izvora zvuka,
• efekat reverberacije (T60 je 300 ms),
• nizak odnos signal-šum usled velikog rastojanja (do 4 metara)
govornika od mikrofonskog niza, i
• postojanje prostorno rasporeñenih izvora smetnji u ambijentu.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
137
Da bi se formirao odgovarajući skup testnih signala, potrebno je testnim
slučajevima pokriti široki spektar mogućih postavki i parametara, počevši od pozicije
pojedinih izvora, njihovog nivoa, tipa smetnji, itd.
Testni signali treba da sadrže sve informacije koje su na raspolaganju sistemu u
toku rada. To su prvenstveno signali mikrofona i signali lokalnog eha. Da bi obezbedili
željene uslove rada, potrebno je sistem pobuditi raznim signalima. Pobude u
razmatranoj postavci su:
• izvor korisnog signala,
• signali akustičkog eha, i
• prostorno lociran šum.
Za potrebe snimanja testnih signala, adaptirana je prostorija, kao na slici 6.6. U
cilju postizanja željene reverberacije, zidovi su prekriveni akustičkim apsorberima. Na
taj način, vreme reverberacije je smanjeno na 300 ms.
Izvori signala su modelirani visokokvalitetnim zvučnicima. To su:
Kanal Sadržaj Nivo
1 Korisni signal – pozicija 1 70 dBA
2 Korisni signal – pozicija 2 70 dBA
3 Signal šuma 45 dBA
4 Signal šuma 45 dBA
5 Signal eha, levi kanal 65 dBA
6 Signal eha, desni kanal 65 dBA Tabela 6.6 Raspored pobuda po kanalima
Kao korisni signal korišćena su dva različita govorna signala (muški i ženski),
različitih nivoa. Izvori korisnog signala su postavljeni na različite pozicije naspram
mikrofonskog niza. Za generisanje šuma korišćena su dva signala, model stacionarnog
šuma i model nestacionarnog šuma. Eho je generisan pomoću različitih signala govora
i muzike. U prostoriji je uvek bio prisutan ambijentalni šum.
Nivoi pojedinih signala su postavljeni imajući u vidu krajnju upotrebu, tako da
je snaga govornika postavljena na tipičnih 70 dBA, snaga šuma je postavljena 5 dBA
iznad nivoa šuma prostorije od 40 dBA. Snaga signala eha je odabrana tako da
obezbeñuje dobru čujnost na poziciji govornika (65 dBA). Nivoi signala su mereni
pomoću fonometra Voltcraft 323.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
138
Sto
Vrata
2m
Slika 6.6 Grafički prikaz konfiguracije prostorije za snimanje testnih signala
Opis pojedinih testnih slučajeva dat je u sledećoj tabeli:
Testni slučaj
Korisni signal Pozicija izvora
korisnog signala
Signal eha Šum
1. Govor1 1 EhoGovor1 - 2. Govor1+4dB 1 EhoGovor2 - 3. Govor2 2 EhoGovor1+4dB - 4. Govor2+4dB 2 EhoGovor2 - 5. Govor1 1 EhoGovor1+4dB - 6. Govor2+4dB 2 EhoGovor2+4dB - 7. Govor1 1 EhoGovor1 Stacionarni 8. Govor1 1 EhoGovor2 Stacionarni 9. Govor2+4dB 2 EhoGovor1 Nestacionarni 10. Govor2 2 EhoGovor2+4dB Nestacionarni 11. Govor1 1 EhoGovor1 Stacionarni 12. Govor1+4dB 1 EhoGovor2 Stacionarni 13. Govor2 2 EhoGovor1 Nestacionarni 14. Govor2 2 EhoGovor2+4dB Nestacionarni 15. - - EhoGovor1 - 16. - - EhoGovor2+4dB - 17. - - MusicF1 Stacionarni 18. - - EhoMuzika2 Stacionarni 19. - - EhoMuzika3 Nestacionarni 20. - - EhoMuzika4 Nestacionarni 21. Govor1 1 EhoMuzika1 Stacionarni 22. Govor2+4dB 2 EhoMuzika2 Stacionarni 23. Govor1 1 EhoMuzika3 Nestacionarni
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
139
Tabela 6.7 Pregled testnih slučajeva
U prostoriji je postavljen specijalan računar za potrebe generisanja pobude i
snimanja testnih signala. Računar je specijalno odabran, sa veoma niskim nivoom
šuma, da ne bi uticao na ambijent. Za svaki testni slučaj, formiran je višekanalni
pobudni signal, sa rasporedom kanala kao u tabeli 6.6. Takav pobudni signal je
reprodukovan na računaru sa instaliranom zvučnom karticom M-Audio Delta 1010LT,
sa 8 analognih ulaza i 8 analognih izlaza. Kartica je u stanju da sinhrono reprodukuje
višekanalne signale. Na karticu su povezani zvučnici koji predstavljaju pojedine izvore
zvuka, tako da je odgovarajućim formiranjem pobudnih signala moguće obezbediti
željenu akustičku scenu.
Ista kartica se koristi i za akviziciju podataka. Signali mikrofonskog niza,
zajedno sa signalima eha, povezani su na analogne ulaze zvučne kartice. Istovremeno
sa reprodukcijom pobude, snimaju se i signali mikrofona i eha. Frekvencija odabiranja
je 8 kHz. Raspored signala u snimljenim testnim signalima dat je u sledećoj tabeli:
Kanal Sadržaj
1 Mikrofon 1
2 Mikrofon 2
3 Mikrofon 3
4 Mikrofon 4
5 Mikrofon 5
6 ne koristi se
7 Signal eha, levi kanal
8 Signal eha, desni kanal Tabela 6.8 Raspored testnih signala po kanalima
Testni slučaj
Korisni signal Pozicija izvora
korisnog signala
Signal eha Šum
24. Govor2 2 EhoMuzika4 Nestacionarni 25. Govor1 1 EhoMuzika1 - 26. Govor2 2 EhoMuzika2 - 27. Govor1+4dB 1 EhoMuzika3 - 28. Govor2 2 EhoMuzika4 - 29. Govor2 1 - - 30. Govor1 1 - -
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
140
S obzirom na veliki broj testnih slučajeva i dugotrajnog snimanja testnih
signala, proces generisanja pobude i snimanja odziva je automatizovan odgovarajućom
programskom podrškom, koja u toku rada obavlja korake ilustrovane na slici:
Slika 6.7 Koraci automatskog snimanja testnih signala
Pre početka rada potrebno je zadati opise testnih slučajeva u obliku tabele, i
odabrati odgovarajuće signale koji će se koristiti kao izvori smetnje ili korisnog
signala. Nakon toga, programska podrška automatski generiše pobudne signale,
reprodukuje ih, i snima odziv u odgovarajuće višekanalne WAV datoteke. Njih je
moguće koristiti u postojećim programima za obradu zvuka, ali i programskim alatima
Matlab ili Mathematica.
Testni signali predstavljaju reprezentativne slučajeve upotrebe sistema, i
moguće ih je koristiti tokom razvoja postupaka obrade. Tipično, ceo skup se koristi za
proveru kvaliteta sistema u ključnim momentima razvoja.
Slika 6.8 Postupak objektivnog merenja
Obrada signala
Objektivno merenje
Izlazni signal
PESQ
SNRE
ERLE
Testni signal
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
141
Za ocenu kvaliteta objektivnim merama, koriste se testni signali u kojima
postoji i izvor korisnog signala i eha, što daje skup od 22 signala. Svaki testni signal je
obrañen razvijenim postupkom, i na osnovu testnog signala i izlaznog signala je
obavljeno objektivno merenje. Postupak je prikazan na slici 6.8.
Nakon obrade testnih i izlaznih signala, dobija se izveštaj o rezultatima merenja
za svaki testni signal. Rezultati merenja PESQ su prikazana na slici. Na grafiku je
prikazano nekoliko serija:
- FLOAT – realizacija za DSP TMS320C6727, koja koristi aritmetiku u
pokretnom zarezu jednostruke preciznosti,
- FIXED32 – realizacija za MIPS 4KEc, koja koristi 32-bitnu aritmetiku
u nepokretnom zarezu,
- FIXED20 – realizacija za MAS 35xx, koja koristi 20-bitnu aritmetiku u
nepokretnom zarezu.
Različite implementacije su postigle veoma slične rezultate. Smanjenje tačnosti
aritmetike nije bitno uticala na ocenu PESQ. Tokom razvoja cilj je bio očuvanje
kvaliteta, čak i po cenu povećanja količine potrebnih resursa kod aritmetika sa
nepokretnim zarezom.
Slika 6.9 Rezultati merenja PESQ nad skupom ulaznih testnih signala
Srednja vrednost PESQ MOS ocene je 2.55, a sve vrednosti su u opsegu 2.1 do
2.8. Pomenuta PESQ ocena je na originalnoj skali izmeñu slabog i srednjeg kvaliteta,
ali se mora uzeti u obzir i činjenica da je PESQ projektovan za merenje subjektivnog
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
142
kvaliteta u sistemima sa samo električnim spregama. U razmatranom sistemu postoji i
akustički put od govornika do mikrofona, što unosi značajnu količinu smetnji, koja je
delom prisutna i u izlaznom signalu. To dovodi do smanjenja PESQ ocene, iako je
subjektivni utisak kvaliteta (a i razumljivost) izlaznog signala mnogo bolji.
Relativno male promene PESQ ocene uz prisustvo šuma mogu da znače
značajnije promene u subjektivnom kvalitetu i razumljivošću, ali je bitna činjenica da
su one uvek dobro korelisane.
ERLE odslikava meru potiskivanja eha. Rezultati merenja ERLE, dati na slici
6.10, su u okvirima očekivanja – potiskivanje eha je u opsegu 20dB do 30 dB.
Pokazuje se da ova mera iskazuje značajnije razlike izmeñu realizacija sa različitim
aritmetikama. Realizacija u pokretnom zarezu i 32-bitnom nepokretnom zarezu daju
veoma slične rezultate (u proseku 27.3 dB), dok realizacija sa 20-bitnom aritmetikom
obezbeñuje za 3.5 dB slabije rezultate (u proseku 23.6 dB).
Razlog za takvo ponašanje leži u činjenici da se tokom prilagoñavanja
potiskivača eha korak adaptacije stalno smanjuje, te u stanju blizu optimuma korak
postaje premali za adekvatnu realizaciju sa nedovoljno tačnom aritmetikom, te sistem
osciluje oko optimuma. Taj efekat je ublažen primenom raznih tehnika (npr. blok
pokretni zarez), ali je dinamika signala u okviru jednog bloka prevelika za postizanje
tačnosti pokretnog zareza.
Slika 6.10 Rezultati merenja ERLE nad skupom ulaznih testnih signala
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
143
Slično ponašanje se primećuje i kod mere SNRE. Potiskivanje ukupnog šuma
je izmeñu 24 dB i 30 dB, sa prosečnom vrednošću od 28 dB za realizaciju u pokretnom
zarezu i 32-bitnom nepokretnom zarezu, i 26 dB za realizaciju u 20-bitnom
nepokretnom zarezu.
Slika 6.11 Rezultati merenja SNRE nad skupom ulaznih testnih signala
Na osnovu rezultata može se zaključiti da 32-bitna aritmetika u nepokretnom
zarezu obezbeñuje iste rezultate kao i aritmetika u pokretnom zarezu, uz neznatno
povećanje potrebnog memorijskog prostora ali značajnijeg povećanja broja računskih
operacija. Sa druge strane, realizacija sa 20-bitnom aritmetikom u nepokretnom zarezu
se pokazala inferiornom naspram ostalih realizacija, jer uz dodatno povećanje potrebne
memorije i računskih operacije ipak ne obezbeñuje isti kvalitet.
Implementacija obrade na arhitekturi sa 32-bitnom aritmetikom u nepokretnom
zarezu zahteva dodatno vreme za prilagoñenje opsega, ali su rezultati bliski
referentnima. Realizacija u 20-bitnoj aritmetici zahteva još više napora, jer je potrebno
uneti značajne modifikacije u postupak usled smanjenog opsega i tačnosti.
Iako se 20-bitna aritmetika pokazala slabije u merama ERLE i SNRE, rezultati
PESQ su približni. Razlog za to je činjenica da se PESQ meri u segmentima kada
postoji korisni signal, dok se SNRE meri isključivo kada nema korisnog signala. ERLE
se meri samo u momentima kada postoji signal eha. Svi rezultati su dati kao prosečni
za ceo testni signal, te se uticaj slabijeg potiskivanja šuma i eha u momentima lokalne
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
144
govorne aktivnosti na PESQ maskira. Takoñe, agresivnije potiskivanje smetnji može
da unese degradaciju korisnog signala.
6.4 Subjektivno merenje kvaliteta obra ñenog signala
U fokusu teze nalazi se razvoj sistema namenjen širokom krugu korisnika. Iz
tog razloga su unapred odabrane ciljne platforme, čije mogućnosti postavljaju okvire
razvoja postupaka obrade. Potrebno je odabrati postupke koji se mogu realizovati
resursima koji su na raspolaganju, a sa druge strane obezbeñuju željeni kvalitet,
prvenstveno iz aspekta krajnjeg korisnika. U tezi se kao relevantni pokazatelj kvaliteta
smatra razumljivost izlaznog govornog signala.
Zbog složenog problema prepoznavanja govora primenjeno je testiranje
subjektima. Da bi se eliminisali faktori koji potencijalno utiču na rezultat (na primer
zaključivanje na osnovu konteksta), kao sadržaj testiranja odabrani su logatomi – skup
dvosložnih reči, bez značenja.
Slika 6.12 Konfiguracija za merenje razumljivosti
Merenje razumljivosti se izvodi na sledeći način:
• U razdvojenim akustičkim ambijentima se postavi po jedan sistem
(slika 6.12). Sistemi su TV ureñaji sa integrisanim sistemom za
slobodnu govornu komunikaciju zasnovanu na TMS320C6727, i
mogućnošću prenosa govora preko mreže (VoIP).
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
145
• U prvom ambijentu se postavlja konfiguracija koja se koristila za
snimanje testnih signala, pri čemu su korisni signali logatomi.
Istovremeno sa logatomima, reprodukuje se i eho i šum. Razvijeni
sistem obrañuje signal mikrofonskog niza, a izlazni signal (poboljšani
govorni signal) se prenosi sa VoIP preko mreže do druge platforme
(Ambijent 2).
• U drugom ambijentu su testni subjekti, na udaljenosti od 3 metra od
sistema, i koji slušaju dolazni govor koji se reprodukuje na zvučnicima
lokalnog sistema. Subjekti zapisuju logatome kako su ih razumeli.
• Nakon završetka testa, zapisi subjekata se poredi sa tabelom logatoma, i
generiše se odgovarajući izveštaj o poklapanju stvarnih i očekivanih
rezultata.
Subjekat Grupa logatoma Broj prepoznatih logatoma
1 1 25
2 1 22
3 2 21
4 2 18
5 3 28
6 3 32
7 4 13
8 4 26
9 5 29
10 5 34
11 6 35
12 6 19
13 7 28
14 7 29
15 8 20
16 8 19
17 9 25
18 9 25
19 10 21
20 10 22
Prosek 24,6
Prosek [%] 49,1
Tabela 6.9 Rezultati prepoznavanja logatoma
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
146
Tokom testiranja koristi se 10 tabela od po 50 logatoma. Za potrebe testiranja
angažovano je 20 subjekata. Pokazalo se da postoji velika razlika izmeñu subjekata u
pogledu uspešnosti prepoznavanja, stoga u svakom testu učestvuju dva subjekta. Na taj
način se popravlja statistička pouzdanost merenja. Rezultati testiranja su dati u tabeli
6.9.
Prosečno prepoznavanje logatoma je 24,6 reči od ukupnih 50, što je veoma
blisko ciljnom prepoznavanju od 50%. Može se primetiti da rezultati značajno zavise
od korišćene tabele logatoma, ali zavise i od karakteristika samih subjekata.
Slika 6.13 Grafički prikaz rezultata prepoznavanja logatoma
Da bi se procenio dobitak koji sistem unosi u komunikaciju, izvedene su još
dve serije merenja:
• u jednom slučaju, sve smetnje su ukinute, tako da je merenje izvedeno u
optimalnim uslovima. Ovaj testni slučaj ukazuje na maksimalni učinak
sistema.
• u drugom slučaju, smetnje su bile prisutne, ali je obrada bila isključena.
Ovaj testni slučaj obezbeñuje podatak o najnižem očekivanom procentu
prepoznavanja logatoma.
U idealnom slučaju, procenat prepoznavanja je skoro 70%, što je u saglasnosti
sa podatkom da 75% razumljivosti logatoma obezbeñuje potpunu razumljivost u
svakodnevnom govoru, tj. veoma dobar kvalitet.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
147
U najgorem scenariju, prepoznaje se svega oko 20% logatoma. Pri tome
potrebno je napomenuti da u momentima pauze eho signala uslovi su bliski idealnima,
tako da najgori slučaj zavisi od sadržaja eho signala.
Slika 6.14 Rezultati prepoznavanja logatoma u graničnim konfiguracijama
Razvijeno rešenje po učinku se pozicionira izmeñu idealnog i najgoreg slučaja,
ali je bliži idealnom učinku. Razumljivost logatoma od skoro 50% obezbeñuje veoma
dobru razumljivost u svakodnevnom govoru.
6.5 Testiranje rešenja od strane eksperata u oblast i
potroša čke elektronike
IFA je najveći sajam u Evropi na kojem se izlažu najnoviji sistemi i ureñaji iz
oblasti multimedija i telekomunikacija. Prva maketa sistema za interaktivnu
komunikaciju zasnovanu na TV ureñaju je prikazana na tom sajmu 2005. godine u
Berlinu u saradnji sa kompanijom Micronas. Izloženi sistem je predstavljao spoj TV
ureñaja i videotelefona. Kao komunikacioni kanal korišćena je Internet veza. Funkcije
sistema su dostupne koristeći TV ureñaj kao spregu. Mogućnosti sistema su:
• Obezbeñivanje slobodne govorne veze pomoću VoIP tehnologije
• Dodatno poboljšanje govornog signala
o Potiskivanje eha i šuma sa jednim mikrofonom
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
148
o Lociranje pravca aktivnog govornika pomoću dva mikrofona
• Mogućnost prenosa i prikaza pokretne slike sa dodatnom obradom slike
kamere:
o Detekcija lica govornika na osnovu informacija o pravcu
o Inteligentno praćenje osobe pokretom kamere, u kombinaciji sa
zvučnim lociranjem
o Vizuelno izdvajanje lika aktivnog govornika i prenos na drugu
stranu
Dijagram sistem je dat na slici 6.15. Sastoji se iz dva glavna dela:
- TV platforme i
- dodatnog modula koji obavlja audio/video obradu i prenos podataka
preko mreže.
MHS v2.0
MDE-B Based
MHS v2.0
MDE-B Based
SatelliteAntenna
Cable VideophoneAdd-on
Card
VideophoneAdd-on
Card 4x Mic In
Control
VP Video (PiP)
TV Audio
Video out
Line Out
Video in
Additional Peripherals(Camera pod, lift control)
Remote Control
Network
TV program with OSD and/or videophone PiP
TV program audio mixed with
videophone audio
Slika 6.15 Dijagram sistema prikazanog na IFA 2005 (preuzeto iz [IFA2005])
Modul poseduje i video kameru kao i dva mikrofona, od koji se signal jednog
prenosi na drugu stranu, dok se mikrofonski par koristi za lociranje aktivnog
govornika. Kamera je pozicionirana iznad TV prijemnika. Zvučnici TV ureñaja se
koriste za reprodukciju govora, a ekran za prikaz slike udaljene strane (slika 6.16).
Kontrola sistem se obavlja daljinskim upravljačem pomoću menija TV ureñaja.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
149
Slika 6.16 Izgled makete prikazane na IFA 2005
Posetioci su jednoznačno ocenili sistem kao veoma napredan, i koji je na
pogodan način integrisan sa TV tehnologijom. Prikazane mogućnosti sistema u
pogledu prenosa govora i audio/vizuelnog praćenja su pozitivno ocenjene. Ipak,
upotreba sistema na rastojanju od nekoliko metara (tipičnog za gledanje TV programa)
izaziva degradaciju kvaliteta govora. Eksperti su ukazali na činjenicu da je kvalitet
govora dominantan u videotelefonskim sistemima, čak iako je realizovan niz naprednih
(drugih) funkcija.
CeBIT je najveći svetski sajam na kojem se izlažu najsavremenija rešenja
digitalnih IT i telekomunikacionih sistema potrošačke elektronike. U martu 2006.
godine na sajmu CeBIT u Hanoveru prikazan je sistem koji omogućuje povezivanje
TV ureñaja sa računarom, i time omogući korišćenje VoIP programa na računaru za
povezivanje sa udaljenim korisnicima. TV ureñaj se u toj postavci koristi kao
kontrolna sprega, ali i u kombinaciji sa mikrofonom kao zvučni podsistem.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
150
Slika 6.17 Izgled makete prikazane na CeBIT 2006
Sistem je prikazan na slici 6.17. TV ureñaj je proširen sa mikrofonom i dodatnim
modulom koji obezbeñuje USB vezu ka računaru. Nakon povezivanja, TV ureñaj sa
modulom se računaru predstavlja kao kombinacija slušalice i mikrofona (engl.
headset), sa mogućnošću kontrole VoIP programa na računaru.
USB
(Control and Audio)
TV platformAdd-on module
Slika 6.18 Dijagram sistema prikazanog na CeBIT 2006 (preuzeto iz [CeBIT2006]) )
Upravljanje sistema je veoma jednostavno, pomoću menija TV platforme i
daljinskog upravljača. Detalji VoIP programa na računaru su sakriveni od korisnika, i
korisnička sprega se svodi na jednostavne menije nalik na standardne telefone.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
151
Reakcije eksperata koji su prisustvovali prezentaciji su pozitivno ocenili ideju i
jednostavnost rukovanja, ali kvalitet govora je bio zadovoljavajući samo u bliskom
polju. U akustičkom okruženju sajma, kvalitet zvuka govornika na rastojanju
posmatranja TV ureñaja nije bio zadovoljavajući.
U okviru ove teze istražena je realizacija akustičkog podsistema zasnovanog na
mikrofonskom nizu. Ovim pristupom moguće je značajno potisnuti smetnje koje se
javljaju u ranije opisanim uslovima.
Maketa realizovanog sistema je korišćena u nizu prezentacija sa GSM telefonom
i VoIP aplikacijom na PC računaru kao komunikacionim kanalom. Uspešno je
prezentovana i na meñunarodnom sajmu IFA u Berlinu 2007. godine pod okriljem
firme Micronas. Maketa je detaljnije opisana u poglavlju 5.5.
Slika 6.19 Scenario upotrebe sistema prikazanog na IFA 2007 (preuzeto iz [IFA2007]) )
Opšti utisak eksperata koji su evaluirali sistem je veoma dobar, i što se tiče
kvaliteta zvuka, ali i mogućnosti sistema. Testovi u realnim uslovima pokazuju da je
željeni nivo kvaliteta govora postignut, i da je sistem moguće primeniti u ureñajima
namenjenim širokom krugu korisnika. U okviru prezentacija uspešno su obavljani
telefonski razgovori sa raznim sagovornicima, sa rastojanja od nekoliko metara, u
veoma nepovoljnom akustičkom ambijentu sajma. Realizovana sprega sa TV ureñajem
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
152
je omogućila veoma jednostavno i intuitivno korišćenje, što je veoma bitan faktor za
proizvod namenjen širokom krugu korisnika.
6.6 Poreñenje sa drugim rešenjima
Sa ciljem poreñenja sa postojećim rešenjima analizirano je nekoliko postojećih
proizvoda. Na tržištu postoji znatno više proizvoda, ali detalji i karakteristike mnogih
nisu dostupni. Odabrani su sledeći proizvodi sa poznatim karakteristikama:
• Mikrofonski niz za govornu komunikaciju Voice Tracker kompanije
Acoustic Magic [ProdVoiceTracker],
• Programska biblioteka za obradu signala mikrofonskog niza Dual
Microphone Array - DMA kompanije GritTec [ProdGritTec],
• Namensko integrisano kolo FM1182 kompanije ForteMedia [Prod],
• Programska biblioteka IntelliSonic za obradu signala mikrofonskog niza
kompanije Knowles Acoustics.
Ureñaj Voice Tracker kompanije Acoustic Magic je namenjen upotrebi u
kombinaciji sa računarom, za potrebe govorne komunikacije i prepoznavanja govora.
Predstavlja visoko-usmereni mikrofon sa mogućnošću lociranja aktivnog govornika i
izdvajanja njegovog glasa uz potiskivanje prostorno rasporeñenih izvora smetnji. Ne
podržava potiskivanje eha. Zasniva se na DSP kompanije Analog Devices ADSP-
2185M. Ureñaj se lako povezuje sa računarom pomoću analognog izlaza.
Kompanija GritTec nudi programsku biblioteku pod nazivom Dual Microphone
Array za obradu signala dvomikrofonskog niza [ProdGritTec]. Obrada je orijentisana
ka potiskivanju prostornih izvora smetnji i stacionarnog šuma. Biblioteka koristi
aritmetiku u pokretnom zarezu, i realizovana je u programskom jeziku C++. Izvršava
se na PC platformi, ali postoji mogućnost portovanja na druge arhitekture (ARM,
DSP).
ForteMedia je proizvoñač integrisanih kola za slobodnu govornu komunikaciju.
Integrisano kolo FM1182 je namenjeno za obradu signala mikrofonskog niza
sačinjenim od dva bliska mikrofona. Kolo se sastoji od DSP procesora sa dodatnim
namenskim modulom za ubrzanje izvoñenja dela obrade signala. Obezbeñuje funkcije
potiskivanja eha, pojačanje signala govornika na osi mikrofonskog niza, kao i
potiskivanje ambijentalnog šuma.
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
153
Programska komponenta IntelliSonic kompanije Knowles Acoustics se integriše
u operativne sisteme Microsoft Windows i obezbeñuje obradu mikrofonskog niza. U
obradu je uključeno potiskivanje eha, prostorno filtriranje na osi niza, i potiskivanje
šuma.
U daljem tekstu će se odabrana rešenja analizirati po sledećim kriterijumima:
- mogućnostima
- kompleksnošću i
- kvalitetu.
U cilju preglednosti rezultati se prikazuju tabelarno. U tabeli 6.10 prikazane su
mogućnosti razmatranih rešenja. Mogu se identifikovati dve grupe rešenja:
- jedna grupa proizvoda teži da poboljša usmerenost karakteristike
mikrofona odgovarajućim postupcima, pri čemu se u pogledu
potiskivanja eha oslanjaju na programsku podršku VoIP.
- druga grupa predstavlja kompletan sprežni sistem za govornu
komunikaciju, uključujući i potiskivanje eha, ali su često proizvodi
limitirani u pogledu prostornog filtriranja (samo na osi mikrofonskog
niza).
Iz tabele se vidi da rešenje SEA2M pokriva širok spektar mogućnosti, i da ga je
moguće primeniti u velikom broju scenarija.
Postupci
Rešenje
Potiskivanje
eha
Lociranje
govornika
Prostorno
filtriranje
Potiskivanje
šuma
SEA2M + (stereo) + + +
Voice Tracker - + + +
Dual Microphone Array - - +1 +
Fortemedia FM1182 + (mono) - +2 +
IntelliSonic + - +2 +
NAPOMENE: 1 Pravac prostornog filtriranja se zadaje ručno 2 Prostorno filtriranje se obavlja fiksno na osi mikrofonskog niza
Tabela 6.10 Pregled mogućnosti pojedinih rešenja
Kompleksnost rešenja se procenjuje na osnovu nekoliko pokazatelja platforme:
- radni takt procesora i
- potrebna memorija (ROM i RAM).
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
154
Pokazatelji se moraju razmatrati zajedno sa ostalim karakteristikama sistema koji
utiču na složenost, npr. primenjeni postupci i broj mikrofona. Pregled je dat u sledećoj
tabeli:
Karakteristika
Rešenje
Broj
mikrofona
Brzina
procesora
ROM RAM Platforma
SEA2M 5 200 MHz 110 kW 120 kW
Texas Instr.
TMS320C6727
Voice Tracker 8 75 MHz 16 kW 16 kW
Analog Devices
ADSP-2185M
Dual Microphone
Array 2 - 100 kB 120 kB PC x86
Fortemedia
FM1182 2 40 MHz1 40 kB2 20 kB2
ForteMedia
FM1182
IntelliSonic 2 800 MHz3 - 128 MB3 PC x86
NAPOMENE: 1 Procesor poseduje namenski deo koji ubrzava obavljanje pojedinih blokova
obrade 2 Procena na osnovu sličnih integrisanih kola istog proizvoñača 3 Preporučena konfiguracija računara sa operativnim sistem, očekivana
opterećenost je do 10%
Tabela 6.11 Pregled složenosti odabranih rešenja
Ukoliko se uvaže i mogućnosti i broj mikrofona raznih rešenja, pokazuje se da je
SEA2M sa stanovišta kompleksnosti porediv sa postojećim rešenjima. Tako na primer,
ukoliko se isključi potiskivanje eha u SEA2M, opterećenost procesora i potrošnja
memorije se smanje skoro dva puta. Tada je opterećenost u rangu ostalih rešenja (npr.
Voice Tracker), dok je potrošnja memorije i dalje značajno viša, ali je potrebno
napomenuti da je SEA2M namenjen okruženju sa dužim vremenom reverberacije, što
uvodi upotrebu dužih filtarskih struktura.
Pokazatelji kvaliteta sistem pokazuju slične vrednosti. Meru potiskivanja eha je
realno očekivati u opsegu od 20 do 30 dB, i sva rešenja se kreću u tom opsegu.
Potiskivanje šuma (prostornog i stacionarnog) je u opsegu od 15 do 30 dB, što
obezbeñuje značajno poboljšanje subjektivnog kvaliteta i razumljivosti. Agresivnije
potiskivanje može dovesti do povećanja odgovarajućeg indikatora, ali i do narušavanja
POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA
155
kvaliteta korisnog signala. SEA2M je po pokazateljima pri vrhu, sa najdužim
vremenom reverberacije. Domet je nešto manji od druga dva proizvoñača, koji navode
veći domet od 5 metara.
Mera
Rešenje
Potiskivanje
eha
Potiskivanje
šuma
Domet Vreme
reverberacije
SEA2M 27 dB 28 dB 4 m 300 ms
Voice Tracker - 20 dB 2.5 m -
Dual Microphone Array - 15 dB 5 m -
Fortemedia FM1182 30 dB 35 dB 5 m 100 ms
IntelliSonic 25 dB 16 dB–30 dB - 256 ms
Tabela 6.12 Pregled indikatora kvaliteta odabranih rešenja
Na osnovu gornje analize, može se zaključiti da je SEA2M najkompletnije
rešenje koje je moguće povezati sa raznim sistemima gde je potrebno izdvojiti i
poboljšati glas govornika koji je udaljen od mikrofonskog niza. Može se koristiti i kao
sprega u sistemima za govornu komunikaciju, ali i kao veoma usmeren mikrofonski
niz.
Kompleksnost realizovanog rešenja je veća od postojećih rešenja, ali i dalje
prihvatljiva da bi se realizovao ureñaj potrošačke elektronike. Povećana kompleksnost
je posledica proširenog skupa mogućnosti, ali i veoma složenih akustičkih problema i
njihovog rešavanja odgovarajućim algoritmima.
Sa stanovišta performansi, SEA2M je u rangu sa najboljim postojećim rešenjima,
pri čemu je tokom razvoja konstantno voñeno računa o održanju kvaliteta u vidu PESQ
mera i subjektivnih testova.
POGLAVLJE 7 – ZAKLJUČAK
157
POGLAVLJE 7. ZAKLJU ČAK
Usled sve prisutnije digitalizacije svih oblasti delovanja i sve značajnije uloge
komunikacija u svakodnevnom životu, konstantna je potraga za novim, boljim
oblicima komunikacije. U ovoj tezi fokus je na istraživanju sistema za obradu signala
mikrofonskog niza u realnom vremenu.
U okviru istraživanja analizirana su postojeća rešenja sa ciljem da se ustanovi
trenutno stanje na tržištu. Rezultat pretrage pokazuje da trenutno ne postoji
komercijalno raspoloživo rešenje koje obezbeñuje nesmetanu dvosmernu slobodnu
komunikaciju, u kojem je govornik na nekoliko metara od mikrofona. Postoje
parcijalna rešenja koja adresiraju pojedine probleme, ali se npr. u pogledu potiskivanja
eha oslanjaju na programsku podršku računara. Tokom analize identifikovani su okviri
rešenja sa stanovišta kompleksnosti platforme i mogućnosti sistema, i odabrana je
ciljna platforma TMS320C6727.
Pretraga baze patenata pokazala je da je oblast obrade signala mikrofonskih
nizova veoma aktuelna, i da mnoge vodeće kompanije iz oblast telekomunikacija i IT
industrije ulažu značajne napore u razvoj takvih sistema. Prikupljeno znanje je
iskorišćeno tokom zaštite inovacije istraživanja odgovarajućim patentima.
Analizirani su i najsavremeniji postupci obrade signala mikrofonskog niza.
Razmatrani su aspekti složenosti, kvaliteta i robustnosti. Imajući u vidu ograničenja
POGLAVLJE 7 – ZAKLJUČAK
158
ciljne platforme, odabrane su klase algoritama sa odgovarajućim odnosom složenosti i
kvaliteta.
Postavljene su objektivne i subjektivne mere za ocenu performansi realizovanog
rešenja, i realizovani su mehanizmi za merenje istih. Odabrane objektivne mere
omogućuju ocenu složenosti rešenja i poreñenje sa postavljenim ograničenjima, i
korišćene su za upravljanje razvojem postupaka obrade. Merenje subjektivnog
kvaliteta je obavljeno nekoliko puta, u ključnim momentima razvoja.
U okviru razvoja sistema velika pažnja se posvetila razvoju samih postupaka
obrade. Nakon odabiranja klase algoritama, oni su poboljšani i prilagoñeni postavci
problema. Inovacije u okviru istraživanja su zaštićene sa 4 nacionalna i jednim
meñunarodnim patentom. Rešenje je imenovano zaštićenim žigom SEA2M.
Razvoj je rezultovao sa skupom algoritama koji se izvršavaju u realnom vremenu
na ciljnoj platformi Texas Instruments TMS320C6727. Osim realizacije u aritmetici
pokretnog zareza, ispitan je i uticaj aritmetike nepokretnog zareza na složenost i
kvalitet algoritama.
Merenja su pokazala da se smanjivanjem preciznosti aritmetike povećava
složenost, ali da na 32-bitnim platformama ne dolazi do degradacije kvaliteta.
Realizacija na platformi sa 20-bitnom aritmetikom je primetno slabijeg kvaliteta, i
znatno povećane složenosti. Zadovoljenost kriterijuma kvaliteta signala je potvrñen
subjektivnim testiranjem razumljivosti logatoma na kraju razvoja.
Rezultati merenja odabranih indikatora kvaliteta su poreñena sa postojećim
rešenjima. Analiza je pokazala da je SEA2M integralno rešenje koje je u stanju da
eliminiše širok spektar smetnji (npr. akustički eho, stacionarni i nestacionarni šum,
prostorno rasporeñene izvore smetnji), uz obezbeñivanje odgovarajućeg nivoa
kvaliteta.
Kao dokaz teze realizovana je maketa zasnovana na mikrofonskom nizu od 5
elemenata i DSP sa aritmetikom u pokretnom zarezu TMS320C6727. U skladu sa
očekivanjima, sistem radi u realnom vremenu, te je ograničenje u pogledu složenosti
zadovoljen. Maketa je uspešno korišćena tokom merenja razumljivosti logatoma.
Razvijena tehnologija je integrisana sa TV ureñajem i Bluetooth tehnologijom,
ilustrujući tako viziju komunikacione platforme budućnosti. Prikazana je na sajmu IFA
POGLAVLJE 7 – ZAKLJUČAK
159
2007. godine u Berlinu, gde je odziv eksperata u pogledu ideje, kvaliteta i lakoće
upotrebe bio veoma pozitivan.
Naredni mogući korak istraživanja zasnovanog na rezultatima ove teze je
integracija realizovanog rešenja sa videotelefonskim funkcijama. U toj konfiguraciji,
sistem bi se proširio kamerama i mogućnošću prenosa pokretne slike. U kombinaciji sa
obradom slike, moguće je realizovati inteligentni videotelefon koji je u stanju da se
prilagodi okruženju i da obezbedi realniju vezu. Fuzijom obrade signala svih senzora
(mikrofona i kamera) moguće je izdvojiti detalje okruženja i učesnika kao što su
pozicija, rastojanje, dimenzije, raspoloženje, itd. Te informacije se mogu iskoristiti za
stvaranje realnijeg utiska na udaljenoj strani.
Moguća su i dalja unapreñenja samih postupaka obrade signala. S obzirom da su
postavljene jasne metrike za merenje složenosti i kvaliteta, moguće je na kontrolisani
način primeniti skup poboljšanja. Moguća unapreñenja su detekcija više izvora
korisnog signala i povezivanje sa prenosom slike. U slučaju dominantnog izvora
prostornih smetnji, moguće je postaviti prostornu nulu prostornog filtra na tom pravcu,
i time još više potisnuti smetnju.
U trenutnoj maketi, veza se ostvaruje pomoću Bluetooth bežične tehnologije.
Tehnologija DECT je veoma rasprostranjena u kućnim telefonskim sistemima. Ona
omogućuje povezivanje jedne bazne stanice sa više prenosnih telefona. Zamenom
modula za povezivanje u maketi moguće je koristiti TV ureñaj kao jedan od DECT
prenosnih telefona, sa mogućnošću slobodne komunikacije i konferencijske veze.
LITERATURA
161
LITERATURA
[AADSP1] V. Kovačević, M. Popović, M. Temerinac, N. Teslić, “Arhitekture i algoritmi digitalnih signal procesora I“, FTN, Novi Sad, 2005.
[Allen] J.B. Allen, D.A. Berkley, "Image method for efficiently simulating small-room acoustics", Journal on Acoustic Society of America, vol. 65, no. 4, pp. 943-950, 1979.
[Anttalainen] T. Anttalainen, „Introduction to Telecommunications, Network Engineering“, Artech House, 2003.
[Benallal] A. Benallal, A. Gilloire, “A new method to stabilize fast RLS algorithms in transversal adaptive filters”, ICASSP 88, pp. 1373-1376, 1988.
[Benesty] J. Benesty, “Adaptive eigenvalue decomposition algorithm for passive acoustic source localization”, JASA, vol. 107, pp.384-391, 2000.
[Benesty2] J. Benesty, “Adaptive eigenvalue decomposition algorithm for passive acoustic source localization”, Journal of Acoustic Society of America, vol. 107, pp. 384-391, 2000.
[Boll] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, Signal Processing, vol. 27, 1979.
[Brandstein] M.S. Brandstein, D.B. Ward, “Microphone Arrays: Signal Processing Techniques and Applications”, Springer, Berlin, 2001.
[Caraiscos] C. Caraiscos, B. Liu, “A roundoff error analysis of the LMS adaptive algorithm” IEEE Trans. Acoust. Speech, and Signal Processing, vol. 32, pp. 34-41, 1984.
[Carter] G. Carter, A. Nuttall, P. Cable, “The smoothed coherence transform”, Proceedings IEEE, vol. 61, pp. 1497-1498, 1973.
[CeBIT2006] Micronas SkypeTV Presentation, CeBIT 2006, Hannover.
[Champagne] B. Champagne, S. Bedard, A. Stephenne, “Performance of time-delay estimation in the presence of room reverberation”, IEEE Trans. Speech Audio Processing, vol. 4, pp. 148-152, 1996.
[Cioffi] J. M. Cioffi, T. Kailath, “Fast, recursive-least-squares transversal filters for adaptive filtering”, IEEE Transactions on Acoustics, Speech, Signal Processing, ASSP-32, pp. 304-337, 1984.
[Cohen] I. Cohen, B. Berdugo, “Microphone array post-filtering for non-stationary noise suppression”, Proc. ICASSP, pp. 901-904, 2002.
LITERATURA
162
[Cox] H. Cox, R. Zaskind, M. Owen, “Robust adaptive beamforming”, IEEE Trans. on Acoustics, Speech Signal Processing, vol. 35, pp. 1365-1375, 1987.
[DeFatta] David J. DeFatta, Joseph G. Lucas, William S. Hodgkiss, “Digital Signal Processing: A System Design Approach”, Wiley, 1988.
[Domazetovic] A. Domazetovic, Z. Lukac, I. Papp, "Approach to verification of the developed AC-3 audio decoder on the MAS3508E DSP platform", XLIII ETRAN, Zlatibor, 1999.
[Ephraim] Z. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, IEEE Trans. Acoustics, Speech, Signal Processing, vol. 32, 1984.
[EPO] European Patent Office – EPO, www.epo.org
[Frost] O. Frost, “An algorithm for linearly constrained adaptive array processing”, Proceedings of IEEE, vol. 60, no. 8, pp. 926-935, 1972.
[Gänsler1] T. Gänsler, “A double-talk resistant subband echo canceller”, Signal Processing, vol. 65, no. 1, pp. 89-101, 1998.
[Gänsler2] T. Gänsler, M. Hansson, C.-J. Ivarsson, G. Salomonsson, “A double-talk detector based on coherence”, IEEE Transaction on Communication, vol. 44, no. 11, pp. 1421-1427, 1996.
[Gay1] S. Gay, S. Tavathia, “The fast affine projection algorithm”, Proc. Intl. Conf on Acoustics, Speech and Signal Proc., Detroit, 1995.
[Gay2] S. Gay, J. Benesty, “Acoustic signal processing for telecommunications”, Kluwer Academic Publishers, 2000.
[Griffiths] L. Griffiths, C. Jim, “An alternative approach to linearly constrained adaptive beamforming”, IEEE Transactions on Antennas Propagation, vol. 30, pp. 27-34, 1982.
[Hänsler] E. Hänsler, G. Schmidt, “Acoustic Echo and Noise Control”, Wiley, 2004.
[Hanson] J. Hanson, “Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect”, IEEE Transactions on Speech Audio Processing, vol. 2, no. 4., pp. 598-614, 1994.
[Hassab] J. Hassab, R. Boucher, “Performance of the generalized cross correlator in the presence of a strong spectral peak in the signal”, IEEE Transactions on Acoustics, Speech, Signal Processing, vol. 29, pp. 549-555, 1981.
[Haykin1] S. Haykin, “Adaptive Filter Theory”, Prentice Hall, 2002.
LITERATURA
163
[Haykin2] S. Haykin, B. Widrow, “Least-Mean-Square adaptive Filters”, Wiley, 2003.
[Haykin3] S. Haykin, “Array Signal Processing”, Prentice Hall, 1985.
[Hiroshi] N. Hiroshi, S. Hideaki, “A Fast Sliding Window RLS Algorithm”, Proceedings of the Annual Conference of the Institute of Systems, Control and Information Engineers, Japan, vol. 42, pp. 289-290, 1998.
[Huang] Y. Huang, J. Benesty, “Audio signal processing for next generation multimedia communication systems”, Kluwer Academic Publishers, 2004.
[IEEE754] IEEE Standard for Floating-Point Arithmetic (IEEE 754-2008)
[IFA2005] Micronas VideoPhone Presentation, IFA 2005, Berlin.
[IFA2007] Micronas TVPhone Presentation, IFA 2007, Berlin.
[ITU-T G.114] ITU-T G.114, “One-way transmission time”, International Telecommunication Union, 2003.
[ITU-T G.168] ITU-T G.168, “Digital network echo cancellers”, International Telecommunications Union, 2002.
[ITU-T P.563] ITU-T P.563, “Single ended method for objective speech quality assessment in narrow-band telephony applications”, International Telecommunications Union, 2001.
[ITU-T P.800] ITU-T P.800, “Methods for subjective determination of transmission quality”, International Telecommunications Union, 1996.
[ITU-T P.861] ITU-T P.861, “Objective quality measurement of telephone-band (300-3400 Hz) speech codecs”, International Telecommunications Union, 1998.
[ITU-T P.862.1] ITU-T P.862.1, ”Mapping function for transforming P.862 raw result scores to MOS-LQO”, International Telecommunications Union, 2003.
[ITU-T P.862] ITU-T, “Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”, International Telecommunications Union, 2001.
[Katona] M. Katona, “Jedan pristup odabiru optimalne arhitekture za realizaciju algoritama digitalne obrade video signala”, Doktorska disertacija, 2008.
[Keča] Bojan Keča, Ištvan Pap, Vladimir ðurković, Saša Vukosavljev, “Uticaj dužine memorijske reči na kvalitet obrade signala govora “, ETRAN 2007, Herceg Novi
[Knapp] C. Knapp, G. Carter, “The generalized correlation method for estimation of time delay”, IEEE Transactions on Acoustics, Speech, Signal Processing, vol. 24, pp. 320-327, 1976.
LITERATURA
164
[Kukolj1] D. Kukolj, M. Janev, I. Pap, N. Teslić, S. Vukobrat, “Speaker Localization under Echoic Conditions Applied to Service Robots”, EUROCON 2005, Beograd, 2005.
[Kukolj2] D. Kukolj, I. Pap, S. Vukosavljev, V. ðurković, “Stereo akustična lokalizacija aktivnog govornika”, TELFOR 2007, Beograd, 2007.
[Levitt] H. Levitt, J.C. Webster, "Effects of Noise and Reverberation on Speech”, In C.M. Harris, "Handbook of Acoustical Measurements and Noise Control”, Chapter 16, McGraw-Hill, 1991.
[Lim] J. Lim, A. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. of the IEEE, vol. 67, 1979.
[Lindstrom] F. Lindstrom, C. Schueldt, I. Claesson, “Efficient Multichannel NLMS Implementation for Acoustic Echo Cancellation”, EURASIP Journal on Audio, Speech, and Music Processing, Volume 2007, 2007.
[Liu] W.M. Liu, K.A. Jellyman, J.S.D. Mason, N.W.D. Evans, “Assessment of Objective Quality Measures for Speech Intelligibility Estimation”, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference
[Lukač] Željko Lukač, “One method for maintaining accuracy in implementation of Fast Fourier Transform on Fixed Point Digital Signal Processors”, MIPRO 2006, Opatija, Hrvatska
[Mader] A. Mader, H. Puder, G. Schmidt, “Step-size control for acoustic echo cancellation filters – an overview”, Signal Processing, vol 80., no. 9, pp. 1697-1729, 2000.
[Madisetti] Madisetti, V. K., “VLSI Digital Signal Processors”, IEEE Press, Piscataway, NJ, 1995.
[Marro] C. Marro, Y. Mahieux, K. Simmer, ”Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering”, IEEE Transactions on Speech and Audio Processing, vol. 6, no. 3, pp. 240–259, 1998.
[MAS] Digitalni signal procesor MAS 35xyH, Micronas
[Mathematica] Wolfram Research, Mathematica, www.wolframresearch.com
[Matlab] Mathworks Matlab, www.mathworks.com
[McAulay] R. McAulay, M. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. Acoustics, Speech, Signal Processing, vol. 28, 1980.
[McCowan1] I. McCowan, H. Bourlard, “Microphone array post-filter for diffuse noise field”, Proceedings of ICASSP-02, vol. 1, pp. 905-908, 2002.
LITERATURA
165
[McCowan2] I. McCowan, H. Bourlard, “Microphone array post-filter based on noise field coherence”, IDIAP Research Report IDIAP-RR 01-40, 2002.
[MIPS4KEc] http://www.mips.com/products/processors/hard-ip-cores/4kec-hard-ip-cores/index.cfm#summary
[Oberstar] Eric Oberstar, „Fixed-Point Representation & Fractional Math“, Oberstar consulting, 2007
[Oh] S. Oh, D. Linabarger, B. Priest, B. Raghothaman, ”A fast affine projection algorithm for an acoustic echo canceller using a fixed-poins DSP processor”, ICASSP 97, Munich, Germany, 1997.
[Opera] Opticom, “OPERA – Voice/Audio Quality Analyzer”, www.opticom.de/products/opera.html
[Oppenheim] A. Oppenheim, R. Schafer, “Discrete-Time Signal Processing”, Prentice Hall, 1989.
[Papp1] I. Papp, Z. Saric, S. Jovicic, N. Teslic, “Adaptive microphone array for unknown desired speaker’s transfer function”, Journal of Acoustic Society of America, Express Letters, pp. 44-49, July 2007.
[Papp2] I. Papp, V. Djurkovic, Z. Marceta, M. Janev, D. Kukolj, “Software library for audio algorithm profiling”, 14th Telecommunications forum TELFOR, Belgrade, 2006.
[Papp3] I. Papp, D. Kukolj, Z. Marčeta, V. ðurković, M. Janev, M. Popović, N. Teslić, “ Remotely Controlled Semi-Autonomous Robot with Multimedia Abilities”, ICCA 2005, Budapest, 2005.
[Pat1] D. Kukolj, V. Kovačević, N.Teslić, I. Papp, “Technique For Direction Of Arrival Estimation From Sound Source Using Dual Microphone System”, broj patenta: P-2006/0612, Fakultet tehničkih nauka, Novi Sad, 2006
[Pat2] Z. Šarić, S. Jovičić, V. Kovačević, N.Teslić, I. Papp, “Technique And System For Automatic Gain Control (Agc) Using Microphone Array”, broj patenta: P-2006/0611, Fakultet tehničkih nauka, Novi Sad, 2006.
[Pat3] Z. Šaric, S. Jovičić, V. Kovačević, N.Teslić, D. Kukolj, “System And Technique For Speaker Localization Using Microphone Array”, broj patenta: P-2006/0642, Fakultet tehničkih nauka, Novi Sad, 2006.
[Pat3Com] 3Com Corporation, “Method and system for automatic gain control with adaptive table lookup”, USPTO patent 6,959,082 B1, 2005.
[Pat4] Z. Šarić, S. Jovičić, V. Kovačević, N.Teslić, D. Kukolj, “System And Technique For Hands-Free Voice Communication Using Microphone Array”, broj patenta: P-2006/0551, Fakultet tehničkih nauka, Novi Sad, 2006.
LITERATURA
166
[Pat5] Z. Šarić, S. Jovičić, V. Kovačević, N.Teslić, D. Kukolj, “System And Procedure Of Hands Free Speech Communication Using A Microphone Array”, WIPO WO/2008/041878 , PCT/RS2007/000017, 2008.
[PatAgere] Agere Sustems Inc., “Method and apparatus for passive acoustic source localization for video camera steering applications“, USPTO patent 6,826,284 B1, 2004.
[PatBroadcom] Broadcom Corporation, “Wireless telephone with adaptive microphone array”, USPTO patent application 20060133622 A1, 2006.
[PatEricsson] Ericsson Inc, “Echo suppression using adaptive gain based on residual echo energy”, USPTO patent 6,622,030 B1, 2003.
[PatForte] ForteMedia Inc, “Small array microphone for acoustic echo cancellation and noise suppression”, USPTO patent 7,003,099 B1, 2006.
[PatFujitsu] Fujitsu Limited, ”Microphone array apparatus”, USPTO patent 7,035,416 B2, 2006.
[PatLucent] Lucent Technologies, “Acoustic beam forming with robust signal estimation”, USPTO patent 7,046,812 B1, 2006.
[PatMicrosoft1] Microsoft Corporation, “A system and method for beamforming using a microphone array”, EPO patent EP1571875 A2, 2005.
[PatMicrosoft2] Microsoft Corporation, “System and method for improving the precision of localization estimates“, USPTO patent 6,970,796 B2, 2005.
[PatMicrosoft3] Microsoft Corporation, “System and process for robust sound source localization”, USPTO patent 6,999,593 B2, 2006.
[PatMitel] Mitel Knowledge Corporation, “Method of acoustic echo cancellation in full-duplex hands free audio conferencing with spatial directivity”, USPTO patent 6,990,193 B2, 2005.
[PatNokia1] Nokia Mobile Phones, “Detection of the speech activity of a source”, USPTO patent 6,707,910 B1, 2004.
[PatNokia2] Nokia Corporation, “System and method for processing a signal being emitted from a target signal source into a noisy environment”, USPTO patent 6,836,243 B2, 2004.
[PatPhilips] Philips Electronics N.V., “Method and device for acoustic echo cancellation combined with adaptive beamforming”, USPTO patent 7,035,415 B2, 2006.
[PatPolycom] Polycom Inc, “Videoconferencing system with horizontal and vertical microphone arrays”, USPTO patent 6,922,206 B2, 2005.
[PatSamsung1] Samsung Electronics Co Ltd, “Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation”, EPO Patent EP1643769 A1, 2006.
LITERATURA
167
[PatSamsung2] Samsung Electronics Co. Ltd, “Method and apparatus for canceling acoustic echo in a mobile terminal”, USPTO patent application 20060062380 A1, 2006.
[PatTellabs] Tellabs Operation, “Method and apparatus for adaptive gain control”, USPTO patent application 20060217974 A1, 2006.
[Proakis] J. Proakis, “Encyclopedia of Telecommunications”, Wiley, 2003.
[ProdAKG] AKG, Array Microphones for Mercedes-Benz Cars, www.akg.com
[ProdAkustica] Akustica, AKU2103 HD (High Definition) Digital Microphone, www.akustica.com
[ProdCentrino] Intel, Intel Array Microphone Architecture, www.intel.com/standards/hdaudio
[ProdClearVoice] Labtec, LVA-7280 ClearVoice Digital Microphone, www.labtec.com
[ProdDA350] Andrea Corporation, DA-350 Hands free linear array microphone, www.andreaelectronics.com
[ProdDFBF] Inovative Integration, Direction Finding – Beam Forming, www.inovative-dsp.com
[ProdDSDA] Andrea Corporation, Digital Super Directional Array - DSDA 2.0, www.andreaelectronics.com
[ProdFM1182] ForteMedia, FM1182 Voice processor, www.fortemedia.com
[ProdForteM] ForteMedia, FM1073B Voice processor, www.fortemedia.com
[ProdGritTec] Dual Microphone Array solution, GritTec, www.grittec.com
[ProdLifeSize] LifeSize, LifeSize Phone, www.lifesize.com
[ProdLinguatronic] P. Heisterkamp, “Linguatronic - Product-Level Speech System for Mercedes-Benz Cars”, DaimlerChrysler AG, Research and Technology, 2001.
[ProdMitel] Mitel, 5310 IP Conference Unit, www.mitel.com
[ProdVAM] GN Netcom, Voice array microphone, www.gnnetcom.com
[ProdVistaAP] Microsoft, “Microphone array support in Windows Vista”, www.microsoft.com/whdc/device/audio/default.mspx
[ProdVoice] Aethra, The Voice, www.aethra.com
[ProdVoiceTracker] Acoustic Magic, Voice TrackerTM Array Microphone , www.acousticmagic.com
[Psytechnics] Psytechnics, “Comparison between subjective listening quality and P.862 PESQ score”, White Paper, 2003.
[Ren] Z. Ren, H. Schuetze, “A stabilized fast transveral filter algorithm for recursive least squrea adaptive filtering”, Signal processing, vol. 39, no. 3, pp. 235-246, 1994.
LITERATURA
168
[Roth] P. Roth, “Effective measurements using digital signal analysis”, IEEE Spectrum, vol. 8, pp. 62-70, 1971.
[SEA2M] Zaštitni znak registrovan u Zavodu za intelektualnu svojinu Republike Srbije, pod brojem 2006/00002281, reg. broj. 54335, 2006.
[Shynk] J. Shynk, “ Frequency-domain and multirate adaptive filtering” , IEEE Signal Processing Magazine, vol. 9, no. 1, pp. 14-37, 1992.
[Simmer] K. Simmer, J. Bitzer, C. Marro. “Post-filtering techniques”, In M. Brandstein and D. Ward, “Microphone Arrays”, Chapter 3, pp. 19–60, Springer, 2001.
[Skidmore] I. Skidmore, I. Proudler, “KAGE: a new fast RLS algorithm”, IEEE International Conference on Acoustics, Speech, and Signal Processing - ICASSP, vol. 6, pp. 3773 – 3776, 2001.
[Smith] Steven W. Smith, “Digital Signal Processing: A Practical Guide for Engineers and Scientists”, Newnes, 2002
[SPP] M. Popović, “Sistemska programska podrška”, FTN, Novi Sad, 2004.
[Steeneken] H. Steeneken, “The measurement of speech intelligibility”, TNO Human Factors, Soesterberg, Netherlands
[Šarić1] Z. Šarić, S. Jovičić, M. Janev, D. Kukolj, I. Pap, “Postfiltar mikrofonskog niza za nepoznatu vremenski invarijantnu funciju koherencije”, DOGS 2006, Vršac, Srbija.
[Šarić2] Z. Saric, S. Jovicic, M. Janev, I. Papp, Z. Marceta, “Microphone array post-filter based on noise power attenuation factor and a priori knowledge of the noise field coherence”, SPECOM’2008, Moscow.
[Tabus] I. Tabus, “Adaptive Signal Processing - Lecture 5: Variants of the LMS algorithm“, Tampere University of Technology Signal Processing Laboratory, 2007, Tampere, Finland.
[TMS320C6727] http://focus.ti.com/paramsearch/docs/parametricsearch.tsp?family=dsp§ionId=2&tabId=1954&familyId=1404¶mCriteria=no
[TOSQA] ITU-T COM12-34,”TOSQA - Telecommunication objective speech quality assessment”.
[Tsoukalas] D. Tsoukalas, J. Mourjopoulos, “Speech enhancement based on audible noise suppression”, IEEE Transactions on Speech Audio Processing, vol. 5, 1997.
[USPTO] US Patent and Trademark Office – USPTO, www.uspto.gov
[Valin1] J.-M. Valin, “On Adjusting the Learning Rate in Frequency Domain Echo Cancellation With Double-Talk”, IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 3, pp. 1030-1034, 2007.
LITERATURA
169
[Valin2] J.M. Valin, J. Rouat, F. Michaud, “Microphone array post-filter for separation of simultaneous non-stationary sources”, Proc. ICASSP, 2004.
[Vary] P. Vary, “Noise suppression bz spectral magnitude estimation – mechanism and theoretical limits”, Signal Processing, vol. 8, no. 4, pp. 387-400, 1985.
[Vukosavljev] S. Vukosavljev, I. Pap, M. Janev, D. Kukolj, “Ocena kvaliteta audio algoritama objektivnim merama”, 14. Telekomunikacioni forum TELFOR 2006, Beograd.
[Widrow1] B. Widrow, M. Hoff Jr., “Adaptive switching circuits”, IRE WESCON Conv. Rec., pt. 4, pp. 96-104, 1960.
[Widrow2] B. Widrow, S. Stearns, “Adaptive signal processing”, Prentice Hall, 1985.
[WIPO] World Intellectual Property Organization - WIPO , www.wipo.int
[WM61] Panasonic WM61A, omnidirectional back electret condenser microphone cartridge
[Xu] G. Xu, H. Liu, L. Tong, T. Kailath, “A least-squares approach to blind channel identification”, IEEE Transactions on Signal Processing, vol. 43, pp. 2983-2993, 1995.
[Yamamoto] S. Yamamoto, S. Kitayama, “An adaptive echo canceller with variable step gain method”, Trans. IECE Jpn, E65, pp. 1-8, 1982.
[Yasukawa] H. Yasukawa, S. Shimada, “An acoustic echo canceller using subband sampling and decorrelation metods”, IEEE Transactions on Signal Processing, vol. 41, no. 2, pp. 926-930, 1993.
[Zelinski] R. Zelinski, “A microphone array with adaptive post-filtering for noise reduction in reverberant rooms”, in Proceedings of ICASSP-88, Vol. 5, pp. 2578–2581, 1988.