- phd - v1.0.pdf · Želeo bih da se najiskrenije zahvalim mentoru prof. dr. nikoli tesli ću ne...

UNIVERZITET U NOVOM SADU

FAKULTET TEHNIČKIH NAUKA

mr Ištvan Pap

Prilog rešenju obrade govornog signala korišćenjem

mikrofonskog niza

– D O K T O R S K A D I S E R T A C I J A –

Mentor:

prof. dr. Nikola Teslić

Novi Sad, 2009

Želeo bih da se najiskrenije zahvalim mentoru prof. dr. Nikoli Tesliću ne samo na strpljenju i iskrenoj podršci, već i na motivaciji i inspiraciji pri izradi teze. Zahvalio bih se i svim članovima komisije na poklonjenoj pažnji i korisnim sugestijama.

Zahvaljujem se i najbližim saradnicima koji su učestvovali u

istraživanju jer su svojim zalaganjem i drugarskim odnosom obezbedili dodatnu motivaciju. Posebnu zahvalnost dugujem dr. Zoranu Šariću za podršku u naučno-istraživačkom radu i objavljivanju naučnih radova.

Mnogo dugujem svojoj porodici koji su imali reči ohrabrenja,

razumevanje za moja odsustvovanja i danonoćni rad, i bez čije podrške ne bih uspešno završio ovu disertaciju.

УНИВЕРЗИТЕТ У НОВОМ САДУ ФАКУЛТЕТ ТЕХНИЧКИХ НАУКА 21000 НОВИ САД , Трг Доситеја Обрадовића 6

КЉУЧНА ДОКУМЕНТАЦИЈСКА ИНФОРМАЦИЈА

Редни број, РБР:

Идентификациони број, ИБР:

Тип документације, ТД: Монографска документација

Тип записа, ТЗ: Текстуални штампани материјал

Врста рада, ВР: Докторски рад

Аутор, АУ: Мр Иштван Пап, дипл. инж.

Ментор, МН: проф. др Никола Теслић

Наслов рада, НР: Прилог решењу обраде говорног сигнала коришћењем микрофонског низа

Језик публикације, ЈП: Српски / латиница

Језик извода, ЈИ: Српски

Земља публиковања, ЗП: Република Србија

Уже географско подручје, УГП: Војводина

Година, ГО: 2009.

Издавач, ИЗ: Ауторски репринт

Место и адреса, МА: Нови Сад; трг Доситеја Обрадовића 6

Физички опис рада, ФО: (поглавља/страна/ цитата/табела/слика/графика/прилога) 7 поглавља / 159 страна / 140 цитат / 26 табела / 77 слика

Научна област, НО: Електротехника и рачунарство

Научна дисциплина, НД: Рачунарска техника

Предметна одредница/Кqучне речи, ПО: Дигитална обрада сигнала, дигитални сигнал процесор, обрада говорног сигнала у реалном времену, микрофонски низ

УДК

Чува се, ЧУ: У библиотеци Факултета техничких наука, Нови Сад

Важна напомена, ВН: Извод, ИЗ: Ова докторска теза се бави истраживањем у области примене дигиталне

обраде говорног сигнала и микрофонског низа у слободној говорној комуникацији. Циљ тезе је развој акустичког подсистема заснованог на микрофонском низу, одговарајућој физичкој архитектури и програмској подршци, који је са становишта квалитета и сложености погодан за примену у уређајима потрошачке електронике. У тези се анализирају релевантни аспекти проблематике, предлаже се решење за рад у реалном времену, и примењују се објективне и субјективне мере за поређење перформанси. Основни допринос тезе је у предложеном оригиналном решењу са повољним односом сложености и квалитета, као и у предложеној методологији развоја и оцене квалитета ограничених решења за рад у реалном времену.

Датум прихватања теме, ДП: 29.10.2008.

Датум одбране, ДО:

Чланови комисије, КО: Председник: др Миодраг Темеринац, ред. проф.

Члан: др Владимир Ковачевић, проф. емеритус

Члан: др Мирослав Поповић, ред. проф. ч

Потпис ментора

Члан: др Зоран Шарић, виши научни сарадник

Члан, ментор: др Никола Теслић, ванр. проф.

Образац Q2.НА.06-05- Издање 1

UNIVERSITY OF NOVI SAD FACULTY OF TECHNICAL SCIENCES 21000 NOVI SAD, Trg Dositeja Obradovića 6

KEY WORDS DOCUMENTATION

Accession number, ANO:

Identification number, INO:

Document type, DT: Monographic publication

Type of record, TR: Textual printed material

Contents code, CC: PhD Thesis

Author, AU: Ištvan Pap, MSc

Mentor, MN: Nikola Teslić, PhD

Title, TI: One approach to speech signal processing based on microphone array

Language of text, LT: Serbian

Language of abstract, LA : Serbian

Country of publication, CP: Republic of Serbia

Locality of publication, LP: Vojvodina

Publication year, PY: 2009.

Publisher, PB: Author’s reprint

Publication place, PP: Novi Sad, Dositeja Obradovica sq. 6

Physical description, PD: (chapters/pages/ref./tables/pictures/graphs/appendixes) 7 chapters / 159 pages/ 140 references / 26 tables / 77 pictures

Scientific field, SF: Electrical Engineering

Scientific discipline, SD: Computer Engineering, Engineering of Computer Based Systems

Subject/Key words, S/KW: Digital signal processing, digital signal processor, real-time speech signal processing, microphone array

UC

Holding data, HD: The Library of Faculty of Technical Sciences, Novi Sad, Serbia

Note, N: Abstract, AB : The PhD thesis addresses the problem of digital speech signal processing

based on microphone array in hands-free voice communication. The main focus of the thesis is a development of acoustic front.-end based on microphone array, appropriate hardware platform and software. The quality and the complexity of the proposed solution makes it suitable for application in consumer electronic products. The thesis analyses the relevant aspects of the problem, proposes a real-time solution, and applies objective and subjective measures for performance comparison of various solutions. The main contribution of the thesis is the original solution with beneficial complexity/quality ratio, as well as the proposed methodology for development and benchmarking of constrained real-time systems. Accepted by the Scientific Board on, ASB : 29.10.2008.

Defended on, DE:

Defended Board, DB: President: dr Miodrag Temerinac, Professor

Member: dr Vladimir Kovačević, Professor Emeritus

Member: dr Miroslav Popović, Professor Č

Menthor's sign

Member: dr Zoran Šarić, Senior Research Associate

Member, Mentor: dr Nikola Teslić, Associate Professor

Obrazac Q2.НА.06-05- Izdanje 1

SADRŽAJ

I

SADRŽAJ

POGLAVLJE 1. UVOD ............................................................................................1

POGLAVLJE 2. PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA I

POSTAVKA CILJEVA ISTRAŽIVANJA ...............................................................3

2.1 Postavka ciljeva istraživanja ....................... .................................................................. 12

POGLAVLJE 3. PREGLED RELEVANTNIH IZVORA INFORMACIJA ....... 15

3.1 Postoje ća rešenja za slobodnu komunikaciju ................. ............................................ 15

3.2 Pregled baze patenata............................... ..................................................................... 20

3.3 Namenski sistemi za obradu digitalnih signala ...... ..................................................... 23

3.4 Pregled mogu ćih platformi za realizaciju obrade signala u realno m vremenu......... 28

3.5 Pregled nau čnih dostignu ća u oblasti obrade signala mikrofonskih nizova ..... ....... 33

3.5.1 Potiskivanje akustičkog eha......................................................................................... 34

3.5.2 Odreñivanje pravca izvora pomoću mikrofonskog niza................................................ 44

3.5.3 Prostorno filtriranje....................................................................................................... 48

3.5.4 Potiskivanje šuma........................................................................................................ 54

3.5.5 Automatska kontrola pojačanja.................................................................................... 56

POGLAVLJE 4. PREGLED MERA ZA OCENU PERFORMANSI SISTEMA

ZA OBRADU GOVORNOG SIGNALA .............................................................. 59

4.1 Mere za ocenu složenosti rešenja................... .............................................................. 60

4.2 Postupak ocene ta čnosti bloka za odre ñivanje položaja govornika.......................... 63

4.3 Mere za ocenu kvaliteta govornog signala........... ........................................................ 65

SADRŽAJ

II

POGLAVLJE 5. SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU ..73

5.1 Sistem za slobodnu govornu komunikaciju............. .................................................... 77

5.2 Opis ciljnih platformi i sprežnog podsistema ....... ....................................................... 81

5.3 Koraci razvoja programske podrške.................. ........................................................... 88

5.4 Algoritmi za poboljšanje kvaliteta govornog signala .................................................. 90

5.4.1 Ulazni i izlazni stepen .................................................................................................. 93

5.4.2 Postupak potiskivanja akustičkog eha ......................................................................... 95

5.4.3 Odreñivanje pozicije aktivnog govornika.................................................................... 102

5.4.4 Prostorno filtriranje..................................................................................................... 108

5.4.5 Post-procesiranje....................................................................................................... 111

5.4.6 Potiskivanje stacionarnog šuma ................................................................................ 115

5.4.7 Automatska regulacija pojačanja ............................................................................... 118

5.4.8 Adaptivno sabiranje signala....................................................................................... 122

5.5 Integracija razvijenog sistema sa TV ure ñajem ............................................... .......... 124

POGLAVLJE 6. REZULTATI MERENJA PERFORMANSI REŠENJA .... 127

6.1 Merenje složenosti rešenja......................... ................................................................. 127

6.2 Merenje ta čnosti bloka za odre ñivanje položaja govornika.......................... ............ 135

6.3 Merenje kvaliteta izlaznog signala objektivnim mera ma........................................... 136

6.4 Subjektivno merenje kvaliteta obra ñenog signala ....................................... ............. 144

6.5 Testiranje rešenja od strane eksperata u oblasti po troša čke elektronike............... 147

6.6 Poreñenje sa drugim rešenjima ........................... ....................................................... 152

POGLAVLJE 7. ZAKLJU ČAK ......................................................................... 157

SPISAK SLIKA

III

SPISAK SLIKA

Slika 2.1 Vremenski prikaz dominantnih proizvoda iz oblasti potrošačke elektronike ................ 4

Slika 2.2 Vrste telekomunikacija (preuzeto iz [Anttalainen]) ....................................................... 7

Slika 2.3 Istorija telekomunikacijskih usluga (preuzeto iz [Anttalainen])..................................... 8

Slika 2.4 Šematski prikaz govorne komunikacije ........................................................................ 9

Slika 2.5 Slobodni dvosmerni komunikacioni sistem u tipičnom akustičkom ambijentu ........... 10

Slika 3.1 AcoustiMagic VoiceTracker Array Microphone (levo), ............................................... 16

Slika 3.2 Voice Array Microphone ............................................................................................. 16

Slika 3.3 Linguatronic sistem u Mercedes vozilima (levo) i LifeSize(desno) ............................ 17

Slika 3.4 The Voice (levo) i Mitel 5310 IP (desno) .................................................................... 18

Slika 3.5 Dizajn namenskog sistema za obradu signala........................................................... 24

Slika 3.6 Tok razvoja i realizacije algoritama ............................................................................ 25

Slika 3.7 Glavna petlja tipične DSP aplikacije........................................................................... 27

Slika 3.8 Zapis označenih brojeva u nepokretnom zarezu ....................................................... 31

Slika 3.9 Zapis brojeva u pokretnom zarezu............................................................................. 32

Slika 3.10Model sistema za slobodnu komunikaciju u akustičkom okruženju .......................... 34

Slika 3.11 Upotreba adaptivnog filtra za identifikaciju sistema (str. 76).................................... 35

Slika 3.12 Mera potiskivanje eha u zavisnosti od vrednosti faktora adaptacije (preuzeto iz

[Tabus])............................................................................................................................. 38

Slika 3.13 Odnos performansi i kompleksnosti algoritama ....................................................... 43

Slika 3.14 Akustički ambijent u reverberantnom okruženju ...................................................... 44

Slika 3.15 Adaptivni potiskivač bočnih petlji.............................................................................. 51

Slika 4.1 Postavka za ocenu kvaliteta bloka za lociranje govornika ......................................... 64

Slika 4.2 Koncept merenja poboljšanja odnosa signal-šum...................................................... 66

Slika 4.3 Koncept merenja potiskivanja eha ............................................................................. 66

Slika 4.4 Ocena sistema za obradu zvuka................................................................................ 67

Slika 4.5 Blokovi PESQ metode (preuzeto iz ITU-T P.862) ...................................................... 69

Slika 4.6 Merenje kvaliteta govora na osnovu razumljivosti...................................................... 70

Slika 4.7 Odnos razumljivosti rečenica, reči i logatoma u zavisnosti od nivoa šuma ............... 72

Slika 5.1 Analiza relevantnih informacija................................................................................... 73

Slika 5.2 Predlog arhitekture rešenja ........................................................................................ 74

Slika 5.3 Formiranje zahteva i ograničenja ............................................................................... 76

Slika 5.4 Struktura dvosmernog sistema za slobodnu govornu komunikaciju .......................... 79

Slika 5.5 Scenario upotrebe SEA2M......................................................................................... 79

Slika 5.6 Struktura sistema ....................................................................................................... 80

Slika 5.7 Realizacija množenja u nepokretnom zarezu (preuzeto iz [AADSP1]) ...................... 85

Slika 5.8 Frekventni odziv upotrebljenih mikrofonskih elemenata (preuzeto iz [WM61]).......... 86

Slika 5.9 Sprežni podsistem...................................................................................................... 87

SPISAK SLIKA

IV

Slika 5.10 Faze u razvoju algoritama ........................................................................................ 89

Slika 5.11 Blok dijagram algoritama .......................................................................................... 91

Slika 5.12 Prozorska funkcija wi, wi2 i primena na ulazni blok podataka ................................. 94

Slika 5.13 Blok dijagram MC-AEC algoritma............................................................................. 97

Slika 5.14 Zavisnost vrednosti faktora adaptacije Fµ od vremena (u sekundama) .................. 98

Slika 5.15 Detaljni prikaz modula za potiskivanje eha i DTD modula ....................................... 99

Slika 5.16 Zavisnost vrednosti faktora fα od frekvencije ....................................................... 101

Slika 5.17 Vrednost faktora Dtd u funkciji frekvencije za slučaj kada je prisutan samo signal

eha (levo) i u slučaju prisutnosti i lokalnog signala (desno) ........................................... 101

Slika 5.18 Ugao azimuta θ ka govorniku (levo) i ..................................................................... 102

Slika 5.19 Formirani mikrofonski parovi i odgovarajući frekventni opsezi............................... 103

Slika 5.20 Blok dijagram modula za odreñivanje pravca govornika i prostorno filtriranje ....... 104

Slika 5.21 Geometrijski raspored mikrofona i govornika ......................................................... 108

Slika 5.22 Blok dijagram algoritma za prostorno filtriranje ...................................................... 109

Slika 5.23 Prostorna karakteristika filtra u govornom opsegu................................................. 111

Slika 5.24 Blok dijagram modula za post filtriranje.................................................................. 112

Slika 5.25 Blok dijagram algoritma za potiskivanje šuma ....................................................... 116

Slika 5.26 Blok dijagram modula za automatsku regulaciju pojačanja (AGC) ........................ 118

Slika 5.27 Zavisnost pojačanja od nagiba za Pin=0.1Pnom ................................................... 121

Slika 5.28 Blok dijagram modula za adaptivno sabiranje signala ........................................... 122

Slika 5.29 Modul za slobodnu govornu komunikaciju ............................................................. 124

Slika 5.30 Blok dijagram sistema integrisanog u TV ureñaj (preuzeto iz [IFA2007]) .............. 125

Slika 5.31 Maketa TV prijemnika sa integrisanim sistemom................................................... 126

Slika 6.1 Merenje kompleksnosti na skupom reprezentativnih testnih signala ....................... 130

Slika 6.2 Rezultati merenja angažovane memorije po blokovima obrade .............................. 133

Slika 6.3 Rezultati merenja broja izvršenih operacija po blokovima obrade ........................... 134

Slika 6.4 Rezultati merenja tačnosti lociranja aktivnog govornika – serija A .......................... 135

Slika 6.5 Rezultati merenja tačnosti lociranja aktivnog govornika – serija B .......................... 136

Slika 6.6 Grafički prikaz konfiguracije prostorije za snimanje testnih signala ........................ 138

Slika 6.7 Koraci automatskog snimanja testnih signala .......................................................... 140

Slika 6.8 Postupak objektivnog merenja ................................................................................. 140

Slika 6.9 Rezultati merenja PESQ nad skupom ulaznih testnih signala ................................. 141

Slika 6.10 Rezultati merenja ERLE nad skupom ulaznih testnih signala................................ 142

Slika 6.11 Rezultati merenja SNRE nad skupom ulaznih testnih signala ............................... 143

Slika 6.12 Konfiguracija za merenje razumljivosti ................................................................... 144

Slika 6.13 Grafički prikaz rezultata prepoznavanja logatoma ................................................. 146

Slika 6.14 Rezultati prepoznavanja logatoma u graničnim konfiguracijama........................... 147

Slika 6.15 Dijagram sistema prikazanog na IFA 2005 (preuzeto iz [IFA2005])....................... 148

SPISAK SLIKA

V

Slika 6.16 Izgled makete prikazane na IFA 2005.................................................................... 149

Slika 6.17 Izgled makete prikazane na CeBIT 2006 ............................................................... 150

Slika 6.18 Dijagram sistema prikazanog na CeBIT 2006 (preuzeto iz [CeBIT2006]) )........... 150

Slika 6.19 Scenario upotrebe sistema prikazanog na IFA 2007 (preuzeto iz [IFA2007]) ) ..... 151

SPISAK TABELA

VII

SPISAK TABELA

Tabela 3.1 Pregled LMS algoritma 36

Tabela 3.2 Pregled NLMS algoritma 37

Tabela 3.3 Pregled AP algoritma 40

Tabela 3.4 Pregled RLS algoritma 41

Tabela 3.5 Pregled kompleksnosti algoritama 42

Tabela 3.6 Pregled parametrizovanog Wienerovog filtra 55

Tabela 4.1 MOS skala za ocenjivanje kvaliteta signala testovima slušanja 68

Tabela 4.2 Primer tabele logatoma 71

Tabela 5.1 Prikaz postupaka poboljšanja signala i smetnji koje potiskuju 75

Tabela 5.2 Uporedni prikaz karakteristika ciljnih platformi 82

Tabela 5.3 Pregled relativne tačnosti u zavisnosti od aritmetike 84

Tabela 5.4 Jednačine potiskivanja eha zasnovanog na NLMS 97

Tabela 5.5 Jednačine potiskivanja eha za potrebe DTD 99

Tabela 5.6 Tabela razmatranog frekventnog opsega i faktora decimacija za pojedina rastojanja

elemenata mikrofonskih parova 106

Tabela 6.1 Detaljan izveštaj profilisanja referentnog modela po tipovima operacija i

matematičkim funkcijama 129

Tabela 6.2 Sumarni pregled upotrebe memorije i broja potrebnih aritmetičkih operacija 130

Tabela 6.3 Detaljan izveštaj po tipovima operacija i matematičkim funkcijama 132

Tabela 6.4 Relativni udeo pojedinih modula obrade u ukupno potrebnoj memoriji 132

Tabela 6.5 Relativni udeo pojedinih modula obrade u broju ukupno izvršenih operacija 134

Tabela 6.6 Raspored pobuda po kanalima 137

Tabela 6.7 Pregled testnih slučajeva 139

Tabela 6.8 Raspored testnih signala po kanalima 139

Tabela 6.9 Rezultati prepoznavanja logatoma 145

Tabela 6.10 Pregled mogućnosti pojedinih rešenja 153

Tabela 6.11 Pregled složenosti odabranih rešenja 154

Tabela 6.12 Pregled indikatora kvaliteta odabranih rešenja 155

SKRAĆENICE

IX

SKRAĆENICE

3SQM Single Sided Speech Quality Measure ABF Acoustic Beam Forming ADC Analog to Digital Converter AEC Acoustic Echo Canceller AED Adaptive Eigenvalue Decomposition AGC Automatic Gain Control AM Adaptive Mixing AP Affine Projection ASIC Application Specific Integrated Circuit ASR Automatic Speech Recognition BF Beam Forming DECT Digital Enhanced Cordless Telecommunications DFT Discrete Fourier Transform DI Directivity Index DMA Direct Memory Access DOA Direction Of Arrival DSB Delay and Sum Beamformer DSP Digitalni Signal Processor DTD Double Talk Detector DVD Digital Video Disc EPO European Patent Office ERLE Echo Return Loss Enhancement FAP Fast Affine Projection FFT Fast Fourier Transform FIR Finite Impulse Response FPGA Field Programmable Gate Array FSB Filter and Sum Beamformer FW FrameWork GCC Generalized Cross Correlation GPS Global Positioning System GSC Generalized Sidelobe Canceller GSM Global System for Mobile communications IFA Internationalle FunkAusstellung IIR Infinite Impulse Response ISDN Integrated Services Digital Network ITU International Telecommunication Union JPEG Joint Photographic Experts Group LCD Liquid Crystal Display LMS Least Mean Squares MAC Multiply And Accumulate MC-AEC MultiChannel Acoustice Echo Canceller MCC Multichannel Cross Correlation MEMS MicroElectroMechanical System MFLOPS Millions FLoating point Operations Per Second MIPS Million Instructions Per Second ML Maximum Likelyhood MMSE Minimum Mean Square Error MOS Mean Opinion Score MPEG Moving Picture Experts Group MVDR Minimum Variance Distortionless Response NLMS Normalized Least Mean Squares NR Noise Reduction PESQ Perceptual Evaluation of Speech Quality PF Post Filter

SKRAĆENICE

X

PHAT PHAse Transform PSQM Perceptual Speech Quality Measure RAM Random Access Memory RISC Reduced Instruction Set Computer RLS Recursive Least Squares ROM Read Only Memory SD-BF Super Directive Beam Former SEA2M Speech Enhancement Algorithms for Array of Microphones SIMD Single Instruction Multiple Data SNR Signal-to-Noise Ratio SNRE Signal-to-Noise Ratio Enhancement TDE Time Delay Estimation TDOA Time Delay Of Arrival TOA Time Of Arrival TOSQA Telecommunication Objective Speech Quality Assessment USPTO US Patent and Trademark Office VAD Voice Activity Detection VAD Voice Activity Detector VHDL Very High-level Design Language VoIP Voice over IP WIPO World Intellectual Property Organization

POGLAVLJE 1 - UVOD

1

POGLAVLJE 1. UVOD

Digitalna obrada signala je postala jedna od najznačajnijih oblasti potrošačke

elektronike današnjice. Mikroprocesori su prisutni u svakom digitalnom ureñaju.

Posebna klasa namenskih mikroprocesora – digitalni signal procesori – su sastavni deo

mnogih sistema različitih složenosti, počevsi od jednostavnih senzora, u telefonima,

digitalnim fotoaparatima, TV ureñajima, telekomunikacionoj opremi, itd. Glavna

karakteristika takvih sistema jeste rad u realnom vremenu, uz angažovanje ograničenih

resursa.

U savremenom svetu i komunikacija je digitalizovana, ali ljudski govor je i

dalje najrasprostranjeniji vid komunikacije. Tokom vremena, prenosni mehanizmi

govora su se menjali, pa i način korišćenja komunikacionih kanala. Trenutni trend je

da se ta komunikacija olakša (npr. u obliku slobodne komunikacije), i da se poboljša

kvalitet veze. Širi prenosni kanal obezbeñuje verniji prenos glasa, ali potreban je

odgovarajući akustički sprežni sistem koji obezbeñuje odgovarajući kvalitet izvornog

govora.

Slobodna komunikacija (engl. hands-free) je sve prisutnija u poslovnoj, ali i u

privatnoj sferi u formi konferencijskih poziva, često kombinovana i sa video

komunikacijom. Slobodna komunikacija podrazumeva veoma složen akustički

ambijent, sa postojanjem značajnih smetnji u okruženju. U cilju poboljšanja kvaliteta

veze, savremeni sprežni sistemi su zasnovani na mikrofonskom nizu, koji u

POGLAVLJE 1 - UVOD

2

kombinaciji sa odgovarajućim postupcima obrade obezbeñuju značajno potiskivanje

smetnji.

Teza se bavi istraživanjem u oblasti razvoja sistema za obradu signala

mikrofonskog niza u realnom vremenu. Cilj teze je da se razvije akustički sprežni

sistem zasnovan na mikrofonskom nizu i odgovarajućem DSP, koji je zadovoljava

sledeće uslove:

- da je po složenosti i mogućnostima pogodan za primenu u govornim

komunikacionim sistemima potrošačke elektronike, i

- da zadovoljava očekivanja u pogledu kvaliteta signala.

U poglavlju 2 dat je pregled razvoja oblasti digitalne obrade signala, sa osvrtom

na probleme koji se postavljaju pred sistem i okvire istraživanja.

Poglavlje 3 se bavi istraživanjem dosadašnjih dostignuća u oblasti. U cilju

postavljanja okvira sistema analizirani su postojeći proizvodi na tržištu. Baze patenata

sa jedne strane predstavljaju veoma značajan izvor naučnih informacija, dok sa druge

pružaju uvid u zaštićena rešenja koja su srodna ciljnom sistemu. Dat je i pregled

savremenih naučnih dostignuća obrade signala mikrofonskog niza sa aspekta

složenosti i kvaliteta, sa ciljem da se odaberu najpogodniji postupci sa stanovišta

odnosa složenosti i kvaliteta.

U poglavlju 4 opisane su objektivne i subjektivne mere koje se koriste za ocenu

kvaliteta i performansi razvijenog sistema. Pojedine mere se koriste za upravljanje

postupkom razvoja algoritama (npr. mera složenosti), dok ostale obezbeñuju osnovu za

merenje kvaliteta celokupnog sistema ili pojedinih blokova.

U poglavlju 5 dat je detaljan opis sistema, fizičke arhitekture i odgovarajuće

programske podrške, kao i postupaka obrade signala mikrofonskog niza.

Poglavlje 6 se bavi rezultatima merenja ranije opisanim merama. Dat je i sažetak

evaluacije rezultata od strane eksperata u oblasti potrošačke elektronike. Na kraju

poglavlja, izložena je komparativna analiza realizovanog rešenja sa postojećim

rešenjima.

U poglavlju 7 dat je zaključak istraživanja sa daljim pravcima razvoja.

POGLAVLJE 2 – PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA

3

POGLAVLJE 2. PREGLED RAZVOJA OBLASTI ISTRAŽIVANJA I POSTAVKA CILJEVA ISTRAŽIVANJA

Pojam potrošačke elektronike se prvi put pojavljuje 1920-tih godina kao

posledica masovne prodaje radioprijemnika i elektronskih fonografa. Pojava

tranzistora na početku 1950-tih, kao i pojava integrisanih kola 1960-tih godina je

dovela do mnogih novih i poboljšanih proizvoda, kao na primer prenosivih radio

prijemnika i ručnih kalkulatora. Do kraja dvadesetog veka potrošačka elektronika je

postala jedan od vodećih sektora svetske ekonomije sa veoma raznovrsnom paletom

proizvoda, kao na primer televizora, kamkordera, video i DVD ureñaja, video igara,

akustičke opreme, mobilnih telefona, GPS sistema, prenosivih i personalnih računara,

itd.

Značajan faktor u brzom razvoju oblasti je digitalna obrada signala (engl. Digital

Signal Processing – DSP). Obrada signala se može definisati kao namenska

modifikacija signala, sa ciljem da se poboljša prenos, skladištenje ili upotreba istog. To

obezbeñuje da korisnici upotrebljavaju pojedine funkcije ureñaja bez poznavanja

detalja i načina rada. Od 1960-tih, pa sve do danas, dostignuća digitalne obrade signala

su igrala izuzetno značajnu ulogu u razvoju potrošačke elektronike.

Slika 2.1 prikazuje dominantne proizvode potrošačke elektronike u proteklim

decenijama. Svi navedeni ureñaji, počevši od 1920-tih godina, na neki način uključuju

obradu signala, prosto iz razloga što su oni namenjeni za komunikaciju, zabavu ili za


4

neku drugu vrstu obrade informacija, pri čemu informacije se prenose u obliku

električnih signala.

Do sedamdesetih godina prošlog veka, ureñaji potrošačke elektronike su

prvenstveno bili analogni. Iako je obrada signala bila prisutna, ona se realizovala

analognim komponentama, a ključnu ulogu su odigrali inžinjeri koji su projektovali

ureñaj. Početkom sedamdesetih godina, sa pojavom kalkulatora i video igara, digitalna

elektronika je zamenila analognu. Ureñaji proizvedeni 80-tih godina do danas najčešće

koriste digitalne komponente, a time većinom uključuju i digitalnu obradu signala na

neki način.

Slika 2.1 Vremenski prikaz dominantnih proizvoda iz oblasti potrošačke elektronike

Obrada digitalnih signala se može realizovati na raznim fizičkim arhitekturama –

platformama (mikroprocesorima ili mikrokontrolerima), ali najveći uticaj na razvoj

potrošačke elektronike je imala pojava integrisanih kola namenjenih obradi digitalnih

signala, digital signal procesora (engl. Digital Signal Processor – DSP).

Prvi DSP procesori su se pojavili ranih 80-tih. Neki od njih su:

• Texas Instruments TMS32010,

• AMI S2811,

• Intel 2920,


5

• NEC muPD7720,

• Motorola 56000, itd.

Danas postoji veliki broj raznovrsnih DSP. Neki su DSP procesori opšte namene,

postoje procesori namenjeni obradi odreñenih vrsta signala (zvuk, slika), dok postoje i

vrlo specijalizovani, namenjeni obavljanju specifičnih zadataka (automatska

sekretarica, prepoznavanje govora i sl.). DSP se danas primenjuju za obradu signala

prvenstveno u sledećim oblastima:

• U obradi zvuka za pretvaranje iz analognog domena u digitalni i

obrnuto, kompresiju, realizaciju ispravljanja grešaka, sintezu govora i

muzike, prepoznavanje govora, realizaciju standarda kodovanja kao

npr. MP3.

• U obradi slike za digitalno kodovanje slike, ispravljanje grešaka,

kompresiju, poboljšanje kvaliteta slike, analizu slike, za realizaciju

standarda kodovanja kao npr. JPEG i MPEG, pretvaranje formata slike.

• U telekomunikaciji za realizaciju modema.

• U kontrolnim strukturama za obradu signala senzora i generisanja

odgovarajućih upravljačkih signala.

Za razliku od procesora opšte namene, fizička arhitektura DSP procesora je

prilagoñena zadacima koji se obavljaju na njima. Dok su procesori opšte namene

poseduju von Neumann arhitekturu, arhitektura DSP je najčešće Harvard, čime se

obezbeñuje paralelizam na nivou fizičke arhitekture u pogledu pristupa memoriji

[LPRS].

Ureñaji u kojima se koriste DSP procesori najčešće su namenjeni radu u realnom

vremenu. To podrazumeva obradu ulaznih podataka i generisanja izlaznih podataka

jednakom ili većom brzinom od brzine pristizanja podataka, što predstavlja ozbiljne

zahteve pred fizičku arhitekturu, ali i pred dizajn i realizaciju postupaka obrade [SPP].

U cilju poboljšanja performansi, DSP se proširuju specifičnim elementima koji

obezbeñuju efikasnije izvršavanje tipičnih operacija u digitalnoj obradi signala, npr.:

• brze jedinice za množenje koje generišu rezultat u jednom taktu,

• specifične jedinice koje su u stanju da obave množenje dva operanda i

sabiranje sa trećim (engl. Multiply and Accumulate – MAC). Ova

operacija je tipična za obradu zvučnih signala, npr. konvoluciju.


6

• paralelni pristup resursima procesora u smislu da je moguće dobaviti

više podataka u jednom taktu.

• izvoñenje iste obrade nad većim brojem podataka (engl. Single

Instruction Multiple Data – SIMD).

Pojava DSP je uticala na industriju potrošačke elektronike u nekoliko aspekata:

• Omogućila je dalja poboljšanja postojećih ureñaja (kamkorderi,

automatske sekretarice)

• Povećanjem raspoložive procesorske snage i odgovarajućim sprežnim

sistemima omogućila je razvoj novih proizvoda, a time i proširivanje

palete proizvoda (digitalne kamere, interaktivne igračke, mobilni

telefoni)

• Povećanjem odnosa cena/performanse obezbedila je pristupačnost

proizvoda širem potrošačkom krugu (video igre, mobilni telefoni)

• Omogućila je formiranje širokog tržišta kroz standardizaciju formata za

razmenu (multimedijalnog) materijala

Do kraja 1970-tih, digitalna obrada signala je pre svega bila teorijska oblast, s

obzirom da je postojalo svega nekoliko velikih (engl. mainframe) i super-računara koji

su bili u stanju da obave obradu digitalnih signala. Obrada digitalnih signala u realnom

vremenu je doživela skok pojavom pristupačnih DSP procesora početkom osamdesetih

godina. Prvi primerci su bili 16-bitni procesori sa 8 ili 10 bitnim analogno digitalnim

konvertorima (engl. Analog Digital Converter – ADC), koji su bili primereni

jednostavnim aplikacijama kao što su igračke koje govore, jednostavni kontroleri i

koderi govora u telekomunikacijama. Oni su bili dovoljno jeftini da bi se mogli

ugrañivati u ureñajima potrošačke elektronike.

S napredovanjem poluprovodničke tehnologije, računska moć, ali i odnos cene i

performanse DSP procesora se povećavala. To je prouzrokovalo pojavu novih primena

DSP procesora i porast složenosti realizovanih algoritama obrade. Pojavili su se 24-

bitni i 32-bitni DSP sa aritmetiku u nepokretnom zarezu, a zatim i DSP procesori koji

koriste aritmetiku u pokretnom zarezu.

Teorija obrade signala nudi razne pristupe rešavanju problema koji se značajno

razlikuju po računskoj složenosti i potrebnim resursima, ali i kvalitetu. Odabir

odredišne platforme postavlja značajna ograničenja pred realizaciju algoritama po


7

pitanju zahtevnosti, i često iziskuje odabir možda ne najkvalitetnijeg uopšte, nego

najkvalitetnijeg algoritma koji se može realizovati na datoj platformi.

Kao što je rečeno, DSP poseduju specifične elemente koji povećavaju efikasnost

pri izvoñenju tipičnih operacija algoritama, što se može protumačiti kao prilagoñenje

platforme algoritmima. Sa druge strane, i algoritmi se razvijaju imajući u vidu

mogućnosti odredišnih DSP platformi. U naučnom domenu postoje algoritmi koji su

možda superiorni, ali preveliki zahtevi u pogledu resursa odredišne platforme

onemogućuju njihovu primenu u ureñajima potrošačke elektronike. Razvoj algoritma

koji se može realizovati na odredišnoj platformi i obezbediti očekivani kvalitet, može

biti složen proces.

Telekomunikacije su jedan on najrazvijenijih oblasti današnjice. Pre nekoliko

decenija, poznavanje načela telefonske mreže je omogućavala upotrebu tada postojećih

tehnologija telekomunikacija. Danas, oblast telekomunikacija uključuje razne,

savremene tehnologije i usluge, usled čega postojeće telekomunikacijsko okruženje je

veoma složeno (slika 2.2).

Slika 2.2 Vrste telekomunikacija (preuzeto iz [Anttalainen])

Razvoj telekomunikacije je započeto pojavom telegrafa kao sistema za prenos

podataka. Kao logičan korak u razvoju, pojavio se telefon, koji je omogućavao

govornu komunikaciju. Nakon toga, u dvadesetom veku, usledio je skokovit razvoj


8

telekomunikacija, sa pojavom mnoštva tehnologija koje omogućuje prenos glasa, slike

ili generalno podataka, u analognom, i sve više, u digitalnom obliku (slika 2.3).

Telekomunikacija je veoma bitna i za funkcionisanje poslovnog sveta.

Proširivanjem palete usluga i razvojem tehnologija redukuju se troškovi, a time usluge

postaju pristupačnije krajnjem korisniku.

Govorna komunikacija čini najveći deo ukupnih telekomunikacija. Danas se

javlja u raznim oblicima, počevši od klasičnih telefonskih usluga, preko bežičnih GSM

mreža, sve do satelitskih telefona. Sve veća prisutnost računara, kao i veliki stepen

povezanosti korisnika računarskim mrežama velikih brzina (engl. broadband),

omogućile su prenos zvučnog signala preko računarskih mreža (engl. Voice Over IP -

VoIP) po veoma povoljnim cenama. Dobavljači usluga stalno teže poboljšanju sistema

sa stanovišta efikasnosti, kao i razvoju novih usluga koje se nude krajnjim korisnicima.

Slika 2.3 Istorija telekomunikacijskih usluga (preuzeto iz [Anttalainen])

U terminalima koji se koriste u govornoj komunikaciji, neophodan je akustički

sprežni podsistem i odgovarajuća komponenta za digitalnu obradu signala. Zadatak

akustičkog sprežnog podsistema je akvizicija zvuka na lokalnoj strani u komunikaciji

(engl. near-end) pomoću mikrofona i reprodukcija zvuka udaljenog korisnika (engl.

far-end) pomoću slušalica ili zvučnika (slika 2.4). Takoñe, u ovom podsistemu se

obavlja pretvaranje signala iz analognog u digitalni domen, i obratno.

Sa ciljem da se omogući što verniji prenos i reprodukcija govora na udaljenom

kraju, u podsistemu postoji i specifična obrada, čiji je zadatak da poboljša kvalitet


9

snimanog govora i prilagodi ga prenosu preko komunikacionog kanala. Komponenta

koja je zadužena za kontrolu i obradu signala u realnom vremenu je najčešće DSP ili

neki namenski procesor.

Nakon toga, komunikacioni kontroler preuzima podatke i stara se o samom

prenosu podataka preko kanala. Obrada može da uključuje modifikacije dolaznog

zvuka, sa ciljem da se prilagodi reprodukcija istog nameni sistema.

Slika 2.4 Šematski prikaz govorne komunikacije

Ukoliko akustički sprežni podsistem sadrži slušalicu i mikrofon, komunikacija je

visokog kvaliteta (odnos snaga signala i šuma je visok), ali podrazumeva odreñena

ograničenja: korisnik mora držati slušalicu pored glave, i razgovor je ograničen u

pogledu broja učesnika. Savremeni sistemi nude mogućnost slobodne komunikacije,

kada je komunikacioni terminal opremljen zvučnikom i mikrofonom. U tom slučaju,

korisnik ne drži slušalicu, stoga se taj režim rada naziva slobodnom komunikacijom

(engl. hands-free). Razlikujemo sisteme koji obezbeñuju tok signala u jednom pravcu

u datom momentu (engl. half-duplex) i dvosmerne sisteme (engl. full-duplex).

Sistemi za slobodnu dvosmernu komunikaciju se upotrebljavaju u mnogim

aplikacijama, kao na primer: video-telefonskim sistemima, telekonferencijskim

sistemima, slobodnim sistemima za automobile, sprežnim sistemima zasnovanim na

govoru, itd. Primena takvih sistema podrazumeva promenljivu poziciju korisnika u

akustičkom okruženju, i konfiguraciju sistema koja nije unapred poznata, i koja se čak

može menjati u vremenu. Slobodna komunikacija u takvim uslovima se suočava sa

nizom tehničkih problema koji ometaju komunikaciju, i koji moraju da se reše da bi se

obezbedio potreban kvalitet komunikacije.

Savremena tehnička rešenja se zasnivaju na sistemima za digitalnu obradu

signala (DSP) u realnom vremenu uz upotrebu više mikrofona, kombinovanim sa

odgovarajućim postupcima obrade mikrofonskih signala [Huang]. Glavni izazov u


10

razvoju takvih sistema jeste postizanje zadovoljavajućih performansi u pogledu brzine

rada, uz zadovoljavanje očekivanja po pitanju kvaliteta signala. To uvodi ograničenja

vezanih za koncept sistema i složenost platforme, i postavlja okvire za moguće

postupke obrade signala. Kao platforma za realizaciju sistema logičan izbor je DSP,

usled zadovoljavajućeg odnosa kompleksnosti, procesne moći i fleksibilnosti [Katona].

Slobodna dvosmerna govorna komunikacija odvija se najčešće u zatvorenim

akustičkim prostorima kao što su konferencijske dvorane, radne ili kućne prostorije,

automobilski prostori, itd. Reč je, dakle, o zatvorenim ambijentima različitih

dimenzija, (primer takvog ambijenta je prikazan na slici 2.5), u kojima mogu postojati

mnogi izvori različitih smetnji sa veoma kompleksnom raspodelom akustičke energije.

Ud

alje

ni

kom

un

ika

cion

i kra

j

Slika 2.5 Slobodni dvosmerni komunikacioni sistem u tipi čnom akustičkom ambijentu

U dvosmernoj slobodnoj komunikaciji, korisnik sistema je udaljen od

komunikacionog terminala. U zavisnosti od namene sistema, to može biti nekoliko

desetina centimetara, do nekoliko metara. Signal sa udaljenog kraja se reprodukuje

pomoću zvučnika, pri čemu snaga reprodukcije mora da bude dovoljna da bi zvučni

talasi, kada stignu do korisnika, imali dovoljnu snagu za komfornu komunikaciju.

Osnovna smetnja u slobodnoj dvosmernoj govornoj komunikaciji jeste akustički

eho koji nastaje prenosom dela akustičke energije iz zvučnika u mikrofon, tako da

sagovornik na udaljenom kraju čuje sopstveni glas kao smetnju. Akustički eho nastaje

kao zbir akustičkog talasa koji direktno stiže iz zvučnika u mikrofon i svih njegovih

refleksija od zidova, plafona, poda, nameštaja, ljudi i drugih predmeta u posmatranoj


11

prostoriji. Ako se na oba kraja komunikacionog kanala koriste, na primer, zvučnici za

slobodnu komunikaciju, onda može doći do obostrane akustičke sprege i pojave

oscilovanja sistema i potpune blokade konverzacije. Dakle, primarni zadatak u

slobodnim dvosmernim komunikacionim sistemima je potiskivanje akustičkog eha.

Pored eha u ambijentu se pojavljuju i smetnje različite prirode i uzroka. One

mogu biti stacionarne (na primer kao što su šum računara ili buka u automobilu) ili

nestacionarne (pozadinska muzika ili govor), i mogu poticati od više izvora lociranih

na različitim pozicijama u odnosu na govornika.

Pored toga, u zatvorenim prostorima (npr. radne sobe, sale, automobilska kabina)

pojavljuje se efekat reverberacije kao posledica višestrukih refleksija zvučnih talasa.

Trajanje reverberacije zavisi od apsorpcione moći reflektujućih površina; ako je

apsorpcija neke površine veća, reflektujuća akustička energija je manja, trajanje

reverberacije je manje i njen nivo opada eksponencijalno sa vremenom. Reverberacija

se karakteriše vremenom reverberacije, sa oznakom T60. To je vreme za koje nivo

zvuka u prostoriji, nakon impulsa, smanji se za 60 dB. Za tipične radne prostorije T60

je reda 300 do 600 ms [Hänsler].

Zvučni talas korisnika, koji najkraćim putem stiže do mikrofona, je direktni

talas. Nakon direktnog talasa, do mikrofona dopiru i (višestruke) refleksije istog

zvučnog izvora, oslabljene usled apsorpcije reflektujućih površina i zakašnjene u

vremenu usled konačne brzine zvuka. Mikrofon registruje zbir direktnog talasa i svih

refleksija, pri čemu snaga zbira refleksija može nadmašiti i snagu direktnog talasa.

Ukoliko postoji više izvora u akustičkom ambijentu (korisni izvor, izvor eha i izvor

šuma), tada je scenario još složeniji – očitavanja mikrofona odgovaraju zbiru svih

direktnih talasa i svih refleksija svih izvora u okruženju.

Posebnu specifičnost akustičkog ambijenta čini potencijalna pokretljivost

govornika kao i drugih izvora smetnji, a posebno drugih govornika. To sve zajedno

čini akustičku scenu veoma dinamičnom a od komunikacionog sistema se zahteva brza

adaptacija na nove ambijentalne uslove komuniciranja. Sama činjenica da se radi o

slobodnoj komunikaciji (tj. da je govornik udaljen od mikrofona) dovodi do toga da je

odnos snaga signala i šuma mali, što dodatno otežava kvalitetno izdvajanje željenog

signala iz signala mikrofona.


12

Postoje savremeni algoritmi koji manje ili više uspešno rešavaju gore opisane

probleme. Digitalnom obradom signala mikrofonskih nizova moguće je izdvojiti

koristan signal, potisnuti eho i smetnje, i ublažiti efekte reverberacije. Algoritmi se

značajno razlikuju po samom pristupu, složenosti, zahtevnosti u pogledu resursa, pa i

kvalitetu. Najnovija naučna dostignuća obezbeñuju najbolji kvalitet, ali su često

previše zahtevni za realizaciju na raspoloživim platformama, uz rad u realnom

vremenu.

Zakoni tržišta potrošačke elektronike postavljaju odreñena ograničenja pred

proces realizacije takvog proizvoda, u smislu da ureñaj treba da zadovolji očekivanja

po pitanju mogućnosti, kvaliteta i složenosti. To značajno utiče na odabir odredišne

platforme i komponenti sistema, i indirektno zadaje okvire postupaka koji se mogu

primeniti za obradu ulaznih podataka. Fleksibilnost akustičkog sprežnog podsistema

omogućuje njegovu upotrebu u raznim sistemima kao akustička sprega ka korisniku,

pri čemu on postaje deo akvizicionog sistema. To može na primer biti prepoznavanje

govora, komandovanje glasom, prenos preko komunikacionog kanala, itd.

2.1 Postavka ciljeva istraživanja

U ovoj tezi potrebno je identifikovati činioce koji utiču na razvoj ureñaja koji

obavlja funkciju akustičkog sprežnog podsistema, pri čemu je težište postavljeno na

rešavanje složenog problema interaktivne, slobodne govorne komunikacije u datom

akustičkom ambijentu za potrebe razvoja ureñaja potrošačke elektronike. Glavne

karakteristike takvog okruženja su:

• rastojanje govornika do mikrofona je do 4 metara,

• vreme reverberacije prostorije (akustičkog ambijenta) je 300 ms,

• postoji lokalni izvor visoko-kvalitetnog stereo zvuka koji se reprodukuje

zajedno sa govorom udaljene strane,

• u akustičkom ambijentu mogu da postoje i izvori stacionarnog šuma, i

• komunikacija je interaktivna i dvosmerna.

• mogućnosti sistema treba da podrže upotrebu u različitim scenarijima

slobodne komunikacije (kuća, kancelarija, automobil)

Dominantne smetnje u takvoj postavci su:


13

• prisutnost akustičkog eha usled postojanja zvučnika i mikrofona u istom

ambijentu,

• efekta reverberacije, koji nastaje zbog velikog rastojanja izmeñu govornika

i mikrofonskog niza,

• malog odnosa snage korisnog signala i smetnji, takoñe zbog udaljenosti

korisnika,

• postojanje prostorno rasporeñenih izvora akustičkih smetnji.

Cilj teze je da predloži rešenje koje rešava probleme u slobodnoj govornoj

komunikaciji, pri čemu je složenost rešenja uporediva sa postojećim rešenjima, i time

omogućava primenu istog u ureñajima potrošačke elektronike.

U okviru teze potrebno je istražiti raspoložive izvore informacija (baze patenata,

izvore naučnih informacija i postojeća rešenja), i na osnovu dobijenih rezultata

postaviti ograničenja i zahteve sistema u pogledu:

• složenosti

• kvaliteta i

• mogućnosti.

Potrebno je odabrati odgovarajuću platformu za realizaciju rešenja, koje treba da

se uklapa u postavljena ograničenja. Postupke obrade signala je potrebno birati imajući

u vidu mogućnosti odredišne platforme.

Teza će se eksperimentalno potvrditi realizacijom obrade na odabranoj platformi.

Merenje performansi rešenja je potrebno obaviti u skladu sa postavljenom

metodologijom, u realnom vremenu.

Nova naučna dostignuća koja su rezultat istraživanja potrebno je zaštititi

odgovarajućim mehanizmima zaštite intelektualne svojine.

POGLAVLJE 3 – PREGLED RELEVANTNIH IZVORA INFORMACIJA

15

POGLAVLJE 3. PREGLED RELEVANTNIH IZVORA INFORMACIJA

Sa ciljem adekvatnog pozicioniranja teme istraživanja, potrebno je analizirati

aktuelna dostignuća u raznim domenima. Sa stanovišta ove teze, smatra se da su

sledeće oblasti od važnosti:

• postojeća industrijska rešenja (ureñaji) za slobodnu komunikaciju,

• baze patenata,

• potencijalne platforme za eksperimentalnu potvrdu teze i

• naučna dostignuća u digitalnoj obradi signala mikrofonskih nizova.

U daljem tekstu da je pregled relevantnih oblasti. Nakon analize, utvrñuju se

okviri istraživanja sa jasnim ciljem – realizacije dvosmernog komunikacionog sistema

u realnom vremenu, za potrebe slobodne govorne komunikacije zasnovane na

mikrofonskom nizu.

3.1 Postoje ća rešenja za slobodnu komunikaciju

U okviru teze istražuju se mogućnosti razvoja sistema za dvosmernu slobodnu

govornu komunikaciju, koji je namenjen širokom tržištu potrošačke elektronike. Ta

činjenica nameće odreñene zahteve u pogledu rada u realnom vremenu, kao i

konkurentnosti sa postojećim rešenjima u pogledu mogućnosti, kvaliteta i složenosti.


16

Da bi se to postiglo, potrebno je analizirati postojeća industrijska rešenja po raznim

aspektima.

Danas na tržištu postoji niz proizvoda koji nude mogućnost slobodne govorne

komunikacije u različitim oblicima. Savremeni sistemi se zasnivaju na upotrebi

mikrofonskih nizova u cilju poboljšanja kvaliteta govora, i kombinuju ih sa naprednim

algoritmima za eliminisanje pojedinih smetnji u toj komunikaciji.

Kompanija AcousticMagic nudi ureñaj sa 8 linearno rasporeñenih mikrofona

Voice Tracker Array Microphone [ProdVoiceTracker], koji je namenjen kao

alternativa za klasični mikrofon. Ureñaj se koristi u proizvoljnom sistemu kao

prostorno selektivni mikrofon, koji je u stanju da potisne prostorno rasporeñen izvor

šuma. Na osnovu očitavanja više mikrofona odreñuje pravac željenog izvora, a nakon

toga formira akustički snop ka njemu, pri čemu se potiskuju izvori (šuma) van tog

snopa. Poseduje i potiskivač stacionarnih smetnji. Ureñaj ne poseduje blok za

potiskivanje ili poništavanje akustičkog eha, stoga nije pogodan za dvosmernu

komunikaciju. Iako poseduje 8 mikrofona, efikasni domet ureñaja je svega 2.5 metara.

Slika 3.1 AcoustiMagic VoiceTracker Array Microphone (levo),

DA-350 Hands Free Linear Array Microphone(desno)

Sličan ureñaj nudi i kompanija GN Netcom pod imenom Voice Array

Microphone [ProdVAM], pri čemu je ureñaj namenjen za primenu u računarskom

okruženju, sa dometom do 1 metra. Koristi usmerene mikrofone, i obezbeñuje

indikaciju da li je detektovan korisnik u aktivnoj zoni propuštanja.

Slika 3.2 Voice Array Microphone

DA-350 Hands Free Linear Array Microphone [ProdDA350] je ureñaj namenjen

za izdvajanje govora korisnika i potiskivanje šuma pre svega u automobilima. Koristi 4

mikrofona, a u pogledu mogućnosti je sličan gore opisanim rešenjima.


17

Kompanija AKG [ProdAKG] nudi veoma sličan ureñaj, uz dodatnu mogućnost

potiskivanja eha, koji se ugrañuje u retrovizore Mercedes automobila, sa ciljem da se

obezbedi kvalitetan signal sistemu za kontrolu glasovnim komandama LinguaTronic

[ProdLinguatronic].

Slika 3.3 Linguatronic sistem u Mercedes vozilima (levo) i LifeSize(desno)

LifeSize je ureñaj koji je namenjen konferencijskom tipu komunikacije

[ProdLifeSize]. Koristi 16 mikrofona, cirkularno rasporeñenih. Poseduje i detekciju

aktivnosti i pravca trenutnog govornika, čiji se govor nakon toga izdvaja i poboljšava.

Nema potiskivanja eha, pa obezbeñuje samo naizmeničnu komunikaciju.

Direction Finding – Beam Forming [ProdDFBF] predstavlja ureñaj za

konferencijsku komunikaciju. Sastoji se od dva niza od po 8 mikrofona postavljenih

pod uglom od 90 stepeni, i odgovarajućeg DSP procesora. Obezbeñuje odreñivanje

pozicije govornika, i izdvajanje njegovog govora iz ambijentalnog šuma.

ForteMedia FM1073 [ProdForteM] je integrisano kolo koje omogućuje upotrebu

2 usmerena mikrofona postavljenih u suprotnim pravcima. Obezbeñuje potiskivanje

eha, kao i potiskivanje šuma. Mikrofoni se koriste za poboljšanje usmerene

karakteristike, sa fokusom na željenu polusferu prečnika do 2 metra. Proizvoñač

navodi impresivne podatke o potiskivanju eha do 30 dB, sa dodatnih 35 dB

potiskivanja pomoću nelinearnih filtara. Integrisano kolo je namenjeno primeni u

sistemima za slobodnu govornu komunikaciju.

Kompanija Intel je ugradila podršku za mikrofonske nizove u platformu Centrino

[ProdCentrino], u raznim konfiguracijama, do 16 mikrofona. Od različitih algoritama

podržani su poništavanje eha, praćenje pozicije govornika, prostorno filtriranje, kao i

potiskivanje šuma.

Ureñaj LVA-7280 ClearVoice Digital Microphone [ProdClearVoice] kompanije

Labtec je namenjen sistemima za prepoznavanje govora na bazi računara. Koristi 4


18

logaritamski rasporeñena mikrofona za odreñivanje položaja govornika, izdvajanje

korisnog signala i potiskivanja šuma. U cilju poboljšanja performansi, postoje i

blokovi za potiskivanje eha i reverberacija.

Ureñaj The Voice [ProdVoice] kompanije Aertha predstavlja telefonski ureñaj za

telekonferencije. Koristi 3 usmerena, cirkularno rasporeñena mikrofona. Poseduje blok

za potiskivanje eha, što omogućuje dvosmernu komunikaciju. Osim toga, poseduje

blokove za potiskivanje šuma i automatsku regulaciju pojačanja.

Slične mogućnosti nudi i ureñaj kompanije Mitel sa oznakom 5310 IP

Conference Unit [ProdMitel], koji je namenjen za glasovnu komunikaciju preko

računarske mreže.

Digital Super Directional Array [ProdDSDA] kompanije Andrea Electronics

Corporation je mikrofonski sistem veoma usmerene karakteristike, i koji se sastoji od

2 do 8 mikrofonskih elemenata. Adaptivno prostorno filtriranje omogućuje

potiskivanje prostorno dislociranih izvora šuma, kao i znatno smanjenje efekata

reverberacije. Namenjen je za slobodnu govornu komunikaciju u automobilima,

računarskom sistemima, kao i prenosivim ureñajima.

Slika 3.4 The Voice (levo) i Mitel 5310 IP (desno)

Posebnu grupu čine savremeni ureñaji za videotelefonske veze. Ovi ureñaji,

pored govorne komunikacije, omogućuju i prenos pokretne slike preko

komunikacionog kanala, koji može biti ISDN ili računarska mreža. Primeri takvih

ureñaja su Maia kompanije Aethra i ureñaji mm225, mm745 i mm146 kompanije

Motion Media. Svi oni poseduju nekoliko režima rada, pa i slobodnu komunikaciju. Za

poboljšanje kvaliteta zvuka u tom režimu rada koriste se mikrofonski nizovi u

kombinaciji sa potiskivanjem eha i ambijentalnog šuma. Usled veličine ekrana, u

tipičnom slučaju korisnik je blizu samog ureñaja, tako da je domet sistema do 1metra.


19

Najnoviji operativni sistem Vista [ProdVistaAP] kompanije Microsoft ima

ugrañenu podršku za mikrofonske nizove. Istraživanja su pokazala da su korisnici

nerado vezani za računar, i nisu skloni da duže vremena nose slušalice. Iz tog razloga,

novi operativni sistem je proširen sa mogućnostima kao što su prostorno filtriranje,

potiskivanje eha i stacionarnog šuma, kao i automatska kontrolu nivoa. Namena

navedenih algoritama je poboljšanje kvaliteta govora za potrebe slobodnih govornih

komunikacija, kao i pomoć sistemu za komandovanje glasom.

Podržane su predefinisane konfiguracije od 2 ili 4 mikrofona. Algoritmi su

optimizovani za unapred zadat raspored mikrofona. Očekuje se da se mikrofonski niz

ugrañuje u gornji okvir monitora, na najpogodniju poziciju za poboljšanje govora

osobe koja sedi ispred računara. Za te potrebe, razvija se novi tip digitalnih

minijaturnih mikrofona na bazi mikro-mehaničkih elemenata (engl.

microelectromechanical systems - MEMS) [ProdAkustica]. Glavne karakteristike

pomenutih mikrofona je što se radi o integrisanim kolima koji se montiraju površinski

i generišu digitalni izlaz. Oni integrišu sve komponente neophodne za analogno-

digitalnu konverziju signala (mikrofonski element, pojačalo i konvertor), što ih čini

neosetljivim na elektromagnetske smetnje, te se mogu koristiti i blizu LCD panela.

Pregled postojećih proizvoda je pokazao da se u modernim komunikacijama sve

više koriste sistemi za slobodnu komunikaciju zasnovani na nizu mikrofona, u

kombinaciji sa raznim tehnologijama kao što su fiksne telefonske veze, računarske

mreže, GSM, itd. Postoje rešenja na nivou fizičke arhitekture, zatim u obliku

programskih biblioteka, pa i samostalnih proizvoda, koji su danas dostupni i širokom

krugu potrošača. Fizička arhitektura je najčešće bazirana ili na DSP procesoru uz

odgovarajuću programsku podršku ili na namenskom integrisanom kolu. Složenost

rešenja je umerena, što omogućava primenu u raznim scenarijima, prvenstveno zbog:

• malih dimenzija,

• male potrošnje, i

• mogućnosti pasivnog hlañenja.

Mikrofonski nizovi su se pokazali kao superiorni u odnosu na jedno-mikrofonske

sisteme u pogledu performansi u slobodnoj komunikaciji. Broj upotrebljenih

mikrofona kod većine ureñaja je izmeñu 2 i 8, što je posledica kompromisa kvaliteta i

ograničenja procesne moći kompleksnošću ureñaja.


20

Ipak, ne postoji univerzalno i fleksibilno rešenje za problem dvosmerne slobodne

govorne komunikacije. Mnogi proizvodi pokrivaju segment oblasti (npr. naizmenična

komunikacija, nepostojanje potiskivanja eha), dok drugi nemaju fleksibilnost koja bi

omogućila primenu proizvoda u proizvoljnom sistemu (npr. telekonferencijski

sistemi). Iz tog razloga, u svetu se sve više bavi razvojem mikrofonskih nizova i

odgovarajućih algoritama.

Performanse mikrofonskog niza pored broja, rasporeda i karakteristika

mikrofona, u najvećoj meri zavise od primenjenih algoritma. Tokom analize je

ustanovljeno da ne postoje jasne mere perfomansi koje bi omogućile jednostavno

poreñenje pojedinih rešenja. Proizvoñači retko obezbeñuju relevantne podatke, i

navode se opšti ili najbolji rezultati, na osnovu kojih je teško porediti proizvode.

Na osnovu pregleda ponude sličnih ureñaja na tržištu, moguće je postaviti okvire

ciljnog sistema, imajući u vidu ograničenja ciljne arhitekture. Da bi se na pravi način

iskoristio potencijal platforme, potrebno je detaljno analizirati savremenih dostignuća

u obradi govornog signala.

3.2 Pregled baze patenata

U današnjem poslovnom svetu tendencija svetskih poznatih kompanija je da

svoju intelektualnu svojinu zaštite patentima. Mnoga dostignuća i rešenja iz oblasti

slobodne komunikacije i upotrebe mikrofonskih nizova su takoñe zaštićena patentima,

stoga je potrebno iscrpno istražiti i bazu dostupnih meñunarodnih patenata. Osim cilja

da se otklone mogući problemi u plasiranju proizvoda, patenti predstavljaju i značajan

izvor informacija korisnih za istraživanje. Kao baze patenata, korišćeni su:

• Američki patentni zavod (US Patent and Trademark Office - USPTO)

[USPTO],

• Evropski patentni zavod (European Patent Office - EPO) [EPO] i

• Svetski patentna organizacija (World Intellectual Property Organization

- WIPO) [WIPO].

Kompanija Fujitsu je patentirala sistem za videokonferencije koja koristi

mikrofonski niz za lociranje aktivnog govornika i izdvajanje njegovog govora

[PatFujitsu]. Informacija o poziciji govornika se koristi i za usmeravanje kamere u

datom pravcu, čime se postiže efekat da je trenutni govornik uvek vidljiv na udaljenoj


21

strani. Patent pokriva idejno rešenje sistema, ne zalazeći u detalje algoritama koji se

koriste. Sličan patent poseduje i kompanija Agere [PatAgere], koji se zasniva na

adaptivnoj dekompoziciji na sopstvene vrednosti dva mikrofonska signala.

Samsung je patentirao sistem koji koristi kružni mikrofonski niz od 8 elemenata

[PatSamsung1] u cilju utvrñivanja pozicije govornika i potiskivanja prostornih

akustičkih smetnji.

Philips je patentirao algoritam za mikrofonski niz koji objedinjuje akustičko

poništavanje eha i prostorno filtriranje [PatPhilips]. Na taj način se smanjuje ukupan

broj operacija potrebnih za obradu podataka, kao i količina potrebnog memorijskog

prostora.

Microsoft je podneo patentni zahtev koji opisuje metodu prostornog filtriranja za

proizvoljan raspored elemenata u mikrofonskom nizu [PatMicrosoft1]. Postupak je

neosetljiv i na tip mikrofonskih elemenata. Drugi patent iste kompanije opisuje

postupak post-obrade inicijalnih informacija o poziciji govornika metodom

klasterovanja [PatMicrosoft2]. Ovim pristupom se povećava preciznost i robustnost

konačne izlazne informacije o poziciji.

Kompanija Mitel je podnela patent koji razmatra pitanje lokacije govornika u

slučaju dva govornika ili jednog govornika i jake refleksije koristeći mikrofonski niz

[PatMitel]. Postupak se zasniva na analizi kroskorelacije kružno rasporeñenih parova

mikrofona.

ForteMedia poseduje patent koji opisuje mikrofonski niz od 2 mikrofona sa

odgovarajućim postupcima za poništavanje eha i potiskivanje ambijentalnog šuma

metodom prostornog filtriranja [PatForte]. Algoritam je u stanju da kompenzuje

nelinearhnost izvora akustičkog eha.

Kompanija 3Com je podnela patent za automatsku regulaciju pojačanja

[Pat3Com], zasnovanu na nelinearnoj funkciji pojačanja u zavisnosti od ulazne snage.

Opisani postupak je u stanju da uvaži i kompenzuje nelinearnosti mikrofona i zvučnika

u sistemu.

Patent kompanije Tellabs opisuje interesantnu ideju adaptivne kontrole nivoa

signala [PatTellabs], koji je moguće uključiti u sistem algoritama sačinjen od

potiskivača eha, potiskivača šuma i koder govora. U sistemu postoji blok koji obavlja


22

regulaciju nivoa signala nad komprimovanim podacima, bez ponovne rekompresije,

čime se redukuje broj operacija potrebnih za obradu.

Kompanija Polycom, poznata po telekonferencijskim ureñajima, poseduje patent

koji opisuje konferencijski sistem sa dva mikrofonska niza – jedan postavljen u

horizontalnom pravcu, dok je drugi u vertikalnom [PatPolycom]. Pomenuta

konfiguracija omogućuje lociranje govornika u obe ravni, što omogućuje usmeravanje

video kamere u pravcu glave govornika.

Microsoft poseduje patent koji opisuje sistem za udaljenu saradnju, uz postojanje

zvučne i vizuelne komunikacije [PatMicrosoft3]. Jedan od detalja – izgled

komunikacionog terminala – je srodan sistemu razvijenog u okviru ove teze, ali je

smešten u drugačiji kontekst.

Pored gore navedenih, slične patente poseduju i mnoge druge, dobro poznate

kompanije iz različitih oblasti:

• Lucent [PatLucent],

• Nokia [PatNokia1, PatNokia2],

• Ericsson [PatEricsson],

• Broadcom [PatBroadcom],

• Samsung [PatSamsung2], itd.

Pregledom baze patenata iz oblasti slobodne govorne komunikacije ustanovljeno

je da postoji značajan broj patenata koji načelno opisuju komunikacione sisteme, bez

objašnjavanja detalja ili rešavanja tehničkih problema. Oni se prvenstveno fokusiraju

na kombinovanje gradivnih blokova na nov način.

Drugi, pak, se fokusiraju na neki segment problema i nude rešenja obrade

mikrofonskih signala: poništavanje eha, lociranje govornika, prostorno filtriranje,

kontrola nivoa, potiskivanje šuma, itd. Teksta patenta retko obezbeñuje dovoljno

informacija za potpunu rekonstrukciju rešenja, ali ukazuje na primenjeni pristup.

S obzirom da se patenti generišu sa ciljem da se zaštiti intelektualna svojina, teži

se da budu dovoljno specifični, ali što je moguće širi, da bi se pokrio veći segment

mogućih primena. Takoñe, postupci opisani u patentima ne moraju nužno da

obezbeñuju bolji rezultat. Zbog toga, nije moguće osloniti se njih kao jedini izvor

informacija, potrebno je analizirati savremena dostignuća naučnih istraživanja.


23

3.3 Namenski sistemi za obradu digitalnih signala

Glavne odlike namenskih sistema za obradu signala (engl. embedded signal

processing system) koje ih razlikuju od računarskih sistema opšte namene je njihova

predvidiva reakcija na pobude u realnom vremenu, njihov dizajn koji je optimizovan

po pitanju kompleksnosti i veličine, i njihova saglasnost sa zahtevanim ili zadatim

ponašanjem i funkcijama [Madisetti]. Druge odlike, kao što su pouzdanost, otpornost

na greške, mogućnost održavanju su osobine koje su zajedničke za mnoge digitalne

ureñaje.

Namenski sistem se sastoji od komponenata fizičke arhitekture kao što su

procesor, memorija, sprežni sistemi, ali i od programske podrške koja kontroliše sistem

i realizuje njegove funkcije. Kod namenskih sistema, fizička arhitektura je odabrana za

datu specifičnu funkciju, stoga je stepen fleksibilnosti manji. Karakteristike fizičke

arhitekture, zajedno sa funkcionalnim zahtevima uvode ograničenja za programsku

podršku.

Dizajn namenskog sistema za obradu signala se može razložiti na nekoliko

koraka [DeFatta] prikazanih na slici (Slika 3.5). Nakon definicije zahteva, sledi analiza

sistema sa ciljem da se ustanove karakteristike signala. Zatim se odabiraju algoritmi

koji obezbeñuju odgovarajuće obrade i formira se algoritamski koncept sistema na

nivou blokova obrade. Na ovom nivou, potrebno je poznavati širok spektar algoritama,

kao i njihove karakteristike. Potrebno je odabrati algoritme koji sa jedne strane

obezbeñuju zadovoljavajuće performanse, a sa druge strane su dovoljno jednostavni za

realizaciju na odabranoj platformi, uz prisustvo drugih obrada. U ovom koraku, sistem

je potrebno posmatrati kao celinu, tj. potrebno je naći optimum na nivou skupa

algoritama, a ne pojedinačnog.

Analizom resursa se procenjuje složenost odabranih algoritama sa stanovišta

procesne moći, memorijskog prostora i brzine razmene podataka. Ukoliko su

ograničenja u pogledu resursa zadovoljena, sledi analiza konfiguracije sistema. U

suprotnom, potrebno je revidirati zahteve ili dizajn algoritama. Analizom konfiguracije

sistema se formira koncept sistema na nivou gradivnih blokova fizičke arhitekture i

programske podrške.

Ukoliko su svi zahtevi zadovoljeni, pristupa se dizajnu platforme i programske

podrške. Kao što se i na dijagramu 3.5 vidi, proces je iterativan. Razlog ponavljanja


24

pojedinih koraka je netačna procena odabranih algoritama, ili pojava novih momenata

u detaljnijoj analizi.

Slika 3.5 Dizajn namenskog sistema za obradu signala

Tokom ranih faza dizajna sistema moguće je samo grubo proceniti potrebne

resurse. Neki pokazatelji složenosti algoritma može biti i broj aritmetičkih operacija,

pre svega broj množenja u jedinici vremena [Shynk]. Ta mera je primenljiva za

poreñenje složenosti algoritama za obradu zvuka na jedinstvenoj platformi (npr. u

alatima kao što je Matlab, uz upotrebu aritmetike u pokretnom zarezu), ali usled

različitih karakteristika platformi, zahtevnost konačne realizacije može značajno da

odstupa od procenjene.

Tipičan tok realizacije algoritama na ciljnoj platformi je prikazan na slici 3.6,

pod pretpostavkama da se kao okruženje za razvoj algoritama koristi programski alat

Matlab, a ciljna platforma poseduje aritmetiku u nepokretnom zarezu [Papp2].

Navedeni pristup sadrži slične korake kao što je opisano u [DeFatta], stim da se

podrazumeva postojanje razvojne (najčešće personalni računar) i ciljne platforme

(DSP, ASIC).

Prvi korak jeste razvoj algoritama upotrebom komfornih alata visokog nivoa

(Matlab, Mathematica) na bazi inicijalnih zahteva u smislu kvaliteta i resursa. Takvi

alati omogućuju fokusiranje na sam algoritam, ne vodeći računa o samom načinu

realizacije. Obezbeñuju veoma visoku tačnost računa korišćenjem aritmetike u

pokretnom zarezu, dvostruke preciznosti. U ovom koraku algoritmi se biraju na

osnovu procene složenosti.

Nakon dostizanja željenog kvaliteta i složenosti, sledeći korak je realizacija

referentne implementacije, koja je nezavisna od alata visokog nivoa i strukturno veoma

liči na konačnu implementaciju. Zadržava se aritmetika u pokretnom zarezu, ali sa

jednostrukom tačnošću. Ta činjenica omogućava da se referentna implementacija


25

poredi sa osnovnom realizacijom sa veoma velikim stepenom slaganja rezultata, a sa

druge strane, po strukturi i angažovanim resursima je bliža konačnoj realizaciji.

Osnovna realizacija algoritama(Matlab)

Osnovna realizacija algoritama(C, aritmetika u pokretnom zarezu)

Osnovna realizacija algoritama(C, aritmetika u nepokretnom zarezu)

Zadovoljenizahtevi?

Kraj

Inicijalni zahtevi

Zadovoljenizahtevi?

Zadovoljenizahtevi?

Da

Da

Da

Ne

Ne

Ne

Analiza zahteva i signala

Slika 3.6 Tok razvoja i realizacije algoritama

Na složenost realizacije algoritama utiču i karakteristike odabrane fizičke

platforme, npr. skup instrukcija ili dužina reči procesora. Nedostatak često korišćenih

aritmetičkih operacija (npr. deljenja) i funkcija (npr. logaritam) može prouzrokovati

nagli skok zahtevnosti u konačnoj realizaciji, koji može biti skriven tokom formiranja

koncepta. Takoñe, sa kraćom dužinom reči, performanse algoritama mogu biti


26

narušene usled akumulacije grešaka tokom izvoñenja računskih operacija [Caraiscos].

Često su potrebne dodatne operacije i memorijski prostor za razvoj rešenja koje

obezbeñuju dovoljan kvalitet, uvoñenjem aritmetike pokretnog zareza na nivou

blokova [Lukač]. Iz toga proizilazi da je realno očekivati povećanje zahtevnosti usled

smanjenja numeričke preciznosti aritmetike nepokretnog zareza i postojanja samo

osnovnih operacija.

Razvoj algoritama i realizacija istih na ciljnoj platformi sa ograničenim

resursima je iterativni proces. Da bi se optimizovao odnos kompleksnosti i performansi

namenskog ureñaja, potrebno je maksimalno iskoristiti mogućnosti ciljne platforme.

Ukoliko se u nekom koraku razvoja ustanovi da ograničenja i zahtevi nisu zadovoljeni,

vraća se na neki od prethodnih koraka, u zavisnosti od ozbiljnosti detektovanog

problema. Ako se problem može otkloniti optimizacijom i reorganizacijom realizacije

postojećeg algoritma, vraća se na korake 3 ili 2 respektivno, u suprotnom, potrebno je

vratiti se do koraka 1 – redizajna algoritama.

Postoji i druga mogućnost, da se nakon realizacije ustanovi da postoje

neiskorišćeni resursi čija upotreba može da poboljša kvalitet sistema. U tom slučaju,

takoñe može doći do redizajna algoritama.

U situacijama kada je previše (ili premalo) angažovanih resursa, potrebno je

tačno ustanoviti u kojem opsegu složenost treba da se menja. Potrebno je uvesti

metriku koja omogućuje praćenje složenosti, i omogućuje relativno poreñenje dve

realizacije. Takav pristup je opisan u [Papp2], gde se količina angažovanih resursa

meri tokom izvršavanja programa prebrojavanjem svih aritmetičkih operacija,

korišćenog memorijskog prostora i poziva funkcija iz matematičke biblioteke.

Predloženo rešenje omogućuje profilisanje obrada koje koriste aritmetiku bilo u

pokretnom bilo u nepokretnom zarezu, uz primenu odgovarajućih biblioteka za

emulaciju aritmetike [Domazetovic].

Sistemi za rad u realnom vremenu obrañuju ulazne podatke i generišu

odgovarajuće izlazne podatke, bez gubitaka. Na slici 3.7 prikazana je glavna petlja

jedne tipične DSP aplikacije, koja se sastoji od dva glavna koraka:

- analize ulaznih podataka i

- sinteze izlaznih podataka.


27

Slika 3.7 Glavna petlja tipične DSP aplikacije

Glavna petlja se ponavlja za svaki blok ulaznih podataka, pri čemu blok može

biti veličine 1 (čest slučaj kod adaptivnih algoritama koji rade u vremenskom domenu)

ili više (npr. ulaz u FFT i obrada u frekventnom domenu). Potreban uslov za rad u

realnom vremenu je da se data petlja izvrši za vreme τmax koje je kraće od vremena

pristizanja jednog bloka ulaznih podataka. Ukoliko je BS dužina ulaznog bloka

podataka u odbircima, a DRinput je brzina pristizanja ulaznih podataka, tada se može

napisati sledeća jednačina:

inputDR

BS<maxτ

Za slučaj kada se ulazni signal odabira brzinom od 8 kHz a veličina bloka je 512

odbiraka, dobija se:

mssodbiraka

odbiraka64

/ 8000

512max ==τ

Taj podatak se može iskoristiti za procenu broja ciklusa procesora za obavljanje

obrade jednog bloka na sledeći način:

FC ⋅= maxmax τ ,

pri čemu je F frekvencija rada procesora. Za F=200MHz, dobija se:

6max 108.1220064 ⋅=⋅= MHzmsC


28

Pošto je većina DSP procesora RISC, a RISC arhitekture u jednom ciklusu

izvršavaju jednu instrukciju, to znači da je za obradu jednog bloka na raspolaganju oko

12 miliona instrukcija, pri čemu je potrebno uzeti u obzir i instrukcije koje nisu

aritmetičke.

Tokom profilisanja sistema, potrebno je imati na umu da se paralelno sa

obradom, obavljaju se i prenosi podataka od ulaznih sprežnih sistema ka memoriji i od

memoriji ka izlaznih sprežnim sistemima, mehanizmom direktnog pristupa memoriji

(engl. Direct Memory Access – DMA). Iako navedeni mehanizam ne zahteva česte

intervencije kontrolnog jezgra DSP procesora, zahteva deo propusne moći magistrale

ka memoriji, što se mora uvažiti za vreme analize performansi.

3.4 Pregled mogu ćih platformi za realizaciju obrade signala u

realnom vremenu

Postavljeni zahtevi pred fizičku arhitekturu koja služi kao platforma za

eksperimentalnu verifikaciju teze uvode klasifikaciju meñu potencijalnim platformama

po pitanju pogodnosti.

U koraku analize potencijalnih platformi, razmatraju se sledeće klase arhitektura:

• Procesori opšte namene

• Digitalni signal procesori

• Namenska integrisana kola

• Programabilna logička kola (FPGA)

Procesori opšte namene su prilagoñeni rukovanju podacima, pri čemu protok i

tipično količina podataka dominiraju nad količinom matematičke obrade koja se nad

njima obavlja. Izvršavaju složene operativne sisteme i aplikacije namenjenih

svakodnevnom radu ili usluživanju. Njihova arhitektura se zasniva na konceptu von

Neuman-a, koji podrazumeva jedinstven memorijski prostor za podatke i programski

kod. Pomenuti koncept pruža visok nivo fleksibilnosti koji je neophodan za platformu

opšte namene. U cilju povećanja performansi, memorijski podsistem je organizovan u

nivoe, pri čemu se skrivenoj memoriji višeg nivoa pristupa značajno brže od glavne

memorije, ali takve memorije ima manje u sistemu. Glavni razlog za to je tehnologija

koja se koristi za proizvodnju procesora, jer se uključivanje lokalne memorije u

procesor značajno povećava kompleksnost kola. Glavne karakteristike savremenih


29

procesora su radna frekvencija od reda veličine 1 GHz, količina skrivene memorije od

512 kB ili 1 MB, količina glavne memorije 1 GB, kompleksnost oko 200 miliona

tranzistora. Potrošnja takvih procesora se kreće u opsegu od 10 W do 120 W, i

zahtevaju aktivno hlañenje. Aktivno hlañenje se sastoji od pokretnih mehaničkih

struktura, podložni su kvaru i stvaraju buku.

Potrebno je napomenuti da savremeni procesori opšte namene (x86, PowerPC)

poseduju specifična proširenja arhitekture u cilju podrške digitalnoj obradi signala, ali

to ne menja gore datu klasifikaciju. Proširenja su orijentisana ka SIMD instrukcijama,

bilo nad celobrojnim podacima, ili podacima zapisanih u pokretnom zarezu sa

jednostrukom ili dvostrukom tačnošću. To omogućuje postizanje boljih performansi,

prvenstveno paralelizacijom obrade. Današnji trend je povećavanje broja jezgra u

procesoru u cilju povećanja propusne moći. Programi se razvijaju upotrebom

programskih jezika višeg nivoa, a skup razvojnih alata je veoma razvijen.

Sa druge strane, digitalni signal procesori su namenjeni obavljanju matematičkih

operacija nad ulaznim podacima, pri čemu je količina obrade dominira nad količinom

podataka. Arhitektura DSP je prilagoñena tipičnim postupcima koji se primenjuju u

digitalnoj obradi signala, na primer:

- podrška efikasnoj realizaciji tipičnih operacija u obliku jedinstvene

instrukcije pomnoži-i-saberi (engl. Multiply and Accumulate –

MAC).

- podrška aritmetici sa limitovanjem rezultata (engl. saturation) ili

zaokruživanje

- podrška kružnim baferima,

- automatsko generisanje adresa u petljama, itd.

Njihova arhitektura je najčešće zasnovana na Harvard arhitekturi, koja

podrazumeva odvojene memorije (a i odgovarajuće magistrale) za programski kod i za

podatke. Njihova kompleksnost je značajno manja od procesora opšte namene. Radni

takt tipičnih predstavnika DSP je od nekoliko desetina MHz do 1 GHz. Ako poseduju

cache (skrivenu) memoriju, ona se meri u kilobajtima, dok je količina glavne memorije

do nekoliko megabajta. Usled manje kompleksnosti, potrošnja struje je značajno manja

(reda veličine do nekoliko W), što omogućava rad bez dodatnog hlañenja. DSP

procesori često poseduju protočnu strukturu za izvršavanje programskog koda vidljivu


30

programeru. Savremeni DSP sadrže nekoliko jedinica za izvršavanje programa, što

omogućava odreñeni stepen paralelizacije obrade. U cilju povećanja procesne snage,

najnoviji DSP prate tendenciju procesora opšte namene povećanja broja jezgara unutar

jednog procesora. Razvoj programske podrške se obavlja pomoću jezika višeg nivoa

(prvenstveno C), ali i uz upotrebu asemblerskog jezika.

Namenska integrisana kola (engl. Application Specific Integrated Circuits –

ASIC) su komponente koje su razvijene sa ciljem obavljanja specifične funkcije, sa

jasno specificiranom spregom. Funkcija je zadata samom arhitekturom, i

nepromenljiva je. Fleksibilnost takvih kola je mala, na njihov rad je moguće uticati

kontrolnim kanalom, pomoću parametara. Opisana kola se na primer koriste kao

komponente za konverziju signala, kodiranja govora, mobilnim telefonima, itd.

Namenska integrisana kola su usko specijalizovana za datu obradu, i time veoma

optimizovana. To se odražava smanjenom kompleksnošću. Primena takvih kola je

opravdana u slučaju velikih serija proizvodnje, uz nepromenljive postupke obrade.

Dizajn takvih kola se obavlja uz upotrebu alata i jezika za opis fizičke arhitekture,

najčešće VHDL ili Verilog.

Programabilna logička kola (FPGA) su fizičke arhitekture sa promenljivom

funkcijom. FPGA se tipično koriste u fazi razvoja ASIC, kao platforma za verifikaciju,

ali i u primenama kada je potrebno obezbediti kritične vremenske okvire, ili kada je

obrada izrazito paralelna. Funkcija FPGA se zadaje jezicima za opis fizičke arhitekture

na nivou logičkih celina (registara, operacija), u kombinaciji sa odgovarajućim

programskim alatima za sintezu. FPGA poseduju veći stepen fleksibilnosti od ASIC,

ali ipak manji nego npr. DSP.

Na osnovu pregleda potencijalnih platformi, ustanovljeno je da je najpogodnija

platforma DSP, iz sledećih razloga:

- obezbeñuje dovoljan stepen fleksibilnosti za potrebe realizacije ciljanog

sistema, dok pristup sa ASIC i FPGA to ne obezbeñuje

- brzina razvoja programske podrške je na nivou razvoja za platforme opšte

namene, a brža od razvoja ASIC i FPGA

- kompleksnost sistema je veća od ASIC, ali ipak značajno manja od FPGA

ili procesora opšte namene.

- poseduje dovoljno resursa za realizaciju željene obrade i


31

- potrošnja struje je u rangu sa ASIC, i ne zahteva aktivno hlañenje za

nesmetan rad, za razliku od procesora opšte namene. To je značajan faktor s

obzirom na namenu ciljanog ureñaja – primena u govornoj komunikaciji.

Digitalna obrada signala spada u matematički najzahtevnije primene. Nad

relativno malom količinom ulaznih podataka, izvodi se značajan broj aritmetičkih i

logičkih operacija. Različite (gore navedene) arhitekture takve zadatke obavljaju sa

različitim performansama. Osim arhitekture, na učinak utiču i tipovi podataka koji se

koriste. U savremenom računarskom svetu, najrasprostranjeniji su zapisi brojeva u

nepokretnom (engl. fixed point) i pokretnom zarezu (engl. floating point). Celobrojni

zapis brojeva je specijalan slučaj upotrebe nepokretnog zareza.

Karakteristika zapisa broja u nepokretnom zarezu jeste da je (logička) tačka

brojne osnove uvek na istom mestu, i opseg brojeva koji se mogu predstaviti u datom

zapisu je diktiran brojem bita predviñenih za ceo broj (ispred tačke), i brojem bita

predviñenih za razlomljeni deo (iza tačke brojne osnove). Vrednost broja zapisanog na

ovaj način se može izraziti kao:

∑−

−=

+⋅⋅−=1

22)1(M

Ni

ii

M bsV

pri čemu M označava broj bita predviñenih za predstavu celobrojnog dela vrednosti

broja, dok je N broj bita predviñenih za predstavu razlomljenog dela, a M+N+1 je

jednak širini reči. Logička tačka brojne osnove nalazi se izmeñu 0-tog i -1-og bita:

Slika 3.8 Zapis označenih brojeva u nepokretnom zarezu

Za oznaku formata brojeva zapisanih u nepokretnom zarezu se često koristi i Q-

notacija u obliku Qm.n [Oberstar], gde m i n odgovaraju veličinama M i N iz gornje

jednačine. Ukoliko je m 0, ne zapisuje se. Tako na primer, Q15 predstavlja format u


32

kojem je za razlomljeni deo dodeljeno 15 bita (bez znaka), bez bita predviñenih za

celobrojnu vrednost. Format Q1.14 predstavlja format u kojem je za celobrojni deo

dodeljen 1 bit, a za razlomljeni 14 bita. U oba slučaja, dužina reči je 16 bita.

Fiksna pozicija logičke tačke brojne osnove rezultuje fiksnim opsegom [-2M, 2M-

2-N]. To je upravo i najveći nedostatak ovog zapisa, jer se cela obrada mora

normalizovati sa ciljem da se svi operandi svedu na isti vrednosni opseg, što dovodi do

gubitka tačnosti. To dovodi do produženog vremena razvoja programske podrške, i

sam postupak postaje osetljiviji na greške. Usled smanjenje preciznosti, potrebno je

uložiti više vremena u verifikaciju realizovanog rešenja. Prednosti zapisa u

nepokretnom zarezu je da je fizička arhitektura koja obavlja operacije nad takvim

zapisom značajno jednostavnija, i lako se realizuje upotrebom kombinacionih mreža.

Operacije se često izvode u jednom taktu procesora.

Za razliku od zapisa u nepokretnom zarezu, zapis brojeva u pokretnom zapisu

obezbeñuje značajno veći opseg, i istu tačnost u svim delovima opsega. Da bi se

obezbedila interoperabilnost raznih sistema, zapis brojeva je standardizovan

[IEEE754]. U tom zapisu, brojevi se zadaju pomoću normalizovane mantise m i

eksponenta exp, dajući tako vrednost broja V kao:

exp2⋅= mV

U zavisnosti od broja bita rezervisanih za predstavljanje mantise i eksponenta

opseg i tačnost variraju. Najčešće korišćeni formati su jednostruka tačnost (8 bita za

označeni eksponent, i 24 bita za označenu mantisu) i dvostruka tačnost (11 bita za

označeni eksponent, i 53 bita za označenu mantisu):

Slika 3.9 Zapis brojeva u pokretnom zarezu


33

Nedostatak predstave vrednosti u nepokretnom zarezu je povećana složenost

fizičke arhitekture potrebne za realizaciju aritmetičkih i logičkih operacija. Uzrok tome

leži u činjenici da se brojevi predstavljeni na ovaj način se moraju prvo pripremiti za

datu operaciju (na primer za sabiranje, mantise se moraju svesti na isti eksponent), a

nakon toga, da se ne bi gubilo na tačnosti, rezultat je potrebno normalizovati

(pretpostavljeni bit uvek mora imati vrednost 1). Izvoñenje operacija u pokretnom

zarezu tipično zahteva nekoliko taktova procesora. Savremene arhitekture ublažavaju

taj efekat uvoñenjem protočnih struktura. Sa druge strane, posedovanje odgovarajuće

fizičke arhitekture koja podržava operacije u pokretnom zarezu obezbeñuje veliki

komfor u projektovanju i realizaciji postupaka obrade, a time i značajno efikasniji

razvoj programske podrške. Danas, pojava pristupačnih DSP procesora sa aritmetikom

u pokretnom zarezu omogućila je njihovu primenu u sve većem broju ureñaja

potrošačke elektronike.

3.5 Pregled nau čnih dostignu ća u oblasti obrade signala

mikrofonskih nizova

Mnoga praktična rešenja i poboljšanja bazičnih algoritama (poništavanje eha,

prostorno filtriranje, odreñivanje pravca izvora, potiskivanje šuma i kontrola nivoa) su

predložena poslednje dve decenije, kao što su adaptivno filtriranje u frekvencijskom

domenu, lociranje govornika u reverberantnoj prostoriji, superdirektivnost

mikrofonskog niza, razni post-filterski algoritmi, primena psihoakustičkih kriterijuma

u optimizaciji algoritama, itd. Meñutim, koliko god da su ovi algoritmi pojedinačno

optimalni, oni nisu stigli do krajnjeg korisnika u odreñenoj integralnoj formi, koja

može biti primenjena u različitim aplikacijama slobodne govorne komunikacije

namenjenim za rad u realnom vremenu.

Ova činjenica se može pripisati velikom raskoraku izmeñu akademskih

istraživanja i praktičnih implementacija, kao i činjenici da nema univerzalnog

algoritma koji može rešiti sve kompleksne probleme akustike prostorije koji se

pojavljuju u slobodnoj govornoj komunikaciji, uz ograničenje količine angažovanih

resursa.

Sistemi zasnovani na mikrofonskim nizovima, uz odgovarajuće algoritme,

pokazali su se kao rešenje za slobodnu komunikaciju u složenim akustičkim


34

ambijentima. Omogućuju postizanje znatno boljeg kvaliteta zvuka od jedno-

mikrofonskih sistema, a nude i dodatne mogućnosti kao što je odreñivanje pravca

izvora, što se može iskoristiti u sistemu za druge, napredne funkcije (npr. automatsko

usmeravanje kamere ka govorniku).

3.5.1 Potiskivanje akusti čkog eha

Osnovni problem u dvosmernom, slobodnom sistemu za govornu komunikaciju

je potiskivanje akustičkog eha kao najznačajnije smetnje koja degradira kvalitet

govorne komunikacije. Ovaj problem se rešava primenom tehničkog rešenja sa

nazivom akustički potiskivač eha (engl. Acoustic Echo Canceller - AEC).

Konvencionalno, potiskivanje signala eha obavlja adaptivni filtar procenom prenosne

funkcije akustičkog puta izmeñu zvučnika i mikrofona, tako da se na njegovom izlazu

dobija približno isti signal kao što je signal akustičkog eha [Haykin1]. Oduzimanjem

ova dva signala potiskuje se akustički eho. Meñutim, AEC nije idealan zbog

nelinearnosti sistema i nestacionarnosti akustičkog ambijenta. Kao rezultat pojavljuje

se zaostali signal eha. Pri tome ostaje osnovni zahtev da snimljeni govorni signal na

bližem kraju ne sme biti izobličen primenom postupka potiskivanja eha.

Slika 3.10 Model sistema za slobodnu komunikaciju u akustičkom okruženju

Ukoliko je akustički pritisak relativno mali, i nema preopterećenja na sprežnom

sistemu, ovaj sistem se može smatrati linearnim, i modelovati sistemom kao na gornjoj

slici.


35

Signali označeni na slikama su:

• x(n) je signal koji prouzrokuje pojavu akustičkog eha. U slučaju

komunikacionog sistema, to je zvuk koji stiže sa udaljenog kraja

komunikacionog kanala, i smatra se poznatim.

• hi(n) je prenosna funkcija akustičkog ambijenta u kojem se nalaze izvor

eha (zvučnik) i prijemnik (mikrofon)

• s(n) je korisni signal koji se prenosi na udaljenu stranu (npr. glas

lokalnog govornika).

• b(n) je signal šuma koji postoji u prostoriji

• d(n) je signal eha detektovan na mikrofonu

• y(n) je ukupan signal detektovan na mikrofonu,

)()()()( nbnsndny ++=

Cilj postupka poništavanja eha zasnovanog na adaptivnim filtrima je da se

podešavanjem (adaptacijom) koeficijenata filtra )(ˆ nh identifikuje nepoznati sistem

hi(n), tj. da u slučaju potiskivanja akustičkog eha, filtar modeluje inverznu prenosnu

funkciju akustičkog ambijenta.

Slika 3.11 Upotreba adaptivnog filtra za identifikaciju sistema (str. 76)

Teškoće u procesu adaptacije filtra predstavljaju nepoznavanje šuma b(n) i

korisnog signala s(n), kao i dinamike sistema u smislu vremenski promenljivog

akustičkog ambijenta, i dinamike pojedinih zvučnih izvora.


36

Savremeni algoritmi za potiskivanje akustičkog eha najčešće primenjuju jednu

od sledećih metoda za adaptaciju koeficijenata filtra:

• Metoda najmanjeg srednjeg kvadrata (engl. Least Mean Square - LMS)

i normalizovana metoda najmanjeg srednjeg kvadrata (engl. Normalized

Least Mean Square - NLMS)

• Metoda afine projekcije (engl. Affine Projection Algorithm – APA)

• Rekurzivna metoda najmanjih kvadrata (engl. Recursive Least Squares .

RLS)

Navedene metode se prvenstveno razlikuju u primenjenom kriterijumu greške

koji se minimizuje. Algoritmi su navedeni po rastućoj računskoj složenosti, i po

rastućoj brzini konvergencije. Ipak, brza konvergencija ne obezbeñuje uvek bolje

performanse u smislu adaptacije filtra, jer je tada adaptacija znatno osetljivija na

prisustvo jakog šuma.

3.5.1.1 Metoda najmanjeg srednjeg kvadrata i normalizovana metoda

najmanjeg srednjeg kvadrata

Uopšteno, jednačina za ažuriranje koeficijenata adaptivnog filtra su sledećeg

oblika:

)(ˆ)(ˆ)1(ˆ nnn hhh ∆+=+

Metoda LMS spada u stohastičke gradijentne metode [Widrow1]. Zasniva se na

minimizaciji snage greške izmeñu signala registrovanog na mikrofonima y(n) i

procene eha )(ˆ nd .

)(ˆ)()( ndnyne −=

Metoda traži najstrmiji gradijent u datom momentu, i adaptacija se obavlja u tom

pravcu. Kompletno izvoñenje metode je dato u [Widrow2].

Korak obrade Jednačine

Estimacija signala eha )()(ˆ)(ˆ nnnd H xh=

Greška )(ˆ)()( ndnyne −=

Ažuriranje koeficijenata filtra )(*)()(ˆ)1(ˆ nennn xhh µ+=+

Tabela 3.1 Pregled LMS algoritma


37

Pregled ključnih jednačina koje se koriste u LMS su date u gornjoj tabeli.

Nedostatak metode leži u činjenici da konstantan faktor koraka µ dovodi do pojačanja

greške računanja gradijenta za velike vrednosti ulaza )(nx .

Do rešenja tog problema se dolazi normalizacijom koraka adaptacije po snazi

ulaznog signala, pri čemu se dolazi do nove konstante µ i sledećih jednačina:


Estimacija signala eha )()(ˆ)(ˆ nnnd H xh=


Ažuriranje koeficijenata filtra 2

)(

)(*)()(ˆ)1(ˆ

n

nennn

x

xhh µ+=+

20 ≤≤ µ

Tabela 3.2 Pregled NLMS algoritma

Izvoñenje gore navedenih jednačina se može naći u [Hänsler].

Iz formule za adaptaciju koeficijenata se vidi da je delitelj skalarni broj. To

dovodi do toga da je vektor koraka )(ˆ nh∆ kolinearan sa vektorom ulaznog signala x(n),

što znači da se adaptacija obavlja u istom pravcu. S obzirom da to nije i neophodno

pravac minimuma, usled značajne korelisanosti uzastopnih vektora ulaznog govornog

signala x(n), potrebno je više koraka adaptacije da bi se dostigao minimum, a time je

konvergencija filtra ka optimumu sporija.

U zavisnosti od vrednosti parametra µ menja se i brzina konvergencije i mera

potiskivanja akustičkog eha. Za veće µ , brzina konvergencije raste, ali mera

potiskivanja u ustaljenom stanju je manja [Haykin2]. Za manje vrednosti µ , brzina

konvergencije opada, ali mera potiskivanja u stabilnom stanju je veća, tj. filtar se bolje

obuči.

Ova karakteristika se može poboljšati primenom vremensko-promenljivog

faktora ( )nµ i uvoñenjem regularizacionog parametra )(n∆ [Haykin2], pri čemu

jednačina adaptacije koeficijenata filtra postaje:


38

)()(

)(*)()()(ˆ)1(ˆ

2nn

nennnn

∆++=+

x

xhh µ

Kontrolom ovih faktora postižu se bolje performanse algoritma. U početnim

momentima, dok je trenutno stanje sistema daleko od optimalnog, poželjno je koristiti

veliku vrednost za µ i i malu za ∆ (npr. µ = 1 i ∆ = 0). Tokom približavanja

optimalnom filtru, potrebno je postepeno smanjivati µ, a povećavati ∆. U idealnom

ustaljenom režimu µ → 0, a ∆ → ∞.

Slika 3.12 Mera potiskivanje eha u zavisnosti od vrednosti faktora adaptacije

(preuzeto iz [Tabus])

U većini NLMS sistema samo je jedan od faktora vremenski promenljiv. Ovaj

pristup je adekvatan za okruženja sa normalnim nivoom šuma (npr. kancelarija), dok

za bučna okruženja sa visokim nivoom šuma moguće je primeniti i kombinovanu

kontrolu oba faktora [Mader].

Moguće pseudooptimalne strategije za upravljanje faktorom adaptacije i

regularizacionim parametru su [Yamamoto]:

)(

)()(

2

2

ne

nen u

opt =µ i 2

2

)(

)()(

n

nnNnopt

∆

=∆h

,

gde su:


39

- )(neu – signal neizobličene greške, )()()( nnne Hu xh∆=

- )(ne – signal greške, )()()( nnnene u +=

- )(nn – signal lokalnog šuma

- )(n∆h – vektor razdešenosti sistema

Iako su oba pristupa teorijski ekvivalentna, u praktičnoj primeni preovladava

kontrola faktora adaptacije. Najvažniji razlog je što faktor adaptacije prima vrednosti

iz ograničenog opsega ]1,0[∈µ , dok vrednost regulacionog parametra je u opsegu

],0[ ∞∈∆ . Ova činjenica može predstavljati problem, naročito za implementacije

algoritama na DSP procesorima koji koriste aritmetiku u nepokretnom zarezu.

U realnim situacijama, pored lokalnog šuma, postoji i lokalni signal (govor) koji

se smatra korisnim signalom, i koji se na mikrofonima superponira na akustički eho.

Cilj poništavanja eha je da se akustički eho u što većoj meri potisne, a da se koristan

signal ne degradira. Kada je prisutan i koristan signal, potrebno je smanjiti adaptaciju

filtra da bi se sprečilo udaljavanje sistema od optimuma. To se može postići

varijacijom koraka adaptacije u zavisnosti od informacije da li je detektovan izvor

korisnog signala. Detekciju je moguće izvesti na bazi snaga signala u sistemu

[Gänsler1] ili na bazi mere razdešenosti sistema. Kao mera razdešenosti mogu se

koristiti rezultati analize korelacije [Gänsler2] ili kepstralne analize [Oppenheim].

Kompleksnost NLMS algoritma je ranga O(N), što znači da broj operacija za

realizaciju obrade linearno zavisi od količine ulaznih podataka N. Faktor zavisnosti je

2. Uvoñenje vremenske kontrole faktora adaptacije ( )nµ i regularizacionog parametra

)(n∆ zahteva dodatne računske operacije, koje mogu značajno da povećaju obim

računa.

Prednosti NLMS algoritma su robustnost, niska računska složenost i činjenica da

se adaptacija izvodi na osnovu trenutnih vrednosti signala, što doprinosi smanjenju

obima potrebnih memorijskih resursa i računskih operacija. Algoritam se može

realizovati i pomoću aritmetike u fiksnom zarezu, jer ne koristi rekurzivne strukture, i

time nije numerički uslovljen tačnosću.

Mana algoritma je sporija konvergencija za obojene signale u poreñenju sa

najnovijim metodama. Teoretska granica potiskivanja eha pomoću NLMS u


40

ustaljenom stanju je u opsegu 30-40 dB, u zavisnosti od vrednosti faktora adaptacije i

regulacionog parametra, što je sasvim dovoljno za primenu u realnim aplikacijama.

3.5.1.2 Metoda afine projekcije

Dok NLMS algoritam uzima u obzir samo trenutnu vrednost greške, metoda

afine projekcije (engl. Affine Projection – AP) koristi i vrednost greške računatu na

osnovu proteklih vektora ulaznih signala i trenutnih vrednosti koeficijenata adaptivnog

filtra. Posledica ovog pristupa je povećanje računske složenosti algoritma u poreñenju

sa NLMS algoritmom, kao i potreba za dodatnom memorijom, ali je povećana brzina

konvergencije.

Matrica signala )(nX se formira na sledeći način:

[ ])]1(),...,1(),()( +−−= MnxnxnxnX

i sadrži tekuću vrednost signala i (M-1) prethodnih vrednosti. M je red AP

algoritma. Treba primetiti, da za M=1, AP algoritam se svodi na NLMS. Afine

projekcije se mogu posmatrati kao generalizacija LMS i RLS algoritama. Za primenu

AP za poništavanje eha preporučene vrednosti za M su izmeñu 2 i 5.

Nakon izvoñenja datog u [Proakis], dobijaju se sledeće jednačine koje

karakterišu AP algoritam:


Estimacija signala eha )(ˆ)()(ˆ * nnnd T hX=


Ažuriranje koeficijenata filtra [ ] )(*)()()()(ˆ)1(ˆ 1nennnnn H −

+=+ XXXhh µ

Tabela 3.3 Pregled AP algoritma

U navedenoj tabeli se može videti da korak ažuriranja koeficijenata filtra zahteva

matrične operacije, pa i inverziju matrice. Čak i za male vrednosti M, računska

složenost AP algoritma značajno nadmašuje NLMS, što je veliki problem za praktičnu

primenu.


41

Sa ciljem da se smanji kompleksnost algoritma i da se svede na O(N),

predloženo je nekoliko metoda . Rezultat su tkzv. brzi algoritmi afine projekcije (engl.

Fast Affine Projection – FAP).

Smanjenje obima računa do linearne zavisnosti moguće je postići sledećim

pristupima [Gay1, Oh]:

- Pojednostavljenje procesa ažuriranja vektora greške

- Uvoñenje modifikovanog vektora koeficijenata, koji omogućuje

jednostavniju adaptaciju

- Efikasno računanje inverzne normalizacione matrice – direktno za

male vrednosti M=2..4, ili iterativno za veće M Levinson-

Durbinovom rekurzijom

Metoda AP se odlikuje bržom konvergencijom od NLMS, uz povećane zahteve

za memorijskim prostorom i većim obimom računa. Brzim metodama se broj

računskih operacije može redukovati, ali je tada algoritam veoma osetljiv na tačnost

primenjene aritmetike, što otežava implementaciju na procesorima sa aritmetikom u

nepokretnom zarezu.

3.5.1.3 Rekurzivna metoda najmanjih kvadrata

Rekurzivna metoda najmanjih kvadrata umesto matematičkog očekivanja

kvadrata greške minimizuje kriterijum sumu kvadrata greške. Time se postiže bolja

adaptacija filtra i brža konvergencija.

Nakon izvoñenja detaljno opisanog u [Hänsler], dobijaju se sledeće jednačine

koje karakterišu RLS algoritam:


Estimacija signala eha )()1(ˆ)1|(ˆ nxnhnnd H −=−

Greška )1|(ˆ)()1|( −−=− nndnynne

Ažuriranje koeficijenata filtra

)()1(ˆ)(1

)()1(ˆ)(

11

11

nnn

nxnn

xxh

xx

xRx

R

−+−=−−

−−

λλγ

)1(ˆ)()()1(ˆ)(ˆ 11111 −−−= −−−−− nnnnn xxH

xxxx RxRR γλλ

)1|()()1(ˆ)(ˆ * −+−= nnennn γhh

Tabela 3.4 Pregled RLS algoritma


42

Kao što se iz tabele vidi, za ažuriranje koeficijenata potrebno je naći inverznu

matricu autokorelacione matrice )(ˆ nxxR . Dimenzija matrice je NxN, pri čemu je N

dužina adaptivnog filtra. Tipične vrednosti za N su 256 za okruženja kao što je

unutrašnjost automobila, pa do nekoliko hiljada za veće prostorije (npr. kancelarije).

To zahteva veoma velik broj računskih operacija, koje rastu sa kvadratom dužine filtra

– kompleksnost RLS algoritma je O(N2).

Postoje razni pristupi koji značajno ubrzavaju rad RLS metode [Hiroshi,

Skidmore], približavajući kompleksnost ka O(N). Jedna od najefikasnijih je metoda

brzog transverzalnog filtra, opisanog u [Cioffi]. Ali, primenom pomenutih pristupa

problem konačne tačnosti ciljne platforme postaje veoma izražen. S obzirom da se radi

o rekurzivnim postupcima, dolazi do numeričke nestabilnosti sistema.

3.5.1.4 Pregled algoritama za adaptaciju filtara za potrebe

poništavanja akustičkog eha

Nakon analize raznih algoritama za adaptaciju filtara, može se zaključiti da RLS

obezbeñuje najbolje rezultate u pogledu brzine konvergencije, mere potiskivanja u

ustaljenom stanju i robusnost u prisustvu šuma. U isto vreme, RLS je daleko

najzahtevnija i u pogledu računskih operacija i potrebnog memorijskog prostora

(Tabela 3.5).

Algoritam Kriterijum Kompleksnost Memorijski prostor

NLMS 2)(neE ONLMS(N)~2N N

AP

−∑

−

=

1

0

2)|(

L

i

nineE OAP(N)~2LN

postoji brza verzija LN

RLS 10,)|(0

2 ≤<∑=

− λλn

l

ln nle ORLS(N)~N2

postoji brza verzija N2

Tabela 3.5 Pregled kompleksnosti algoritama

Brza verzija metode afine projekcije poseduje malo slabije performanse, ali

znatno manju kompleksnost. Obe metode su u osnovnom obliku prezahtevne za

primenu u proizvodu, a brze verzije su osetljive na tačnost računa, i potencijalno su

numerički nestabilne. Postoje metode za stabilizaciju algoritma [Benallal, Ren], ali one

zahtevaju dodatne računske operacije, i tako dalje povećavajući računsku složenost.


43

Pokazalo se da je NLMS najskromnija po pitanju složenosti i memorijskih

zahteva, ali daje i najslabije rezultate (Slika 3.13). Ipak, kontrolom parametara

adaptacije, performanse se mogu dovesti na nivo koji zadovoljava zahteve postavljene

pred proizvod potrošačke elektronike. Stabilnost i robusnost, koje su odlike NLMS

algoritma, su neophodne za takav ureñaj.

Pe

rfo

rma

nse

Slika 3.13 Odnos performansi i kompleksnosti algoritama

Nakon poreñenje pristupa, NLMS se pokazao kao pogodan za primenu u bloku

za poništavanje eha.

Metoda se dodatno može ubrzati realizacijom u frekvencijskom domenu. Iako je

potrebno potrošiti približno 2Nlog2N operacija za transformaciju u i iz frekventnog

domena, operacija konvolucije i korelacije zahtevaju znatno manje računskih operacija

nego u vremenskom domenu. Time se implementacija algoritma može ubrzati i 10 puta

[Shynk].

U sistemu koji koristi mikrofonski niz od M elemenata, postoji M ulaznih

signala. Svi signali sadrže i akustički eho, i ambijentalni šum, kao i korisni signal. Ali,

svi oni su različiti s obzirom da je relativna pozicija svakog mikrofona u odnosu na

izvore različita. Problem se može rešiti uvoñenjem M posebni blokova za poništavanje

eha, koji se nezavisno adaptiraju. Postoje i metode koje koriste kros-korelaciju ulaznih

signala za smanjenje obima računa i ubrzavanja algoritma čak i za faktor 2, uz mali

gubitak kvaliteta [Lindstrom].


44

Postojanje više korelisanih izvora eha (zvučnika) u sistemu može usporiti

konvergenciju adaptivnog filtra. Dekorelacijom izvora (kanala) moguće je poboljšati

adaptaciju, ali to zahteva modifikaciju signala pre reprodukcije [Yasukawa]. Iako se

radi modifikacijama koje su nečujne u opsegu govornog signala, često te metode nisu

poželjne, naročito u sistemima sa visokim kvalitetom zvuka.

3.5.2 Odreñivanje pravca izvora pomo ću mikrofonskog niza

Odreñivanje pravca u prostoru na kome se nalazi izabrani govornik i

usmeravanje karakteristike usmerenosti mikrofonskog niza ka njemu je važan problem

u slobodnoj komunikaciji. Postupci odreñivanja pravca su veoma osetljivi na sve

smetnje prisutne u ambijentu, na postojanje reverberacije, i posebno na nestacionarnost

izabranog govornika (kada se on kreće u ambijentu) i kada se u datom ambijentu nalazi

više govornika koji istovremeno govore (engl. cocktail-party effect). Odreñivanje

pravca aktuelnog govornika u odnosu na mikrofonski niz u horizontalnoj ravni, tj.

odreñivanje ugla azimuta, veoma je važno u video-telefonskim i telekonferencijskim

sistemima zbog upravljanja karakteristikom usmerenosti mikrofonskog niza, ali se

veoma često informacija o koordinatama govornika koristi i za kontrolu video kamere

u sistemu.

Slika 3.14 Akustički ambijent u reverberantnom okruženju

Metode za odreñivanje pravca se najčešće zasnivaju na proceni vremenskog

kašnjenja signala (engl. Time Delay Estimation – TDE). U zavisnosti od načina

odreñivanja vremenskog odnosa signala, metode se dele na dve velike grupe metoda:


45

- metode odreñivanja vremena prispeća signala (engl. Time of Arrival – TOA) i

- metode odreñivanja vremenske razlike prispeća signala (engl. Time Difference

of Arrival – TDOA).

Prva grupa metoda se najčešće koristi u aktivnim sistemima kao što su radari i

sonar, i meri vremensku razliku izmeñu odašiljanja pulsa i prijema odjeka. Druga

grupa metoda teži da ustanovi relativnu vremensku razliku izmeñu signala

detektovanih na dislociranim senzorima, što je najčešće slučaj kod pasivnih sistema

kao što su mikrofonski nizovi.

U idealnom slučaju, pored uvek prisutnog šuma okruženja, do mikrofona stiže

samo direktni talas izvora. To je moguće u slučaju beskonačno (ili dovoljno) velike

prostorije ili ukoliko zidovi prostorije u potpunosti apsorbuju snagu zvučnih talasa. U

suprotnom, što je i realna situacija, postoje refleksije zvuka - reverberacije. Takvo

okruženje se naziva reverberantnim. U takvom okruženju, mikrofon registruje i

direktni talas, kao i sve refleksije. Refleksije su zakasnele u odnosu na direktni talas, i

manje su snage. S obzirom da ih ima više, njihova ukupna snaga može nadmašiti i

snagu direktnog talasa. Granica, na kojoj se izjednačava snaga direktnog talasa i snaga

svih refleksija, naziva se direktnim poljem. U visoko reverberantnim okruženjima,

direktno polje je reda veličine 1 do 2 metra u okolini izvora, i zavisi od karakteristika

akustičkog okruženja [Papp1]. Direktno polje se može odrediti primenom akustičkog

modela sobe zasnovanog na virtuelnim izvorima koji odgovaraju refleksijama,

opisanom u [Allen].

Lociranje govornika, uz prisustvo ambijentalnog šuma i reverberacije je veoma

složen problem, naročito na rastojanjima koja premašuju dimenzije direktnog polja.

3.5.2.1 Metoda generalizovane kros-korelacije

Metoda generalizovane kros-korelacije (engl. Generalized Cross-Correlation

Method – GCC) je najčešće korišćena metoda za odreñivanje vremenskog kašnjenja.

Zasniva se na modelu idealne propagacije signala [Huang], uz upotrebu dva senzora.

Vremensko kašnjenje se dobija pronalaženjem maksimuma težinski uobličene kros-

korelacije, formulom:

][ˆmaxargˆ nGCCn

GCC Ψ=τ

pri čemu je


46

∑−

=

Φ=Ψ1

0

2

10 ][][][ˆN

k

N

nkj

xxGCC ekSknπ

generalizovana kros-korelaciona funkcija, Sx0x1 = EX0[k] X 1*[k] je kros-

spektar, X[k] su koeficijenti Furijeove transformacije signala x(n), ][kΦ je težinska

funkcija, a N je broj odbiraka u bloku.

Oblik težinske funkcije ][kΦ značajno utiče na performanse algoritma. Postoji

nekoliko mogućih pristupa, npr. uglačana transformacija koherence (SCOT) [Carter],

Roth procesor [Roth], Echart filtar, transformacija faze (PHAT), procesor maksimalne

verovatnoće (engl. Maximum Likelyhood - ML) [Knapp], Hassab-Boucher

transformacija [Hassab], itd.

Metoda transformacije faze (PHAT) koristi težinsku funkciju sledećeg oblika:

][1

][10 kS

kxx

PHAT =Φ

Dobra osobina navedene težinske funkcije je da metodu čini neosetljivom na

snagu signala. Dinamika signala u govornim aplikacijama čini PHAT metodu

najpogodnijom za primene u mnogim aplikacijama.

Postoji proširenje algoritma koje uvoñenjem spektralne težinske funkcije

favorizuje onaj deo spektra, u kojem je odnos signal-šum veći, a informacija od pravcu

se robustificira klasifikacijom u klastere, na osnovu ranijih rezultata algoritma

[Kukolj1]. Uvoñenjem detektora aktivnosti na osnovu ocene zvučnosti govornih

segmenata pouzdanost izlazne informacije o pravcu se dalje može povećati [Kukolj2].

Metode zasnovane na generalizovanoj kros-korelaciji (GCC) računski su veoma

efikasne i jednostavne za implementaciju. Pouzdane su u uslovima kada je odnos

signal-šum pogodan. Padom odnosa signal-šum i rastom reverberacije metoda postaje

manje pouzdana, jer se metoda oslanja na pretpostavku da je direktni talas dominantan

u registrovanom signalu [Champagne].

3.5.2.2 Metoda višekanalne kros-korelacije

Signal jednog mikrofona niza mikrofona nije potpuno nezavisan od signala koje

primaju drugi mikrofoni. Metoda višekanalne kros-korelacije (engl. Multichannel

Cross-Correlation Algorithm - MCC) utvrñuju meñuzavisnost signala predikcijom

signala jednog senzora na osnovu signala preostalih senzora [Haykin3].


47

Metoda je proširenje klasične kros-korelacione metode na više kanala. Koristi

matricu prostorne korelacije meñu signalima različitih senzora za utvrñivanje

vremenskog kašnjenja.

Dobra osobina metode je da koristi sličnost meñu kanalima istovremeno, i

utvrñuje jedinstveno vremensko kašnjenje za sistem, koje je optimalno u LMS smislu.

Nedostatak metode je što mikrofonski niz mora biti veoma precizno dizajniran i

kalibrisan.

3.5.2.3 Metoda adaptivne dekompozicije na sopstvene vrednosti

Dok se ranije navedene metode se zasnivaju na pretpostavci o idealnoj

propagaciji signala, metoda adaptivne dekompozicije na sopstvene vrednosti (engl.

Adaptive Eigenvalue Decomposition Algorithm – AED) koristi realniji, reverberantni

model okruženja. Osnovni algoritam koristi dva mikrofona.

Ukoliko se izjednači konvolucija jednog mikrofonskog signala x0 (x1) sa

prenosnom funkcijom od izvora do drugog mikrofona h1 (h0) dobija se sledeća relacija:

011010 *][**][*][ hnxhhnshnx ==

koja se može predstaviti u matričnom obliku [Benesty2].

0][][][ 0110 =−= hnhnn TTT xxux

Množenjem sistema sa x[n] i uzimanjem matematičkog očekivanja dobija se

jednačina:

R[n]u = 0,

gde je ][][][ nnEn TxxR = matrica kovarijanse mikrofonskih signala. Vektor u

je sopstveni vektor za sopstvenu vrednost 0, koji se sastoji od dva impulsna odziva. U

idealnom slučaju, sistem ima jedinstveno rešenje [Xu]. Postojanje šuma dovodi do

regularizacije matrice R[n], zbog čega sistem nema sopstveni vektor za 0. Pronalaženje

vremenskog kašnjenja se svodi na procenu vektora u uz minimizaciju izraza uTR[n]u,

sa ograničenjem .1=u Do procene sopstvenog vektora se može doći npr. adaptivnim

LMS algoritmom [Benesty], koji je dovoljno jednostavan i efikasan u situacijama kada

se akustički ambijent sporo menja.


48

Metoda AED identifikuje impulsne odzive dvaju kanala bez pretpostavki. To je

izvodljivo ukoliko su impulsni odzivi kratki, u suprotnom odzivi se pogrešno

detektuju. Jedna mogućnost da se otkloni ovaj problem je primena više mikrofona.

Odgovarajuća metoda je adaptivna procena vremenskog kašnjenja (engl. Adaptive

MultiChannel Time Delay Estimation – AMC TDE) zasnovana na identifikaciji kanala

bez pretpostavki.

Ova metoda predstavlja generalizaciju AED metode za N mikrofona. Takoñe

primenjuje LMS algoritam za adaptaciju matrice koja sadrži sve impulsne odzive, bilo

u vremenskom ili frekventnom domenu [Huang].

Metode zasnovane na generalizovanoj kros-korelaciji (GCC i MCC) su robusnije

na šum od metoda zasnovanih na „slepoj“ identifikaciji kanala, a reverberacija

predstavlja značajan problem. Uvoñenjem većeg broja mikrofona, metoda MCC

obezbeñuje najbolje rezultate. Ipak, za korektan rad metode, mikrofonski niz mora biti

veoma precizno dizajniran i kalibrisan. Adaptivne metode AED i AMC su pogodne za

primenu u sporo promenljivim sistemima, što je značajno ograničenje imajući u vidu

karakteristike sistema za slobodnu komunikaciju.

3.5.3 Prostorno filtriranje

Pošto akustički ambijent sadrži pored govornika najčešće i druge izvore smetnji,

mora se izvršiti izdvajanje željenog signala od ostalih izvora smetnji kako bi se

omogućilo samo njegovo snimanje. Konvencionalno, ovaj problem se rešava

primenom mikrofonskog sistema koji se sastoji od N mikrofona [Brandstein].

Primenom naprednih algoritama na mikrofonske signale postiže se usmerena

karakteristika osetljivosti mikrofonskog sistema. Pomenuta klasa algoritama spada u

metode prostornog filtriranja (engl. Acoustic Beamforming - ABF).

Ovakav mikrofonski sistem ima dovoljno usmerenost da u prostoru ambijenta

izdvoji samo odabranog govornika, dok ostale prostorno dislocirane izvore smetnji

može potisnuti i time ostvariti dobitak. Veličina poboljšanja zavisi od:

- karakteristike usmerenosti mikrofonskog niza (širine osnovne

petlje),

- veličine bočnih petlji,

- prostorne separabilnosti govornika i izvora smetnji,


49

- veličine reverberacije,

- nestacionarnosti svih izvora signala, itd.

Opšti oblik jednačine prostornog filtriranja u frekventnom domenu je:

XWY H= ,

pri čemu je Y izlaz sistema predstavljen u frekventnom domenu, W je matrica

koeficijenata BF, a X je matrica ulaznih signala.

Zadatak BF je da favorizuje signal koji dolazi iz zadatog pravca, i da minimizuje

snagu signala iz drugih pravaca. Da bi se eliminisalo trivijalno rešenje W=0, uvodi se

ograničenje koje obezbeñuje da se željeni signal ne izobličuje. Odgovarajuće jednačine

su:

WWmin XXH

WΦ - minimizacija snage izlaza BF

1=dW H - uslov da se signal iz željenog pravca ne izobličuje

Vektor d je vektor usmerenosti mikrofonskog niza, i oblika je:

[ ]110110 ,...,, −−

−−−= Nj

NjjT eaeaea ωτωτωτd ,

gde konstante ai i vremenska kašnjenja iτ odgovaraju geometriji mikrofonskog

niza i pravcu korisnog signala.

Rešenje opisanog sistema je jednačina pod nazivom minimalna varijansa bez

distorzije (engl. Minimum Variance Distortionless Response - MVDR) [Cox]:

dΦd

dΦW

1

1

−

−

=VV

H

VV

pri čemu je VVΦ matrica koherencije šuma.

Najjednostavnija metoda za fiksno prostorno filtriranje je metoda zakasni-i-

saberi (engl. Delay-and-Sum Beamformer - DSB). Pod pretpostavkom da je šum

prostorno nekorelisan, matrica koherencije se svodi na jediničnu matricu, i koeficijenti

MVDR su oblika:

dWN

1=

Metoda DSB se svodi na kompenzaciju kašnjenja meñu kanalima, i sabiranjem

vremenski poravnatih kanala se dobija pojačanje korisnog signala, dok se signali iz

ostalih pravaca delimično potiru.


50

Složeniji tip fiksnih BF su filtriraj-i-saberi (engl. Filter-and-Sum Beamformer -

FSB), kada se signali mikrofona filtriraju pre sabiranja, tj. svakom ulaznom signalu

pridružen je filtar dužine L>1. DSB je specijalni slučaj, kada je L=1.

Indeks usmerenosti (engl. Directivity Index – DI) mikrofonskog niza je mera

potiskivanja difuznog polja šuma [Simmer]. Indeks direktivnosti se definiše kao:

∫ ∫ Ω

Ω=Ω

π πθϕθθϕ

π

θϕ

0

22

0

2

0010

)sin(),),(exp(4

1),),(exp(

log10)(ddjb

jbjDI

gde je ),),(exp( θϕΩjb prostorna (3D) karakteristika mikrofonskog niza, Ω је

normalizovana učestanost, а ϕ0 i θ0 su sferne koordinate aktivnost govornika.

Metode za prostorno filtriranje koje obezbeñuju veći indeks usmerenosti od

DSB, nazivaju se super-direktivnim. To mogu obezbediti bilo fiksni ili adaptivni

algoritmi.

Glavna odlika fiksnih BF je niska računska složenost i mala potrošnja

memorijskog prostora. Takoñe, veoma su robusni u prisustvu šuma i reverberacije.

Udvostručavanjem broja mikrofona, DSB obezbeñuje dodatno potiskivanje prostorno

rasporeñenog šuma za 3dB, FSB i više.

Najpoznatiji adaptivni algoritam za prostorno filtriranje je Frostov [Frost], u

kojem se koeficijenti filtra adaptiraju LMS metodom, a kriterijum adaptacije je

minimizacija izlazne snage sa održanjem željene frekvencijske karakteristike u

zadatom pravcu.

Kao alternativa za Frostov BF, u [Griffiths] predložen je potiskivač bočnih petlji

(engl. Generalized Sidelobe Canceller - GSC). Sastoji se od dve strukture – od fiksnog

BF koji obezbeñuje ne-adaptivni izlaz, i od adaptivne strukture za potiskivanje bočnih

petlji. Adaptivnoj strukturi prethodi blokirajuća matrica, koja potiskuje signal iz

željenog pravca, tako da se koeficijenti filtra podešavaju samo na osnovu zajedničkih

signala obe grane (Slika 3.15).

Usled reverberacije, do mikrofonskih nizova stižu i zakasnele refleksije od

zidova. Zbog toga, smetnje (šum i refleksije) postaju korelisane sa korisnim signalom.

Nedostatak MVDR metode je što usled nepoznavanja prenosne funkcije sistema dolazi

do delimičnog potiskivanja korisnog signala.


51

Slika 3.15 Adaptivni potiskivač bočnih petlji

U [Papp1] je prikazan adaptivni algoritam koji je otporan na pojavu

reverberacije, jer se prenosna funkcija estimira na bazi matrica kovarijansi signala i

šuma, nakon čega se ona primenjuje na MVDR BF. Rezultati pokazuju da su

performanse algoritma poboljšane u odnosu na postojeća rešenja. Jedini nedostatak

pristupa jeste u povećanoj računskoj složenosti - u okviru postupka zahteva se

inverzija kovariacione matrice i pronalaženje sopstvenih vrednosti, što značajno

ograničava primenu algoritma u sistemima za rad u realnom vremenu.

U [Simmer] je pokazano su da se teorijski MMSE (engl. Minimum Mean Square

Error) optimalni adaptivni potiskivač bočnih smetnji za širokopojasne signale može

dekomponovati na dva bloka. Prvi blok je višekanalni potiskivač šuma MVDR iza

koga sledi drugi blok obrade za tzv. postprocesiranje, predstavljen jednokanalnim

Wienerovim filtrom:

4342143421filterpostWiener

outnnss

ss

MVDR

nnH

nnopt

−

−

−

+=

φφφ

dΦddΦ

W 1

1

gde je Wopt vektor optimalnih koeficijenata mikrofonskog niza, φss je spektralna

gustina snage korisnog signala, φnnout je spektralna gustina snage šuma na izlazu

potiskivača, a nnΦ , Hnn E nnΦ = je kovarijaciona matrica šuma mikrofonskih

signala. Operator E. označava matematičko očekivanje, H predstavlja konjugovano

kompleksno transponovanje.


52

dΦddΦ

w1

1

−

−

=nn

Hnn

outnnss

sspostH

φφφ+

=

Prvi faktor relacije je težinski vektor MVDR potiskivača, dok drugi faktor

predstavlja jednokanalni Wienerov filtar za postprocesiranje. Veličine φss i φnnout nisu

unapred poznate, te ih stoga treba proceniti na osnovu ulaznih signala.

Najznačajniji postupak procene filtra za post-procesiranje iznet je u [Marro],

baziran na rezultatima opisanih u [Zelinski]. U proceni parametara post-filtra Zelinski

usvaja pretpostavku o nekorelisanosti šuma na mikrofonima. Iako navedena

pretpostavka u realnim prostorijama nije u potpunosti ispunjena, u praksi ovim

postupkom se ostvaruje značajno poboljšanje kvaliteta signala.

Postupak se zasniva na sledećim pretpostavkama:

P1) Signal i šum su meñusobno nekorelisani što se izražava relacijom

( )miisnE isni,1,,0* =∀==φ

P2) Spektralna gustina snage šuma mikrofonskih signala je jednaka na svim mikrofonima

( )innE nniinn ii∀== ,* φφ

P3) Signali šuma na mikrofonu i i j su meñusobno nekorelisani

( )jinnE jinn ji≠∀== ,0*φ

Iz navedenih pretpostavki izvode se relacije za auto i kros-spektralne gustine

snage mikrofona:

nnssxx iiφφφ += ssxx ji

φφ =

gde su sa miii xx ,...,1, =φ označene spektralne gustine snage mikrofona, a sa

mjiji xx ,...,1,, =φ kros spektri mikrofona. Uobičajeno je da se spektralne gustine

snage i kros spektri estimiraju rekurzivno sa eksponencijalnim zaboravljanjem prema

relaciji:

)()()1()1(ˆ)(ˆ * txtxtt jixxxx jijiλφλφ −+−=

gde je λ eksponencijalni faktor zaboravljanja (0 < λ < 1), a t vremenski indeks bloka

ulaznih podataka koji se obrañuje. Sa (* ) je označena operacija kompleksne

konjugacije.


53

Zelinski usvaja još jednu pretpostavku da je šum na izlazu mikrofonskog niza

približno jednak šumu na ulazu nnoutnn φφ ≈ . Primenjujući relacije gornje relacije na sve

parove mikrofona i smenjujući procene snage signala i šuma, post-filtar Hpost-zel se

može izraziti relacijom:

∑∑∑

∑∑∑−

=

−

=

−

+=

−

=

−

=

−

+=−

=1

0

22

0

1

1

*

1

0

22

0

1

1

*

m

ixxi

m

i

m

ijji

m

ii

m

i

m

ijxxji

zelpost

ii

ji

wwwRe

wwwRe

H

φ

φ

gde su wi elementi težinskog vektora i koeficijenti MVDR potiskivača.

U primeni gornje relacije postoje problemi pre svega vezani za ispunjenost

pretpostavke P3. Smatrajući da je polje šuma u prostoriji sa reverberacijom idealno

difuzno, funkcija koherencije dva bliska mikrofona se opisuje relacijom

==Γ

c

fdsinc ij

nnnn

nn

ij

jjii

jiπ

φφ

φ 2

gde je jinnφ kros-spektar šuma mikrofona i i j, f je učestanost signala, dij je rastojanje

mikrofona, c je brzina zvuka. Pretpostavka P3 je ispunjena jedino na učestanostima

)2/( ijdkcf = , k=1,2,… na kojima je koherencija ijΓ jednaka nuli. Na učestanostima

na kojima vrednost ijΓ nije jednak nuli, postfiltar zelpostH − unosi dodatnu distorziju

govornog signala.

Problem ocene post-filtra u uslovima kada koherencija nije jednaka nuli, ali je

poznata, razmatran je u [McCowan1-2]. Naime, pokazuje se da se poznavanjem

teorijskog oblika funkcije koherencije može znatno poboljšati procena parametara

post-filtra. Dobitak koji se može ostvariti pomenutim algoritmom limitiran je

činjenicom da funkcija koherencije realne prostorije znatno odstupa od teorijski

izvedene za idealno difuzno polje.

U [Šarić2] opisan je postupak koji ne zahteva apriorno znanje o funkciji

koherencije, jedino je potrebno da funkcija koherencije bude vremenski nepromenljiva,

što je ispunjeno u stacionarnim uslovima kada mikrofonski niz i prisutne smetnje ne

menjaju svoj položaj u prostoru. U tim uslovima, optimalni post-filtar se može izraziti

preko faktora slabljenja šuma, koji se iz dostupnih merenja ocenjuju rekurzivno.


54

3.5.4 Potiskivanje šuma

Kod snimanja govora u akustičkom ambijentu uvek se pojavljuje problem

aditivnog stacionarnog i/ili nestacionarnog šuma kao i rezidualnog šuma u obradi

akustičkog signala. Ovi šumovi narušavaju kvalitet snimljenog govornog signala a

ukoliko su dovoljno intenzivni mogu izazvati i narušavanje njegove razumljivosti.

Postoji mnogo algoritama za potiskivanje šuma (engl. Noise Reduction - NR),

optimiziranih za pojedine vrste šumova, ali se uvek postavlja zahtev da se ostvari

odreñen dobitak u poboljšanju odnosa signal/šum pod uslovom da se ne unesu

izobličenja u govorni signal i time dodatno ne naruši njegova razumljivost.

Osnovni filtar za potiskivanje šuma je Wienerov filtar [Gay2]. Osnovna

pretpostavka prilikom izvoñenja filtra je da su svi signali u sistemu stacionarni. Ako je

signal )(ns narušen aditivnim šumom )(nv , mikrofon registruje sledeći signal:

)()()( nvnsny +=

Ukoliko su signal i šum nekorelisani, mogu se napisati sledeće jednačine snaga u

frekventnom domenu:

)()()( ωωω vsy PPP += i

)()()( ωωω vys PPP −=

Poslednja jednačina - oduzimanju snage u spektru - definiše osnovni koncept za

najveći broj metoda za potiskivanje šuma. Minimizacijom kvadrata greške

2)(ˆ)( nsns − dobija se ocena signala i prenosna karakteristika filtra:

)()()(ˆ ωωω YHS WW = )(

)()(

)()(

)()(

ωωω

ωωωω

y

vy

vs

sW P

PP

PP

PH

−=

+=

Može se primetiti da Wienerov filtar predstavlja primenu pojačanja zavisnog od

frekvencije na spektar ulaznog signala. On potiskuje spektralne komponente u

zavisnosti od zašumljena istih: slabljenje zašumljenih komponenata je veće u odnosu

na nezašumljene komponente.

S obzirom da snage signala i snaga šuma nisu poznate, te veličine se moraju

proceniti na osnovu ulaznog signala y(n). Rezultat efikasnosti filtra zavisi od

korektnosti procene snage šuma. Najčešće, snaga šuma se procenjuje u momentima

kada ne postoji signal, tj. u momentima pauze. Često se koristi i aproksimacija:


55

2

22

)(

)()()(

ωωω

ωY

VYHW

−≅

Slične jednačine se dobijaju i metodama oduzimanja snage (engl. Power

Subtraction - PS) [Ephraim] i oduzimanja amplitude (engl. Magnitude Subtraction –

MS) [Boll]

2

22

)(

)()()(

ωωω

ωY

VYHPS

−=

)(

)()()(

ωωω

ωY

VYHMS

−=

Sva tri gore navedena pristupa za potiskivanje šuma se mogu predstaviti

generalnom formom, koja nosi naziv parametrizovani Wienerov filtar [Lim].

βγ

ωω

ω

−=

)(

)(1)(

Y

VHG

U zavisnosti od parametara γ i β jednačina se svodi na jednu od metoda. Pregled

metoda i odgovarajućih vrednosti parametara je dat u tabeli:

Metoda γ β

Wienerov filtar 2 1

Oduzimanje snage 2 1/2

Oduzimanje amplitude 1 1

Tabela 3.6 Pregled parametrizovanog Wienerovog filtra

Iako postoji generalni oblik jednačine, nije dokazano da varijacije sa

proizvoljnim parametrima obezbeñuju optimalno rešenje.

Metode zasnovane na oduzimanju u spektru, kao posledica modifikacije spektra,

unose izobličenja koja podsećaju na muzičke tonove [Vary]. Oni nastaju usled

pogrešne procene pojedinih parametara sistema (npr. snage šuma ili snage signala),

velike fluktuacije faktora utišanja pojedinih frekvencija ili nesavršenosti obrade koja

ne obezbeñuje savršenu rekonstrukciju.

Efekat pojave muzičkih tonova se može ublažiti uvoñenjem faktora pojačanja

koji ograničava promenu pojačanja ukoliko ne postoji korisni signal. Modifikovan

sistem je opisan jednačinom:

)())(|()()(ˆ1 ωωωω YYHPHS WG =


56

u kojoj H1 označava hipotezu da je korisni signal prisutan u ukupnom signalu, a

))(|( 1 ωYHP odgovarajuću verovatnoću.

Da bi se to postiglo, razvile su se metode sa blagim detektorom aktivnosti (engl.

Soft Voice Activity Detector – Soft VAD) [Boll, McAulay]. Oni umesto binarne odluke

o postojanju korisnog signala na izlazu daju vrednost u opsegu (0,1), koja se nakon

toga može koristiti za kontrolu fluktuacije koeficijenata filtra.

Metoda za spektralno potiskivanje šuma opisana u [Ephraim] zasniva se na

kratkotrajnoj, optimalnoj proceni amplitude. Ova metoda, za razliku od metode

oduzimanja snage, obezbeñuje najmanju srednju kvadratnu grešku u oceni spektralne

amplitude. Za visok odnos snage signala i šuma, metoda konvergira ka Wienerovom

estimatoru. Za smanjenje efekata muzičkih tonova, metoda uvodi meru neodreñenosti

prisustva signala (engl. signal presence uncertainty) kao adaptivni faktor pojačanja.

U [Valin2] opisana je proširena metoda potiskivanja šuma za mikrofonski niz,

koja se zasniva na post-filtru za prostorno filtriranje u okruženju sa jednim korisnim

signalom i stacionarnim pozadinskim šumom [Cohen]. Poboljšana metoda je efikasna

čak i u prisustvu više korisnih izvora, koji su ispravno locirani. Koristi sistem za

razdvajanje izvora (engl. source separation) u kombinaciji sa potiskivanjem šuma, koji

je u stanju da potisne i stacionarni šum, ali i smetnje koje nastaju kao posledica

preslušavanja izvora nakon razdvajanja.

Najnovija istraživanja u oblasti koriste psihoakustički model za potiskivanje

šuma. U [Tsoukalas] predstavljena je metoda modifikacije spektralnih pojačanja koja

koristi perceptualni model za potiskivanje samo onih komponenti šuma koji su iznad

pragova čujnosti. Pragovi su dinamični i adaptiraju se u zavisnosti od spektralnih

promena govora. Ukoliko je nivo šuma precizno odreñen, nivo razumljivosti govora se

značajno poboljšava.

3.5.5 Automatska kontrola poja čanja

Promenljivi ambijentalni uslovi i posebno, promenljivo rastojanje govornik-

mikrofonski niz, zahtevaju automatsku kontrolu pojačanja sistema (engl. Automatic

Gain Control - AGC), kako bi nivo glasa govornika bio što stabilniji i prijatniji za

slušaoca na udaljenom kraju telekomunikacionog kanala.


57

Ustanovljeno je da karakteristike okruženja kao i govora sa udaljenog kraja

kanala značajno utiču na ponašanje govornika na bližem kraju. Taj fenomen naziva se

Lombardovim efektom. Jačina govora raste sa jačinom pozadinskog šuma. Osim toga,

detektovane su i promene u dinamici i spektralnim karakteristikama govora [Hanson].

Osnovni pristup za kontrolu pojačanja jeste brzo-promenljiva i sporo-

promenljiva estimacija snage signala u datom momentu, njihova obrada, a zatim

adaptacija faktora pojačanja. Na izlazu iz sistema faktor pojačanja se primenjuje na

ulazni signal. Na taj način, usrednjena snaga izlaznog signala u momentima kada

postoji aktivnost postaje stabilna.

Brzo-promenljiva i sporo-promenljiva estimacija snage signala obezbeñuje

informaciju o prisustvu ili odsustvu govorne aktivnosti. Ta informacija na

odgovarajući način kontroliše adaptaciju faktora pojačanja:

- Ukoliko je prisutan govor, faktor pojačanja se menja u zavisnosti od odnosa

ulazne snage i izlazne

- Ukoliko nema govorne aktivnosti, zadržava se prethodni nivo pojačanja.

Da bi se izbegli neželjeni efekti skoka faktora pojačanja u vidu čujnih distorzija,

promena pojačanja se glača IIR filtrom prvog reda u vremenu.

Automatska kontrola pojačanja u sistemima koji rade u punom dupleksu zahteva

dodatne informacije od detektora aktivnosti govora na bližem kraju, detektora

aktivnosti govora na daljem kraju kao i potiskivača akustičkog eha. Takoñe, u sistemu

sa mikrofonskim nizovima, na osnovu informacija o prostornom rasporedu snage

signala, odnos signal/šum izlaznog signala se dalje može poboljšati, prvenstveno

utišavanjem delova signala kada je prisutan samo šum. Od pouzdanosti detekcije šuma

značajno zavisi kvalitet signala. U slučaju pogrešne procene, moguć je gubitak dela

govornog signala, što je veoma nepoželjan efekat.

POGLAVLJE 4 - PREGLED MERA ZA OCENU PERFORMANSI

59

POGLAVLJE 4. PREGLED MERA ZA OCENU PERFORMANSI SISTEMA ZA OBRADU GOVORNOG SIGNALA

U fokusu istraživanja nalazi se razvoj integralnog sistema za govornu

komunikaciju, zasnovanog na DSP procesoru sa ograničenim resursima. Realizovani

sistem se sastoji od odgovarajuće fizičke arhitekture i programske podrške, koja utiču

na performanse celokupnog sistema.

Odabir odredišne platforme uvodi ograničenja po pitanju kompleksnosti

postupaka obrade. Sa druge strane potrebno je da programska podrška obezbedi

potreban kvalitet izlaznog signala.

Ideja je da se ocena kvaliteta obavi na sličan način kao što bi to uradio krajnji

korisnik. To podrazumeva da se sistem posmatra kao celina, sa jasno definisanim

ulazima i izlazima. Uvode se objektivne i subjektivne mere koje daju osnov za

poreñenje i praćenje performansi sistema u raznim fazama istraživanja. Objektivne

mere su neophodne da se postupak razvoja jednoznačno usmerava ka rešenju sa

željenim performansama, dok su subjektivne mere neophodne za ocenu performansi na

način blizak krajnjem korisniku.


60

4.1 Mere za ocenu složenosti rešenja

Ograničeni resursi odredišne platforme zadaju jasne granice moguće

kompleksnosti programske podrške. Ukoliko ta ograničenja nisu zadovoljena, obradu

je nemoguće realizovati na odabranoj platformi, ili je rad u realnom vremenu narušen.

Tradicionalno, složenost programske podrške se u ranim fazama razvoja samo

grubo ocenjuju, dok se stvarna zahtevnost meri tek nakon realizacije sistema. Ukoliko

se pokaže da ograničenja nisu zadovoljena, potrebno je vratiti se na neki od ranijih

koraka razvoja, što dovodi do produžavanja vremena razvoja.

Ideja predstavljena u ovoj tezi je da se složenost precizno procenjuje i nadgleda

tokom svih faza razvoja, tako da je rizik vraćanja na ranije korake značajno smanjen.

Za potrebe obezbeñivanja rada u realnom vremenu, prate se sledeći pokazatelji:

- broj matematičkih operacija u jedinici vremena potrebnih za

realizaciju obrade u realnom vremenu,

- količina radne memorije za podatke potrebna za realizaciju obrade

(engl. Random Access Memory – RAM) i

- količina programske memorije za smeštanje izvršnog koda (engl. Read

Only Memory – ROM).

Broj matematičkih operacija u jedinici je realni pokazatelj kompleksnosti date

obrade, i pruža objektivni osnov za poreñenje različitih implementacija na istoj ili

sličnoj platformi [Shynk]. Uzimajući u obzir da su savremeni DSP zasnovani na RISC

arhitekturi i u stanju su da izvršavaju jednu instrukciju po taktu procesora, potencijal

takvih procesora se može opisati brojem izvršenih instrukcija u sekundi (engl. Million

Instructions Per Second – MIPS). Vrednost indikatora značajno zavisi od same

arhitekture, npr. od broja izvršnih jedinica, postojanja paralelnih struktura unutar

procesora, protočne strukture, itd. Za odabrane platforme, indikator MIPS se poklapa

sa radnim taktom procesora. MIPS je realan pokazatelj ukoliko se koriste aritmetičke

operacije u nepokretnom zarezu, jer se one većinom izvršavaju u jednom taktu, osim

množenja, koja najčešće zahteva nekoliko taktova procesora. Protočna struktura u

procesoru, u kombinaciji sa kvalitetnim programskim razvojnim alatima je u stanju da

kompenzuje tu činjenicu.

Drugi sličan pokazatelj je broj operacija u pokretnom zarezu u jedinici vremena

(engl. Millions FLoating point Operations Per Second - MFLOPS), koja opisuje


61

mogućnost platforme u izvršavanju operacija u nepokretnom zarezu. Usled veće

složenosti ovih operacija, MFLOPS je tipično manji od MIPS.

S obzirom da su za odabrane platforme poznate samo vršne, teoretske vrednosti

MIPS i MFLOPS koje se odnose na optimalne programe, u radu se predlaže sledeći

pristup za realnu ocenu mogućnosti platformi:

- kao prvi korak da se realizuje reprezentativni primer obrade koji je po

strukturi sličan konačnoj obradi (npr. blokovska obrada podataka u

frekventnom domenu, sa prozoriranjem i FFT transformacijom na

ulazu, i inverznim operacijama na izlazu). Primer treba da obezbedi

sličan odnos obrade podataka i rukovanja podacima (transfer).

- zatim, da se upotrebom kasnije opisanih mehanizama na realnom

ulaznom signalu prebroje izvršene matematičke operacije na razvojnoj

platformi u jedinici vremena Odevref

- nakon toga se reprezentativni primer realizuje na odredišnoj platformi,

i meri se opterećenje procesora αtargetref u procentima.

Na osnovu odnosa tih veličina, moguće je izvesti sledeću relaciju:

%100arg

max

etreft

dev

devref

O

O α= ,

iz čega sledi:

%100arg

max ⋅=etreft

devrefdev

OO

α

što daje indikaciju maksimalnog broja operacija u jedinici vremena, koji je moguće

izvršiti u realnom vremenu. Ukoliko prebrojavanje operacija na razvojnoj platformi

pokaže da za datu obradu je u jedinici vremena potrebno izvršiti manje od Odevmax

operacija, sa velikom sigurnošću se može tvrditi da će obrada realizovana na

odredišnoj platformi zadovoljiti vremenska ograničenja.

Prednosti ovog pristupa su da se upotrebom odgovarajućih alata tokom rada na

razvojnoj platformi mogu se proceniti okviri kompleksnosti konačnih algoritama, bez

ulaganja značajnog truda za realizaciju algoritama na ciljnoj platformi.

Za potrebe prebrojavanja izvršenih operacija, ali i za merenje upotrebljene

količine radne memorije, razvijeni su pomoćni programski alati [Papp2]. Njihovim


62

proširenjem podrškom za emulaciju željene aritmetike modelovan je i uticaj

karakteristika različitih platformi na kvalitet izlaznog signala [Domazetovic].

Koncept se zasniva na realizaciji posebnih tipova podataka u jeziku C++ koji

modeluju tip podataka odabrane platforme, tj.:

- za procesor MAS 35xx to je 20-bitna reč u nepokretnom zarezu

- za procesor MIPS 4KEc to je 32-bitna reč u nepokretnom zarezu

- za procesore TMS320C6727 to je 32-bitna reč u pokretnom zarezu

- za potrebe poreñenja sa rezultatima programskog alata Matlab, može

biti i 64-bitna reč (dvostruke preciznosti) u pokretnom zarezu.

Odgovarajuća programska podrška je realizovana u obliku programske

biblioteke, koja osim tipova podataka, modeluje i odgovarajuće aritmetičke operacije i

njihovu tačnost. Da bi se obezbedila realna slika koja je dobija nakon merenja,

bibliotečke matematičke funkcije (npr. sinus) se takoñe modeluju. Parametri biblioteke

za emulaciju aritmetike su:

- tip aritmetike: nepokretni ili pokretni zarez

- širina reči: 20 bita (nepokretni zarez), 32 bita (pokretni ili nepokretni

zarez) ili 64 bita (pokretni zarez).

Uključivanje biblioteke u program podrazumeva upotrebu definisanih tipova

podataka (DSP20, DSP32, FLOAT) umesto ugrañenih tipova jezika C/C++ (npr. short,

int, float, double). Zatim, tokom izvršavanja programa, biblioteka prikuplja podatke o

angažovanju resursa i generiše odgovarajući izveštaj.

Za realizaciju programa u aritmetici nepokretnog zareza potrebno je prilagoditi

algoritme karakteristikama tipova podataka i operacija. To podrazumeva detaljnu

analizu algoritama, opsega pojedinih promenljivih, i prilagoñavanje mogućnostima

ciljne platforme. Da bi se očuvala tačnost i kvalitet rezultata, često je potrebno uvesti

dodatne resurse [Lukač].

Nakon realizacije algoritama na razvojnoj platformi, moguće je izmeriti i

kompleksnost sistema, ali i kvalitet. U cilju dobijanja relevantnih rezultata profilisanja

bibliotekom za emulaciju aritmetike, potrebno je izvršiti algoritme nad realnim

ulaznim signalima. Nakon izvršavanja, generiše se izveštaj koji sadrži informacije o:

- broju izvršenja pojedinih matematičkih operacija Odev

- broju poziva bibliotečkih funkcija mapiranim na operacije Olib


63

- količini angažovane statičke memorije u rečima (globalne

promenljive, baferi) Mstat

- količini angažovane dinamičke memorije (npr. stek) Mdyn

Poreñenjem zbira Odev i Olib sa Odevmax dobija se informacija da li je zahtev za

radom u realnom vremenu zadovoljen. Poreñenjem zbira Mstat i Mdyn sa unapred

zadatom maksimalnom količinom radne memorije Mmax (120 hiljada reči) dobija se

informacija da li je datu obradu moguće realizovati na ciljnoj platformi. Ukoliko bilo

koji od ovih kriterijuma nije zadovoljen, potrebno je modifikovati (redukovati ili

optimizovati) obradu, nakon čega se opet pristupa merenju performansi.

Opisanim pristupom moguće je objektivno izmeriti složenost algoritama nakon

realizacije na ciljnoj platformi, ali proceniti i znatno ranije, već u fazi razvoja

algoritama. Na taj način, moguće je prilagoditi složenost postupaka mogućnostima

unapred odabrane platforme, pri čemu se ponavljanje koraka razvoja svodi na najmanji

mogući, i time ubrzava razvoj. Takoñe, emulacija aritmetike omogućuje procenu

kvaliteta i preduzimanje potrebnih koraka u cilju poboljšanja istog, na razvojnoj

platformi.

4.2 Postupak ocene ta čnosti bloka za odre ñivanje položaja

govornika

Blok za odreñivanje položaja aktivnog govornika predstavlja sastavni deo

celokupnog sistem za poboljšanje kvaliteta govora uz upotrebu mikrofonskog niza. U

tom bloku se na osnovu obrade parova signala mikrofona odreñuje relativni položaj

aktivnog govornika u odnosu na mikrofonski niz. Efektivno, rezultat obrade je ugao

koji zaklapa pravac govornika sa osom mikrofonskog niza.

Informacija o položaju aktivnog govornika se koristi u daljim blokovima kao

ulazni parametar. Na primer, u bloku za prostorno filtriranje na osnovu detektovanog

položaja govornika se podešava usmerenost mikrofonskog niza. Takoñe, na osnovu

detektovanog pravca mogu se kontrolisati i neke druge komponente sistema, kao što je

video kamera u videotelefonskom sistemu.

U svakom slučaju, podatak o pravcu mora biti ispravan, jer jedino je tada

obezbeñeno ispravno funkcionisanje sistema. U slučaju prostornog filtriranja, tačnost

detekcije pravca indirektno utiče na kvalitet rada datog bloka, a time i celog sistema. Iz


64

tog razloga, uvedena je mera koja predstavlja kvalitet rada bloka za lociranje aktivnog

korisnika.

Postavka koja se koristi u oceni kvaliteta bloka za lociranje govornika prikazana

je na slici 4.1:

Slika 4.1 Postavka za ocenu kvaliteta bloka za lociranje govornika

Sistem je smešten u akustički ambijent koji obezbeñuje uslove kao i planirani

scenariji upotrebe, sa vremenom reverberacije prostorije od 300 ms. Nivo korisnog

signala je 70 dB.

Tokom merenja, izvor korisnog signala je postavljan na označene pozicije. Kao

izvor koristi se računar i zvučnik koji emituje unapred definisani testni signal zadatog

nivoa. Stvarni ugao θ se računa na osnovu poznate pozicije izvora korisnog signala po

formuli:

)(L

Darctg=θ

Sa druge strane, beleže rezultati bloka za lociranje nakon obrade signala

mikrofonskog niza θ’. Uporeñivanjem dveju vrednosti za sve odabrane pozicije


65

korisnog signala dobija se ocena tačnosti bloka za lociranje aktivnog govornika.

Tokom merenja primenjuju se dva rastojanja L1 = 130 cm (serija A) i L2 = 200 cm

(serija B), za svako po 7 pozicija simetrično rasporeñenih oko ose mikrofonskog niza.

4.3 Mere za ocenu kvaliteta govornog signala

U cilju da se obezbede što bolje performanse celokupnog sistema, potrebno je

uvesti odgovarajuće mere koje omogućuju procenu trenutnog kvaliteta rešenja. Takve

mere omogućavaju nadgledanje performansi tokom celog razvojnog ciklusa sistema,

što umnogome olakšava postizanje odgovarajućeg kvaliteta.

Tradicionalne objektivne mere kvaliteta koje karakterišu performanse pojedinih

blokova za poboljšanje kvaliteta govora su često direktno vezani za funkciju bloka.

Neke osnovne metode su:

- poboljšanje odnosa signal-šum (engl. Signal Noise Ration Enhancement –

SNRE) i

- mera potiskivanja eha (engl. Echo Return Loss Enhancement - ERLE).

SNRE je po definiciji razlika izmeñu odnosa signal-šum ulaznog signala SNRin i

izlaznog signala SNRout:

][][][ dBSNRdBSNRdBSNRE inout −=

inout SSout

in

in

in

out

out

N

N

N

S

N

S

=

=−= 2

2

2

2

2

2

log10log10log10

pri čemu S je koristan signal, a N označava signal šuma. Poslednja jednačina se

koristi za procenu SNRE u segmentima ulaznog signala kada koristan signal nije

prisutan, i daje meru potiskivanja šuma u decibelima. U slučaju da obrañeni signal

sadrži manje šuma, SNRE daje pozitivan rezultat. Za detekciju pauze koristi se

detektor aktivnosti govora (VAD).

Slika 4.2 prikazuje signale koji se porede radi dobijanja mere poboljšanja

signala. Sistem koji se testira može biti složen sistem, pojedinačni algoritam ili niz

blokova obrade. SNRE se pretežno koristi za ocenu sistema za potiskivanje šuma, bilo

stacionarnog, nestacionarnog (NR) ili prostorno rasporeñenog (BF).


66

Slika 4.2 Koncept merenja poboljšanja odnosa signal-šum

Mera potiskivanja eha (engl. Echo Return Loss Enhancement - ERLE) je mera

takoñe izražena u decibelima, koja opisuje performanse potiskivača eha [ITU-T

G.168]. Može se primeniti bilo na AEC blok ili na sistem u celini. Rezultat ERLE

pokazuje slabljenje signala eha u ukupnom signalu.

Vrednost ERLE se računa na osnovu poreñenja snaga signala pre i posle AEC.

Slika 4.3 Koncept merenja potiskivanja eha

Da bi se obezbedila objektivnost rezultata, ERLE se mora meriti na segmentima

kada postoji signal eha, što podrazumeva postojanje bloka za detekciju aktivnosti eho

signala. Pouzdanost VAD bloka značajno utiče na rezultat ERLE.


67

Jednačina za računanje mere ERLE je:

[ ] )/(log10 10 outin PPdBERLE =

pri čemu su outP snaga obrañenog signala, ainP snaga ulaznog signala.

ERLE pokazuje slabljenje prisutnog eha u ulaznom signalu poredivši snage

signala. Pozitivne vrednosti ERLE ukazuju na efikasnije potiskivanje eha.

U sistemima za dvosmernu slobodnu govornu komunikaciju veoma je bitan

kvalitet izlaznog signala koji prenosi na udaljenu stranu. Na kvalitet signala utiču

karakteristike analognih komponenti (mikrofoni, pojačala), ali posebno i osobine

primenjenih algoritama obrade.

Cilj takvog sistema je da obezbedi prirodan, razumljiv govorni signal na

udaljenoj strani, sa što manje izobličenja i smetnji. Relevatno merilo za kvalitet signala

je ljudski sluh. Jedna od čestih metoda za ocenjivanje kvaliteta zvuka jeste testiranje

subjektima. Subjekti, ocenjujući odnos kvaliteta originalnog i obrañenog signala,

formiraju opštu ocenu kvaliteta sistema za obradu zvuka (Slika 4.4). Obrada se često

sastoji od kompresije i dekompresije zvuka (npr. kodera i dekodera govora).

Slika 4.4 Ocena sistema za obradu zvuka

Ukoliko se ocene zadaju na predefinisanoj skali, radi se o metodi srednje

vrednosti ocene (engl. Mean of Opinion Score - MOS). Testiranje je potrebno izvesti u

skladu sa preporukama opisanih u [ITU-T P.800], čime se obezbeñuje statistička

pouzdanost rezultata. U [ITU-T P.800] predlaže se sledeća skala za ocenjivanje

kvaliteta obrañenog signala sa originalnim na osnovu testova slušanja:


68

Subjektivni kvalitet signala Ocena

Veoma dobar 5

Dobar 4

Srednji 3

Slab 2

Loš 1

Tabela 4.1 MOS skala za ocenjivanje kvaliteta signala testovima slušanja

Rezultat testiranja subjektima su parovi signala i odgovarajuća ocena. S obzirom

na relativno velik broj subjekata i signala, smatra se da srednja vrednost uzorka

predstavlja validnu ocenu sistema.

Izvoñenje testova pomoću subjekata je veoma složen posao. Zahteva značajne

napore u smislu organizacije, potrebno je angažovati odreñen skup ljudi za izvoñenje

testova, a samo testiranje je dugotrajno. Ponavljanje takvog testiranja je veoma skupo.

Rezultati mogu da zavise i od samih subjekata (na primer posle značajnog

angažovanja), a time se unosi dodatna varijansa u rezultat.

Da bi se eliminisali pomenuti problemi, razvijene su metode za objektivnu ocenu

subjektivnog kvaliteta. To su metode koje se primenjuju na signale, mogu se koristiti

automatski u računarskim sistemima i obezbeñuju rezultate koje se slažu sa testovima

koji su izvedeni pomoću testnih subjekata.

Sa ciljem da se obezbedi odgovarajući kvalitet usluga u telefonskim

komunikacijama, u [ITU-T P.861] opisana je mera za perceptualni kvalitet govora

(engl. Perceptual Speech Quality Measure - PSQM). Ona je namenjena pre svega za

ocenu uticaja primenjenih tehnika kompresija govora na kvaliteta signala u

telefonskim sistemima. Razmatrani opseg ulaznih signala je od 300Hz do 3400Hz.

Metoda se zasniva na perceptualnom modelu. Ulazni signali se konvertuju u internu

predstavu, zatim se računa njihovo rastojanje u tom prostoru, koji se zatim na bazi

kognitivnog modela generiše rezultat u formi MOS.

PSQM metoda je pokazala odreñene nedostatke: nije bila u stanju da

kompenzuje promenljivo kašnjenje izmeñu signala, bio je veoma osetljiv na efekte

filtriranja i nije mogao da na odgovarajući način rukuje kratkotrajnim izobličenjima.

Kao zamena za PSQM, razvila se metoda za perceptualnu procenu subjektivnog


69

kvaliteta (engl. Perceptual Evaluation of Speech Quality – PESQ), opisana u [ITU-T

P.862].

Zasniva se na PSQM metodi, ali je proširuje sa nedostajućim funkcijama, kao i

kompenzacijom vremenskog kašnjenja i nivoa u obliku pred-obrade. Perceptualni i

kognitivni modeli koji se koriste su poboljšani. Metoda je primenljiva i za merenja

kvaliteta izmeñu krajnjih tačaka kanala.

Slika 4.5 Blokovi PESQ metode (preuzeto iz ITU-T P.862)

Rezultat PESQ metode za par ulaznih signala je vrednost u opsegu od -0.5 do

4.5, ali u najvećem broju slučajeva vrednost je izmeñu 1.0 i 4.5, što odgovara MOS

skali koja se primenjuje u testovima slušanja [ITU-T P.862.1]. Eksperimenti su

pokazali da se rezultati PESQ metode veoma dobro slažu sa rezultatima subjektivnog

testiranja, čak sa pouzdanošću od 95% [Psytechnics]. U slučaju postojanja akustičkih

putanja u sistemu, pojava šuma unosi degradaciju ocene, ali relativni odnos ocena i

kvaliteta ostaje validan [Valin1]. Metoda PESQ je implementirana kao jedna od mera

kvaliteta u okviru alata Opera kompanije Opticom [Opera], a uz standard postoji i

referentna realizacija u programskom jeziku C.

Dalje unapreñenje merenja subjektivnog kvaliteta je metoda za objektivnu

procenu kvaliteta govora u telekomunikacijama (engl. Telecommunication Objective

Speech Quality Assessment – TOSQA) [TOSQA]. Metoda je u stanju da osim

električnih, uvaži i akustičke sprežne sisteme. S obzirom da nije javno raspoloživa, u

radu neće biti dalje razmatrana.


70

Gore navedene metode se zasnivaju da perceptualnom poreñenju referentnog i

obrañenog signala. Za primenu tih metoda, neophodno je poznavanje referentnog

signala, što nije uvek moguće, npr. tokom nadgledanja kvaliteta veza u sistemu.

Metoda jednostranog merenja kvaliteta govora (engl. Single Sided Speech

Quality Measure – 3SQM) opisana standardom [ITU-T P.563] omogućuje procenu

kvaliteta na prijemnom kraju kanala, pod pretpostavkom da je na drugom kraju kanala

izvor referentnog signala. Analizom prijemnog signala na osnovu modela ljudskog

govornog sistema i ljudske percepcije izobličenja u govoru, formira se mera

degradacije govora. Ova mera se prenosi na MOS skalu. Eksperimenti su pokazali da

3SQM metoda ne obezbeñuje zadovoljavajuće rezultate u scenarijima kada je odnos

signal-šum nepovoljan, kao na primer u slobodnoj komunikaciji.

Drugi pristupi ocene kvaliteta govornog signala koriste meru razumljivosti

obrañenog govora. Takve metode se zasnivaju na uočljivoj korelaciji kvaliteta prenosa

govora sa uspešnošću prepoznavanja i razumevanja govora. Pošto se u tezi predlaže

ideja da se kvalitet ocenjuje na način blizak krajnjem korisniku, ovaj pristup je

pogodan za takvu ocenu.

Za ocenu uspešnosti prepoznavanja govora moguće je koristiti i testne subjekte,

a i sisteme za automatsko prepoznavanje govora (engl. Automatic Speech Recognition

– ASR) [Liu].

Slika 4.6 Merenje kvaliteta govora na osnovu razumljivosti

U takvom scenariju, na osnovu baze testova formiraju se ulazni signali sistema

koji se posmatra. Nakon obrade, izlazni signal se prosleñuje ili sistemu za automatsko

prepoznavanje govora ili testnom subjektu. I jedan i drugi beleže rezultate


71

prepoznavanja govora, nakon čega se rezultati porede sa bazom podataka. Uspešnost

prepoznavanja se najčešće zadaje kao odnos ispravno prepoznatih elemenata govora

(to su najčešće reči) i ukupnog broja elemenata:

%100⋅=ukupno

tacnih

L

LSRR

Upotreba sistema za automatsko prepoznavanje govora obezbeñuje visok nivo

ponovljivosti merenja, učestala testiranja i male napore za organizaciju i izvoñenje

merenja. Sa druge strane, ti sistemi nisu savršeni, te njihov kvalitet značajno utiče na

rezultate.

Angažovanje testnih subjekata zahteva više napora, pa je mogućnost učestalih

testiranja manja. Predlog teze je da se tokom razvoja koriste objektivne mere

subjektivnog kvaliteta, a da se u ključnim momentima obavi testiranje prepoznavanja

reči testnim subjektima.

U slučaju testnih subjekata postoji problem rekonstrukcije reči na osnovu dela

reči ili konteksta govora. Da bi se ti efekti izbegli, tokom testiranja se koristi rečnik

koji se sastoji od reči bez značenja – logatoma (engl. nonsense syllables) [Steeneken].

Od ukupnog skupa logatoma formiraju se skupovi testova u obliku tabela (Tabela 4.2),

koje obezbeñuju ponovljivost tokom testiranja. U toku istraživanja korišćenje su tabele

od 50 dvosložnih logatoma.

ŽAZU ZISO SUZA

VUHI NANJO MANU

RULA JARI JURO

Tabela 4.2 Primer tabele logatoma

Usled eliminacije mogućnosti prepoznavanja na osnovu konteksta razgovora,

procenat razumljivosti logatoma je značajno niža od razumljivosti izdvojenih (ali

postojećih) reči i rečenica.

Istraživanja pokazuju da 75% razumljivosti logatoma približno odgovara 95%

razumljivosti reči i 100% razumljivosti rečenica [Levitt]. Imajući u vidu namenu

sistema – upotrebu u interaktivnoj govornoj komunikaciji – kao odgovarajući nivo


72

razumljivosti logatoma odabran je prag od 50%. Očekuje se da će razumljivosti u

tipičnoj upotrebi sistema biti odgovarajuća.

Slika 4.7 Odnos razumljivosti rečenica, reči i logatoma u zavisnosti od nivoa šuma

(slika je preuzeta iz [Levitt])

Objektivne mere kao što su SNRE i ERLE se oslanjaju na informaciju o snagama

posmatranih signala, bez osvrtanja na degradaciju korisnog signala. Iako obrada može

da unese izobličenja korisnog signala, to neće uticati na rezultate – šta više, može ih

prividno poboljšati. Da bi se obezbedila potpun prikaz performansi sistema, one

moraju da se kombinuju sa metodama koje se fokusiraju na subjektivni kvalitet

signala, sa PESQ i sa subjektivnim testiranjem.

POGLAVLJE 5 – SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU

73

POGLAVLJE 5. SISTEM ZA SLOBODNU GOVORNU KOMUNIKACIJU

Motivacija za razvoj sistema za slobodnu komunikaciju potiče od činjenice da je

govorna komunikacija danas pristupačna sve većem broju korisnika, u raznim

oblicima: klasični telefon, VoIP pomoću računara, GSM, itd. Tradicionalni sistemi se

zamenjuju sa novima koji obezbeñuju mogućnost slobodne komunikacije (engl. hands

free), pa i konferencijskih razgovora. Kritični momenti u takvim rešenjima su

složenost sistema, rad u realnom vremenu, kao i kvalitet govornog signala koji se

prenosi, jer su u takvoj postavci akustički uslovi znatno pogoršani.

U cilju formiranja predloga rešenja proučeni su raspoloživi izvori informacija.

Baza patenata

Analiza tržišta

Predlog rešenja

Ideje

Zaštićena rešenja Konkurentna

rešenja

Zahtevi tržišta

Baza znanja

Slika 5.1 Analiza relevantnih informacija


74

Pretraga baze patenata rezultovala je skupom relevantnih patenata, ali pored toga

dala je i uvid u savremena istraživanja, i ukazala na neke nove ideje i trendove u datoj

oblasti. Pokazalo se da u veoma složenim uslovima slobodne govorne komunikacije

kvalitet izlaznog signala je moguće poboljšati upotrebom mikrofonskog niza, uz

odgovarajuće postupke obrade. U oblasti obrade signala mikrofonskih nizova postoji

porast aktivnosti poslednjih godina u pogledu zaštite intelektualne svojine. Svetski

poznate kompanije su zainteresovane za tu tehnologiju što se vidi iz broja patenata iz

te oblasti, što ukazuje na aktuelnost i potencijal ovog pristupa.

U okviru analize tržišta tragalo se za rešenjima za slobodnu govornu

komunikaciju, što je dovelo do formiranja skupa mogućnosti koje je potrebno

podržati, ali su i identifikovani konkurenti i nedostaci postojećih rešenja. Pokazalo se

da postoje komercijalna rešenja u odgovarajućem opsegu performansi i zahtevanih

resursa, ali obezbeñuju samo odreñene funkcije (npr. potiskivanje prostorno

rasporeñenih smetnji ili potiskivanje ambijentalnog šuma). Time je stepen

fleksibilnosti takvih ureñaja manja. Takoñe, ustanovljeno je da ne postoji celovito

rešenje koje je u stanju da se izbori sa svim akustičkim smetnjama. Analiza je pokazala

da se ureñaji potrošačke elektronike pretežno zasnivaju na ASIC ili DSP platformama,

čiji radni takt tipično ne prelazi 100 MHz, a količina upotrebljene memorije se meri u

desetinama kilobajta.

U tezi kao rešenje problema slobodne govorne komunikacije visokog kvaliteta,

predlaže se upotreba mikrofonskog niza u kombinaciji sa DSP fizičkom arhitekturom i

odgovarajućim postupcima poboljšanja govornog signala (slika 5.2).

Mikrofonski niz

DSP Algoritmi

Slika 5.2 Predlog arhitekture rešenja


75

Upotreba mikrofonskog niza omogućuje rekonstrukciju prostorne akustičke slike

ambijenta, što uz primenu digitalne obrade signala olakšava izdvajanje željenog

govornika i potiskivanje smetnji, i time obezbeñuje bolji kvalitet komunikacije.

Kompleksnost fizičke arhitekture i primenjeni postupci obrade zavisni su usled

potrebe rada u realnom vremenu. Na osnovu prikupljenih informacija, odabrana je

DSP kao osnova fizičke arhitekture, sa sledećim karakteristikama:

• Radni takt do 200 MHz

• 128 hiljada reči radne memorije, pri čemu širina reči odgovara širini

podataka aritmetičke jedinice procesora

• Aritmetika u nepokretnom i pokretnom zarezu

Na osnovu gore navedenog, izabrane su sledeće DSP platforme:

• DSP sa 20-bitnom aritmetikom nepokretnog zareza, serije MAS 35xx,

• MIPS 4KEc sa 32-bitnom aritmetikom nepokretnog zareza,

• DSP sa 32-bitnom aritmetikom pokretnog zareza, serije Texas

Instruments TMS320C6727.

Na osnovu istraživanja, izabrani su i odgovarajući postupci za potiskivanje

pojedinih smetnji. Prikazani su u sledećoj tabeli:

Smetnja

Postupak Ak

ust

ičk

i e

ho

Efe

ka

t re

ve

rbe

raci

je

Pro

sto

rno

ra

spo

ređ

en

izv

or

sme

tnji

Ne

sta

cio

na

rni

šum

Sta

cio

na

rni

šum

Ne

po

vo

lja

n o

dn

os

sig

na

/šu

m

Potiskivanje akustičkog eha

Utvrđivanje pravca govornika i

prostorno filtriranje

Post procesiranje

Potiskivanje šuma

Automatska regulacija nivoa

Tabela 5.1 Prikaz postupaka poboljšanja signala i smetnji koje potiskuju

Algoritmi su birani imajući u vidu dozvoljenu složenost platforme, postojeće

smetnje i željeni kvalitet izlaznog signala. Sledi kratak opis pojedinih algoritama,

zajedno sa poboljšanjima predloženim u ovoj tezi.


76

Postupak za potiskivanje akustičkog eha zasniva se na NLMS, u kojem je

primenjeno višestruko iteriranje, čime se ubrzava konvergencija filtra. NLMS je

kombinovan sa detektorom aktivnosti lokalnog govornika, koji kontroliše adaptaciju

filtara. To doprinosi stabilnosti adaptacije u promenljivom akustičkom ambijentu.

Prostorno filtriranje je zasnovano na neadaptivnom filtru sa superdirektivnom

karakteristikom. Kombinovano je sa odreñivanjem pravca govornika u smislu da se

podatak o pravcu govornika koristi za podešavanje usmerenosti mikrofonskog niza. Za

odreñivanje pravca koristi se poboljšana GCC metoda, čija je robustnost povećana

primenom težinske funkcije i kombinovanjem rezultata obrade nezavisnih

mikrofonskih parova u jedan.

Predloženo post procesiranje na bazi jednokanalnog Wiener-ovog filtra ne

podrazumeva idealno difuzno polje šuma - time obezbeñuje bolju estimaciju

koeficijenata post-filtra.

Za automatsku kontrolu pojačanja predložen je dinamički kompresor opsega,

koji je kontrolisan procenom nestacionarnosti signala (prisustvom govora).

U tezi predlaže se kombinacija svih elemenata sistema (mikrofonskog niza,

fizičke arhitekture i postupaka obrade) u celovito rešenje - ureñaj. Cilj je da se

realizovani ureñaj lako spreza sa proizvoljnim sistemom, time povećavajući oblast

primene.

Kvalitet

Složenost

Mogućnosti

SEA2M

Postojeća komercijalna rešenja

Naučna istraživanja

Slika 5.3 Formiranje zahteva i ograničenja

Očekuje se da se predloženo rešenje pozicionira meñu postojećim rešenjima

kako je prikazano na slici 5.3. Cilj je da se obezbedi bolji kvalitet od trenutno

postojećih komercijalnih rešenja, ali da složenost sistema ne prelazi granice


77

postavljene razvojem ureñaja široke potrošnje. Sa druge strane, pristupi koji danas

obezbeñuju najbolji kvalitet, često su parcijalna rešenja, i čija realizacija zahteva

angažovanje značajnih resursa (npr. RLS naspram NLMS).

U toku istraživanja generisano je nekoliko nacionalnih patenata [Pat1, Pat2, Pat3,

Pat4], jedan meñunarodni patent [Pat5] i zaštićen je žig koji imenuje razvijeno rešenje

[SEA2M].

5.1 Sistem za slobodnu govornu komunikaciju

U dvosmernoj, slobodnoj govornoj komunikaciji pojavljuje se niz akustičkih

smetnji koje značajno narušavaju kvalitet komunikacije. To su postojanje akustičkog

eha, prisustvo ambijentalnog šuma, ali i prostorno rasporeñenih smetnji, postojanje

efekta reverberacije, značajnog slabljenja signala, itd.

Nisu svi problemi prisutni u svakom scenariju upotrebe. Na primer, u slučaju

naizmenične komunikacije (engl. half-duplex), problem akustičkog eha ne postoji, ali

strane koje učestvuju u komunikaciji moraju da komuniciraju naizmenično. U slučaju

dvosmerne komunikacije, akustički eho je uvek prisutan, i za ostvarenje kvalitetne

govorne veze potrebno ga je značajno potisnuti.

Rastojanje mikrofonskog sistema od izvora korisnog signala (govornika) varira u

zavisnosti od konfiguracije sistema. Najpogodnija situacija je kada je govornik bliže

mikrofonima od svih izvora smetnji, jer je tada odnos snage signala i šuma

najpovoljniji. Što je govornik dalje od mikrofona, smetnje su sve izraženije.

Na primer, kada je govornik udaljen nekoliko metara od mikrofonskog niza,

snaga akustičkog eha značajno premašuje snagu korisnog signala. Suma odbijenih

zvučnih talasa dominira nad direktnim talasom, što značajno otežava lociranje

govornika i dovodi do izobličenja njegovog govora. Takoñe, odnos snage korisnog

signala i ambijentalnog šuma je značajno manji, a snaga prostorno rasporeñenih izvora

je uporediva sa izvorom korisnog signala.

Teza se fokusira na istraživanje mogućih pristupa za realizaciju sistema zadate

složenosti koji otklanja prisutne smetnje u posmatranom akustičkom ambijentu, i koji

obezbeñuje željeni kvalitet uz rad u realnom vremenu.

Predloženo rešenje omogućuje nesmetanu slobodno govornu komunikaciju na

značajnom rastojanju od mikrofonskog niza. Željeni kvalitet se obezbeñuje upotrebom


78

mikrofonskog niza u kombinaciji sa odgovarajućim postupcima, a zahtevnost

postupaka je u skladu sa ograničenjima ciljne platforme. Sprežni sistem rešenja

obezbeñuje fleksibilnost sistemu, i omogućuje njegovu integraciju u raznim

konfiguracijama.

Rešenje je imenovano sa SEA2M, što odgovara skraćenici engleskog nazivu

Speech Enhancement Algorithms for Array Microphones [SEA2M]. SEA2M je sistem

koji obezbeñuje odgovarajuće performanse za primenu u ureñajima potrošačke

elektronike, sa stanovišta angažovanja resursa (cene) je takoñe u rangu komercijalnih

rešenja, a po mogućnostima i kompletnosti nadmašuje postojeće slične ureñaje.

Blok dijagram SEA2M sistema je prikazan na slici 5.4. Sistem poseduje

(M+1+L) analognih ulaza, pri čemu M je broj elemenata mikrofonskog niza, a L broj

izvora eha – zvučnika - u sistemu. Govor sa udaljenog kraja je signal koji dolazi sa

drugog kraja telekomunikacionog kanala, tj. govor sagovornika. Signal eha lokalnog

izvora je signal visokog kvaliteta koji se lokalno generiše i koje se reprodukuje na

zvučnicima.

Jedan izlaz sistema je signal zvučnika, koji nastaje adaptivnim sabiranjem (engl.

Adaptive Mixing – AM) govora sa udaljenog kraja i lokalnog signala eha, i takoñe je

visokog kvaliteta. Adaptivnost se ogleda u prilagoñavanju nivoa pojedinih signala u

bloku za sabiranje, čime se pokrivaju razni scenariji upotrebe. Ovaj signal se

reprodukuje na zvučnicima u sistemu, i stoga je uzrok pojave akustičkog eha.

Drugi izlaz je govor aktivnog lokalnog govornika, očišćen od akustičkih smetnji

nastalih zbog prisustva šuma okoline, reverberacije i eha, i poboljšan sa stanovišta

razumljivosti.

Sistem se sastoji od fizičke arhitekture sa odgovarajućim komponentama za

obradu signala (DSP) i sprežnim podsistemom za akustičke signale. Značajan deo

sistema je i skup algoritama za poboljšanje kvaliteta govora, koji se izvršavaju u

realnom vremenu na DSP.

Opisani sistem se može upotrebiti u nekoliko mogućih scenarija. Na primer,

ukoliko ne postoji akustički eho ili se radi o naizmeničnom režimu rada, može se

koristiti kao veoma osetljiv, usmeren mikrofon za govornu komunikaciju. Takav

scenario je moguć na primer u sistemima za komandovanje glasom ili u sistemima za

naizmeničnu komunikaciju.


79

Lokalni akustički ambijent

M

1

L

1

Mikrofonski niz

Govor sa udaljenog kraja

Zvučnici

Govor ka udaljenom kraju

+

SEA2M

2

Signal eha lokalnog izvora

2

Slika 5.4 Struktura dvosmernog sistema za slobodnu govornu komunikaciju

Najsloženiji slučaj je upotreba sistema u terminalu za dvosmernu slobodnu

govornu komunikaciju, i to u slučaju kada je na lokalnom sistemu osim govora

udaljenog korisnika istovremeno potrebno reprodukovati i multimedijalni materijal

visokog kvaliteta, npr. sprezanje sa TV prijemnikom (slika 5.5).

Akustički ambijent

Multimedijalni komunikacioni terminal

SEA2M

Mikrofonski niz

Govor sa udaljenog kraja

Govor ka udaljenom kraju

Lokalni izvor zvuka

Lokalni zvuk +govor udaljenog sagovornika

Lokalni govornik

Slika 5.5 Scenario upotrebe SEA2M

U takvom okruženju, korisnik je u stanju da terminal koristi za govornu

komunikaciju sa udaljenim sagovornikom, pri čemu se TV ureñaj nesmetano može


80

koristiti i na uobičajen način za reprodukciju zvuka i slike, i sa uobičajenog rastojanja.

U takvoj postavci prisutne su smetnje akustičkog eha, reverberacije i šuma, a i odnos

signal-šum je veoma nepovoljan. Mikrofonski niz zajedno sa algoritmima poboljšava

kvalitet komunikacije i omogućava nesmetan razgovor čak i u slučaju kada smetnje

dominiraju nad korisnim signalom (govorom lokalnog korisnika). Neke moguće

primene sistema su sprega izmeñu čoveka i računara (engl. Man-Machine Interface).

Sličan sistem je primenjen i u robotu koji služi kao pokretni komunikacioni terminal sa

mogućnošću reprodukcije multimedijalnog sadržaja [Papp3]. Dalje mogućnosti su

integracija u mobilne telefone sledeće generacije, pa čak i u automobile za bezbedno

obavljanje telefonskih razgovora.

Na slici 5.6 prikazana je struktura sistema. Sastoji se od odgovarajuće fizičke

arhitekture i programske podrške koja uključuje i obradu signala.

Fizička arhitektura se sastoji od DSP koji obavlja digitalnu obradu signala i

odgovarajućih sprega. Sprežni podsistem obezbeñuje vezu sa okruženjem (signali,

podaci, komande), i time postavlja okvire upotrebe sistema. Podržava analogne i

digitalne akustičke signale, ali i digitalne upravljačke signale.

Kao fizička platforma za realizaciju odabran je DSP. Izbor je voñen činjenicom

da se radi o rešenju koje može da se unapreñuje i menja u toku životnog ciklusa, što je

potrebno podržati fleksibilnošću ciljne platforme.

Slika 5.6 Struktura sistema

Programska podrška integriše upravljanje sistemom, rukovanje sprežnim

podsistemom, ali obavlja i proces obrade signala SEA2M. Performanse programske


81

podrške treba da obezbede obradu ulaznih podataka u realnom vremenu na odabranim

platformama. Skup algoritama SEA2M rešava pojedinačne probleme akustičkog

okruženja, ali čine integralno rešenje koje je optimizovano na nivou celokupnog

sistema.

Realizacija jednog takvog sistema zahteva detaljno projektovanje, pažljiv izbor

elemenata fizičke arhitekture, kao i složen proces razvoja programske podrške. Fizička

arhitektura postavlja jasna ograničenja u pogledu raspoloživih resursa i sprega.

Mogućnost povezivanja sistema direktno utiče na primenu, a time i na potrebnu

obradu. Izbor algoritama obrade signala zavisi od raspoloživih resursa i mogućnosti

platforme. Pošto su ta dva aspekta veoma zavisna, moraju razmatrati paralelno.

5.2 Opis ciljnih platformi i sprežnog podsistema

Pod ciljnom platformom podrazumeva se fizička arhitektura na kojoj se izvršava

programska podrška. Na kompleksnost celokupnog rešenja najviše utiče izbor DSP,

kao centralne komponente. Kao što je ranije rečeno, kriterijum za izbor platforme je da

kompleksnost bude uporediva sa postojećim rešenjima. Kriterijum kompleksnosti se

preslikava na raspoložive resurse date platforme.

U postavci ciljeva rešenja odabrane su ciljne platforme DSP koji poseduju slične

mogućnosti sa stanovišta resursa, ali poseduju različite aritmetičko-logičke

mogućnosti. Navedeni procesori su odabrani kao predstavnici pojedinih klasa

procesora – relativno složenih sa podrškom za aritmetiku u pokretnom zarezu, i

značajno jednostavnijih sa podrškom za nepokretni zarez sa širinom reči od 20 i 32

bita. U tabeli 5.2 sa glavnim karakteristikama procesora je naveden i procesor koji se

koristi u stonim računarima, iz razloga što se koristio za platforma za razvoj

programske podrške, i za koji se smatra da ne postavlja nikakva ograničenja u pogledu

resursa:

• količina radne memorije za podatke u rečima pokazuje količinu

raspoložive memorije na datoj platformi. Kao jedinica odabrana je

širina reči, kao osnovna jedinica sa kojom DSP barata. Na taj način se

postiže bolja korelacija potrebne memorije sa količinom podataka (npr.

odbiraka).


82

• širina reči pokazuje od koliko bita se sastoji reč procesora. Ovaj

podatak ukazuje i na tačnost u obavljanju matematičkih operacija.

Uticaj ove karakteristike će se ispitati u tezi poreñenjem realizacije

istog algoritma na različitim platformama, uz uvažavanje ograničenja.

• aritmetika u pokretnom zarezu obezbeñuje znatno komforniju

realizaciju obrade nego aritmetika u nepokretnom zarezu. U tipičnoj

aplikaciji nije potrebno voditi računa o opsegu vrednosti promenljivih,

stoga je implementacija algoritama na osnovu postojeće reference

značajno pojednostavljena. Nedostatak je u povećanoj složenosti

platforme za realizaciju aritmetičkih operacija, što dovodi do smanjenja

broja izvršenih operacija u jedinici vremena.

• ukoliko se radi o sličnim arhitekturama, takt procesora obezbeñuje

jedan jednostavan način poreñenja procesorske snage. U slučaju

različitih arhitektura, potrebno je uvesti faktore korekcije. Izvršavanje

operacija u pokretnom zarezu zahteva veći broj taktova procesora od

operacija u nepokretnom zarezu. Sa druge strane, za realizaciju nekih

obrada potrebno je više operacija u nepokretnom zarezu nego u

pokretnom zarezu.

Platforma Koli čina

memorije [reči]

Širina reči

[bita] Tip aritmetike

Takt

[MHz]

Intel x86 eksterna

>>128k 32 Pokretni zarez >>200

Texas

Instruments

TMS320C6727

64k + eksterno

64k 32 Pokretni zarez 200

MIPS 4KEc eksterna

>>128k 32

Nepokretni

zarez 200

MAS 35xx 128k 20 Nepokretni

zarez 200

Tabela 5.2 Uporedni prikaz karakteristika ciljnih platformi


83

DSP kompanije Texas Instruments pripada novoj seriji optimizovanih procesora

koji podržavaju aritmetiku u pokretnom zarezu. Tipično se primenjuju u numerički

zahtevnim aplikacijama koje zahtevaju preciznost, npr. u obradi višekanalnih signala,

komunikacionim sistemima, upravljačko-kontrolnim sistemima, itd.

Odabrani procesor ne poseduje dovoljno memorije u samom kolu, ali poseduje

memorijski kontroler koji je u stanju da rukuje eksternom memorijom. Postojanje

skrivene (engl. cache) memorije za instrukcije i skrivene memorije za podatke reda

veličine nekoliko kB značajno poboljšava performanse pristupa spoljašnjoj memoriji,

stoga se performanse tipičnih aplikacija ne smanjuju značajno usled upotrebe eksterne

memorije. Za DSP kompanije Texas Instruments na raspolaganju su kvalitetni razvojni

alati, tako da se realizacija programske podrške veoma efikasna, i obavlja se u

programskom jeziku C, uz rad u komfornom razvojnom okruženju i razvojnim

pločama.

Procesori MIPS 4KEc su 32-bitni procesori sa podrškom za aritmetiku u

nepokretnom zarezu. Arhitektura procesora omogućava da se oko njih izgradi

samostalan ureñaj uz minimalno uključivanje dodatnih komponenti. Prilagoñeni su

aplikacijama koje uključuju i kontrolne funkcije, kao i prenos i obradu podataka.

Karakterišu ih značajne performanse uz malu potrošnju, što ih čini pogodnim za

primenu u različitim namenskim sistemima, kao što su mrežna čvorišta, TV ureñaji,

kontrolni sistemi, itd. Ne poseduju memoriju na samom kolu, ali postojanje skrivene

memorije za instrukcije i podatke kompenzuje tu činjenicu.

Procesori serije MIPS 4KEc poseduju proširenje skupa instrukcija koje značajno

poboljšava performanse u obradi signala. To je prvenstveno postignuto uvoñenjem

MAC jedinice za brzu realizaciju tipičnih operacija. Procesor je u stanju da obavi

množenje operanada širine 16 i 32 bita u jednom taktu, dok je za realizaciju množenja

dva operanda od 32 bita potrebno dva ciklusa. U tom slučaju, u cilju očuvanja tačnosti

rezultata, rezultat je moguće smestiti u registarski par, ukupne širine od 64 bita.

Ispravnim rasporedom instrukcija protočna struktura se iskorišćava na najefikasniji

način, tako obezbeñujući teoretski maksimum od jedne MAC operacije u jednom

ciklusu.

MIPS procesori su veoma dobro podržani odgovarajućom programskom

podrškom i alatima za razvoj. Postojanje efikasnih prevodioca zasnovanih na GCC


84

prevodiocu omogućuje efikasan razvoj programske podrške u programskom jeziku C.

Kao operativni sistem veoma često se koristi Linux.

Za potrebe razvoja programske podrške na PC platformi korišćena je programska

biblioteka za emulaciju aritmetike MIPS procesora. Biblioteka obezbeñuje tipove

podataka koji modeluju registre i akumulatore procesora, kao i odgovarajuće

aritmetičke operacije nad njima. Upotreba biblioteke omogućila je modeliranje

mogućnosti i tačnosti procesora tokom istraživanja, uz korišćenje komfornim

razvojnih alata na PC platformi.

Procesor MAS je veoma jednostavan RISC procesor sa širinom reči od 20 bita.

Pokazuje se da za realizaciju najrasprostranjenijih audio standarda (MP3, DTS, Dolby

Digital, AC3, AAC) data širina reči u kombinaciji sa 20-bitnom aritmetičkom

jedinicom i 40-bitnim akumulatorima obezbeñuje zadovoljavajući kvalitet, uz ulaganje

odgovarajućeg napora u razvoj programske podrške. Prototip procesora poseduje 128

hiljada reči memorije, i radni takt od 200 MHz. Podržava samo aritmetiku u

nepokretnom zarezu. Pošto poseduje duboku protočnu strukturu, u stanju je da izvrši

jednu aritmetičku operaciju u jednom taktu. Programska podrška se razvija u

asemblerskom jeziku i uz upotrebu simulatora.

Da bi se razvoj programske podrške olakšao, korišćena je programska biblioteka

za emulaciju aritmetike procesora MAS. Ona uvodi nove tipove podataka koji

modeluju 20-bitne reči i 32-bitne akumulatore procesora, kao i pripadajuće

aritmetičko-logičke operacije. Upotreba biblioteke je omogućila razvoj programske

podrške u programskom jeziku C, uz modeliranje tačnosti obrade na ciljnoj platformi.

Usled različitih aritmetika, odabrani procesori obezbeñuju različitu tačnost u

obradi. Maksimalna moguća tačnost prilikom obrade ograničena je brojem bita za

zapis podataka. Tako na primer, važe sledeće relacije:

Tip aritmetike Broj bita u re či Greška

Pokretni zarez 32 Erelativna ~ 10-7

32 Eapsolutna ~ 10-9 Nepokretni zarez

20 Eapsolutna ~ 10-6

Tabela 5.3 Pregled relativne tačnosti u zavisnosti od aritmetike


85

Ograničenje broja bita reči i tip aritmetike utiču na kvalitet izlaznog signala.

Manji broj bita za predstavu podataka dovodi do grublje diskretizacije vrednosti, što

unosi šum u obradi signala, i smanjuje se SNR.

Zapis brojeva u pokretnom zarezu obezbeñuje istu relativnu grešku u celom

opsegu, što je pogodnije sa stanovišta odnosa signal-šum, jer je kvalitet održan i za

signale male vrednosti. Predstava brojeva u nepokretnom zarezu uvek unosi istu

apsolutnu grešku, koja za male vrednosti signala, prerasta u veliku relativnu grešku, i

time nepovoljno utiče na SNR. Na arhitekturama sa nedovoljnom tačnošću se često se

pribegava dodatnim programskim tehnikama, npr. normalizaciji vrednosti na nivou

blokova u cilju smanjenja relativne greške [Lukač], emulaciji pokretnog zareza ili

dodeljivanju dodatnih memorijskih reči za čuvanje podataka.

Od osnovnih operacija, sabiranje i oduzimanje su manje osetljivi na ograničenje

opsega i tačnosti, ali potrebno je voditi računa o prekoračenju opsega. Sa stanovišta

tačnosti, operacija množenja je znatno kritičnija, jer u zavisnosti od mogućnosti ciljne

arhitekture dolazi do odsecanja najmanje značajnih bita rezultata. Kada u množenju

učestvuju male vrednosti, odsecanje prouzrokuje značajnu relativnu grešku.

Z a-1 a-M

OPERAND A

Z b-1 b-1

OPERAND B

X

Z c-1 c-2M

REZULTAT C=AxB

Z c-1 c-M

IZABRANI DEOREZULTATA

bit znaka

decimalna tačka

bit znaka

decimalna tačka

bit znaka

decimalna tačka

bit znaka

Slika 5.7 Realizacija množenja u nepokretnom zarezu (preuzeto iz [AADSP1])


86

Prilikom množenja dveju vrednosti predstavljenih u nepokretnom zarezu, za

tačnu predstavu rezultata potrebno je 2M+1 bita, pri čemu M je broj bita za predstavu

vrednosti, uz još jedan bit za predstavu znaka (slika 5.7).

Ukoliko se rezultat smešta u registar od M+1 bita, dolazi do odsecanja preostalih

M bita. U zavisnosti od pozicije tačke brojne osnove, fizička arhitektura odseca

odgovarajući broj viših ili nižih M bita, čime se unosi apsolutna greška 2-M+1. Na

gornjoj slici prikazana je operacija množenja, pri čemu su vrednosti u opsegu [-1, 1).

Postojanje akumulatora sa više bita u okviru procesora omogućava postizanje

bolje tačnosti, prvenstveno u pomnoži-i-saberi (MAC) operacijama tipičnim za DSP

[AADSP1]. Najčešće širine akumulatora su 32 (MAS 3500), 40 (Texas Instruments

TMS320C6xxxx serija) ili 64 bita. U tom slučaju, neke arhitekture omogućuju

upotrebu registarskog para kao akumulatora (npr. MIPS 4KEc). Akumulatori se

prvenstveno koriste u iterativnim postupcima (npr. konvolucija, korelacija), gde se

unutar petlje koriste akumulatori za smeštanje privremenih rezultata, dok se odsecanje

obavlja nakon petlje. Time se izbegava akumulacija greške unutar cikličnih struktura.

Na osnovu analize ciljnih platformi, DSP TMS320C6727 je odabran kao osnov

za realizaciju platforme. Prednosti ovog DSP su u smanjenoj kompleksnosti,

zahvaljujući novoj tehnologiji izrade, postojanja veoma kvalitetnog skupa razvojnih

alata, kao i raspoloživog sistema za brzi razvoj.

Zadatak sprežnog podsistema je prenos ulaznih signala i komandi iz okruženja

do DSP i generisanje izlaznih signala. Realizovani sistem poseduje 5 analognih ulaza

sa mikrofonskim pred-pojačalima, na koji se povezuju mikrofonski elementi koji čine

niz.

Slika 5.8 Frekventni odziv upotrebljenih mikrofonskih elemenata (preuzeto iz [WM61])


87

Tokom istraživanja korišćeni su mikrofonski elementi sa ne-usmerenom

karakteristikom [WM61], jer je jedna od pretpostavki teze da je pozicija izvora

korisnog signala sporo promenljiva u vremenu. Frekventni odziv upotrebljenih

mikrofona u posmatranom, govornom opsegu je veoma dobar.

Zbog značajnog rastojanja izvora korisnog signala i mikrofonskog niza, potrebno

je koristiti osetljive mikrofone. Mikrofonska predpojačala su neophodna zbog veoma

niskih nivoa signala mikrofonskih elemenata, ali ne smeju unositi smetnje i izobličenja

u signal. Usled raznolikih mogućnosti primene sistema, potrebno ih je projektovati

veoma pažljivo.

Postoje i dva analogna ulaza za lokalni izvor zvuka, i jedan za govor udaljenog

govornika. Svi analogni signali se vode na odgovarajuće A/D konvertore, a zatim do

odgovarajućih sprega DSP. Signali mikrofona se odabiraju na 8 kHz, dok signali

lokalnog visokokvalitetnog izvora sa 48 kHz.

DSP

Mikrofonski niz

ADC

DAC

8kHz

ADC

ADC

DAC

5

48kHz 48kHz

5

2 2

8kHz

8kHz

Lokalni izvor zvuka

Kontrolni kanal

Komunikacioni kanal

Sistem za slobodnu govornu komunikaciju

Slika 5.9 Sprežni podsistem

Na izlazu iz sistema generiše se visoko-kvalitetni analogni signal koji se

reprodukuje na zvučnicima - zvuk lokalnog izvora pomešan sa zvukom udaljene

strane. Drugi izlaz sistema je poboljšani signal lokalnog govornika, i koji se

potencijalno prenosi na drugu stranu komunikacionog kanala. Kao komunikacioni


88

kanal mogu se koristiti postojeći sistemi, npr. Bluetooth modul koji uspostavlja vezu sa

drugim ureñajima, računar ili čak i postojeći telekonferencijski sistemi.

5.3 Koraci razvoja programske podrške

Programska podrška sistema je odgovorna za kontrolu sistema i obavljanje

funkcija sistema u realnom vremenu. Obrada signala je računski najkompleksnija,

stoga se obratilo najviše pažnje upravo tom delu programske podrške.

U okviru razvoja algoritama prošlo se kroz nekoliko faza (slika 5.10), pri čemu

se pre završetka svakog koraka proveravala ispunjenost postavljenih zahteva.

U prvoj fazi razvoja koristilo se razvojno okruženje Matlab [Matlab], zbog

veoma dobre podrške za brz razvoj algoritama. Matlab koristi aritmetiku u pokretnom

zarezu, dvostruke preciznosti. Izlaz iz tog koraka je specifikacija algoritama u

programskom jeziku Matlab, zajedno sa izveštajem o ispunjenosti zahteva, ali

realizacija ne ispunjava uslove za rad u realnom vremenu. U ovoj fazi je moguće

oceniti kvalitet primenom odgovarajućih mera na izlaz algoritma, ali ocena potrebnih

resursa je prilično gruba.

U sledećem koraku, Matlab realizacija prevodi se u program napisan u

programskom jeziku C, koji koristi aritmetiku u pokretnom zarezu, ali u jednostrukoj

preciznosti. U ovom obliku znatno preciznije se mogu odrediti neophodni resursi.

Uključivanjem programske biblioteke za analizu resursa mogu se dobiti precizne

informacije o potrošnji resursa, što omogućava objektivnu osnovu za poreñenje

složenosti raznih programskih implementacija [Papp2].

U prethodnim koracima koristila se razvojna platforma PC, za koji se smatra da

ima beskonačno resursa iz aspekta realizacije algoritma. Zbog toga, algoritmi treba da

se prilagode ciljnim, namenskim platformama. U narednom koraku, postojeća

implementacija se optimizuje na nivou C jezika. Tipične operacije koje se obavljaju u

toku adaptacije namenskim strukturama su:

- optimizacija matematičkih funkcija (često uz pomoć tabela),

- kontrola upotrebe memorijskog prostora – korišćenje istog memorijskog

prostora u nezavisnim segmentima programa,

- eliminacija nepotrebnih ili dupliranih obrada,


89

- formiranje jezičkih konstrukcija koje omogućuju korišćenje MAC operacije

ciljne platforme.

Zahtevi

Matlab PC

Pokretni zarez (DP) Testni scenariji

Programski jezik C PC

Pokretni zarez (SP)

Programski jezik C DSP

Pokretni zarez (SP)

Programski jezik C DSP – 20 bita

Nepokretni zarez

Programski jezik C DSP – 32 bita

Nepokretni zarez

Slika 5.10 Faze u razvoju algoritama

Na kraju, potrebno je realizaciju prilagoditi platformama sa aritmetikom u

nepokretnom zarezu. U ovom koraku potrebno je voditi računa o opsezima

promenljivih, i u svakom momentu kontrolisati tačnost slaganja sa referentnom

implementacijom. Razlika u aritmetici često može maskirati grešku nastalu tokom

prilagoñenja algoritma. Aritmetika u fiksnom zarezu ne pruža komfor kao aritmetika u

pokretnom zarezu, stoga je znatno teže obezbediti isti kvalitet izlaznog signala.

Izmene realizacije algoritma u ovom koraku su značajne. Prilagoñenje ciljnoj

platformi podrazumeva zamenu tipova promenljivih i realizaciju obrade pomoću

raspoloživih operacija u fiksnom zarezu. Za olakšanje zamene, koriste se biblioteke za

emulaciju 20-to bitne i 32-bitne aritmetike u nepokretnom zarezu [Domazetović].

Upotreba biblioteke za emulaciju obezbeñuje preciznu informaciju o utrošenim

resursima i o potrebnoj procesorskoj snazi za dostizanje rada u realnom vremenu.


90

Navedene informacije se prikupljaju tokom izvršavanja algoritma nad skupom

odabranih testnih ulaza.

U nekim momentima, usled ograničenja preciznosti fiksne aritmetike, potrebno

je vratiti se na sam početak razvoja i modifikovati odabrani pristup. Na primer, usled

velike računske osetljivosti RLS algoritma veoma ga je teško realizovati platformi sa

fiksnim zarezom, za razliku od NLMS.

Nakon svakog koraka, obavlja se kontrola kvaliteta i resursa. Ukoliko se

ispostavi da neki od kriterijuma nisu zadovoljeni, potrebno je vratiti se jedan ili više

koraka unazad, i izvršiti korektivne akcije u cilju dostizanja željenih performansi. To

može biti primena nekih tehnika optimizacije, a čak i dorada inicijalnog modela u

Matlabu.

Konačno, nakon svih koraka, polazni algoritam iste funkcionalnosti postoji u

nekoliko oblika:

- Matlab program

- program u programskom jeziku C koji koristi aritmetiku u

pokretnom zarezu, pri čemu ograničenja u pogledu resursa nisu

nužno zadovoljena, ali kvalitet odgovara željenom. Namenjen je

platformama opšte namene.


pokretnom zarezu, prilagoñen DSP.


nepokretnom zarezu, prilagoñen DSP.

Pojedini oblici istog algoritma se razlikuju po raznim osobinama: količini

angažovanih resursa, po aritmetici koju koriste, po kvalitetu, kao i po nameni. Kvalitet

je približan u svim verzijama, ali se uticaj različitih aritmetika može iskazati

odgovarajućim objektivnim merama.

5.4 Algoritmi za poboljšanje kvaliteta govornog sig nala

Algoritmi za digitalnu obradu signala mikrofonskog niza su centralni deo

programske podrške SEA2M sistema. Na osnovu ulaznih signala i postavljenih

parametara rada generišu odgovarajuće izlazne signale, pri čemu direktno utiču na

kvalitet i performanse sistema. Predstavljaju računski najzahtevnije obrade u sistemu.


91

Na slici (Slika 5.11) prikazana je osnovna struktura skupa algoritama SEA2M,

kao i njihova povezanost. Konfiguracija sistema je prilagoñena primeni u scenarijima

koji uključuju multimedijalne mogućnosti, npr. u komunikacionom sistemu

zasnovanom na TV ureñaju ili multimedijalnom robotu. Iz toga proističu i ograničenja

i zahtevi u pogledu broja i tipa ulaznih signala.

Slika 5.11 Blok dijagram algoritama

SEA2M koristi linearni mikrofonski niz od 5 elemenata. Broj elemenata niza je

odabran formiranjem kompromisa izmeñu kvaliteta, fizičkih dimenzija sistema i

računske složenosti algoritma.

S obzirom da je rastojanje izmeñu susednih mikrofona nekoliko centimetara,

dimenzije odabranog mikrofonskog niza omogućuju laku mehaničko sprezanje sa

proizvoljnim sistemom. Takoñe, zbog postojanja stereo zvučnog signala visokog

kvaliteta koji je potrebno reprodukovati istovremeno sa govorom udaljene strane,

podržana su i dva zvučnika.

Rastojanje izmeñu mikrofona se bira tako da je manje od talasne dužine najveće

značajne frekvencije signala (polovina učestanosti odabiranja). Pošto je u takvoj

konfiguraciji fazna razlika izmeñu signala pojedinih mikrofona uvek manja od jedne

periode, postiže se najbolji učinak mikrofonskog niza sa prostornog aspekta. U ovom

sistemu, uzimajući u obzir željene učestanosti rada od 8000 Hz i 11025 Hz, odabrano

je rastojanje mikrofona od 6 cm (λmin je minimalna talasna dužina, vs je brzina zvuka u

vazduhu, a fmax je maksimalna frekvencija signala nakon odabiranja).


92

mHzs

m

f

vs 06.05.5512

330

maxmin ≈==λ

Sistem je skalabilan u smislu veličine i dimenzija mikrofonskog niza, kao i broja

zvučnika. Promena broja mikrofona ili zvučnika na odgovarajući način utiče i na

složenost obrade.

Sprega sistema sa okolinom je realizovana odgovarajućim signalima. Ulazni

signali u sistem su mikrofonski signali (označeni sa x1 do x5), kao signali sa bližeg

kraja komunikacionog kanala, i signali zvučnika (x7 i x8), koji sadrže govor sa

udaljenog kraja i signal lokalnog izvora, na primer TV ureñaja. Svi ulazni signali se

digitalizuju i transformišu iz vremenskog u frekvencijski domen u okviru ulaznog

stepena.

Nakon ulaznog stepena, ulazni signali dospevaju u blok za višekanalno

potiskivanje eha MC-AEC (engl. Multichannel Acoustic Echo Canceller – MC-AEC),

koji poništava akustički eho koji je nastao usled reprodukcije zvuka na zvučnicima u

istom akustičkom okruženju. Mikrofonski signali sa potisnutim ehom (SAEC1 do SAEC5)

se prosleñuju narednim blokovima.

U bloku DOA (engl. Direction of Arrival - DOA), na osnovu signala mikrofona

sa potisnutim ehom, obavlja se lociranje aktivnog govornika u horizontalnoj ravni.

Informacija o poziciji, ugao azimuta θa, prosleñuje se bloku za prostorno filtriranje

SD-BF (engl. Superdirective Beamformer – SD-BF). Od M ulaznih mikrofonskih

signala, a na osnovu informacije o položaju željenog izvora, blok za prostorno

filtriranje izdvaja jedan signal u kojem dominira signal izvora koji se nalazi na

željenom pravcu. Na taj način se ostvaruje prostorna selekcija aktuelnog govornika u

odnosu na ostale izvore (smetnji) u prostoriji, ali i smanjenje efekta reverberacije.

U blokovima PF (engl. Post Filter – PF) i NR (engl. Noise Reduction – NR) vrši

se dodatno potiskivanje svih rezidualnih signala smetnji koji nisu potisnuti prethodnom

obradom signala, i dodatno ostvaruje poboljšanje odnosa signal-šum.

Konačno, u bloku AGC (engl. Automated Gain Control – AGC) obavlja se

funkcija automatskog podešavanja nivoa izlaznog, obrañenog govornog signala. U

ovom algoritmu koristi se više informacija iz celokupnog sistema za odlučivanje o

strategiji potiskivanja preostalih smetnji u pauzama i korekcije nivoa izlaznog signala.

Na taj način se može obezbediti približno isti nivo predajnog govornog signala


93

nezavisno od udaljenosti aktuelnog govornika od mikrofonskog niza, a time obezbediti

njegovu bolju razumljivost na udaljenom kraju komunikacionog kanala.

Glavna karakteristika razvijenog sistema je da predstavlja integralno rešenje, što

podrazumeva potiskivanje raznih smetnji nastalih usled specifičnosti okruženja i

načina upotrebe. Tokom istraživanja, težilo se optimumu rada celokupnog sistema.

Rešenje je moguće programski prilagoditi i optimizovati željenim uslovima rada.

5.4.1 Ulazni i izlazni stepen

Ulazni mikrofonski signali se odmeravaju sa učestanošću odabiranja od 8000 Hz

ili 11025 Hz, što je zadovoljavajuće za govorne komunikacije. Povećanje učestanosti

odabiranja direktno povećava broj potrebnih matematičkih operacija za realizaciju

obrade. Osim toga, i adaptivni filtri treba da se adekvatno povećaju, jer da bi na

odgovarajući način modelovali impulsni odziv okruženja, moraju pokriti dovoljan

vremenski period zadat reverberacijom prostorije.

Obrada signala se vrši u frekventnom domenu. Signal se deli na blokove od N

tačaka koji se preklapaju 50%. Na svakom bloku se primenjuje prozorska funkcija wi,

i=1,N/2 definisana relacijama:

25.0

πθ+

=N

ii , 4/,1 Ni =

2

)cos1( 85.1i

iyθ−=

≤<≤<−≤<−

≤≤

=

+−

+

+−

NiNy

NiNy

NiNy

Niy

w

iN

iN

iN

i

i

4/3,

4/32/,1

2/4/,1

4/1,

1

2/

12/

Prozorska funkcija wi se u toku obrade primenjuje dva puta. Prvi put se njome

množe odbirci signala ulaznog bloka (N tačaka). Drugi put se njome množi rezultat

obrade nakon inverzne Furijeove transformacije na samom izlazu iz obrade. Budući da

se blokovi obrade preklapaju 50%, idealna rekonstrukcija se ostvaruje kada je kvadrat

prozorske funkcije antisimetričan oko apcise N/4. Slika 5.12 pokazuje da kvadrat

prozorske funkcije wi ispunjava ovaj uslov.

Ulazni podaci izlaznog stepena (označen sa SAGC na blok dijagramu prikazanog

na slici 5.11) su DFT koeficijenti izlaznog signala, koji se koristi za sintezu izlaza

sistema. Nad njima se prvo primenjuje inverzna Furijeova transformacija, čime se

dobija vremenski oblik obrañenog bloka. Zatim se nad dobijenim podacima i drugi put


94

primenjuje prozor wi, a dobijeni odbirci se 50% preklapaju sa prethodnim rezultatima.

Primenom ove metode ostvaruje se idealna rekonstrukcija bez impulsnih smetnji na

granicama blokova obrade. Preklapanje blokova obrade povećava broj potrebnih

računskih operacija, jer se svaki podatak obrañuje dva puta, ali značajno doprinosi

stabilnosti algoritama i konačnom kvalitetu izlaznog signala.

0 100 200 300 400 500 600 700 8000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

wi

wi2

2iw

2121 +−− iNw

Prethodni pod-blok [384]

Tekući pod-blok [384]

0 [128]

0 [128]

0 1024 Slika 5.12 Prozorska funkcija wi, wi2 i primena na ulazni blok podataka

Veličina osnovnog bloka podataka koji se obrañuje je N=1024 odbiraka (slika

5.12, donji deo). Vremensko napredovanje je 384 odbiraka, pri čemu blok obrade

sadrži dva takva pod-bloka, i dopunjuje se nula odbircima do veličine bloka obrade.

Ova veličina predstavlja kompromis izmeñu zahteva rada u komunikacionim

sistemima u realnom vremenu, računske složenosti i kvaliteta. Zbog primene u sistemu

koji se koristi u interaktivnom režimu, zbir algoritamskog kašnjenja i vremena prenosa

podataka mora biti manje od 150 ms [ITU-T G.114]. Odabrano napredovanje u

vremenu zadovoljava taj uslov (48 ms), i obezbeñuje prostor za prenos podataka do


95

vremenskog ograničenja od 150 ms. Veličina osnovnog bloka od 1024 (210=1024)

odbiraka omogućuje efikasnu realizaciju diskretne FFT transformacije na računaru.

Sa druge strane, dužina adaptivnih filtara za potrebe potiskivanja eha, a time i

veličina FFT bloka mora da bude dovoljna za efikasno modelovanje impulsnog odziva

prostorije. Imajući u vidu da je vreme reverberacije T60 ciljanih prostorija oko 300 ms,

a očekivana efikasnost bloka za potiskivanje eha je od 20dB do 30dB, odabrana dužina

bloka obrade zadovoljava i modelovanje impulsnog odziva do momenta kada snaga

reverberantnih signala opadne za 20 do 30 dB, što odgovara trećini vremena

reverberacije T60.

Realizacijom obrade u frekvencijskom domenu značajno se smanjuje broj

potrebnih operacija, kao i količina potrebnih resursa.

Ukoliko je poznato da je dužina adaptivnog filtra M, za računanje M rezultata

konvolucije u vremenskom domenu potrebno je ~M2 množenja. Isto važi i za operaciju

korelacije. Za realizaciju diskretne FFT transformacije potrebno je ~Nlog2N množenja,

gde je N veličina FFT bloka, i N=2M [Oppenheim]. Za realizaciju operacije

konvolucije i korelacije u frekventnom domenu potrebno je ~4N množenja. Ukupno za

obradu u frekventnom domenu (FFT, konvolucija i IFFT) potrebno je:

Nlog2N + 4N + Nlog2N = 2Nlog2N + 4N

= 4M log2(2M) + 8M

= 4M log2M + 12M

U tom slučaju pokazuje se da za M=1024, realizacija obrade u frekventnom

domenu naspram obrade u vremenskom domenu je skoro 20 puta brža.

5.4.2 Postupak potiskivanja akusti čkog eha

Funkcija MC-AEC bloka je potiskivanje eha u svakom od mikrofonskih signala,

nastalog usled reprodukcije signala na zvučnicima. Blok dijagram višekanalnog

algoritma za potiskivanje akustičkog eha je prikazan na slici Slika 5.13. Postoje

metode koje istovremeno obrañuju sve ulazne kanale i time smanjuju računsku

složenost, ali po kvalitetu zaostaju za odabranom metodom. Pošto se obrañeni signali u

kasnijim koracima koriste za odreñivanje pozicije govornika i prostorno filtiranje,


96

odabran je pristup u kojem se potiskivanje eha obavlja na svakom mikrofonskom

kanalu nezavisno, i time obezbeñuje najbolji kvalitet.

Potiskivanje eha se postiže procenom signala eha u ukupnom ulaznom signalu

dobijenih sa mikrofona, i oduzimanjem istog od mikrofonskih signala. Procena signala

eha se obavlja adaptacijom FIR filtra na osnovu poznatih signala koji stvaraju eho

(signali koji se reprodukuju na zvučnicima, X7 i X8) i signala mikrofona (X1 do X5). Cilj

adaptacije filtra je modelovanje stvarnog akustičkog puta od zvučnika do mikrofona.

Potiskivanje se obavlja na svakom paru signala nezavisno, što podrazumeva postojanje

adaptivne strukture za svaki mikrofonski signal ponaosob (NLMS1 do NLMS5), pri

čemu svaki blok krije onoliko filtara koliko ima zvučnika u sistemu.

Za adaptaciju filtra koristi se NLMS metoda. Prednosti NLMS algoritma

naspram RLS i APA su niža računska složenost, manja memorijska zahtevnost,

računska robustnost postupka i manja osetljivost na preciznost upotrebljene aritmetike

(u pokretnom ili nepokretnom zarezu). S obzirom da neke od ciljnih platformi

poseduju samo podršku aritmetici u fiksnom zarezu, računska stabilnost je takoñe

veoma značajan kriterijum izbora postupka.

Obučavanje adaptivnih struktura je kontrolisana blokom za detekciju govorne

aktivnosti (engl. Double Talk Detector – DTD) na lokalnoj strani. Zadatak DTD bloka

je da detektuje situacije kada postoje i drugi signali osim signala eha. Značajna

adaptacija filtara je tada nepovoljna, jer stanje sistema se potencijalno udaljava od

željenog optimuma. Jedan tipičan primer takve situacije je i slučaj istovremenog

govora oba učesnika u konverzaciji – adaptacija u takvom slučaju dovodi do

poništavanja i degradacije korisnog signala govora.

Adaptacija filtara se obavlja na osnovu mikrofonskih signala predstavljenih u

frekventnom domenu, referentnih signala zvučnika, kao i kontrolnog signala iz DTD

bloka. Svaki adaptivni filtar modelira prenosnu funkciju akustičkog puta od svakog

zvučnika do odgovarajućeg mikrofona. Tako na primer, NLMS1 modelira prenosne

funkcije hL1 od zvučnika Sp-L do mikrofona M1 i hR1 od zvučnika Sp-R do mikrofona

M1 u stereo sistemu. Primenom adaptiranih filtara na signale zvučnika dobija se

procena signala na mikrofonima koji su nastali kao posledica akustičkog eha.

Oduzimanjem ova dva signala postiže se potiskivanje eho signala na izlazu NLMS


97

algoritama. U cilju stabilnije adaptacije i boljeg potiskivanja eha koriste se DFT

koeficijenti iz prethodnih 5 blokova obrade mikrofonskih signala.

DTD

M1

NLMS 1

NLMS 5 M5

Sp-L

Sp-R

hR1

hR5

hL1

hL5

X1

X5

Xref1

Xref2

sAEC1

sAEC5

MC-AEC

Slika 5.13 Blok dijagram MC-AEC algoritma

Korišćeni faktor adaptacije predstavlja kombinaciju raznih činilaca – energije

signala, dinamike sistema i prisustva ometajućih signala. Poboljšanje se sastoji od

uvoñenja vremenski promenljivog Fµ i indikacije prisutnih signala osim eha, Dtd.

Dodatno poboljšanje brzine konvergencije algoritma postiže se i uvoñenjem

promenljive L, koji simulira višestruku iteraciju nad istim ulaznim podacima.

Uvoñenjem gore opisanih faktora i izvoñenjem dobijaju se sledeće jednačine:


Estimacija ukupnog signala eha

od svih izvora za dati mikrofonski signal i

Hji

ij XrefHD ⋅=∑

=,

2

1

ˆˆ

Greška za dati mikrofonski signal jjj DXE ˆ−=

Ažuriranje koeficijenata filtra 2,,,

*)(ˆ)1(ˆ

i

jijijiji

Xref

EXrefnHnH

⋅+=+ µ

Korak adaptacije L

ref

itdji P

XrefDF )1(1

2

, µµ −−=

L = 6

Tabela 5.4 Jednačine potiskivanja eha zasnovanog na NLMS


98

Fµ je vremenski opadajući faktor koji teži da stabilizuje proces adaptacije filtara

u vremenu. Njegov zadatak je da ograniči adaptaciju nakon odreñenog broja koraka.

Računa se nakon svake iteracije kao:

Fµ(n+1) = alfaF * Fµ(n) + (1-alfaF) * Fµ(∞),

sa početnim vrednošću Fµ(0) izmeñu 0.5 i 1, a konačnom vrednošću Fµ(∞) izmeñu 0 i

0.5, pri čemu je alfaF vrednost bliska 1 (Slika 5.14).

0 100 200 300 400 500 600

0.4

0.5

0.6

0.7

0.8

0.9

1

Slika 5.14 Zavisnost vrednosti faktora adaptacije Fµ od vremena (u sekundama)

Uvoñenje faktora Fµ je voñeno idejom da se nakon značajnog broja iteracija,

stanje filtara je blizu optimuma i potrebno je smanjiti mogućnost divergencije

adaptivnih struktura.

Drugi faktor koji utiče na brzinu adaptacije je Dtd. Pomenuti faktor se generiše u

modulu DTD. Cilj je da se detektuju nepovoljni momenti za adaptaciju, i da se tada

smanjivanjem faktora Dtd ograniči modifikacija koeficijenata filtra. Time se smanjuje

efekat udaljavanja od ciljnog stanja.

Ulazni stepen modula DTD je NLMS-DTD blok. Njegov zadatak je gruba

procena prenosne funkcije eha i procena samog eha. Za potrebe DTD, obrañuje se

samo prvi mikrofonski kanal. Na osnovu tih podataka, DTD blok kasnije odlučuje da li

je eho signal dominantan, i koliko je bezbedno adaptirati filtre.


99

NLMS DTD

10 ≤≤ tdD

M1

7

8

8 c

han

nel

- F

F T

e

$y

NLMS 1

NLMS 5

MC-AEC

M5

Sp-L

Sp-R

hR1

hR6

hL1

hL6

1

5

Soft decision

Py power estimation

Power comparison

Far-end power

X1

X5

Pref power estimation

DTD

Cs

Cs refP

Dtd X7

X8

refP

yP

refP

sAEC1

sAEC5

Slika 5.15 Detaljni prikaz modula za potiskivanje eha i DTD modula

Jednačine adaptacije brzog NLMS-DTD bloka su:


Estimacija ukupnog signala eha

od svih izvora za dati mikrofonski signal i

Hi

iDTD XrefHD ⋅=∑

=

ˆˆ2

1

Greška za dati mikrofonski signal DTDDTD DXE ˆ1 −=

Ažuriranje koeficijenata filtra 2

*)(ˆ)1(ˆ

i

DTDiDTDii

Xref

EXrefnHnH

⋅+=+ µ

Korak adaptacije

L

ref

iDTDDTD P

Xref)1(1

2

µµ −−=

10 ≤< DTDµ , L = 6

Tabela 5.5 Jednačine potiskivanja eha za potrebe DTD


100

Koeficijenti NLMS-DTD bloka brzo konvergiraju, jer ne postoje promenljivi

faktori koji ograničavaju adaptaciju – faktor DTDµ je konstantan u vremenu, i ne zavisi

od ulaznih signala. Takoñe, kao i NLMS primenjen u prethodnom bloku, primenjen je

postupak višestruke iteracije nad istim ulaznim podacima. Na taj način, NLMS-DTD je

u stanju da se brzo prilagodi promenama u akustičkom sistemu i agresivno potisne eho.

Dolazi i do degradacije korisnog signala ukoliko je prisutan, ali to ne utiče značajno na

utvrñivanje da li je signal eha dominantan.

Izlaz iz ovog algoritma su dva signala e i y . Prvi signal e je procena govora

bliskog govornika na mikrofonu M1. Drugi signal y je estimacija aditivne

komponente signala eha u signalu mikrofona M1. Oba ova signala se koriste za

detekciju dvostruke govorne aktivnosti u narednim blokovima.

Prvi korak je računanje procena snage eha i signala eha, Py i Pref, respektivno. Na

snage oba signala se primenjuje rekurzivno usrednjavanje, tako da se dobijaju

usrednjene snage signala eha u mikrofonu M1 i signala na zvučnicima koji proizvode

eho:

yyy PPP 02.098.0 += ,2

yPy =

refrefref PPP 02.098.0 += , 2

2

8

2

7 xxPref

+=

Estimacija odnosa ove dve snage po svim frekvencijama se odreñuje veličinom

Cs, koja ukazuje na generalno pojačanje signala od zvučnika do mikrofona:

∑∑

=

== 2/

0

2/

0

)(

)(fs

f ref

fs

f y

sfP

fPC

Cs se koristi za skaliranje snaga signala zvučnika Pref za potrebe donošenja

odluke u narednom bloku, gde se odreñuje odsustvo bližeg govornika u mikrofonskom

signalu na bazi meke odluke definisane relacijom:

+

+=

δ

δλα

210

)(log

e

PCD refs

ftd , 0,0 >≈ δδ

gde je: fα - frekvencijski zavisna konstanta kojom se veštački favorizuje

dozvola za adaptaciju na višim frekvencijama, gde su snage signala manje, a time i


101

manja mogućnost divergencije NLMS-DTD algoritma. Veličina λ definiše minimalni

odnos snage eho signala i bliskog govornika za koji je faktor adaptacije pozitivan broj.

0 1000 2000 3000 4000 5000 60000

1

2

3

4

5

6

Slika 5.16 Zavisnost vrednosti faktora fα od frekvencije

Kontrolni signal Dtd se ograničava na opseg (0, 1], i koristi se u modulu za

potiskivanje eha u svim mikrofonskim signalima. U slučaju ako je procena snage eha

)( refsPC znatno veća od snage govora bliskog govornika 2

e , Dtd teži 1, i time je

adaptacija omogućena. Ukoliko je procena snage eha mnogo manja od snage korisnog

signala, Dtd teži 0, i sprečava adaptaciju.

0 1000 2000 3000 4000 5000 60000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1000 2000 3000 4000 5000 60000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Slika 5.17 Vrednost faktora Dtd u funkciji frekvencije za slučaj kada je prisutan samo signal eha

(levo) i u slučaju prisutnosti i lokalnog signala (desno)

Slika 5.17 ilustruje dve tipične situacije kada modul DTD omogućuje ili

usporava adaptaciju filtara. U prvom slučaju (levo), mikrofoni registruju samo signal


102

eha i ambijentalni šum. Blok DTD to registruje, i povećanjem faktora vezanih za

pojedine frekvencije omogućuje adaptaciju u celom opsegu. U drugom slučaju,

prisutan je i dominantni glas lokalnog govornika, stoga su vrednosti znatno umanjene,

a adaptacija usporena.

5.4.3 Odreñivanje pozicije aktivnog govornika

Lociranje govornika u prostoru podrazumeva odreñivanje ugla azimuta, tj.

pravca iz kojeg direktni zvučni talas govornika stiže do mikrofonskog niza (ugao θ na

slici 5.18, levo). Informacija i relativnoj poziciji govornika u odnosu na mikrofonski

niz je moguće koristiti u nekoliko mogućih scenarija, npr. za zadavanje usmerenosti

prostornog filtriranja, zatim za usmeravanje kamere u pravcu trenutnog govornika u

videokonferencijskim sistemima, kao i za razne oblike interakcije sa korisnikom.

Δ

Govornik

Slika 5.18 Ugao azimuta θ ka govorniku (levo) i

razlika u putu ∆ kao uzrok vremenskog kašnjenja (desno)

Rešenje predloženo u ovoj tezi se zasniva na generalizovanoj kroskorelacionoj

analizi mikrofonskih signala, sa težinskom funkcijom PHAT. Karakteristike navedenih

algoritama niska računska zahtevnost, robustnost u prisustvu umerenog šuma i

reverberacije. Jedna od osobina sistema za slobodnu komunikaciju na rastojanjima od

nekoliko metara je da je odnos signal-šum veoma nepovoljan, i nakon potiskivanja

eha, korisni signal je često veoma male snage. Težinska funkcija PHAT čini metodu

neosetljivom na snagu signala, što je u ovakvoj postavci takoñe bitan faktor.

Specifičnost primenjenog algoritma jeste u primeni filterske funkcije )(nW koja

u cilju izdvajanja relevantnih komponenata koristi osnovne prozodijske karakteristike

govornog signala, pre svega energetsku dinamiku formantnih struktura vokala.


103

Na slici 5.18, desno, prikazane su putanje direktnog talas od prvog i poslednjeg

elementa niza. Usled konačne brzine prostiranja zvuka kroz vazduh, zvučni talas do

prvog elementa niza stiže ranije, a do poslednjeg kasnije. Metoda generalizovane kros-

korelacije upravo odreñuje to vreme – maksimum kros-korelacione funkcije ukazuje

na relativno vremensko kašnjenje talasa izmeñu dva signala. Preduslov za primenu

metode je da se signali mikrofona odmeravaju u istim momentima, sinhrono. Na

osnovu vremenskog kašnjenja moguće je proračunati i ugao govornika naspram

mikrofonskog niza.

Usled postojanja više mikrofonskih elemenata, moguće je formirati razne parove

mikrofonskih signala i kombinovati rezultate obrade. Time se značajno povećava

pouzdanost rezultata.

Slika 5.19 Formirani mikrofonski parovi i odgovarajući frekventni opsezi

U okviru teze predložena je sledeća kombinacija od 5 elemenata mikrofonskog

niza:

1. formirana su 4 para od susednih mikrofona (rastojanje je d): 1-2, 2-3, 3-

4 i 4-5

2. formirana su 2 para od elemenata na rastojanju od 2d: 1-3 i 3-5


104

3. formiran je 1 par od krajnih elemenata, 1-5, pri čemu je rastojanje

izmeñu mikrofona 4d

Pošto je geometrija pojedinih parova mikrofona različita, potrebno je dobijene

rezultate kros-korelacije fazno uskladiti. Sa druge strane, u zavisnosti od rastojanja

izmeñu elemenata, osetljivost parova je različita u pojedinim delovima frekventnog

opsega. Mikrofonskim parovima manjeg rastojanja uspešnije se detektuje vremensko

kašnjenje talasa viših frekvencija, dok se povećanjem rastojanja raste osetljivost u

nižim delovima spektra. Tu činjenicu je takoñe potrebno uvažiti tokom spajanja kros-

korelacija svih parova, favorizacijom odreñenog dela spektra u funkciji rastojanja.

Blok dijagram modula za odreñivanje dolaznog ugla i prostorno filtriranje

prikazan je na slici 5.20. Funkcije odreñivanja dolaznog ugla θ i prostorno filtriranje

su povezani kroz donošenje odluke o validnosti ocenjenog dolaznog pravca u bloku za

selekciju validnog ugla.

PHAT

Kros-korelaciona

analiza

Odreñivanje težinske funkcije

)(nW

Gi,j

Gi ,j

Estimacija ugla

θ

X1

XM

θ

Fazno usklañivanje

SD BF

Selektor validnog

ugla θ v

PhatG~

)(τP hatR

B FS

DOA

Slika 5.20 Blok dijagram modula za odreñivanje pravca govornika i prostorno filtriranje

Ulaz u DOA algoritam su DFT koeficijenti mikrofonskih signala X1,…,XM iz

kojih je posredstvom AEC bloka prethodno utišan eho. Izlaz iz DOA modula je ocena

dolaznog ugla θ v akustičkog talasa bliskog govornika, proračunatu na bazi ocene

vremenskog kašnjenja signala izmeñu mikrofona.


105

Prvi korak u odreñivanju položaja govornika jeste rekurzivno ocenjivanje

kratkovremenih korelacija Gi,j(n,f), gde i i j predstavljaju redni broj mikrofona u

mikrofonskom nizu, pri čemu indeksi jednoznačno odreñuju mikrofonski par (Slika

5.19). Ocenjivanje se vrši rekurzivnim usrednjavanjem sa dva faktora usrednjavanja α+

i α-, relacijom (n označava vremensku dimenziju, a f frekvencijski bin):

≥−−+−<−−+−

=−−

++

),(),(),1(),,(),()1(),1(

),(),(),1(),,(),()1(),1(),(

*,

*,

*,

*,

,fnXfnXfnGfnXfnXfnG

fnXfnXfnGfnXfnXfnGfnG

jijijiji

jijijiji

ji αααα

Konstante α+ i α- se biraju tako da zadovoljavaju nejednakosti 0 < α+ < α- < 1.

Pod tim uslovima se favorizuje uticaj članova ),(),( * fnXfnX ji sa većim modulom.

Isticanje frekvencijskih binova sa najvećom snagom obezbeñuje se primenom

težinskog vektora ),( fnW koji se odreñuje na osnovu snage i dinamike signala na

sledeći način:

1) Računa se trenutna srednja snaga mikrofona na svim frekvencijskim binovima f

relacijom

∑ == M

k kkt fnXfnXM

fnP1

* ),(),(1

),(

2) U cilju robustifikacije sistema, vrši se filtriranje spektra snage pokretnim

usrednjavanjem:

∑ =+= 2/

2/),(),(

L

Lk tke kfnPwfnP

gde su w-L/2, w-L/2+1, … , wL/2-1, wL/2 težinski koeficijenti usrednjavanja.

3) Primenjuje se isticanje članova sa porastom trenutne snage signala, jer je nagli rast

snage signala u vezi sa pojavom direktnog talasa nakon kratke pauze. Ovo se

realizuje tako što se trenutna snaga prvo filtrira u vremenu, a zatim izdvaja

pozitivan gradijent porasta snage signala relacijama:

)(,2.0),1(8.0),( fPfnPfnP epp +−=

0),,1(),(max)( fnPfnPfw pe −−=


106

Postepeni pad snage signala potiče velikim delom od reverberacije prostorije,

stoga se negativne vrednosti w(f) se izjednjačavaju sa nulom.

4) Odreñivanje minimuma snage signala koji predstavlja stacionarni šum. Ovo se

realizuje rekurzivnim usrednjavanjem trenutne srednje snage sa dva faktora

usrednjavanja relacijom, pri čemu su koeficijenti odabrati tako da se ističu manje

vrednosti snaga.

−≤+−−>+−

=),1(),(),,(8.0),1(2.0

),1(),(),,(002.0),1(998.0),(

fnPfnPfnPfnP

fnPfnPfnPfnPfnP

ee

ee

λλ

λλλ

5) Smatra se da ukupna snaga signala treba da je znatno veća od nivoa stacionarnog

šuma. Ukoliko je srednja snaga signala manja od praga odluke definisanog sa

),( fnPD λαλ = , odgovarajući član težinskog vektora ),( fnW se izjednačava sa

nulom. Konačan izraz za ),( fnW jednak je:

( ) )(0,),(),(max),( fwfnPfnPsignfnW e λα−=

gde je α, α=2, faktor uvećanja prvobitne procene snage smetnji za 3dB.

Rastojanje elemenata

[cm]

Frekventni opseg

[Hz]

Faktor decimacije

1d = 6 cm 2000-3800 4

2d = 12cm 1200-3600 2

4d = 24 cm 600 - 1800 1

Tabela 5.6 Tabela razmatranog frekventnog opsega i faktora decimacija za pojedina rastojanja

elemenata mikrofonskih parova

U narednom bloku se obavlja fazno usklañivanje korelacionih funkcija u cilju

generisanja jedinstvene procene kompleksne kros-korelacije svih razmatranih

mikrofonskih parova. Obavljaju se sledeće operacije:

1) Ponderisanje svih ulaznih kroskorelacija Gi,j(n,f) težinskim vektorom ),( fnW


107

2) Na osnovu rastojanja izmeñu elemenata mikrofonskog para, bira se frekventni

opseg koji je pogodan za dato rastojanje (Tabela 5.6). Komponente signala van

odabranog opsega se anuliraju, i time se njihov uticaj eliminiše.

3) Na osnovu rastojanja, bira se i faktor decimacije za objedinjavanje kros-

korelacionih funkcija u jedinstvenu funkciju (Tabela 5.6). Faktor decimacije se

koristi za usklañivanje faznih stavova korelacionih funkcija parova mikrofona

različitog rastojanja. Nakon usklañivanja, korelacione funkcije se sabiraju. Izlaz iz

ovog sabirača je kompleksna kroskorelacija GPhat (n,f) koja odgovara rastojanju

mikrofona 1 i 5.

4) Da bi se umanjila varijansa procene korelacione funkcije, dobijena kompleksna

korelacija GPhat(n,f) se dodatno filtrira IIR filtrom u vremenu:

),(

),(5.0),1(

~5.0),(

~

ftG

ftGftGftG

Phat

PhatPhatPhat +−=

U bloku sa oznakom PHAT realizuje se fazna transformacija. Naime,

normalizacijom kroskorelacije na svoj moduo gubi se informacija o snazi signala, a

ostaje samo informacija o fazi u kojoj je sadržano relativno vremensko kašnjenje

signala. Vremenski domen generalizovane kroskorelacije ),( τnRPhat , u zavisnosti od

diskretne vrednosti kašnjenja τ, dobija se relacijom:

∑−

=

=1 2

),(~

),(~

),(N

of

N

fj

Phat

PhatPhat e

fnG

fnGnR

τπ

τ

Gornji izraz predstavlja inverznu DFT transformaciju kompleksne fazne

trasformacije ),(

~),(

~

fnG

fnG

Phat

Phat , gde je N broj tačaka za DFT.

Nalaženjem maksimuma generalizovane kroskorelacije ),( τnRPhat odreñuje se

relativno vremensko kašnjenje τr akustičkih talasa na mikrofonima. Budući da je

kroskorelacija ),( τnRPhat grubo diskretizovana u vremenu, u cilju preciznijeg

odreñivanja kašnjenja vrši se kvadratna interpolaciji na intervalu od 3 tačke u okolini

lokalnog maksimuma. Na osnovu procene vremenskog kašnjenja τr, geometrijskog

rasporeda mikrofona i brzine zvuka, na izlazu bloka za estimaciju ugla dobija se

trenutna procena pravca aktivnog govornika izraženu uglom θt.


108

Na slici 5.21 prikazan je geometrijski raspored mikrofonskog niza i govornika. S

obzirom da su tipične dimenzije mikrofonskog niza desetine centimetara, a rastojanje

govornika L je nekoliko metara, može se pretpostaviti da je ugao φ veoma blizak

pravom uglu. Tada, ukoliko se uzima da je 0→L

d, ugao θt se može izračunati kao:

)arcsin(dMt ⋅

∆≈θ

Mik

rofo

nski

niz

Slika 5.21 Geometrijski raspored mikrofona i govornika

Korektnost ocenjenog ugla θt testira se primenom superdirektivnog prostornog

filtra. U tom cilju se superdirektivni prostorni filter usmeri u pravcu poslednje procene

ugla θt(n) i u pravcu (tekućeg) validnog ugla θv(n-1) iz prethodnog bloka obrade n-1.

Ukoliko je snaga signala iz pravca θt(n) veća od snage signala iz pravca θv(n-1), ugao

θt(n) postaje validan (θv(n)=θt(n)). U suprotno zadržava se prethodna validna ocena

(θv(n)=θv(n-1)).

5.4.4 Prostorno filtriranje

U razvijenom sistemu prostorno filtriranje je realizovano neadaptivnim filtrom

sa superdirektivnom prostornom karakteristikom. Razlog izbora superdirektivnog

mikrofonskog niza je njegova robusnost u odnosu na reverberaciju prostorije. U

dizajniranju superdirektivne karakteristike se koriste dve pretpostavke:

1) Akustičko polje šuma u prostoriji je difuzno, što znači da akustičke smetnje

podjednako dolaze iz svih pravaca. Ovom pretpostavkom se dobro aproksimira

situaciju kada je izvor šuma dosta udaljen od mikrofonskog niza te je njegov


109

direktni talas mnogo slabiji od ukupne snage reflektovanih talasa (mikrofonski

niz je van direktnog polja).

2) Upadni ugao direktnog talasa aktivnog govornika je poznat i da je on jednak θv.

Na slici 5.22 dat je blok dijagram algoritma za prostorno filtriranje. Suština

formiranja superdirektivnog prostornog filtra jeste u odreñivanju njegovih težinskih

koeficijenata WML. Oni se odreñuju na bazi koherencije parova susednih mikrofona u

mikrofonskom nizu, uz pretpostavku difuznog akustičkog polja u prostoriji sa

reverberacijom, i vektora usmerenja na pravac odabranog govornika definisan

azimutom θv .

X1

θv Vektor usmerenja

Težinski koeficijenti

SBF

d

Prostorno

filtriranje

WML

XM

SD-BF

Slika 5.22 Blok dijagram algoritma za prostorno filtriranje

Prostorni filter se realizuje težinskim sabiranjem mikrofonskih signala prema

relaciji:

XWS *=BF

gde je S izlaz iz prostornog filtra, W je vektor kompleksnih težinskih koeficijenata, a

X je matrica DFT koeficijenata mikrofonskih signala. Sa * je označeno konjugovano

kompleksno transponovanje vektora. Kada je poznata matrica kroskorelacija šuma na

mikrofonima nnΦ , optimalni vektor težinskih koeficijenata W se odreñuje rešenjem

MVDR kriterijuma [Simmer]:


110

dΦd

dΦW

1

1

−

−

=nn

Hnn

gde je sa d označen vektor usmerenja mikrofonskog niza na odabrani pravac θ opisan

relacijom:

))1(2exp()2exp(1[ θθ τπτπ fmjfj −−−= Ld , c

d vθτ θsin

=

pri čemu d je rastojanje mikrofona, a c brzina zvuka. U slučaju difuznog šuma,

kovarijaciona matrica nnΦ se zamenjuje matricom koherencija:

=

nnn

n

nn

ГГ

ГГ

L

LLL

L

1

111

Γ

čiji se elementi izražavaju relacijom:

=

≠−

−

=

jiza

jiza

c

djif

c

djif

Г ij

1

2

2sin

π

π

Iz gornjih jednačina sledi izraz:

dd

dW

1

1

−

−

ΓΓ=

nnH

nn

Nedostatak rešenja izraženog gornjom relacijom je potencijalna nestabilnost za

one učestanosti za koje je matrica blizu singulariteta ( det( nnΓ ) ≈ 0 ). Da bi se

otklonila ova nestabilnost, uvodi se regularizacioni član na dijagonali:

dd

dW

1

1

)(

)(−

−

+Γ+Γ=

I

I

nnH

nn

δδ

Sa stanovišta računske implementacije algoritma, matrica 1)( −+Γ= Inn δP se

računa za svaku učestanost jedanput, na početku, u toku inicijalizacije algoritma, dok

se vektor d računa za svaku promenu usmerenja θv. I pored toga računanje težinskih

koeficijenata je dosta zahtevno i sadrži približno (m x m) kompleksnih množenja za

svaki DFT bin. Da bi se broj računskih operacija redukovao, eksplicitno se računaju


111

koeficijenti težinskog vektora W za svaki 4-ti bin, dok se vrednosti ostalih binova

linearno interpoliraju.

-100 -50 0 50 100-40

-35

-30

-25

-20

-15

-10

-5

0

5

Ugao [stepen]

Pot

iski

vanj

e [d

B]

Prostorna karakteristika filtra

500 Hz

1000 Hz1500 Hz

2000 Hz

Slika 5.23 Prostorna karakteristika filtra u govornom opsegu

Primenom gore opisanog postupka, postignuta je prostorna karakteristika

prikazana na slici 5.23. Kao što se vidi, na nižim frekvencijama je potiskivanje

prostorno rasporeñenih smetnji manja, dok porastom frekvencije karakteristika je sve

uža, tj. mikrofonski niz je sve usmereniji.

5.4.5 Post-procesiranje

U domenu mikrofonskih nizova, pod postprocesiranjem se podrazumeva obrada

signala nakon prostornog filtriranja jednokanalnim filtrom za potiskivanje šuma.

Teorijska optimalnost postprocesiranja opisana je u [Simmer]. Pokazano je da se

optimalni MMSE (Minimum Mean Square Error) potiskivač bočnih smetnji za

širokopojasne signale može dekomponovati na dva bloka. Prvi blok je višekanalni

potiskivač šuma minimalne varijanse bez distorzije MVDR (Minimum Variance

Distortionless Response) iza koga sledi drugi blok obrade za tzv. postprocesiranje,

predstavljen jednokanalnim Wienerovim filtrom:


112

4342143421filterpostWiener

outnnss

ss

MVDR

nnH

nnopt

−

−

−

+=

φφφ

dΦddΦ

W1

1

U okviru bloka za prostorno filtriranje je opisan prvi član gornjeg izraza. U

modulu za post-procesiranje potrebno je proceniti veličine φss i φnnout da bi se došlo do

prenosne funkcije post filtra:

outnnss

sspostH

φφφ+

=

Osnovni problem u dizajniranju postfiltra jeste procena odnosa signal/šum i

primena te procene za kreiranje optimalnog filtra. U većini slučajeva se usvaja

pretpostavka da je polje šuma idealno difuzno. Realno polje naravno odstupa od

pretpostavljenog idealnog modela. U okviru rešenja implementirano je originalno

rešenje [Šarić1] koje ne zahteva da polje šuma bude idealno difuzno. Potrebno je

jedino da funkcija koherencije bude vremenski nepromenljiva, što je ispunjeno u

stacionarnim uslovima kada mikrofonski niz i prisutne smetnje ne menjaju svoj

položaj u prostoru. Pod tim uslovima optimalni post-filtar se može izraziti preko

faktora slabljenja šuma AΓ (recipročna vrednost pojačanja mikrofonskog niza), koji se

iz dostupnih merenja ocenjuje rekurzivno.

X1

Procena AΓ

SPF

XM

SBF

Procena Φxx

Procena Φyy

Računanje

koeficijenata post-filtra

xxφ

ΓA Post- filtriranje

postH

POST-PROCESSING

yyφ

Slika 5.24 Blok dijagram modula za post filtriranje


113

Slika 5.24 prikazuje blok dijagram modula za post filtriranje. Generalno, modul

se može podeliti na tri dela:

1. Procenu vrednosti potrebnih za računanje koeficijenata post-filtra

2. Odreñivanje koeficijenata post-filtra

3. Post-filtriranje

U tezi je predložen nov postupak estimacije postfiltra, koji je primenjiv i u

slučaju kada je koherencija različita od nule, a pri tom nepoznata. Estimacija

optimalnog post-filtra je moguća uz pretpostavku da je koherencija vremenski

nepromenljiva.

Signali na mikrofonima, opisani m-dimenzionim vektorom x=[x1,…,xm]′, gde je

m broj mikrofona, generišu se modelom:

ndx += s

gde je s skalarni govorni signal odabranog govornika, d je vektor prenosa od

odabranog govornika do svakog od mikrofona, a n, n=[n1,…,nm]′, je vektor aditivnih

smetnji na mikrofonima. Ne umanjujući opštost modela, pretpostavimo da vektor

prenosa d sadrži samo kašnjenja signala iz čega sledi

dH d = m

gde je m broj mikrofona. Izlaz iz prvog bloka MVDR potiskivača, opisuje se

relacijom:

xwHy =

Iz uslova jediničnog pojačanja za koristan signal (kriterijum za MVDR) sledi:

wHd = 1

Uz pretpostavku da su signal i šum meñusobno nekorelisani, snaga signala na

izlazu MVDR bloka * yyEyy =φ , jednaka je:

nnssnnH

ssyy A φφφφ Γ+=+= wΦw

gde je AΓ faktor potiskivanja šuma. Srednja snaga signala mikrofona xxφ ,

∑−

== 1

0

1 m

i ixixxx mφφ jednaka je nnssxx φφφ += , na osnovu čega se dobijaju procene snage

signala i šuma, izraženi preko gustina spektra snage ulaznih signala u modul:

Γ

Γ

−−

=A

A xxyyss 1

φφφ

Γ−−

=A

yyxxnn 1

φφφ


114

Veličine xxφ i yyφ je moguće estimirati rekurzivno sa:

mtttt Hxxxx /)()()1()1(ˆ)(ˆ xxλφλφ −+−=

wxxw )()()1()1(ˆ)(ˆ tttt HHyyyy λφλφ −+−=

Faktor potiskivanja šuma AΓ je takoñe nepoznata veličina i ocenjuje rekurzivno

na osnovu gustina spektra snage mikrofonskih signala i izlaza prostornog filtra.

Ako se isključe neki specijalne slučajevi superdirektivnih mikrofonskih nizova,

prirodna ograničenja za AΓ su:

0 < AΓ < 1

Neka je promenljiva )(~

tAΓ zadata sa:

)()(

)()(

)(

)()(

~

tt

tAt

t

ttA

nnss

nnss

xx

yy

φφφφ

φφ

++== Γ

Γ

za koju važi sledeća nejednakost:

1)(~

0 <≤< ΓΓ tAA

Može se zaključiti da je donja granica promenljive )(~

tAΓ upravo )(tAΓ , a ona se

dostiže za vreme pauze u govoru, odnosno kada je 0)( =tssφ . To se može iskoristiti za

procenu faktora slabljenja šuma )(tAΓ . Kao jedan od mogućih postupaka estimacije,

predlaže se rekurzivno usrednjavanje IIR filtrom prvog reda sa različitim konstantama

uspona i pada prema relaciji:

)1(ˆ)(~

)1(ˆ)(~

),(~

)1()1(ˆ),(

~)1()1(ˆ

)(ˆ−≥−<

−+−−+−=

ΓΓ

ΓΓ

ΓΓ

ΓΓΓ

tAtAza

tAtAza

tAtA

tAtAtA

ss

pp

αααα

10 <<< sp αα

gde su αp i αs konstante eksponencijalnog usrednjavanja redom za vreme pada,

odnosno rasta procene )(ˆ tAΓ . Manja konstanta αp u odnosu na αs obezbeñuje bržu

adaptaciju na manje vrednosti vrednosti )(~

tAΓ i time bolju procenu )(tAΓ . Sa druge

strane, premala vrednost αp smanjuje robusnost procene u odnosu na prisutna

odstupanja sa ekstremno niskom vrednošću )(~

tAΓ . Stoga je potrebno opredeliti se za

kompromisnu vrednost αp.


115

Smenom procena umesto xxφ , yyφ i )(tAΓ u jednačinu za post-filtar, dobija se

relacija za koeficijente post-filtra:

( ) )(ˆ)(ˆ1

)(ˆ)(ˆ)(ˆ

)(ˆ)(ˆ)(ˆ

)(ttA

ttAt

tt

ttH

yy

xxyy

nnss

sspost φ

φφφφ

φ

Γ

Γ

−−

=+

=

Zbog mogućih grešaka u oceni parametra, uvodi se dodatno ograničenje filtra

Hpost(t), 0 ≤ Hpost(t) ≤ 1.

U praksi se pokazuje korisnim da faktor adaptacije αs u početku ima manju

vrednost, da bi početna konvergencija procene )(ˆ tAΓ bila brža. U ustaljenom režimu

αs treba da ima veću vrednost kojom se postiže mala varijansa procene. Da bi se ovo

postiglo faktor αs se menja sa svakim blokom obrade prema relaciji:

ess ααα 1.09.0 +=

uz početni uslov αs=α0 za t=0, pri čemu je ispunjeno 0 < αp < α0 < αs < αe < 1. Faktor

adaptacije αp je konstantan.

Na osnovu relacije za koeficijente post-filtra, računaju koeficijente post-filtra, i

primenjuju na ulazni signal SBF, i na taj način se generiše izlazni signal SPF.

Predloženi postupak je pogodan za DSP implementaciju, budući da je manje

zahtevan sa stanovišta potrebnih računarskih i memorijskih resursa u odnosu na

poznate algoritme koji zahtevaju procenu i memorisanje matrice korelacija

mikrofonskih signala.

5.4.6 Potiskivanje stacionarnog šuma

Modul za potiskivanje stacionarnog šuma se zasniva na metodi oduzimanja

spektra. Cilj modula je da se na osnovu karakteristika ulaznog signala ocene prenosna

karakteristika Wienerovog filtra, čijom primenom se potiskuje šum u ulaznom signalu.

Na slici je prikazana struktura modula za potiskivanje šuma. Ulaz u sistem je

signal SPF, koji sadrži govorni signal i rezidualne signale smetnji, koji se u ovom

algoritmu tretiraju kao aditivni šum N, i koji potiču od akustičkog eha, akustičkih

smetnji u prostoriji i reverberacije prostorije. Redukcija šuma se obavlja Wienerovim

filtrom koji za formiranje svoje prenosne karakteristike koristi estimaciju snage šuma

NP . Ona se odreñuje pomoću tri modula:


116

• brzog algoritma estimacije šuma,

• sporog algoritma estimacije šuma i

• nelinearnog kompresora dinamike estimacije šuma realizovanog u četiri

spektralna podopsega.

SPF

SNR

Spora procena šuma

Nelinearni

kompresor

Potiskivanje šuma

NRH

NR

Brza procena šuma

SN

FN

Slika 5.25 Blok dijagram algoritma za potiskivanje šuma

U prva dva bloka vrši se procena šuma na bazi estimacije minimuma snage

signala. U oba bloka se procena šuma vrši estimacijom snage sa bržom adaptacijom na

minimum snage (negativan trend procene) i sporom adaptacijom na maksimum snage

(pozitivan trend procene snage) relacijama:

≤−+>−+=+

−−

++

),(ˆ),(),,()1(),(ˆ),(ˆ),(),,()1(),(ˆ

),1(ˆfnNfnNzafnNfnN

fnNfnNzafnNfnNfnN

FFF

FFFF αα

αα

≤−+>−+=+

−−

++

),(ˆ),(),,()1(),(ˆ),(ˆ),(),,()1(),(ˆ

),1(ˆfnNfnNzafnNfnN

fnNfnNzafnNfnNfnN

SSS

SSSS αα

αα

pri čemu n označava redni broj bloka podataka koji se obrañuje, f označava frekvenciju

u spektru, N(n,f) je gustina spektra ulaznog signala. Za izbor vrednosti faktora

adaptacije važi relacija:

1 0 <<<<< ++−− SFSF αααα

Trenutna adaptacija na minimum snage ne daje dobre rezultate, jer DFT

koeficijenti na pojedinim blokovima imaju ekstremno nisku snagu, čime se naglo

remeti prethodna procena snage šuma.


117

U algoritam su uvedena dva estimatora iz razloga što spora procena šuma sporo

reaguje na pad snage signala na krajevima fonema. Ako bi se ona upotrebila za

Wienerovo filtranje, došlo bi do odsecanja delova fonema sa umanjenom energijom i

smanjila bi se razumljivost govora. Da bi se ovo sprečilo, procena šuma treba brzo da

pada na delovima na kojima pada i snaga govornog signala. Ovo se postiže algoritmom

sa brzom adaptacijom. Sa druge strane, brza procena šuma nije dobra, jer proizvodi

prekomerno odsecanje govornog signala. Iz ovoga sledi zaključak da su potrebne obe

procene i iz njih treba na pogodan način oceniti stvarnu snagu šuma.

Brza i spora procena šuma se kombinuju u narednom bloku označenom kao

nelinearni kompresor. Tu se primenjuje sledeća nelinearna funkcija:

≤

>

=

SFF

SF

S

FS

NNzaN

NNzaN

NN

N

ˆˆˆ

ˆˆˆ

ˆˆ

ˆ

β

βα

gde se parametrom α, (0.25≤α<0.5) reguliše stepen kompresije dinamike procene

šuma, a parametrom β definiše uvećanje procene šuma (engl. noise power

overestimation). Smisao nelinearne transformacije je u sledećem:

• Kada je brza procena šuma FN veća od spore procene SN , primenom brze

procene došlo bi do prekomernog utišavanja korisnog signala. U tom slučaju se

vrši kompresija dinamike procene šuma.

• U slučaju kada je brza procena manja od spore procene, ne primenjuje se

kompresija kako bi procena šuma što brže opala. Time se sprečava otsecanje

delova fonema na krajevima reči kada zbog brzog pada snage signala visoka

vrednost procene šuma sporog estimatora ne može da prati dinamiku pada

snage signala.

Odnos korisnog govornog signala i šuma je znatno nepovoljniji na visokim

učestanostima zbog prirodnog pada snage govora u tom delu spektra. Stoga se definišu

posebni parametri kompresora α i β za 4 karakteristična opsega učestanosti (0-

2000Hz), (2000-2500Hz), (2500-3500Hz) i (3500-5012Hz), saglasno očekivanom

odnosu signal/šum.

Konačno, u bloku za filtriranje Wienerovim filtrom vrši se potiskivanje šuma

primenom sledeće prenosne funkcije:


118

−= 0,

)(

ˆ)(max)( 2

22

fS

NfSfH

PF

PF

NR

Realizovani algoritam je u stanju da potisne stacionarni šum za 6dB. U slučaju

pojave nestacionarnih smetnji, moguća je pojava muzičkih tonova, što je i poznati

nedostatak pristupa zasnovanih na oduzimanju spektra. Efekat je ublažen

odgovarajućim podešavanjem parametara algoritama.

5.4.7 Automatska regulacija poja čanja

Blok za automatsku regulaciju pojačanja se nalazi na samom kraju lanca obrade,

iz razloga što unosi nelinearnu modifikaciju u signal, što bi bio ometajući faktor za rad

ostalih blokova ukoliko bi se on našao na samom početku lanca. Cilj uvoñenja AGC

bloka je da adaptivnim pojačavanjem i utišavanjem pojedinih segmenata signala

doprinese kvalitetu izlaznog signala, povećavajući njegovu razumljivost.

Zadaci AGC bloka su:

• da pojača slabe govorne signale, ali i da oslabi previše jake signale

prema unapred zadatoj karakteristici kompresije dinamike signala, i

time održava relativnu konstantnu snagu signala

• da na delovima ulaznog signala gde je prisutan samo smetnja (eho

signala, stacionaran šum ili konkurentni govornik), smanji pojačanje

kako bi se ove smetnje potisnule, i

• da utiša delove ulaznog signala gde su jednovremeno prisutni i koristan

govorni signal i smetnje, a da pri tome očuva razumljivost govora.

AGC

γ

Pn

Računanje nagiba karakteristike kompresora

Kompresor dinamike sa adaptivnim nagibom

karakteristike

Pecho

SNR SAGC

Slika 5.26 Blok dijagram modula za automatsku regulaciju pojačanja (AGC)


119

Osnovnu funkciju AGC algoritma obavlja modul za kompresiju dinamike

govornog signala. Karakteristika kompresije je adaptivna kako bi ispunila prethodno

postavljene zahteve, a nagib karakteristike kompresije se na kompleksan način

odreñuje estimiranim snagama govornog signala, eha i difuznog šuma.

Da bi se realizovao prvi zadatak, vrši se procena snage govornog signala Pd iz

datog pravca (nakon prostornog filtriranja) eksponencijalnim usrednjavanjem sa

trenutnom adaptacijom na vršnu vrednost Pdt:

∑ == N

f NRd fSN

P1

2)(

1

−<−+−−≥

=)1()(),()1()1(

)1()(),()(

tPtPjeakotPtP

tPtPjeakotPtP

dpddddpd

dpdd

dp αα, αp=0.98.

Na osnovu tako dobijene procene vršne snage govornog signala računa se

pojačanje signala koje je veće ukoliko je snaga signala manja od željenog nivoa

signala. Iz više razloga, ne vrši se potpuna, već delimična kompenzacija nivoa signala.

Relacija koja povezuje izlazni nivo Lout = 20log10(Pout), nominalni (željeni) nivo

izlaza Lnom i ulazni nivo Lin = 20log10(Pin) data je formulom:

Lout = Lnom + γ(L in - Lnom)

Kada je nagib γ jednak 1, tada nema kompresije, jer je izlazni nivo signala

jednak ulaznom Lin. Kada je nagib jednak γ =0, tada je kompresija potpuna, jer za bilo

koji ulazni nivo, nivo signala na izlazu je jednak nominalnom. U normalnom režimu

rada algoritma, promenljiva γ je veća od 0, a manja od 1. Regulacijom pojačanja se u

uvom slučaju pojačavaju slabi ulazni signali, ali se u izlaznom signalu ipak zadržava

odreñena dinamika ulaza. Da bi se dostigla regulacija nivoa prema zadatoj relaciji,

ulazni signal treba pomnožiti izračunatom konstantom pojačanja Aagc prema relaciji:

)1(5.0 γ

α

−

+=

nomin

nomagc PP

PA α=0.001

gde konstanta α, ima funkciju da ograniči pojačanje kada je snaga ulaznog signala

jednaka nuli, Pnom je nominalna snaga, tj. željeni nivo izlaza, a Pin je snaga ulaznog

signala koji se sastoji od korisnog signala, rezidualnog eha i šuma, i zadaje se kao:


120

nechodpin PPPP ++=

Signal rezidualnog eha se dobija iz bloka za potiskivanje eha, dok se procena

aditivnog difuznog šuma dobija od post-filtra. Snaga rezidualnog eha i procena

aditivnog difuznog šuma se dodaju proceni trenutne snage signala u cilju sprečavanja

isticanja signala akustičkih smetnji u prostoriji.

Neposredna primena relacije za računanje pojačanja za unapred fiksiranu

vrednost veličine γ ne daje dobre rezultate, jer jednako tretira zaostale smetnje i

koristan signal. Kada su prisutne samo smetnje dolazi do njihovog pojačanja, što je

nepoželjan efekat. Da bi se to izbeglo, potrebno je detektovati i razdvojiti sledeće

slučajeve:

a) pauza u korisnom signalu,

b) prisutan rezidualni eho, i

c) konkurentni govornik ili akustička smetnja.

Kada se detektuje bilo koji od ovih slučaja, potrebno je promenljivu γ izjednačiti

sa vrednošću 1 i tako sprečiti pojačavanje smetnji.

Pauza u korisnom signalu se razlikuje od govornog signala po stacionarnosti.

Govorni signal, ma koliko bio slabog intenziteta, nestacionaran je u vremenu, dok je u

pauzi prisutan sporopromenljivi ambijentalni šum. Linearni trend snage signala TP

normalizovan na snagu je dobar pokazatelj nestacionarnosti signala. Tome treba dodati

i pokazatelj konveksnosti trajektorije CP koji je negativan na lokalnom maksimumu.

( )∑ =−−= 3

0)(2/39375.0

i dpP itPiT

[ ] 0,)3()()2()1(1.5938max −−−−+−−= tPtPtPtPC dpdpdpdpP

Na osnovu gornjih vrednosti se računa indikator govorne aktivnosti Vt na osnovu

nestacionarnosti trajektorije snage:

nomdp

PPt PP

CTV

006.0++=

Vt se dodatno filtrira u vremenu da bi se sprečilo odsecanje kraja reči sa malom

energijom, ali u slučaju porasta Vt adaptacija je trenutna, u cilju brže detekcije početka

govora:


121

−<+−−≥

=)1(,07.0)1(93.0

)1(,)(

tVVjeakoVtV

tVVjeakoVtV

tt

tt

a zatim se V(t) ograničava na opseg 0 ≤ V(t) ≤ 1.

Veličina γ predstavlja stepen kompresije dinamike signala. Izračunava se na

osnovu prethodno izračunate veličine V(t) i veličine γmax koja predstavlja zadatu

maksimalnu vrednosti nagiba. Veličina γ se računa relacijom:

3max

3

max )(5.2

)(5.21

tV

tV

++=

γγγ

Granične vrednosti nagiba γ su:

=

→=+=

kompresijenematVza

kadavelikajekompresijatVza

,0)(1

0,1)(5.2

5.3

maxmax γ

γγγ

Slika 5.27 ilustruje slučaj kada je snaga ulaznog signala 10 puta manja od željene

snage. U zavisnost od stacionarnosti ulaznog signala zavisi i nagib, pa se pojačanje

bira sa date krive.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 11

1.5

2

2.5

3

3.5

4

4.5

Nagib

Poj

acan

je

Zavisnost pojacanja od nagiba

Slika 5.27 Zavisnost pojačanja od nagiba za Pin=0.1Pnom

Izračunato pojačanje se primenjuje na samom izlazu iz modula na ulazni signal:

SAGC=SNR⋅Aagc

Realizovani algoritam veoma efikasno pojačava željeni signal, pri čemu se na

odgovarajući način obrañuju situacije kada smetnje dominiraju. Detekcija govorne


122

aktivnosti na osnovu nestacionarnosti signala uspešno detektuje period govora, stoga

se problemi gubitka fonema na početku i kraju reči ne javljaju. Takoñe, uključivanje

procene snage smetnji u odlučivanje povoljno utiče na upravljanje pojačanjem, u

smislu da se akustičke smetnje u signalu ne pojačavaju.

5.4.8 Adaptivno sabiranje signala

Potreba za adaptivnim sabiranjem signala se javlja usled postojanja i dolaznog

kanala, kao i lokalnog izvora zvuka koji se reprodukuje zajedno sa govorom udaljene

strane. Zadatak modula je da ta dva signala sabere na način koji obezbeñuje najbolju

razumljivost govora udaljene strane, ali uz istovremenu reprodukciju zvuka lokalnog

izvora.

Dolazni zvuk SRemote je jednokanalni, i obično je to govorni komunikacioni

kanal, pri čemu su odbirci odmeravani na 8 kHz ili 11 kHz. Signal lokalnog izvora SLR

je stereo, visokog kvaliteta (44.1 kHz ili 48 kHz), i može biti raznolikog sadržaja –

govor, muzika, itd.

AM

Računanje

koeficijenata pojačanja

SLR

SRemote

GLR

GRemote

SAM

Slika 5.28 Blok dijagram modula za adaptivno sabiranje signala

Govor udaljene strane se smatra dominantnim - ukoliko postoji, potrebno je

utišati zvuk lokalnog izvora, pojačati govor i sabrati ta dva signala:

motemoteLRLRAM SGSGS ReRe+=

Snaga rezultujućeg signala treba da bude kao i signal lokalnog izvora:

LRmotemoteLRLRAM PPGPGP ≈+≈ Re2Re

2


123

Kada nema govora sa udaljene strane, zvuk lokalnog izvora se reprodukuje

nepromenjeno.

Prvi korak obrade je odreñivanje zvučne aktivnosti na pojedinim kanalima. To se

najjednostavnije može uraditi poreñenjem snage signala sa graničnom vrednošću PVTH.

VLR i VRemote su indikatori aktivnosti na kanalima lokalnog izvora i udaljenog govora

respektivno, pri čemu mogu imati vrednosti 0 ili 1, gde 1 označava postojanje

aktivnosti.

U zavisnosti od vrednosti VRemote, pristupa se adaptaciji pojačanja GLR po sledećoj

relaciji:

=−+−=−+−

=++

−−

0)(,)1()1(

1)(,)1()1()(

max

min

tVGtG

tVGtGtG

remoteLRLRLRLR

remoteLRLRLRLRLR αα

αα

Tipične vrednosti konstanti su: 1,1.0,99.0,5.0 maxmin ==== +− LRLRLRLR GGαα .

Kada je Vremote(t) = 1, vrednost faktora adaptacije obezbeñuje da pojačanje GLR

brzo konvergira ka minimalnom pojačanju, što dovodi do utišavanja zvuka lokalnog

izvora, time dajući mogućnost da udaljeni govor doñe do izražaja.

U suprotnom slučaju, vrednost pojačanja GLR polako raste ka maksimalnoj

vrednosti, ali tek nakon odreñenog vremena neaktivnosti, reda veličine nekoliko

sekundi. Umeren rast pojačanja obezbeñuje prijatniju dinamiku signala tokom govorne

komunikacije.

Na osnovu vrednosti VLR odreñuje se vršna procena snage SLR signala. Procena se

obavlja rekurzivno sa različitim faktorima za rast, pri čemu VLR koristi za detektovanje

pauza u signalu. Procena vršne snage signala lokalnog izvora )(ˆ tPLR se obavlja kada je

VLR = 1, po relaciji:

−≥−+−−<−+−=

++

−−

)1(ˆ)(),()1()1(ˆ)1(ˆ)(),()1()1(ˆ

)(ˆtPtPtPtP

tPtPtPtPtP

LRLRLRPLRP

LRLRLRPLRPLR αα

αα

pri čemu se −Pα i +Pα biraju tako da je zadovoljen uslov 10 <<< −+ PP αα i 1→−Pα .

Na isti način se odreñuje i procena vršne snage )(Re tP mote .

Zatim se proračunava ciljno pojačanje )(Re tG mote na osnovu odnosa željene snage

)(ˆ tPLR i procene snage )(Re tP mote kao:


124

),)(ˆ

)(ˆ))(1(min()( max

Re

22

Re GtP

tPtGtG

mote

LRLRmote

−=

Da bi se izbegle nagle promene pojačanja, )(Re tG mote se rekurzivno filtrira na

sledeći način:

−≥−+−−<−+−

=++

−−

)1()(),()1()1(

)1()(),()1()1()(

ReReReRe

ReReReReRe tGtGtGtG

tGtGtGtGtG

motemotemoteRmoteR

motemotemoteRmoteRmote αα

αα

10 <<< −+ RR αα

Izračunata pojačanja se zatim primenjuju na blok podataka po već ranije

navedenom izrazu. Izlaz iz modula je stereo zvuk visokog kvaliteta, u kojem dominira

govorni signal udaljene strane, ukoliko postoji. U suprotnom, zvuk lokalnog izvora se

reprodukuje bez ikakvih degradacija. Odabrani parametri algoritma omogućavaju brzu

reakciju na pojavu govora i ne narušavaju razumljivost govora, a opet onemogućavaju

pojavu neprijatnih skokova pojačanja i oscilaciju sistema. Realizovani algoritam je

pogodan za primenu u interaktivnim sistemima za govornu komunikaciju.

5.5 Integracija razvijenog sistema sa TV ure ñajem

Realizovani sistem za dvosmernu govornu komunikaciju poseduje niz

mogućnosti za povezivanje sa drugim sistemima. Za potrebe eksperimentalne potvrde

teze realizovana je fizička arhitektura sa odgovarajućim sprežnim podsistemom u

obliku modula. Modul koristi Texas Instruments TMS320C6727 DSP za obradu

podataka, i poseduje jasno definisane sprege. Realizovan je i kontrolni kanal koji

omogućuje upravljanje radom modula.

Slika 5.29 Modul za slobodnu govornu komunikaciju


125

DSP izvršava programsku podršku koja obezbeñuje rukovanje sprežnim

podsistemom, nadgleda i kontroliše rad modula, i obavlja obradu signala. Pošlo se od

realizacije algoritma u pokretnom zarezu u jednostrukoj tačnosti. U skladu sa

očekivanjima, postignut je rad u realnom vremenu, i programska podrška zadovoljava

sve postavljene zahteve.

Sa ciljem modelovanja najsloženijeg scenarija upotrebe, modul je proširen sa

Bluetooth modulom i integrisan je sa TV ureñajem, čineći tako celovitu platformu za

komunikaciju. Kao komunikacioni kanal, moguće je koristiti GSM mrežu ili VoIP

preko računara, pri čemu se oni povezuju sa Bluetooth bežičnom vezom. Tako

prošireni TV ureñaj postaje komunikacioni terminal za slobodnu govornu

komunikaciju. Blok dijagram integralnog sistema dat je na slici:

Slika 5.30 Blok dijagram sistema integrisanog u TV ureñaj (preuzeto iz [IFA2007])

Da bi se obezbedila odgovarajuća sprega sa korisnikom, programska podrška TV

prijemnika je modifikovana. Dodate su mogućnosti za interakciju sa korisnikom, sa

namenom:

• konfiguracije sistema,

• rukovanja adresarom i

• rukovanja pozivima.

Sistem omogućava odabiranje sagovornika iz adresara koji se preuzima preko

Bluetooth veze od mobilnog telefona ili PC, pozivanje istog i razgovor sa njim pomoću

TV prijemnika i uz upotrebu daljinskog upravljača.


126

Tokom razgovora, zvučni signali se prenose preko komunikacionog kanala, bilo

preko GSM ili VoIP. Obrada signala realizovana na DSP eliminiše postojeće smetnje, i

obezbeñuje nesmetanu komunikaciju i u najsloženijim uslovima. Akustičke smetnje su

potisnute, i tako poboljšan glas željenog govornika se prenosi na drugu stranu.

Istovremeno, moguće je pratiti i TV program, zajedno sa pratećim zvukom. Dolazni

govor se na adaptivni način sabira sa visokokvalitetnim zvukom TV programa.

Adaptivno sabiranje je realizovano na način koji uvek obezbeñuje dobru čujnost i

razumljivost udaljenog govornika, ali istovremeno omogućuje i praćenje TV programa.

Slika 5.31 Maketa TV prijemnika sa integrisanim sistemom

za slobodnu govornu komunikaciju

Integracijom realizovanog sistema za obradu signala mikrofonskog niza sa TV

prijemnikom stvorena je maketa koja se koristi za eksperimentalnu potvrdu teze i

merenje performansi rešenja. Na slici 5.31 prikazana je maketa sa mikrofonskim nizom

od 5 elemenata ugrañenog u gornji deo TV prijemnika. Na slici je prikazana i grafička

korisnička sprega, koja upotrebom daljinskog upravljača obezbeñuje kontrolu nad

sistemom.

POGLAVLJE 6 – REZULTATI MERENJA PERFORMANSI REŠENJA

127

POGLAVLJE 6. REZULTATI MERENJA PERFORMANSI REŠENJA

6.1 Merenje složenosti rešenja

Ideja opisana u ovoj tezi podrazumeva da se ograničenja odredišne platforme

uvažavaju od samog početka razvoja, i da one obezbeñuju smernice za projektovanje i

razvoj sistema željenih performansi. To podrazumeva da se relevantni pokazatelji

performansi sistema ocenjuju tokom razvoja, a da se njihova zadovoljenost pokaže

merenjem nad finalnim rešenjem.

Tokom razvoja, potrebno je nadgledati složenost rešenja, da bi konačni sistem

radio u realnom vremenu na odabranim platformama. Potrebno je da se zadovolje

ograničenja ciljne platforme u pogledu radne memorije i složenosti programske

podrške. Merenja se izvode upotrebom razvijenih programskih biblioteka za emulaciju

aritmetike ciljnih platformi (DSP) na razvojnoj platformi (PC). Merenja se obavljaju

nad reprezentativnim skupom ulaznih testnih signala, i generišu informacije o

složenosti rešenja.

Na složenost programske podrške najviše utiču:

• programska podrška za rukovanje sprežnim podsistemom i

• postupci obrade signala.

Rukovanje sprežnim podsistemom zahteva odreñenu memoriju za smeštanje

ulaznih i izlaznih podataka, koja takoñe mora da se uzme u obzir tokom projektovanja


128

sistema. Obrada podataka sa stanovišta sprežnog podsistema se svodi na transfer

podataka. Pošto se na svim odabranim platformama koristi mehanizam DMA za

prenos podataka, to ne utiče značajno na složenost rešenja.

Polazna tačka za razvoj algoritama je okruženje visokog nivoa, npr. Matlab ili

Mathematica. U toj fazi, moguće je samo proceniti potrebnu količinu memorije i

složenost, jer pomenuta okruženja obezbeñuju veliki broj primitiva koje skrivaju te

podatke. Nakon projektovanja obrade u okruženju Matlab, u cilju tačnije procene

složenosti, postupci obrade se realizuju u programskom jeziku C. Da bi proces

verifikacije bio što jednoznačniji, ta realizacija koristi aritmetiku u pokretnom zarezu,

bilo u jednostrukoj ili dvostrukoj preciznosti.

Nakon toga, postupak obrade se prilagoñava osobinama i mogućnostima

odredišnih platformi. To rezultuje razvojem različitih verzija iste obrade. U toku

istraživanja, mere se performanse sledećih oblika:

• program u programskom jeziku C koji koristi aritmetiku u pokretnom

zarezu, prilagoñen procesoru Texas Instruments TMS320C6727.

Poseduje iste performanse kao i Matlab realizacija, ali po strukturi

odgovara konačnom rešenju. Smatra se referentnom realizacijom, i u

daljem tekstu će se označavati sa FLOAT.

• program u programskom jeziku C koji koristi 32-bitnu aritmetiku u

nepokretnom zarezu, prilagoñen procesoru MIPS 4KEc. U daljem

tekstu će se označavati sa FIXED32.

• program u programskom jeziku C koji koristi 20-bitnu aritmetiku u

nepokretnom zarezu, prilagoñen procesoru MAS 35xx. U daljem tekstu

će se označavati sa FIXED20.

Prilikom postavljanja ograničenja po pitanju složenosti potrebno je obaviti

mapiranje mogućnosti ciljne platforme na metriku primenljivu na razvojnoj platformi –

broj obavljenih matematičkih operacija po jedinici vremena. Ovaj korak podrazumeva

razvoj i profilisanje reprezentativne obrade.

U okviru istraživanja realizovan je reprezentativni model obrade signala

mikrofonskog niza uz upotrebu tipičnih algoritama. Model koristi aritmetiku u

pokretnom zarezu jednostruke tačnosti. Obrada se obavlja u frekventnom domenu.

Model sadrži osnovne blokove za:


129

- potiskivanje eha,

- lociranje aktivnog korisnika i prostorno filtriranje,

- potiskivanje šuma i

- automatsku regulaciju pojačanja.

Uz pomoć programskih biblioteka opisanih u ovoj tezi model je profilisan na

razvojnoj platformi. Dobijeni su sledeći rezultati:

Broj operacija FLOAT

* 95744233 / 17456802

+,- 91639381 MAC 0

Broj poziva funkcijama

Pow 18440 Sin 220543 Cos 220500

atan2 22 Sqrt 45801 Log 0

Ukupan broj operacija

220595944

Tabela 6.1 Detaljan izveštaj profilisanja referentnog modela po tipovima operacija i

matematičkim funkcijama

Sledeći korak je profilisanje obrade na ciljnoj platformi, u ovom slučaju Texas

Instruments TMS320C6727. Tokom merenja korišćen je simulator platforme.

Ustanovljeno je da realizacija modela značajno izlazi van okvira realnog vremena, i da

je mereno opterećenje procesora reda veličine 500%, tj.:

%500arg =etreftα , 610221⋅=devrefO

Ukoliko se ove vrednosti uvrste u ranije datu relaciju, dobija se:

66

argmax 1045%100

%500

10221%100 ⋅≈⋅⋅=⋅=

etreft

devrefdev

OO

α

Dobijena vrednost za maxdevO odreñuje gornju granicu broja operacija koje

ciljna platform može da obavi u realnom vremenu.


130

U cilju prikupljanja statistički validnih rezultata, sve realizacije se izvršavaju

nad reprezentativnim skupom ulaznih signala. Tokom rada, obrañuju se ulazni signali

koji odgovaraju datom testnom slučaju, i generiše se izlazni signal. Sa stanovišta

merenja kompleksnosti oblik izlaznog signala nije bitan, jer se pretpostavlja da je

realizacija ispravna. Beleži se najgori rezultat (najviše upotrebljene memorije ili

najveći broj aritmetičkih operacija), koji nakon izvršavanja svih testnih slučajeva

postaje konačni (slika 6.1).

Izveštaj o kompleksnosti Baza

testnih signala

Implementacija koja se testira

(FLOAT/FIXED32/FIXED20)

Memorija i

operacije

Slika 6.1 Merenje kompleksnosti na skupom reprezentativnih testnih signala

Nakon izvršavanja obrade ulaznih testnih signala, kao rezultat, dobija se

sumarni pregled kao u tabeli 6.2. Ona pokazuje da je ograničenje u pogledu

memorijskog prostora zadovoljeno, jer svaka realizacija koristi manje od 120k reči.

Memorijski prostor ciljnih platformi je fizički ograničen na 128k reči. Granica od 120k

reči je odabrana imajući u vidu postojanje operativnog sistema, čija se memorijska

zahtevnost procenjuje da je manja od 8k reči.

Sumarni pregled FLOAT TMS320C6727

FIXED32 MIPS 4KEc

FIXED20 MAS35xx

Memorija [memorijskih re či]

107713 113076 116967

Memorija [%] 88 92 95

Broj operacija u sekundi

36182006

64679923

70813322

Opterećenje procesora [%]

92 - -

Tabela 6.2 Sumarni pregled upotrebe memorije i broja potrebnih aritmetičkih operacija

Primećuje se da usled promene tipa aritmetike potreban memorijski prostor se

povećava, zajedno sa brojem izvršenih operacija. Razlog takvog ponašanja je održanje


131

kvaliteta izlaznog signala. Da bi se obezbedila dovoljna tačnost u poreñenju sa

realizacijom u pokretnom zarezu, potrebno je prilagoditi postupak aritmetici u

nepokretnom zarezu. Promene u postupku (npr. emulacija pokretnog zareza na nivou

bloka podataka) najčešće zahtevaju uvoñenje dodatnih programskih promenljivih i

koraka obrade, što dovodi do povećanja složenosti rešenja, ali i potencijalne

degradacije kvaliteta [Keča].

Tabela pokazuje da je broj operacija u sekundi realizacije koja koristi

aritmetiku u pokretnom zarezu 61036⋅=devO , gornja granica je

6max 1045⋅=devO ,

stoga je uslov maxdevdev OO < zadovoljen. Očekivani faktor opterećenja procesora je:

%80ˆmax

_arg ≈=dev

devdevett O

Oα

Stvarno opterećenje procesora je mereno nakon realizacije na ciljnoj

platformi. Realizacija algoritama koja koristi aritmetiku u pokretnom zarezu je

prevedena postojećim razvojnim alatima za ciljnu platformu TMS320C6727.

Opterećenje procesora je prvobitno mereno u simulatoru, a nakon toga potvrñeno i na

fizičkoj arhitekturi, i iznosi:

%92_arg ≈devettα

Stvarno opterećenje MIPS i MAS platformama nije mereno s obzirom da bi

konačna realizacija na tim ciljnim platformama zahtevalo značajno vreme. U okviru

teze ispitan je uticaj aritmetike na kvalitet obrade, i pokazano je da upotreba manje

precizne aritmetike dovodi do angažovanja značajnijih resursa u cilju održanja

kvaliteta. Takoñe, ustanovljeno je da konverzija algoritma iz pokretnog zareza u

nepokretni zarez zahteva značajne napore koji su upravo zavisni od mogućnosti ciljne

platforme: konverzija u aritmetiku sa manjom tačnošću zahteva više vremena.

Moguće je generisati i detaljan izveštaj po tipovima pojedinih operacija i

pozivima bibliotečkih matematičkih funkcija, kao u tabeli 6.3.

Na osnovu izveštaja moguće je identifikovati kritične bibliotečke funkcije,

čijom optimizacijom je moguće smanjiti ukupan broj izvršenih operacija. U slučaju

realizacije u nepokretnom zarezu, pomenute funkcije su zamenjene ručno

optimizovanima. One se oslanjaju na predefinisane tabele, te se broj poziva funkcija ne

beleži, nego se operacije potrebne za realizaciju direktno ubrajaju u osnovne operacije.


132

Broj operacija FLOAT FIXED32 FIXED20

* 10760950 14026355 0 / 496938 421133 0

+,-,pomeranje 12693510 43133311 53706593 MAC 0 7099124 17106729

Broj poziva funkcijama

Pow 29 0 0

Sin 172 0 0 Cos 143 0 0

atan2 29 0 0 Sqrt 28647 0 0 Log 29400 0 0

Ukupan broj operacija

36182006

64679923

70813322

Tabela 6.3 Detaljan izveštaj po tipovima operacija i matematičkim funkcijama

Programska biblioteka omogućuje i sakupljanje informacija o složenosti i po

modulima obrade. Sa stanovišta analize sistema, interesantno je obaviti dato merenje

za pojedine postupke obrade. Na slici prikazan je relativni utrošak memorije po

blokovima obrade:

Memorija FLOAT [%]

FIXED32 [%]

FIXED20 [%]

MC-AEC 38 39 32

DOA 6 8 11 SD-BF 14 16 11

NR 14 10 14 PF 3 4 5

AGC 1 5 1

FW 24 18 26 Tabela 6.4 Relativni udeo pojedinih modula obrade u ukupno potrebnoj memoriji

Blokovi obrade su označeni skraćenicama koje ukazuju na funkcionalnost

bloka, pri čemu FW (engl. framework) sadrži globalnu memoriju potrebnu za rad

sistema (npr. ulazno/izlazni baferi, konfiguracija sistema, itd.). Memorijski

najzahtevniji blok obrade jeste AEC, iz razloga što se u njemu koriste signali svih

mikrofonskih elemenata, a i za čuvanje koeficijenata adaptivnih struktura je potrebno

rezervisati značajan memorijski prostor. Postupci koji se obavljaju nakon prostornog


133

filtriranja su jednokanalni, tako da je njihov rad potrebno odvojiti manje radne

memorije.

Slika 6.2 Rezultati merenja angažovane memorije po blokovima obrade

Na dijagramu se jasno vidi da su modul za lociranje aktivnog govornika i

modul za potiskivanje šuma dosta nepogodni za realizaciju na arhitekturi sa

nepokretnim zarezom, i zahtevaju dodatnu memoriju za smeštanje pomoćnih

promenljivih. Naravno, to dovodi i do povećanog broja operacija.

Informaciju o utrošku memorije pojedinih blokova je moguće iskoristiti

prilikom dimenzionisanja novog sistema na osnovu predloženog rešenja, koji uključuje

samo pojedine blokove obrade. Takoñe, ukoliko se radi o sistemu sa drugačijim

brojem mikrofona, utrošak memorije višekanalnih postupaka je moguće skalirati na

odgovarajući način.

Gore navedeno važi i za kompleksnost pojedinih modula sa stanovišta broja

izvršenih operacija. Iz tabele se jasno vidi da je udeo broja izvršenih operacija u

modulima DOA i NR značajno porastao u slučaju aritmetika sa nepokretnim zarezom.

Da bi se održala tačnost i pokrio željeni dinamički opseg, uvedene su dodatne


134

programske promenljive i odgovarajuće obrade (npr. pokretni zarez na nivou bloka, ili

emulacija dvostruke tačnosti).

Operacije FLOAT [%]

FIXED32 [%]

FIXED20 [%]

MC-AEC 49 28 42

DOA 13 20 23 SD-BF 6 6 5

NR 6 10 14 PF 2 4 5

AGC 0 2 1

FW 24 30 10

Tabela 6.5 Relativni udeo pojedinih modula obrade u broju ukupno izvršenih operacija

Računski najzahtevniji blok je potiskivanje eha (AEC), što je i očekivano

imajući u vidu da se radi o višekanalnom algoritmu, i da se uvažavaju i dva signala

eha. Primenjeni NLMS algoritam je značajno jednostavniji od AP ili RLS, stoga se

pokazao kao ispravan izbor. Primena AP ili RLS bi znatno povećala računsku

složenost sistema, a posledica bi bila nemogućnost rada u realnom vremenu.

Slika 6.3 Rezultati merenja broja izvršenih operacija po blokovima obrade


135

Iz gornjih rezultata zaključuje se da predloženo programsko rešenje

zadovoljava ograničenja ciljnih platformi u pogledu složenosti i memorijske

zahtevnosti, stoga je rad u realnom vremenu na odabranim platformama omogućen.

6.2 Merenje ta čnosti bloka za odre ñivanje položaja govornika

Lociranje aktivnog govornika se obavlja na osnovu signala mikrofonskog niza u

odgovarajućem bloku za odreñivanje pozicije aktivnog govornika. U postupku se

obradom pojedinačnih parova mikrofona, a zatim njihovom kombinacijom se dobija

relativni ugao u odnosu na osu mikrofonskog niza.

U cilju procene tačnosti odreñivanja pozicije, izvedene su dve serije merenja za

različita rastojanja L1 i L2. U toku merenja korišćena je realizacija algoritama u

programskom jeziku C, koja koristi aritmetiku u pokretnom zarezu.

Rezultati prve serije merenja je prikazana na slici 6.4. Nakon poreñenja teorijski

izračunatih uglova i merenih uglova, ustanovljeno je da je slaganje rezultata veoma

dobro, i da su odstupanja reda veličine nekoliko stepeni.

Slika 6.4 Rezultati merenja tačnosti lociranja aktivnog govornika – serija A

U drugoj seriji rastojanje izmeñu mikrofonskog niza i izvora korisnog signala je

povećano, sa ciljem da se ispita ponašanje sistema kada je mikrofonski niz van

direktnog polja izvora korisnog signala.


136

Slika 6.5 Rezultati merenja tačnosti lociranja aktivnog govornika – serija B

Rezultati pokazuju veoma dobro slaganje sa očekivanim vrednostima i na

povećanom rastojanju, te se pouzdanost rezultata bloka za odreñivanje pozicije

aktivnog govornika može smatrati veoma dobrom. Detektovana odstupanja ne utiču

značajno na rad ostalih blokova koji koriste tu informaciju, jer primenjeni algoritmi

(npr. prostorno filtriranje) nisu osetljivi na tako mala odstupanja.

6.3 Merenje kvaliteta izlaznog signala objektivnim merama

S obzirom da se u tezi istražuje integralno rešenje namenjeno upotrebi u

složenim akustičkim ambijentima, ideja je da se kvalitet sistema ocenjuje na osnovu

kvaliteta izlaznog signala. Za potrebe merenja kvaliteta, potrebno je definisati

reprezentativni skup testnih signala. Pomenuti signali treba da pokriju tipične uslove

upotrebe sistema, ali i razmatrane granične slučajeve. Na taj način se obezbeñuje

ponovljivost testiranja, što doprinosi robusnosti konačnog rešenja.

Kao što je već ranije navedeno, glavne smetnje koje se razmatraju tokom

istraživanja su:

• akustički eho, koji nastaje od dvokanalnog lokalnog izvora zvuka,

• efekat reverberacije (T60 je 300 ms),

• nizak odnos signal-šum usled velikog rastojanja (do 4 metara)

govornika od mikrofonskog niza, i

• postojanje prostorno rasporeñenih izvora smetnji u ambijentu.


137

Da bi se formirao odgovarajući skup testnih signala, potrebno je testnim

slučajevima pokriti široki spektar mogućih postavki i parametara, počevši od pozicije

pojedinih izvora, njihovog nivoa, tipa smetnji, itd.

Testni signali treba da sadrže sve informacije koje su na raspolaganju sistemu u

toku rada. To su prvenstveno signali mikrofona i signali lokalnog eha. Da bi obezbedili

željene uslove rada, potrebno je sistem pobuditi raznim signalima. Pobude u

razmatranoj postavci su:

• izvor korisnog signala,

• signali akustičkog eha, i

• prostorno lociran šum.

Za potrebe snimanja testnih signala, adaptirana je prostorija, kao na slici 6.6. U

cilju postizanja željene reverberacije, zidovi su prekriveni akustičkim apsorberima. Na

taj način, vreme reverberacije je smanjeno na 300 ms.

Izvori signala su modelirani visokokvalitetnim zvučnicima. To su:

Kanal Sadržaj Nivo

1 Korisni signal – pozicija 1 70 dBA

2 Korisni signal – pozicija 2 70 dBA

3 Signal šuma 45 dBA

4 Signal šuma 45 dBA

5 Signal eha, levi kanal 65 dBA

6 Signal eha, desni kanal 65 dBA Tabela 6.6 Raspored pobuda po kanalima

Kao korisni signal korišćena su dva različita govorna signala (muški i ženski),

različitih nivoa. Izvori korisnog signala su postavljeni na različite pozicije naspram

mikrofonskog niza. Za generisanje šuma korišćena su dva signala, model stacionarnog

šuma i model nestacionarnog šuma. Eho je generisan pomoću različitih signala govora

i muzike. U prostoriji je uvek bio prisutan ambijentalni šum.

Nivoi pojedinih signala su postavljeni imajući u vidu krajnju upotrebu, tako da

je snaga govornika postavljena na tipičnih 70 dBA, snaga šuma je postavljena 5 dBA

iznad nivoa šuma prostorije od 40 dBA. Snaga signala eha je odabrana tako da

obezbeñuje dobru čujnost na poziciji govornika (65 dBA). Nivoi signala su mereni

pomoću fonometra Voltcraft 323.


138

Sto

Vrata

2m

Slika 6.6 Grafički prikaz konfiguracije prostorije za snimanje testnih signala

Opis pojedinih testnih slučajeva dat je u sledećoj tabeli:

Testni slučaj

Korisni signal Pozicija izvora

korisnog signala

Signal eha Šum

1. Govor1 1 EhoGovor1 - 2. Govor1+4dB 1 EhoGovor2 - 3. Govor2 2 EhoGovor1+4dB - 4. Govor2+4dB 2 EhoGovor2 - 5. Govor1 1 EhoGovor1+4dB - 6. Govor2+4dB 2 EhoGovor2+4dB - 7. Govor1 1 EhoGovor1 Stacionarni 8. Govor1 1 EhoGovor2 Stacionarni 9. Govor2+4dB 2 EhoGovor1 Nestacionarni 10. Govor2 2 EhoGovor2+4dB Nestacionarni 11. Govor1 1 EhoGovor1 Stacionarni 12. Govor1+4dB 1 EhoGovor2 Stacionarni 13. Govor2 2 EhoGovor1 Nestacionarni 14. Govor2 2 EhoGovor2+4dB Nestacionarni 15. - - EhoGovor1 - 16. - - EhoGovor2+4dB - 17. - - MusicF1 Stacionarni 18. - - EhoMuzika2 Stacionarni 19. - - EhoMuzika3 Nestacionarni 20. - - EhoMuzika4 Nestacionarni 21. Govor1 1 EhoMuzika1 Stacionarni 22. Govor2+4dB 2 EhoMuzika2 Stacionarni 23. Govor1 1 EhoMuzika3 Nestacionarni


139

Tabela 6.7 Pregled testnih slučajeva

U prostoriji je postavljen specijalan računar za potrebe generisanja pobude i

snimanja testnih signala. Računar je specijalno odabran, sa veoma niskim nivoom

šuma, da ne bi uticao na ambijent. Za svaki testni slučaj, formiran je višekanalni

pobudni signal, sa rasporedom kanala kao u tabeli 6.6. Takav pobudni signal je

reprodukovan na računaru sa instaliranom zvučnom karticom M-Audio Delta 1010LT,

sa 8 analognih ulaza i 8 analognih izlaza. Kartica je u stanju da sinhrono reprodukuje

višekanalne signale. Na karticu su povezani zvučnici koji predstavljaju pojedine izvore

zvuka, tako da je odgovarajućim formiranjem pobudnih signala moguće obezbediti

željenu akustičku scenu.

Ista kartica se koristi i za akviziciju podataka. Signali mikrofonskog niza,

zajedno sa signalima eha, povezani su na analogne ulaze zvučne kartice. Istovremeno

sa reprodukcijom pobude, snimaju se i signali mikrofona i eha. Frekvencija odabiranja

je 8 kHz. Raspored signala u snimljenim testnim signalima dat je u sledećoj tabeli:

Kanal Sadržaj

1 Mikrofon 1

2 Mikrofon 2

3 Mikrofon 3

4 Mikrofon 4

5 Mikrofon 5

6 ne koristi se

7 Signal eha, levi kanal

8 Signal eha, desni kanal Tabela 6.8 Raspored testnih signala po kanalima

Testni slučaj

Korisni signal Pozicija izvora

korisnog signala

Signal eha Šum

24. Govor2 2 EhoMuzika4 Nestacionarni 25. Govor1 1 EhoMuzika1 - 26. Govor2 2 EhoMuzika2 - 27. Govor1+4dB 1 EhoMuzika3 - 28. Govor2 2 EhoMuzika4 - 29. Govor2 1 - - 30. Govor1 1 - -


140

S obzirom na veliki broj testnih slučajeva i dugotrajnog snimanja testnih

signala, proces generisanja pobude i snimanja odziva je automatizovan odgovarajućom

programskom podrškom, koja u toku rada obavlja korake ilustrovane na slici:

Slika 6.7 Koraci automatskog snimanja testnih signala

Pre početka rada potrebno je zadati opise testnih slučajeva u obliku tabele, i

odabrati odgovarajuće signale koji će se koristiti kao izvori smetnje ili korisnog

signala. Nakon toga, programska podrška automatski generiše pobudne signale,

reprodukuje ih, i snima odziv u odgovarajuće višekanalne WAV datoteke. Njih je

moguće koristiti u postojećim programima za obradu zvuka, ali i programskim alatima

Matlab ili Mathematica.

Testni signali predstavljaju reprezentativne slučajeve upotrebe sistema, i

moguće ih je koristiti tokom razvoja postupaka obrade. Tipično, ceo skup se koristi za

proveru kvaliteta sistema u ključnim momentima razvoja.

Slika 6.8 Postupak objektivnog merenja

Obrada signala

Objektivno merenje

Izlazni signal

PESQ

SNRE

ERLE

Testni signal


141

Za ocenu kvaliteta objektivnim merama, koriste se testni signali u kojima

postoji i izvor korisnog signala i eha, što daje skup od 22 signala. Svaki testni signal je

obrañen razvijenim postupkom, i na osnovu testnog signala i izlaznog signala je

obavljeno objektivno merenje. Postupak je prikazan na slici 6.8.

Nakon obrade testnih i izlaznih signala, dobija se izveštaj o rezultatima merenja

za svaki testni signal. Rezultati merenja PESQ su prikazana na slici. Na grafiku je

prikazano nekoliko serija:

- FLOAT – realizacija za DSP TMS320C6727, koja koristi aritmetiku u

pokretnom zarezu jednostruke preciznosti,

- FIXED32 – realizacija za MIPS 4KEc, koja koristi 32-bitnu aritmetiku

u nepokretnom zarezu,

- FIXED20 – realizacija za MAS 35xx, koja koristi 20-bitnu aritmetiku u

nepokretnom zarezu.

Različite implementacije su postigle veoma slične rezultate. Smanjenje tačnosti

aritmetike nije bitno uticala na ocenu PESQ. Tokom razvoja cilj je bio očuvanje

kvaliteta, čak i po cenu povećanja količine potrebnih resursa kod aritmetika sa

nepokretnim zarezom.

Slika 6.9 Rezultati merenja PESQ nad skupom ulaznih testnih signala

Srednja vrednost PESQ MOS ocene je 2.55, a sve vrednosti su u opsegu 2.1 do

2.8. Pomenuta PESQ ocena je na originalnoj skali izmeñu slabog i srednjeg kvaliteta,

ali se mora uzeti u obzir i činjenica da je PESQ projektovan za merenje subjektivnog


142

kvaliteta u sistemima sa samo električnim spregama. U razmatranom sistemu postoji i

akustički put od govornika do mikrofona, što unosi značajnu količinu smetnji, koja je

delom prisutna i u izlaznom signalu. To dovodi do smanjenja PESQ ocene, iako je

subjektivni utisak kvaliteta (a i razumljivost) izlaznog signala mnogo bolji.

Relativno male promene PESQ ocene uz prisustvo šuma mogu da znače

značajnije promene u subjektivnom kvalitetu i razumljivošću, ali je bitna činjenica da

su one uvek dobro korelisane.

ERLE odslikava meru potiskivanja eha. Rezultati merenja ERLE, dati na slici

6.10, su u okvirima očekivanja – potiskivanje eha je u opsegu 20dB do 30 dB.

Pokazuje se da ova mera iskazuje značajnije razlike izmeñu realizacija sa različitim

aritmetikama. Realizacija u pokretnom zarezu i 32-bitnom nepokretnom zarezu daju

veoma slične rezultate (u proseku 27.3 dB), dok realizacija sa 20-bitnom aritmetikom

obezbeñuje za 3.5 dB slabije rezultate (u proseku 23.6 dB).

Razlog za takvo ponašanje leži u činjenici da se tokom prilagoñavanja

potiskivača eha korak adaptacije stalno smanjuje, te u stanju blizu optimuma korak

postaje premali za adekvatnu realizaciju sa nedovoljno tačnom aritmetikom, te sistem

osciluje oko optimuma. Taj efekat je ublažen primenom raznih tehnika (npr. blok

pokretni zarez), ali je dinamika signala u okviru jednog bloka prevelika za postizanje

tačnosti pokretnog zareza.

Slika 6.10 Rezultati merenja ERLE nad skupom ulaznih testnih signala


143

Slično ponašanje se primećuje i kod mere SNRE. Potiskivanje ukupnog šuma

je izmeñu 24 dB i 30 dB, sa prosečnom vrednošću od 28 dB za realizaciju u pokretnom

zarezu i 32-bitnom nepokretnom zarezu, i 26 dB za realizaciju u 20-bitnom

nepokretnom zarezu.

Slika 6.11 Rezultati merenja SNRE nad skupom ulaznih testnih signala

Na osnovu rezultata može se zaključiti da 32-bitna aritmetika u nepokretnom

zarezu obezbeñuje iste rezultate kao i aritmetika u pokretnom zarezu, uz neznatno

povećanje potrebnog memorijskog prostora ali značajnijeg povećanja broja računskih

operacija. Sa druge strane, realizacija sa 20-bitnom aritmetikom u nepokretnom zarezu

se pokazala inferiornom naspram ostalih realizacija, jer uz dodatno povećanje potrebne

memorije i računskih operacije ipak ne obezbeñuje isti kvalitet.

Implementacija obrade na arhitekturi sa 32-bitnom aritmetikom u nepokretnom

zarezu zahteva dodatno vreme za prilagoñenje opsega, ali su rezultati bliski

referentnima. Realizacija u 20-bitnoj aritmetici zahteva još više napora, jer je potrebno

uneti značajne modifikacije u postupak usled smanjenog opsega i tačnosti.

Iako se 20-bitna aritmetika pokazala slabije u merama ERLE i SNRE, rezultati

PESQ su približni. Razlog za to je činjenica da se PESQ meri u segmentima kada

postoji korisni signal, dok se SNRE meri isključivo kada nema korisnog signala. ERLE

se meri samo u momentima kada postoji signal eha. Svi rezultati su dati kao prosečni

za ceo testni signal, te se uticaj slabijeg potiskivanja šuma i eha u momentima lokalne


144

govorne aktivnosti na PESQ maskira. Takoñe, agresivnije potiskivanje smetnji može

da unese degradaciju korisnog signala.

6.4 Subjektivno merenje kvaliteta obra ñenog signala

U fokusu teze nalazi se razvoj sistema namenjen širokom krugu korisnika. Iz

tog razloga su unapred odabrane ciljne platforme, čije mogućnosti postavljaju okvire

razvoja postupaka obrade. Potrebno je odabrati postupke koji se mogu realizovati

resursima koji su na raspolaganju, a sa druge strane obezbeñuju željeni kvalitet,

prvenstveno iz aspekta krajnjeg korisnika. U tezi se kao relevantni pokazatelj kvaliteta

smatra razumljivost izlaznog govornog signala.

Zbog složenog problema prepoznavanja govora primenjeno je testiranje

subjektima. Da bi se eliminisali faktori koji potencijalno utiču na rezultat (na primer

zaključivanje na osnovu konteksta), kao sadržaj testiranja odabrani su logatomi – skup

dvosložnih reči, bez značenja.

Slika 6.12 Konfiguracija za merenje razumljivosti

Merenje razumljivosti se izvodi na sledeći način:

• U razdvojenim akustičkim ambijentima se postavi po jedan sistem

(slika 6.12). Sistemi su TV ureñaji sa integrisanim sistemom za

slobodnu govornu komunikaciju zasnovanu na TMS320C6727, i

mogućnošću prenosa govora preko mreže (VoIP).


145

• U prvom ambijentu se postavlja konfiguracija koja se koristila za

snimanje testnih signala, pri čemu su korisni signali logatomi.

Istovremeno sa logatomima, reprodukuje se i eho i šum. Razvijeni

sistem obrañuje signal mikrofonskog niza, a izlazni signal (poboljšani

govorni signal) se prenosi sa VoIP preko mreže do druge platforme

(Ambijent 2).

• U drugom ambijentu su testni subjekti, na udaljenosti od 3 metra od

sistema, i koji slušaju dolazni govor koji se reprodukuje na zvučnicima

lokalnog sistema. Subjekti zapisuju logatome kako su ih razumeli.

• Nakon završetka testa, zapisi subjekata se poredi sa tabelom logatoma, i

generiše se odgovarajući izveštaj o poklapanju stvarnih i očekivanih

rezultata.

Subjekat Grupa logatoma Broj prepoznatih logatoma

1 1 25

2 1 22

3 2 21

4 2 18

5 3 28

6 3 32

7 4 13

8 4 26

9 5 29

10 5 34

11 6 35

12 6 19

13 7 28

14 7 29

15 8 20

16 8 19

17 9 25

18 9 25

19 10 21

20 10 22

Prosek 24,6

Prosek [%] 49,1

Tabela 6.9 Rezultati prepoznavanja logatoma


146

Tokom testiranja koristi se 10 tabela od po 50 logatoma. Za potrebe testiranja

angažovano je 20 subjekata. Pokazalo se da postoji velika razlika izmeñu subjekata u

pogledu uspešnosti prepoznavanja, stoga u svakom testu učestvuju dva subjekta. Na taj

način se popravlja statistička pouzdanost merenja. Rezultati testiranja su dati u tabeli

6.9.

Prosečno prepoznavanje logatoma je 24,6 reči od ukupnih 50, što je veoma

blisko ciljnom prepoznavanju od 50%. Može se primetiti da rezultati značajno zavise

od korišćene tabele logatoma, ali zavise i od karakteristika samih subjekata.

Slika 6.13 Grafički prikaz rezultata prepoznavanja logatoma

Da bi se procenio dobitak koji sistem unosi u komunikaciju, izvedene su još

dve serije merenja:

• u jednom slučaju, sve smetnje su ukinute, tako da je merenje izvedeno u

optimalnim uslovima. Ovaj testni slučaj ukazuje na maksimalni učinak

sistema.

• u drugom slučaju, smetnje su bile prisutne, ali je obrada bila isključena.

Ovaj testni slučaj obezbeñuje podatak o najnižem očekivanom procentu

prepoznavanja logatoma.

U idealnom slučaju, procenat prepoznavanja je skoro 70%, što je u saglasnosti

sa podatkom da 75% razumljivosti logatoma obezbeñuje potpunu razumljivost u

svakodnevnom govoru, tj. veoma dobar kvalitet.


147

U najgorem scenariju, prepoznaje se svega oko 20% logatoma. Pri tome

potrebno je napomenuti da u momentima pauze eho signala uslovi su bliski idealnima,

tako da najgori slučaj zavisi od sadržaja eho signala.

Slika 6.14 Rezultati prepoznavanja logatoma u graničnim konfiguracijama

Razvijeno rešenje po učinku se pozicionira izmeñu idealnog i najgoreg slučaja,

ali je bliži idealnom učinku. Razumljivost logatoma od skoro 50% obezbeñuje veoma

dobru razumljivost u svakodnevnom govoru.

6.5 Testiranje rešenja od strane eksperata u oblast i

potroša čke elektronike

IFA je najveći sajam u Evropi na kojem se izlažu najnoviji sistemi i ureñaji iz

oblasti multimedija i telekomunikacija. Prva maketa sistema za interaktivnu

komunikaciju zasnovanu na TV ureñaju je prikazana na tom sajmu 2005. godine u

Berlinu u saradnji sa kompanijom Micronas. Izloženi sistem je predstavljao spoj TV

ureñaja i videotelefona. Kao komunikacioni kanal korišćena je Internet veza. Funkcije

sistema su dostupne koristeći TV ureñaj kao spregu. Mogućnosti sistema su:

• Obezbeñivanje slobodne govorne veze pomoću VoIP tehnologije

• Dodatno poboljšanje govornog signala

o Potiskivanje eha i šuma sa jednim mikrofonom


148

o Lociranje pravca aktivnog govornika pomoću dva mikrofona

• Mogućnost prenosa i prikaza pokretne slike sa dodatnom obradom slike

kamere:

o Detekcija lica govornika na osnovu informacija o pravcu

o Inteligentno praćenje osobe pokretom kamere, u kombinaciji sa

zvučnim lociranjem

o Vizuelno izdvajanje lika aktivnog govornika i prenos na drugu

stranu

Dijagram sistem je dat na slici 6.15. Sastoji se iz dva glavna dela:

- TV platforme i

- dodatnog modula koji obavlja audio/video obradu i prenos podataka

preko mreže.

MHS v2.0

MDE-B Based

MHS v2.0

MDE-B Based

SatelliteAntenna

Cable VideophoneAdd-on

Card

VideophoneAdd-on

Card 4x Mic In

Control

VP Video (PiP)

TV Audio

Video out

Line Out

Video in

Additional Peripherals(Camera pod, lift control)

Remote Control

Network

TV program with OSD and/or videophone PiP

TV program audio mixed with

videophone audio

Slika 6.15 Dijagram sistema prikazanog na IFA 2005 (preuzeto iz [IFA2005])

Modul poseduje i video kameru kao i dva mikrofona, od koji se signal jednog

prenosi na drugu stranu, dok se mikrofonski par koristi za lociranje aktivnog

govornika. Kamera je pozicionirana iznad TV prijemnika. Zvučnici TV ureñaja se

koriste za reprodukciju govora, a ekran za prikaz slike udaljene strane (slika 6.16).

Kontrola sistem se obavlja daljinskim upravljačem pomoću menija TV ureñaja.


149

Slika 6.16 Izgled makete prikazane na IFA 2005

Posetioci su jednoznačno ocenili sistem kao veoma napredan, i koji je na

pogodan način integrisan sa TV tehnologijom. Prikazane mogućnosti sistema u

pogledu prenosa govora i audio/vizuelnog praćenja su pozitivno ocenjene. Ipak,

upotreba sistema na rastojanju od nekoliko metara (tipičnog za gledanje TV programa)

izaziva degradaciju kvaliteta govora. Eksperti su ukazali na činjenicu da je kvalitet

govora dominantan u videotelefonskim sistemima, čak iako je realizovan niz naprednih

(drugih) funkcija.

CeBIT je najveći svetski sajam na kojem se izlažu najsavremenija rešenja

digitalnih IT i telekomunikacionih sistema potrošačke elektronike. U martu 2006.

godine na sajmu CeBIT u Hanoveru prikazan je sistem koji omogućuje povezivanje

TV ureñaja sa računarom, i time omogući korišćenje VoIP programa na računaru za

povezivanje sa udaljenim korisnicima. TV ureñaj se u toj postavci koristi kao

kontrolna sprega, ali i u kombinaciji sa mikrofonom kao zvučni podsistem.


150

Slika 6.17 Izgled makete prikazane na CeBIT 2006

Sistem je prikazan na slici 6.17. TV ureñaj je proširen sa mikrofonom i dodatnim

modulom koji obezbeñuje USB vezu ka računaru. Nakon povezivanja, TV ureñaj sa

modulom se računaru predstavlja kao kombinacija slušalice i mikrofona (engl.

headset), sa mogućnošću kontrole VoIP programa na računaru.

USB

(Control and Audio)

TV platformAdd-on module

Slika 6.18 Dijagram sistema prikazanog na CeBIT 2006 (preuzeto iz [CeBIT2006]) )

Upravljanje sistema je veoma jednostavno, pomoću menija TV platforme i

daljinskog upravljača. Detalji VoIP programa na računaru su sakriveni od korisnika, i

korisnička sprega se svodi na jednostavne menije nalik na standardne telefone.


151

Reakcije eksperata koji su prisustvovali prezentaciji su pozitivno ocenili ideju i

jednostavnost rukovanja, ali kvalitet govora je bio zadovoljavajući samo u bliskom

polju. U akustičkom okruženju sajma, kvalitet zvuka govornika na rastojanju

posmatranja TV ureñaja nije bio zadovoljavajući.

U okviru ove teze istražena je realizacija akustičkog podsistema zasnovanog na

mikrofonskom nizu. Ovim pristupom moguće je značajno potisnuti smetnje koje se

javljaju u ranije opisanim uslovima.

Maketa realizovanog sistema je korišćena u nizu prezentacija sa GSM telefonom

i VoIP aplikacijom na PC računaru kao komunikacionim kanalom. Uspešno je

prezentovana i na meñunarodnom sajmu IFA u Berlinu 2007. godine pod okriljem

firme Micronas. Maketa je detaljnije opisana u poglavlju 5.5.

Slika 6.19 Scenario upotrebe sistema prikazanog na IFA 2007 (preuzeto iz [IFA2007]) )

Opšti utisak eksperata koji su evaluirali sistem je veoma dobar, i što se tiče

kvaliteta zvuka, ali i mogućnosti sistema. Testovi u realnim uslovima pokazuju da je

željeni nivo kvaliteta govora postignut, i da je sistem moguće primeniti u ureñajima

namenjenim širokom krugu korisnika. U okviru prezentacija uspešno su obavljani

telefonski razgovori sa raznim sagovornicima, sa rastojanja od nekoliko metara, u

veoma nepovoljnom akustičkom ambijentu sajma. Realizovana sprega sa TV ureñajem


152

je omogućila veoma jednostavno i intuitivno korišćenje, što je veoma bitan faktor za

proizvod namenjen širokom krugu korisnika.

6.6 Poreñenje sa drugim rešenjima

Sa ciljem poreñenja sa postojećim rešenjima analizirano je nekoliko postojećih

proizvoda. Na tržištu postoji znatno više proizvoda, ali detalji i karakteristike mnogih

nisu dostupni. Odabrani su sledeći proizvodi sa poznatim karakteristikama:

• Mikrofonski niz za govornu komunikaciju Voice Tracker kompanije

Acoustic Magic [ProdVoiceTracker],

• Programska biblioteka za obradu signala mikrofonskog niza Dual

Microphone Array - DMA kompanije GritTec [ProdGritTec],

• Namensko integrisano kolo FM1182 kompanije ForteMedia [Prod],

• Programska biblioteka IntelliSonic za obradu signala mikrofonskog niza

kompanije Knowles Acoustics.

Ureñaj Voice Tracker kompanije Acoustic Magic je namenjen upotrebi u

kombinaciji sa računarom, za potrebe govorne komunikacije i prepoznavanja govora.

Predstavlja visoko-usmereni mikrofon sa mogućnošću lociranja aktivnog govornika i

izdvajanja njegovog glasa uz potiskivanje prostorno rasporeñenih izvora smetnji. Ne

podržava potiskivanje eha. Zasniva se na DSP kompanije Analog Devices ADSP-

2185M. Ureñaj se lako povezuje sa računarom pomoću analognog izlaza.

Kompanija GritTec nudi programsku biblioteku pod nazivom Dual Microphone

Array za obradu signala dvomikrofonskog niza [ProdGritTec]. Obrada je orijentisana

ka potiskivanju prostornih izvora smetnji i stacionarnog šuma. Biblioteka koristi

aritmetiku u pokretnom zarezu, i realizovana je u programskom jeziku C++. Izvršava

se na PC platformi, ali postoji mogućnost portovanja na druge arhitekture (ARM,

DSP).

ForteMedia je proizvoñač integrisanih kola za slobodnu govornu komunikaciju.

Integrisano kolo FM1182 je namenjeno za obradu signala mikrofonskog niza

sačinjenim od dva bliska mikrofona. Kolo se sastoji od DSP procesora sa dodatnim

namenskim modulom za ubrzanje izvoñenja dela obrade signala. Obezbeñuje funkcije

potiskivanja eha, pojačanje signala govornika na osi mikrofonskog niza, kao i

potiskivanje ambijentalnog šuma.


153

Programska komponenta IntelliSonic kompanije Knowles Acoustics se integriše

u operativne sisteme Microsoft Windows i obezbeñuje obradu mikrofonskog niza. U

obradu je uključeno potiskivanje eha, prostorno filtriranje na osi niza, i potiskivanje

šuma.

U daljem tekstu će se odabrana rešenja analizirati po sledećim kriterijumima:

- mogućnostima

- kompleksnošću i

- kvalitetu.

U cilju preglednosti rezultati se prikazuju tabelarno. U tabeli 6.10 prikazane su

mogućnosti razmatranih rešenja. Mogu se identifikovati dve grupe rešenja:

- jedna grupa proizvoda teži da poboljša usmerenost karakteristike

mikrofona odgovarajućim postupcima, pri čemu se u pogledu

potiskivanja eha oslanjaju na programsku podršku VoIP.

- druga grupa predstavlja kompletan sprežni sistem za govornu

komunikaciju, uključujući i potiskivanje eha, ali su često proizvodi

limitirani u pogledu prostornog filtriranja (samo na osi mikrofonskog

niza).

Iz tabele se vidi da rešenje SEA2M pokriva širok spektar mogućnosti, i da ga je

moguće primeniti u velikom broju scenarija.

Postupci

Rešenje

Potiskivanje

eha

Lociranje

govornika

Prostorno

filtriranje

Potiskivanje

šuma

SEA2M + (stereo) + + +

Voice Tracker - + + +

Dual Microphone Array - - +1 +

Fortemedia FM1182 + (mono) - +2 +

IntelliSonic + - +2 +

NAPOMENE: 1 Pravac prostornog filtriranja se zadaje ručno 2 Prostorno filtriranje se obavlja fiksno na osi mikrofonskog niza

Tabela 6.10 Pregled mogućnosti pojedinih rešenja

Kompleksnost rešenja se procenjuje na osnovu nekoliko pokazatelja platforme:

- radni takt procesora i

- potrebna memorija (ROM i RAM).


154

Pokazatelji se moraju razmatrati zajedno sa ostalim karakteristikama sistema koji

utiču na složenost, npr. primenjeni postupci i broj mikrofona. Pregled je dat u sledećoj

tabeli:

Karakteristika

Rešenje

Broj

mikrofona

Brzina

procesora

ROM RAM Platforma

SEA2M 5 200 MHz 110 kW 120 kW

Texas Instr.

TMS320C6727

Voice Tracker 8 75 MHz 16 kW 16 kW

Analog Devices

ADSP-2185M

Dual Microphone

Array 2 - 100 kB 120 kB PC x86

Fortemedia

FM1182 2 40 MHz1 40 kB2 20 kB2

ForteMedia

FM1182

IntelliSonic 2 800 MHz3 - 128 MB3 PC x86

NAPOMENE: 1 Procesor poseduje namenski deo koji ubrzava obavljanje pojedinih blokova

obrade 2 Procena na osnovu sličnih integrisanih kola istog proizvoñača 3 Preporučena konfiguracija računara sa operativnim sistem, očekivana

opterećenost je do 10%

Tabela 6.11 Pregled složenosti odabranih rešenja

Ukoliko se uvaže i mogućnosti i broj mikrofona raznih rešenja, pokazuje se da je

SEA2M sa stanovišta kompleksnosti porediv sa postojećim rešenjima. Tako na primer,

ukoliko se isključi potiskivanje eha u SEA2M, opterećenost procesora i potrošnja

memorije se smanje skoro dva puta. Tada je opterećenost u rangu ostalih rešenja (npr.

Voice Tracker), dok je potrošnja memorije i dalje značajno viša, ali je potrebno

napomenuti da je SEA2M namenjen okruženju sa dužim vremenom reverberacije, što

uvodi upotrebu dužih filtarskih struktura.

Pokazatelji kvaliteta sistem pokazuju slične vrednosti. Meru potiskivanja eha je

realno očekivati u opsegu od 20 do 30 dB, i sva rešenja se kreću u tom opsegu.

Potiskivanje šuma (prostornog i stacionarnog) je u opsegu od 15 do 30 dB, što

obezbeñuje značajno poboljšanje subjektivnog kvaliteta i razumljivosti. Agresivnije

potiskivanje može dovesti do povećanja odgovarajućeg indikatora, ali i do narušavanja


155

kvaliteta korisnog signala. SEA2M je po pokazateljima pri vrhu, sa najdužim

vremenom reverberacije. Domet je nešto manji od druga dva proizvoñača, koji navode

veći domet od 5 metara.

Mera

Rešenje

Potiskivanje

eha

Potiskivanje

šuma

Domet Vreme

reverberacije

SEA2M 27 dB 28 dB 4 m 300 ms

Voice Tracker - 20 dB 2.5 m -

Dual Microphone Array - 15 dB 5 m -

Fortemedia FM1182 30 dB 35 dB 5 m 100 ms

IntelliSonic 25 dB 16 dB–30 dB - 256 ms

Tabela 6.12 Pregled indikatora kvaliteta odabranih rešenja

Na osnovu gornje analize, može se zaključiti da je SEA2M najkompletnije

rešenje koje je moguće povezati sa raznim sistemima gde je potrebno izdvojiti i

poboljšati glas govornika koji je udaljen od mikrofonskog niza. Može se koristiti i kao

sprega u sistemima za govornu komunikaciju, ali i kao veoma usmeren mikrofonski

niz.

Kompleksnost realizovanog rešenja je veća od postojećih rešenja, ali i dalje

prihvatljiva da bi se realizovao ureñaj potrošačke elektronike. Povećana kompleksnost

je posledica proširenog skupa mogućnosti, ali i veoma složenih akustičkih problema i

njihovog rešavanja odgovarajućim algoritmima.

Sa stanovišta performansi, SEA2M je u rangu sa najboljim postojećim rešenjima,

pri čemu je tokom razvoja konstantno voñeno računa o održanju kvaliteta u vidu PESQ

mera i subjektivnih testova.

POGLAVLJE 7 – ZAKLJUČAK

157

POGLAVLJE 7. ZAKLJU ČAK

Usled sve prisutnije digitalizacije svih oblasti delovanja i sve značajnije uloge

komunikacija u svakodnevnom životu, konstantna je potraga za novim, boljim

oblicima komunikacije. U ovoj tezi fokus je na istraživanju sistema za obradu signala

mikrofonskog niza u realnom vremenu.

U okviru istraživanja analizirana su postojeća rešenja sa ciljem da se ustanovi

trenutno stanje na tržištu. Rezultat pretrage pokazuje da trenutno ne postoji

komercijalno raspoloživo rešenje koje obezbeñuje nesmetanu dvosmernu slobodnu

komunikaciju, u kojem je govornik na nekoliko metara od mikrofona. Postoje

parcijalna rešenja koja adresiraju pojedine probleme, ali se npr. u pogledu potiskivanja

eha oslanjaju na programsku podršku računara. Tokom analize identifikovani su okviri

rešenja sa stanovišta kompleksnosti platforme i mogućnosti sistema, i odabrana je

ciljna platforma TMS320C6727.

Pretraga baze patenata pokazala je da je oblast obrade signala mikrofonskih

nizova veoma aktuelna, i da mnoge vodeće kompanije iz oblast telekomunikacija i IT

industrije ulažu značajne napore u razvoj takvih sistema. Prikupljeno znanje je

iskorišćeno tokom zaštite inovacije istraživanja odgovarajućim patentima.

Analizirani su i najsavremeniji postupci obrade signala mikrofonskog niza.

Razmatrani su aspekti složenosti, kvaliteta i robustnosti. Imajući u vidu ograničenja


158

ciljne platforme, odabrane su klase algoritama sa odgovarajućim odnosom složenosti i

kvaliteta.

Postavljene su objektivne i subjektivne mere za ocenu performansi realizovanog

rešenja, i realizovani su mehanizmi za merenje istih. Odabrane objektivne mere

omogućuju ocenu složenosti rešenja i poreñenje sa postavljenim ograničenjima, i

korišćene su za upravljanje razvojem postupaka obrade. Merenje subjektivnog

kvaliteta je obavljeno nekoliko puta, u ključnim momentima razvoja.

U okviru razvoja sistema velika pažnja se posvetila razvoju samih postupaka

obrade. Nakon odabiranja klase algoritama, oni su poboljšani i prilagoñeni postavci

problema. Inovacije u okviru istraživanja su zaštićene sa 4 nacionalna i jednim

meñunarodnim patentom. Rešenje je imenovano zaštićenim žigom SEA2M.

Razvoj je rezultovao sa skupom algoritama koji se izvršavaju u realnom vremenu

na ciljnoj platformi Texas Instruments TMS320C6727. Osim realizacije u aritmetici

pokretnog zareza, ispitan je i uticaj aritmetike nepokretnog zareza na složenost i

kvalitet algoritama.

Merenja su pokazala da se smanjivanjem preciznosti aritmetike povećava

složenost, ali da na 32-bitnim platformama ne dolazi do degradacije kvaliteta.

Realizacija na platformi sa 20-bitnom aritmetikom je primetno slabijeg kvaliteta, i

znatno povećane složenosti. Zadovoljenost kriterijuma kvaliteta signala je potvrñen

subjektivnim testiranjem razumljivosti logatoma na kraju razvoja.

Rezultati merenja odabranih indikatora kvaliteta su poreñena sa postojećim

rešenjima. Analiza je pokazala da je SEA2M integralno rešenje koje je u stanju da

eliminiše širok spektar smetnji (npr. akustički eho, stacionarni i nestacionarni šum,

prostorno rasporeñene izvore smetnji), uz obezbeñivanje odgovarajućeg nivoa

kvaliteta.

Kao dokaz teze realizovana je maketa zasnovana na mikrofonskom nizu od 5

elemenata i DSP sa aritmetikom u pokretnom zarezu TMS320C6727. U skladu sa

očekivanjima, sistem radi u realnom vremenu, te je ograničenje u pogledu složenosti

zadovoljen. Maketa je uspešno korišćena tokom merenja razumljivosti logatoma.

Razvijena tehnologija je integrisana sa TV ureñajem i Bluetooth tehnologijom,

ilustrujući tako viziju komunikacione platforme budućnosti. Prikazana je na sajmu IFA


159

2007. godine u Berlinu, gde je odziv eksperata u pogledu ideje, kvaliteta i lakoće

upotrebe bio veoma pozitivan.

Naredni mogući korak istraživanja zasnovanog na rezultatima ove teze je

integracija realizovanog rešenja sa videotelefonskim funkcijama. U toj konfiguraciji,

sistem bi se proširio kamerama i mogućnošću prenosa pokretne slike. U kombinaciji sa

obradom slike, moguće je realizovati inteligentni videotelefon koji je u stanju da se

prilagodi okruženju i da obezbedi realniju vezu. Fuzijom obrade signala svih senzora

(mikrofona i kamera) moguće je izdvojiti detalje okruženja i učesnika kao što su

pozicija, rastojanje, dimenzije, raspoloženje, itd. Te informacije se mogu iskoristiti za

stvaranje realnijeg utiska na udaljenoj strani.

Moguća su i dalja unapreñenja samih postupaka obrade signala. S obzirom da su

postavljene jasne metrike za merenje složenosti i kvaliteta, moguće je na kontrolisani

način primeniti skup poboljšanja. Moguća unapreñenja su detekcija više izvora

korisnog signala i povezivanje sa prenosom slike. U slučaju dominantnog izvora

prostornih smetnji, moguće je postaviti prostornu nulu prostornog filtra na tom pravcu,

i time još više potisnuti smetnju.

U trenutnoj maketi, veza se ostvaruje pomoću Bluetooth bežične tehnologije.

Tehnologija DECT je veoma rasprostranjena u kućnim telefonskim sistemima. Ona

omogućuje povezivanje jedne bazne stanice sa više prenosnih telefona. Zamenom

modula za povezivanje u maketi moguće je koristiti TV ureñaj kao jedan od DECT

prenosnih telefona, sa mogućnošću slobodne komunikacije i konferencijske veze.

LITERATURA

161

LITERATURA

[AADSP1] V. Kovačević, M. Popović, M. Temerinac, N. Teslić, “Arhitekture i algoritmi digitalnih signal procesora I“, FTN, Novi Sad, 2005.

[Allen] J.B. Allen, D.A. Berkley, "Image method for efficiently simulating small-room acoustics", Journal on Acoustic Society of America, vol. 65, no. 4, pp. 943-950, 1979.

[Anttalainen] T. Anttalainen, „Introduction to Telecommunications, Network Engineering“, Artech House, 2003.

[Benallal] A. Benallal, A. Gilloire, “A new method to stabilize fast RLS algorithms in transversal adaptive filters”, ICASSP 88, pp. 1373-1376, 1988.

[Benesty] J. Benesty, “Adaptive eigenvalue decomposition algorithm for passive acoustic source localization”, JASA, vol. 107, pp.384-391, 2000.

[Benesty2] J. Benesty, “Adaptive eigenvalue decomposition algorithm for passive acoustic source localization”, Journal of Acoustic Society of America, vol. 107, pp. 384-391, 2000.

[Boll] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, Signal Processing, vol. 27, 1979.

[Brandstein] M.S. Brandstein, D.B. Ward, “Microphone Arrays: Signal Processing Techniques and Applications”, Springer, Berlin, 2001.

[Caraiscos] C. Caraiscos, B. Liu, “A roundoff error analysis of the LMS adaptive algorithm” IEEE Trans. Acoust. Speech, and Signal Processing, vol. 32, pp. 34-41, 1984.

[Carter] G. Carter, A. Nuttall, P. Cable, “The smoothed coherence transform”, Proceedings IEEE, vol. 61, pp. 1497-1498, 1973.

[CeBIT2006] Micronas SkypeTV Presentation, CeBIT 2006, Hannover.

[Champagne] B. Champagne, S. Bedard, A. Stephenne, “Performance of time-delay estimation in the presence of room reverberation”, IEEE Trans. Speech Audio Processing, vol. 4, pp. 148-152, 1996.

[Cioffi] J. M. Cioffi, T. Kailath, “Fast, recursive-least-squares transversal filters for adaptive filtering”, IEEE Transactions on Acoustics, Speech, Signal Processing, ASSP-32, pp. 304-337, 1984.

[Cohen] I. Cohen, B. Berdugo, “Microphone array post-filtering for non-stationary noise suppression”, Proc. ICASSP, pp. 901-904, 2002.

LITERATURA

162

[Cox] H. Cox, R. Zaskind, M. Owen, “Robust adaptive beamforming”, IEEE Trans. on Acoustics, Speech Signal Processing, vol. 35, pp. 1365-1375, 1987.

[DeFatta] David J. DeFatta, Joseph G. Lucas, William S. Hodgkiss, “Digital Signal Processing: A System Design Approach”, Wiley, 1988.

[Domazetovic] A. Domazetovic, Z. Lukac, I. Papp, "Approach to verification of the developed AC-3 audio decoder on the MAS3508E DSP platform", XLIII ETRAN, Zlatibor, 1999.

[Ephraim] Z. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, IEEE Trans. Acoustics, Speech, Signal Processing, vol. 32, 1984.

[EPO] European Patent Office – EPO, www.epo.org

[Frost] O. Frost, “An algorithm for linearly constrained adaptive array processing”, Proceedings of IEEE, vol. 60, no. 8, pp. 926-935, 1972.

[Gänsler1] T. Gänsler, “A double-talk resistant subband echo canceller”, Signal Processing, vol. 65, no. 1, pp. 89-101, 1998.

[Gänsler2] T. Gänsler, M. Hansson, C.-J. Ivarsson, G. Salomonsson, “A double-talk detector based on coherence”, IEEE Transaction on Communication, vol. 44, no. 11, pp. 1421-1427, 1996.

[Gay1] S. Gay, S. Tavathia, “The fast affine projection algorithm”, Proc. Intl. Conf on Acoustics, Speech and Signal Proc., Detroit, 1995.

[Gay2] S. Gay, J. Benesty, “Acoustic signal processing for telecommunications”, Kluwer Academic Publishers, 2000.

[Griffiths] L. Griffiths, C. Jim, “An alternative approach to linearly constrained adaptive beamforming”, IEEE Transactions on Antennas Propagation, vol. 30, pp. 27-34, 1982.

[Hänsler] E. Hänsler, G. Schmidt, “Acoustic Echo and Noise Control”, Wiley, 2004.

[Hanson] J. Hanson, “Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect”, IEEE Transactions on Speech Audio Processing, vol. 2, no. 4., pp. 598-614, 1994.

[Hassab] J. Hassab, R. Boucher, “Performance of the generalized cross correlator in the presence of a strong spectral peak in the signal”, IEEE Transactions on Acoustics, Speech, Signal Processing, vol. 29, pp. 549-555, 1981.

[Haykin1] S. Haykin, “Adaptive Filter Theory”, Prentice Hall, 2002.

LITERATURA

163

[Haykin2] S. Haykin, B. Widrow, “Least-Mean-Square adaptive Filters”, Wiley, 2003.

[Haykin3] S. Haykin, “Array Signal Processing”, Prentice Hall, 1985.

[Hiroshi] N. Hiroshi, S. Hideaki, “A Fast Sliding Window RLS Algorithm”, Proceedings of the Annual Conference of the Institute of Systems, Control and Information Engineers, Japan, vol. 42, pp. 289-290, 1998.

[Huang] Y. Huang, J. Benesty, “Audio signal processing for next generation multimedia communication systems”, Kluwer Academic Publishers, 2004.

[IEEE754] IEEE Standard for Floating-Point Arithmetic (IEEE 754-2008)

[IFA2005] Micronas VideoPhone Presentation, IFA 2005, Berlin.

[IFA2007] Micronas TVPhone Presentation, IFA 2007, Berlin.

[ITU-T G.114] ITU-T G.114, “One-way transmission time”, International Telecommunication Union, 2003.

[ITU-T G.168] ITU-T G.168, “Digital network echo cancellers”, International Telecommunications Union, 2002.

[ITU-T P.563] ITU-T P.563, “Single ended method for objective speech quality assessment in narrow-band telephony applications”, International Telecommunications Union, 2001.

[ITU-T P.800] ITU-T P.800, “Methods for subjective determination of transmission quality”, International Telecommunications Union, 1996.

[ITU-T P.861] ITU-T P.861, “Objective quality measurement of telephone-band (300-3400 Hz) speech codecs”, International Telecommunications Union, 1998.

[ITU-T P.862.1] ITU-T P.862.1, ”Mapping function for transforming P.862 raw result scores to MOS-LQO”, International Telecommunications Union, 2003.

[ITU-T P.862] ITU-T, “Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”, International Telecommunications Union, 2001.

[Katona] M. Katona, “Jedan pristup odabiru optimalne arhitekture za realizaciju algoritama digitalne obrade video signala”, Doktorska disertacija, 2008.

[Keča] Bojan Keča, Ištvan Pap, Vladimir ðurković, Saša Vukosavljev, “Uticaj dužine memorijske reči na kvalitet obrade signala govora “, ETRAN 2007, Herceg Novi

[Knapp] C. Knapp, G. Carter, “The generalized correlation method for estimation of time delay”, IEEE Transactions on Acoustics, Speech, Signal Processing, vol. 24, pp. 320-327, 1976.

LITERATURA

164

[Kukolj1] D. Kukolj, M. Janev, I. Pap, N. Teslić, S. Vukobrat, “Speaker Localization under Echoic Conditions Applied to Service Robots”, EUROCON 2005, Beograd, 2005.

[Kukolj2] D. Kukolj, I. Pap, S. Vukosavljev, V. ðurković, “Stereo akustična lokalizacija aktivnog govornika”, TELFOR 2007, Beograd, 2007.

[Levitt] H. Levitt, J.C. Webster, "Effects of Noise and Reverberation on Speech”, In C.M. Harris, "Handbook of Acoustical Measurements and Noise Control”, Chapter 16, McGraw-Hill, 1991.

[Lim] J. Lim, A. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. of the IEEE, vol. 67, 1979.

[Lindstrom] F. Lindstrom, C. Schueldt, I. Claesson, “Efficient Multichannel NLMS Implementation for Acoustic Echo Cancellation”, EURASIP Journal on Audio, Speech, and Music Processing, Volume 2007, 2007.

[Liu] W.M. Liu, K.A. Jellyman, J.S.D. Mason, N.W.D. Evans, “Assessment of Objective Quality Measures for Speech Intelligibility Estimation”, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference

[Lukač] Željko Lukač, “One method for maintaining accuracy in implementation of Fast Fourier Transform on Fixed Point Digital Signal Processors”, MIPRO 2006, Opatija, Hrvatska

[Mader] A. Mader, H. Puder, G. Schmidt, “Step-size control for acoustic echo cancellation filters – an overview”, Signal Processing, vol 80., no. 9, pp. 1697-1729, 2000.

[Madisetti] Madisetti, V. K., “VLSI Digital Signal Processors”, IEEE Press, Piscataway, NJ, 1995.

[Marro] C. Marro, Y. Mahieux, K. Simmer, ”Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering”, IEEE Transactions on Speech and Audio Processing, vol. 6, no. 3, pp. 240–259, 1998.

[MAS] Digitalni signal procesor MAS 35xyH, Micronas

[Mathematica] Wolfram Research, Mathematica, www.wolframresearch.com

[Matlab] Mathworks Matlab, www.mathworks.com

[McAulay] R. McAulay, M. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. Acoustics, Speech, Signal Processing, vol. 28, 1980.

[McCowan1] I. McCowan, H. Bourlard, “Microphone array post-filter for diffuse noise field”, Proceedings of ICASSP-02, vol. 1, pp. 905-908, 2002.

LITERATURA

165

[McCowan2] I. McCowan, H. Bourlard, “Microphone array post-filter based on noise field coherence”, IDIAP Research Report IDIAP-RR 01-40, 2002.

[MIPS4KEc] http://www.mips.com/products/processors/hard-ip-cores/4kec-hard-ip-cores/index.cfm#summary

[Oberstar] Eric Oberstar, „Fixed-Point Representation & Fractional Math“, Oberstar consulting, 2007

[Oh] S. Oh, D. Linabarger, B. Priest, B. Raghothaman, ”A fast affine projection algorithm for an acoustic echo canceller using a fixed-poins DSP processor”, ICASSP 97, Munich, Germany, 1997.

[Opera] Opticom, “OPERA – Voice/Audio Quality Analyzer”, www.opticom.de/products/opera.html

[Oppenheim] A. Oppenheim, R. Schafer, “Discrete-Time Signal Processing”, Prentice Hall, 1989.

[Papp1] I. Papp, Z. Saric, S. Jovicic, N. Teslic, “Adaptive microphone array for unknown desired speaker’s transfer function”, Journal of Acoustic Society of America, Express Letters, pp. 44-49, July 2007.

[Papp2] I. Papp, V. Djurkovic, Z. Marceta, M. Janev, D. Kukolj, “Software library for audio algorithm profiling”, 14th Telecommunications forum TELFOR, Belgrade, 2006.

[Papp3] I. Papp, D. Kukolj, Z. Marčeta, V. ðurković, M. Janev, M. Popović, N. Teslić, “ Remotely Controlled Semi-Autonomous Robot with Multimedia Abilities”, ICCA 2005, Budapest, 2005.

[Pat1] D. Kukolj, V. Kovačević, N.Teslić, I. Papp, “Technique For Direction Of Arrival Estimation From Sound Source Using Dual Microphone System”, broj patenta: P-2006/0612, Fakultet tehničkih nauka, Novi Sad, 2006

[Pat2] Z. Šarić, S. Jovičić, V. Kovačević, N.Teslić, I. Papp, “Technique And System For Automatic Gain Control (Agc) Using Microphone Array”, broj patenta: P-2006/0611, Fakultet tehničkih nauka, Novi Sad, 2006.

[Pat3] Z. Šaric, S. Jovičić, V. Kovačević, N.Teslić, D. Kukolj, “System And Technique For Speaker Localization Using Microphone Array”, broj patenta: P-2006/0642, Fakultet tehničkih nauka, Novi Sad, 2006.

[Pat3Com] 3Com Corporation, “Method and system for automatic gain control with adaptive table lookup”, USPTO patent 6,959,082 B1, 2005.

[Pat4] Z. Šarić, S. Jovičić, V. Kovačević, N.Teslić, D. Kukolj, “System And Technique For Hands-Free Voice Communication Using Microphone Array”, broj patenta: P-2006/0551, Fakultet tehničkih nauka, Novi Sad, 2006.

LITERATURA

166

[Pat5] Z. Šarić, S. Jovičić, V. Kovačević, N.Teslić, D. Kukolj, “System And Procedure Of Hands Free Speech Communication Using A Microphone Array”, WIPO WO/2008/041878 , PCT/RS2007/000017, 2008.

[PatAgere] Agere Sustems Inc., “Method and apparatus for passive acoustic source localization for video camera steering applications“, USPTO patent 6,826,284 B1, 2004.

[PatBroadcom] Broadcom Corporation, “Wireless telephone with adaptive microphone array”, USPTO patent application 20060133622 A1, 2006.

[PatEricsson] Ericsson Inc, “Echo suppression using adaptive gain based on residual echo energy”, USPTO patent 6,622,030 B1, 2003.

[PatForte] ForteMedia Inc, “Small array microphone for acoustic echo cancellation and noise suppression”, USPTO patent 7,003,099 B1, 2006.

[PatFujitsu] Fujitsu Limited, ”Microphone array apparatus”, USPTO patent 7,035,416 B2, 2006.

[PatLucent] Lucent Technologies, “Acoustic beam forming with robust signal estimation”, USPTO patent 7,046,812 B1, 2006.

[PatMicrosoft1] Microsoft Corporation, “A system and method for beamforming using a microphone array”, EPO patent EP1571875 A2, 2005.

[PatMicrosoft2] Microsoft Corporation, “System and method for improving the precision of localization estimates“, USPTO patent 6,970,796 B2, 2005.

[PatMicrosoft3] Microsoft Corporation, “System and process for robust sound source localization”, USPTO patent 6,999,593 B2, 2006.

[PatMitel] Mitel Knowledge Corporation, “Method of acoustic echo cancellation in full-duplex hands free audio conferencing with spatial directivity”, USPTO patent 6,990,193 B2, 2005.

[PatNokia1] Nokia Mobile Phones, “Detection of the speech activity of a source”, USPTO patent 6,707,910 B1, 2004.

[PatNokia2] Nokia Corporation, “System and method for processing a signal being emitted from a target signal source into a noisy environment”, USPTO patent 6,836,243 B2, 2004.

[PatPhilips] Philips Electronics N.V., “Method and device for acoustic echo cancellation combined with adaptive beamforming”, USPTO patent 7,035,415 B2, 2006.

[PatPolycom] Polycom Inc, “Videoconferencing system with horizontal and vertical microphone arrays”, USPTO patent 6,922,206 B2, 2005.

[PatSamsung1] Samsung Electronics Co Ltd, “Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation”, EPO Patent EP1643769 A1, 2006.

LITERATURA

167

[PatSamsung2] Samsung Electronics Co. Ltd, “Method and apparatus for canceling acoustic echo in a mobile terminal”, USPTO patent application 20060062380 A1, 2006.

[PatTellabs] Tellabs Operation, “Method and apparatus for adaptive gain control”, USPTO patent application 20060217974 A1, 2006.

[Proakis] J. Proakis, “Encyclopedia of Telecommunications”, Wiley, 2003.

[ProdAKG] AKG, Array Microphones for Mercedes-Benz Cars, www.akg.com

[ProdAkustica] Akustica, AKU2103 HD (High Definition) Digital Microphone, www.akustica.com

[ProdCentrino] Intel, Intel Array Microphone Architecture, www.intel.com/standards/hdaudio

[ProdClearVoice] Labtec, LVA-7280 ClearVoice Digital Microphone, www.labtec.com

[ProdDA350] Andrea Corporation, DA-350 Hands free linear array microphone, www.andreaelectronics.com

[ProdDFBF] Inovative Integration, Direction Finding – Beam Forming, www.inovative-dsp.com

[ProdDSDA] Andrea Corporation, Digital Super Directional Array - DSDA 2.0, www.andreaelectronics.com

[ProdFM1182] ForteMedia, FM1182 Voice processor, www.fortemedia.com

[ProdForteM] ForteMedia, FM1073B Voice processor, www.fortemedia.com

[ProdGritTec] Dual Microphone Array solution, GritTec, www.grittec.com

[ProdLifeSize] LifeSize, LifeSize Phone, www.lifesize.com

[ProdLinguatronic] P. Heisterkamp, “Linguatronic - Product-Level Speech System for Mercedes-Benz Cars”, DaimlerChrysler AG, Research and Technology, 2001.

[ProdMitel] Mitel, 5310 IP Conference Unit, www.mitel.com

[ProdVAM] GN Netcom, Voice array microphone, www.gnnetcom.com

[ProdVistaAP] Microsoft, “Microphone array support in Windows Vista”, www.microsoft.com/whdc/device/audio/default.mspx

[ProdVoice] Aethra, The Voice, www.aethra.com

[ProdVoiceTracker] Acoustic Magic, Voice TrackerTM Array Microphone , www.acousticmagic.com

[Psytechnics] Psytechnics, “Comparison between subjective listening quality and P.862 PESQ score”, White Paper, 2003.

[Ren] Z. Ren, H. Schuetze, “A stabilized fast transveral filter algorithm for recursive least squrea adaptive filtering”, Signal processing, vol. 39, no. 3, pp. 235-246, 1994.

LITERATURA

168

[Roth] P. Roth, “Effective measurements using digital signal analysis”, IEEE Spectrum, vol. 8, pp. 62-70, 1971.

[SEA2M] Zaštitni znak registrovan u Zavodu za intelektualnu svojinu Republike Srbije, pod brojem 2006/00002281, reg. broj. 54335, 2006.

[Shynk] J. Shynk, “ Frequency-domain and multirate adaptive filtering” , IEEE Signal Processing Magazine, vol. 9, no. 1, pp. 14-37, 1992.

[Simmer] K. Simmer, J. Bitzer, C. Marro. “Post-filtering techniques”, In M. Brandstein and D. Ward, “Microphone Arrays”, Chapter 3, pp. 19–60, Springer, 2001.

[Skidmore] I. Skidmore, I. Proudler, “KAGE: a new fast RLS algorithm”, IEEE International Conference on Acoustics, Speech, and Signal Processing - ICASSP, vol. 6, pp. 3773 – 3776, 2001.

[Smith] Steven W. Smith, “Digital Signal Processing: A Practical Guide for Engineers and Scientists”, Newnes, 2002

[SPP] M. Popović, “Sistemska programska podrška”, FTN, Novi Sad, 2004.

[Steeneken] H. Steeneken, “The measurement of speech intelligibility”, TNO Human Factors, Soesterberg, Netherlands

[Šarić1] Z. Šarić, S. Jovičić, M. Janev, D. Kukolj, I. Pap, “Postfiltar mikrofonskog niza za nepoznatu vremenski invarijantnu funciju koherencije”, DOGS 2006, Vršac, Srbija.

[Šarić2] Z. Saric, S. Jovicic, M. Janev, I. Papp, Z. Marceta, “Microphone array post-filter based on noise power attenuation factor and a priori knowledge of the noise field coherence”, SPECOM’2008, Moscow.

[Tabus] I. Tabus, “Adaptive Signal Processing - Lecture 5: Variants of the LMS algorithm“, Tampere University of Technology Signal Processing Laboratory, 2007, Tampere, Finland.

[TMS320C6727] http://focus.ti.com/paramsearch/docs/parametricsearch.tsp?family=dsp&sectionId=2&tabId=1954&familyId=1404&paramCriteria=no

[TOSQA] ITU-T COM12-34,”TOSQA - Telecommunication objective speech quality assessment”.

[Tsoukalas] D. Tsoukalas, J. Mourjopoulos, “Speech enhancement based on audible noise suppression”, IEEE Transactions on Speech Audio Processing, vol. 5, 1997.

[USPTO] US Patent and Trademark Office – USPTO, www.uspto.gov

[Valin1] J.-M. Valin, “On Adjusting the Learning Rate in Frequency Domain Echo Cancellation With Double-Talk”, IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 3, pp. 1030-1034, 2007.

LITERATURA

169

[Valin2] J.M. Valin, J. Rouat, F. Michaud, “Microphone array post-filter for separation of simultaneous non-stationary sources”, Proc. ICASSP, 2004.

[Vary] P. Vary, “Noise suppression bz spectral magnitude estimation – mechanism and theoretical limits”, Signal Processing, vol. 8, no. 4, pp. 387-400, 1985.

[Vukosavljev] S. Vukosavljev, I. Pap, M. Janev, D. Kukolj, “Ocena kvaliteta audio algoritama objektivnim merama”, 14. Telekomunikacioni forum TELFOR 2006, Beograd.

[Widrow1] B. Widrow, M. Hoff Jr., “Adaptive switching circuits”, IRE WESCON Conv. Rec., pt. 4, pp. 96-104, 1960.

[Widrow2] B. Widrow, S. Stearns, “Adaptive signal processing”, Prentice Hall, 1985.

[WIPO] World Intellectual Property Organization - WIPO , www.wipo.int

[WM61] Panasonic WM61A, omnidirectional back electret condenser microphone cartridge

[Xu] G. Xu, H. Liu, L. Tong, T. Kailath, “A least-squares approach to blind channel identification”, IEEE Transactions on Signal Processing, vol. 43, pp. 2983-2993, 1995.

[Yamamoto] S. Yamamoto, S. Kitayama, “An adaptive echo canceller with variable step gain method”, Trans. IECE Jpn, E65, pp. 1-8, 1982.

[Yasukawa] H. Yasukawa, S. Shimada, “An acoustic echo canceller using subband sampling and decorrelation metods”, IEEE Transactions on Signal Processing, vol. 41, no. 2, pp. 926-930, 1993.

[Zelinski] R. Zelinski, “A microphone array with adaptive post-filtering for noise reduction in reverberant rooms”, in Proceedings of ICASSP-88, Vol. 5, pp. 2578–2581, 1988.

- phd - v1.0.pdf · Želeo bih da se najiskrenije zahvalim mentoru prof. dr. nikoli tesli ću ne...

Documents