systemy wizyjne i głosowe
DESCRIPTION
Maciej Mraczek Piotr Szczepanik Michał Mrówczyński Kamil Ciepiela. Systemy Wizyjne i Głosowe. Temat projektu: Weryfikacja autorów wypowiedzi na podstawie próbek sygnału mowy. Kraków, 4 czerwca 2009 AiR , EAIiE , AGH. Wprowadzenie. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/1.jpg)
Systemy Wizyjne i GłosoweTemat projektu:
Weryfikacja autorów wypowiedzi na podstawie
próbek sygnału mowy
Maciej MraczekPiotr SzczepanikMichał MrówczyńskiKamil Ciepiela
Kraków, 4 czerwca 2009AiR, EAIiE, AGH
![Page 2: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/2.jpg)
WprowadzenieZa metodę rozpoznawania uważamy cały tor
przetwarzania i rozpoznawania próbki głosowej. Ogólny algorytm wygląda następująco:
Pobranie próbki
głosowej
Wstępne przetworzenie (np. filtry,
usunięcie ciszy, etc.)
Ekstrakcja cech daną
metodą
Zastosowanie
klasyfikatora
Rezultat rozpoznania:- konkretny
mówca- brak
rozpoznania
![Page 3: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/3.jpg)
Cele projektuCelem projektu było zaimplementowanie
kilku metod ekstrakcji cech oraz klasyfikacji próbek dźwięku w kontekście utworzonej wcześniej bazy próbek „treningowych”.
Efektem końcowym powinna być możliwość rozpoznania mówcy po wypowiedzeniu zdania „Rozpoznaj kim jestem” przynajmniej jedną z zaimplementowanych metod.
![Page 4: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/4.jpg)
Wstępne przetwarzanie zastosowane w torze przetwarzania
Wszystkie nagrane próbki poddane zostały normalizacji oraz wycięciu składowej stałej
![Page 5: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/5.jpg)
Zaimplementowane metody ekstrakcji cech z pobranej próbki dźwięku
FFTLPCMFCC
![Page 6: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/6.jpg)
FFTFast Fourier Transform – jest to
transformacja sygnału z dziedziny czasu do dziedziny częstotliwości
W projekcie została przetestowana metoda rozpoznawania mówcy poprzez porównanie transformaty sygnału jego głosu z transformatami sygnałów głosów wzorcowych.
![Page 7: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/7.jpg)
MFCCMFCC czyli Mel-frequency cepstral coefficients jest
to metoda cepstralnych współczynników opartych na skali Mel’a. Stosowana jest powszechnie w systemach rozpoznawania mowy ze względu na dużą skuteczność.
Algorytm1. Z sygnału dźwiękowego robimy dyskretną transformatę Fourier’a2. Powstałe spectrum przeliczamy na skalę Mel’a (używając trójątnego
okna)3. Logarytmujemy każdą częstotliwość na skali Mel’a4. Poddajemy dyskretnej transformacie cosinusowej5. Następnie odwrotna dyskretna transformata Fourier’a6. Amplitudy tak powstałego sygnału to współczynniki MFCC
![Page 8: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/8.jpg)
Skala Mel’aSkala Mel’a ta została tak stworzona, aby lepiej oddawać
wrażenia słuchowe poprzez wzmocnienie częstotliwości słyszalnych. Dokonujemy tego za pomocą przekształcenia wzorem:
![Page 9: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/9.jpg)
LPCLinear predictive coding jest to algorytm
używany najczęściej do przetwarzania sygnałów dźwiękowych oraz sygnału mowy. W wyniku kodowania otrzymujemy reprezentację sygnału cyfrowego, będącą parametrami modelu predykcji liniowej przetwarzanego sygnału.
![Page 10: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/10.jpg)
Bardzo dobre osiągi metody LPC związane są z istotą działania ludzkiego aparatu mowy. W budowie aparatu mowy wyróżniamy część oddechową, fonacyjną i artykulacyjną. Przy analizie dźwięku najbardziej interesują nas te dwie ostatnie, ponieważ działanie ich determinuje dźwięk wydawany przez człowieka.
Główną częścią aparatu fonacyjnego jest krtań. Przepływające powietrze wprawia w drżenie struny głosowe, w wyniku czego powstaje tzw. ton krtaniowy. Następnie dźwięk przechodzi przez gardło i usta tworzące układ rezonansowy. Powstaje tam tzw. formant – pasmo częstotliwości uwypuklone w barwie dźwięku. Ostateczne brzmienie głoski formowane jest poprzez język i usta.
LPC analizując mowę wyznacza wspomniane wcześniej formanty. Następnie usuwa je z sygnału pozostawiając tylko charakterystyczne dla każdej głoski dźwięki. Proces ten nazywamy filtrowaniem wstecznym, a sygnał który pozostaje po odjęciu nazywamy rezydułem.
LPC charakterystyka metody
![Page 11: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/11.jpg)
Metoda najbliższego sąsiedztwa
Zaimplementowane klasyfikatory
![Page 12: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/12.jpg)
Zaimplementowane klasyfikatoryMetoda alfa-N
![Page 13: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/13.jpg)
Test poprawności rozpoznawania mówcyTest poprawności rozpoznawania mówcy, który
nie jest w bazie (obcy)Wyznaczanie optymalnej ilości współczynników
liczonych metodą MFCCWyznaczenie optymalnego rzędu metody LPC
Testy
![Page 14: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/14.jpg)
Testy - Pierwsza metoda – FFT
![Page 15: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/15.jpg)
Testy - Druga metoda – L{C
2 3 4 5 6 7 810
20
30
40
50
60
70
alpha
%
Wyniko testów zależnie od parametru dist=2.5 dla metody: lpc
Wykrywalność oszustówWykrywalność mówców
![Page 16: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/16.jpg)
Testy - Druga metoda – LPC
![Page 17: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/17.jpg)
Testy - Druga metoda – LPC
Rysunek 3 Dla alpha=2, distance=1,5 Rysunek 4 Dla alpha=6, distance=1,5
0 5 10 15 20 25 30 35 40 450
10
20
30
40
50
60Wpływ rzędu LPC na wynik rozpoznania
rząd metody LPC
skut
eczn
ość
rozp
ozna
nia
[%]
test dla próbki z bazytest dla próbki spoza bazy
0 5 10 15 20 25 30 35 40 450
10
20
30
40
50
60
70
80Wpływ rzędu LPC na wynik rozpoznania
rząd metody LPC
skut
eczn
ość
rozp
ozna
nia
[%]
test dla próbki z bazytest dla próbki spoza bazy
![Page 18: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/18.jpg)
Testy - Trzecia metoda – MFCC
2 3 4 5 6 7 820
30
40
50
60
70
80
90
alpha
%
Wyniko testów zależnie od parametru dist=1.5 dla metody: mfc
Wykrywalność oszustówWykrywalność mówców
![Page 19: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/19.jpg)
Testy - Trzecia metoda – MFCC
![Page 20: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/20.jpg)
Testy - Trzecia metoda – MFCC
Dla alpha=2, distance=1,5 Dla alpha=3, distance=1,5
5 10 15 20 25 3030
35
40
45
50
55
60
65
70
75Wpływ ilosci współczynnikow MFCC na wynik rozpoznania
ilość wspolczynnikow
skut
eczn
ość
rozp
ozna
nia
[%]
test dla próbki z bazytest dla próbki spoza bazy
5 10 15 20 25 3010
20
30
40
50
60
70
80Wpływ ilosci współczynnikow MFCC na wynik rozpoznania
ilość wspolczynnikow
skut
eczn
ość
rozp
ozna
nia
[%]
test dla próbki z bazytest dla próbki spoza bazy
![Page 21: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/21.jpg)
Podsumowanie i wnioski•Najlepszą metodą okazała się MFCC; trochę gorsze rezultaty dała metoda LPC•Metoda FFT nie dała pozytywnych rezultatów – wyniki można zakwalifikować jako losowe•Skuteczność rozpoznawania zależy głównie od parametrów alpha i odległość – jednak ich optymalizacja nie jest taka oczywista – wszystko zależy od tego, co chcemy osiągnąć: wysoki procent rozpoznawania mówców z bazy, czy skuteczne rozpoznawanie mówcy „obcego” (jako „nie wiem”) – chęć wysokich wyników w obu dziedzinach wymaga kompromisów•Możemy również zmieniać parametry związane z poszczególnymi metodami, które również wpływają na jakość rozpoznawania:
• w LPC – rząd metody• w MFCC – ilość współczynników cepstralnych (w MatLabie
dostępnych jest więcej parametrów liczenia współczynników cepstralnych, jednak nie zostały one zgłębione i zbadane przez nas; poza tym można inaczej wyznaczyć wektor opisujący daną próbkę – w naszym przypadku użyto funkcji kmeans)
![Page 22: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/22.jpg)
Podsumowanie i wnioski•Wyniki testów mogą nie być bardzo obiektywne ze względu na małą liczbę próbek „treningowych” w bazie•Istotne znaczenie może mieć również jakość sprzętu nagrywającego (mikrofon + karta dźwiękowa)•Jako ulepszenie działania naszego toru rozpoznawania mówcy, mogłoby sprawdzić się przemnożenie sygnałów wejściowych przez okno Hamminga
![Page 23: Systemy Wizyjne i Głosowe](https://reader035.vdocuments.site/reader035/viewer/2022062502/56814b36550346895db83edd/html5/thumbnails/23.jpg)
DZIĘKUJEMY ZA UWAGĘ