ukryte modele markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5....

23
Ukryte Modele Markowa w rozpoznawaniu słów

Upload: others

Post on 15-Mar-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Ukryte Modele Markowa w rozpoznawaniu

słów

Page 2: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Parametryzacja sygnału mowy

Widmo

Widmo ampl. [dB]

cepstrum

( ) ( ) ( )X k G k H k

log ( ) log ( ) log ( )X k G k H k

1 1 1( ) log ( ) log ( ) log ( )c n X k G k H k

Page 3: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Parametryzacja sygnału mowy - cepstrum

Page 4: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Parametryzacja sygnału mowy – mel-cepstrum

„przepróbkowanie” widma: X(k) -> S(k) (skala melowa)

X

S

Mel-cepstrum: MFCC(n) = F-1 [log |S(k)|] Co 5-10 ms mierzymy kilkanaście

współczynników MFCC:

Tworzą one wektory obserwacji

o1,o2,…,oT

Page 5: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Modele obserwacji

Model ciągły (np. gaussowski)

Model dyskretny: kwantujemy wyniki obserwacji (kwantyzator wektorowy) i podajemy prawdopodobieństwa wystąpienia każdego z nich:

)( j

i ob

„i” jest indeksem modelu (np. określoną głoską), a „j” identyfikuje jeden ze

skwantowanych wektorów obserwacji

Page 6: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

HMM – dynamiczny model ciągu obserwacji

Np. „lalalalala…”

„l” „a”

Kolejne obserwacje dokonane podczas wypowiadania danej frazy są przypisywane

określonym stanom, tworząc ukryty ciąg stanów:

Q = [ q(1), q(2), ... , q(t), ..., q(T)]

gdzie q(t) jest jednym z N stanów: S1, S2 lub SN

Np. Dla „lalala”, T=6, N=2, Q=[S1,S2,S1,S2,S1,S2]

HMM l jest opisany następująco: l [A,B,p], gdzie A – macierz przejść między stanami,

B – modele (po jednym dla każdego stanu), p – prawdopodobieństwa startu (po jednym dla

każdego stanu)

Page 7: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Topologie HMM

ergodyczny

Bakisa

równoległo-szeregowy

Sk stan

przejście aij

Page 8: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Opis HMM

1

3 4

2

ergodyczny

[ ]4321

54535251

44434241

34333231

24232221

14131211

44434241

34333231

24232221

14131211

pppp

bbbb

bbbb

bbbb

bbbb

bbbb

B

aaaa

aaaa

aaaa

aaaa

A

A – macierz prawdopodobieństw

przejść między stanami

B – macierz prawdopodobieństw

wystąpienia zdarzenia w danym

w stanie

Π – wektor prawdopodobieństwa

inicjalizacji

1

1

1

Page 9: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

HMM szeregowy (Bakisa 1-go rzędu)

1 2 3 4

[ ]0001

000

00

00

00

54535251

44434241

34333231

24232221

14131211

44

3433

2322

1211

bbbb

bbbb

bbbb

bbbb

bbbb

B

a

aa

aa

aa

A

Page 10: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

HMM w rozpoznawaniu słów

- ciągłe modele gaussowskie

X - ciąg obserwacji

Page 11: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Wpływ struktury HMM na rozpoznawanie

słów

Dobre właściwości dyskryminacyjne ma struktura

szeregowa z wymuszeniem dojścia do ostatniego węzła

Page 12: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Projektowanie HMM – kryterium ML

(maximum likelihood)

Page 13: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Właściwości dyskryminacyjne HMM

Page 14: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Dyskryminacyjne metody projektowania

HMM

Minimum błędów klasyfikacji

Page 15: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Dyskryminacyjne metody projektowania

HMM

Maksimum prawdopodobieństwa warunkowego

Page 16: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Dyskryminacyjne metody projektowania

HMM

Maksimum odstępu (LM – large margin)

Page 17: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Porównanie metod ML i LM

Wypowiedzi słowa „pięć”, uporządkowane rosnąco względem d(i,j),

i = ‘pięć’, j=‘dziewięć’

ML ML

LM LM

Page 18: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Porównanie metod ML i LM

Wypowiedzi słowa „dziewięć”, uporządkowane rosnąco względem d(i,j),

i = ‘dziewięć’, j=‘pięć’

LM

ML

LM

ML

Page 19: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Porównanie metod ML i LM

Wypowiedzi słowa „osiem”, uporządkowane rosnąco względem d(i,j),

i = ‘osiem’, j=‘oś’

ML

LM ML

LM

Page 20: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Porównanie metod ML i LM

Wypowiedzi słowa „oś”, uporządkowane rosnąco względem d(i,j),

i = ‘oś’, j=‘osiem’

LM

ML

LM

ML

Page 21: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Rozpoznawanie wypowiadanych cyfr

baza ucząca

0 10 20 30 40 50 60 70 80 90-8000

-7000

-6000

-5000

-4000

-3000

-2000

-1000

0testowana liczba: Cztery, zbiór uczacy

loglik

numer probki glosu

Praca mgr. Łukasz Marasek

Page 22: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Rozpoznawanie wypowiadanych cyfr

test

Praca mgr. Łukasz Marasek

0 10 20 30 40 50 60-8000

-7000

-6000

-5000

-4000

-3000

-2000

-1000

0testowana liczba: Cztery, zbiór testowy

loglik

numer probki glosu

Page 23: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy

Rozpoznawanie mówców

wypowiedzi mówcy M3

baza ucząca test

HMM(M3)

HMM(M3)

HMM(M3)

ML HMM

18 CC

LM HMM

18 CC

LM HMM

18 CC +T0

CC - wsp. cepstralne, T0 – ton krtaniowy, ML – max likelihood, LM – Large Margin

Praca mgr. Marta Korbin