beszéd alapfrekvencia meghatározása - pitch detektor algoritmusok -

36
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok - Pázmány Péter Katolikus Egyetem, Információs Technológia Kar Beszédfelismerés és szintézis - előadás - 2007. március 8. Bárdi Tamás

Upload: annice

Post on 20-Jan-2016

30 views

Category:

Documents


0 download

DESCRIPTION

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -. Beszédfelismerés és szintézis - előadás - 2007. március 8. Bárdi Tamás. Pázmány Péter Katolikus Egyetem, Információs Technológia Kar. Mi az alapfrekvencia ?. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Beszéd alapfrekvencia meghatározása

- Pitch detektor algoritmusok -

Pázmány Péter Katolikus Egyetem, Információs Technológia Kar

Beszédfelismerés és szintézis- előadás -

2007. március 8.

Bárdi Tamás

Page 2: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Mi az alapfrekvencia ?

Alapfrekvencia: a hangszalagok pillanatnyi rezgésszámaSzokásos jelölése: F0

Page 3: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyGerjesztés típusok a

beszédben

Alapfrekvenciát csak akkor értelmezünk,ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.

Page 4: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Pitch is…..

“…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale”(American Standards Association, 1960; cited in Moore, 1997)

What is the definition of pitch?

Vagyis: - a pitch (hangmagasság) érzeti mennyiség - az alapfrekvencia (F0) fizikai mennyiség

Page 5: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Time Frequency

Tones that have the same repetition rate tend to have the same pitch:

Page 6: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyMiért érdekes az

alapfrekvencia?

A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak.Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.

Page 7: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Pitch kontúr előállítása

Fő részfeladatok: - F0 becslése,- zöngésség megállapítása

PDA – Pitch Detector Algorithm:Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani.

VDA – Voicing Detection Algorithm:A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős

Page 8: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Pitch detektorok alkalmazásai

Low-bitrate speech coding: pitch adaptive (pl. GSM)

Speech Synthesis: processing unit inventories

Linguistic analysis, prosody processing

Music: auto-scoring, editing, midi conversion …

Page 9: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyHogyan áll össze egy pitch

kontúr

Haladunk ablakról ablakra:- mindegyikre adunk egy alapfrekvencia becslést- tipikus hossz: 20 – 40 ms- tipikus lépésköz: 10 ms- általában átfedik egymást

Page 10: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: ACF

2/

2/

2

2/

2/

)(

)(*)()( wt

wti

wt

wtit

is

isisr

Auto Correlation Function (autokorreláció függvény):

s(t) – a beszédjel;w – az elemzett ablak hossza

csúcsa. legjobb"" )( az ahol / **0 trfsF

Page 11: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Csúcs kiválasztás ACF-en

Az elemzett beszédablak: Csúcskeresés az ACF-en:

Page 12: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Detekciós hiba lehetőségek Nagy hibák: oktáv vagy még nagyobb tévesztés az

alapfrekvenciában.Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén.

Kis hibák: apróbb pontatlanságok az alapfrekvenciában.Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók)

Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.

Page 13: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Examples for ACF

Page 14: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: ASDF

2/

2/

2

2/

2/

2

)(*2

)]()([)( wt

wti

wt

wtit

is

isisd

Average Squared Difference Function:

s(t) – a beszédjel;w – az elemzett ablak hossza

.mélypontja legjobb"" )( az ahol / **0 tdfsF

Page 15: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Examples for ASDF

Page 16: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: AMDF

w

isisd

wt

wtit

2/

2/

)()()(

Average Magnitude Difference Function:

s(t) – a beszédjel;w – az elemzett ablak hossza

.mélypontja legjobb"" )( az ahol / **0 tdfsF

Page 17: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: Cepstrum Homomorph analysis:

CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))

Page 18: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Algoritmusok: LPC

3500 3550 3600 3650 3700 3750 3800 3850-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

Time (samples)

Am

plitu

de

Speech signal and its LPC error signal

speech LPC error

Csúcsokat keresünk az LPC hibajelben:- ezt pitch-mark kijelölésnek is hívják

Page 19: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

F0 contour with ACF methodApplying ACF directly on speech signal:

Preproc.

Page 20: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A beszédjel célszerű torzításával csökkenthetjük a hibák arányát

My preprocessor is a combination oflow-pass filtering and center clipping.

Page 21: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A Preprocesszor (1):

Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

Page 22: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A Preprocesszor (2):

A szűrt jel és a középre vágási szint (center clip level)- a burkoló 40%-a:

Page 23: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A Preprocesszor (3):

Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

Page 24: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A Preprocesszor (4):

Hangzó illusztráció (s, sz, c eltűnik):

Page 25: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

F0 contour with ACF methodApplying ACF after preprocessing the speech signal:

Original

Page 26: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Egy összetett Pitch Detektor struktúrája

Preprocesszor

Basic Extractor- ACF számítása és elemzése -

F0 becslés

Bemenő beszédjel Meghallgatható:

Ablakozás

V/UV döntés

Pitch kontúr

*

Page 27: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

A kiértékelés adatbázisa

Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével.

Database 2: FDA Evaluation Database

Paul Bagshow & al. Centre for Speech Technology Research, University of Edinburgh

Database 1: Keele Pitch Database Georg Meyer Keele University

Page 28: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyBeszédfelvétel és

laryngográf jel

Page 29: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Zöngés-zöngétlen átmenet

Page 30: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Zöngés-zöngétlen átmenet

Page 31: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyOptimization on the

database

0 0.5 1 1.5 2 2.5

0

0.2

0.4

0.6

0.8

1

Distribution of ACF parameter

unvoicedvoiced error

Error min: 7.02%

Expected decision error rate in terms of the threshold:

0 0.5 1 1.5 2 2.5

0

0.2

0.4

0.6

0.8

1

Distribution of ACF parameter

unvoicedvoiced error

Error min: 3.15%

Without preprocessor After preprocessor

Page 32: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Zöngés/zöngétlen megkülönböztetés:

A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként.Mindkettőt egy-egy küszöbbel hasonlítjuk össze.

A tévesztési arány keresztkiértékeléssel: 2.1%

Page 33: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Összehasonlítás:

Bagshaw (1993):

Page 34: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Rekedt beszédhang pitch kontúrja:

Page 35: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology

Hangmagasság módosításaPitch-Synchronous Overlap-Add (PSOLA) on LPC residual

80%

eredeti

167%

125%

200%

Page 36: Beszéd alapfrekvencia  meghatározása -  Pitch detektor algoritmusok -

Köszönöm a figyelmet