beszéd alapfrekvencia meghatározása - pitch detektor algoritmusok -
DESCRIPTION
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -. Beszédfelismerés és szintézis - előadás - 2007. március 8. Bárdi Tamás. Pázmány Péter Katolikus Egyetem, Információs Technológia Kar. Mi az alapfrekvencia ?. - PowerPoint PPT PresentationTRANSCRIPT
Beszéd alapfrekvencia meghatározása
- Pitch detektor algoritmusok -
Pázmány Péter Katolikus Egyetem, Információs Technológia Kar
Beszédfelismerés és szintézis- előadás -
2007. március 8.
Bárdi Tamás
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Mi az alapfrekvencia ?
Alapfrekvencia: a hangszalagok pillanatnyi rezgésszámaSzokásos jelölése: F0
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyGerjesztés típusok a
beszédben
Alapfrekvenciát csak akkor értelmezünk,ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Pitch is…..
“…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale”(American Standards Association, 1960; cited in Moore, 1997)
What is the definition of pitch?
Vagyis: - a pitch (hangmagasság) érzeti mennyiség - az alapfrekvencia (F0) fizikai mennyiség
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Time Frequency
Tones that have the same repetition rate tend to have the same pitch:
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyMiért érdekes az
alapfrekvencia?
A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak.Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Pitch kontúr előállítása
Fő részfeladatok: - F0 becslése,- zöngésség megállapítása
PDA – Pitch Detector Algorithm:Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani.
VDA – Voicing Detection Algorithm:A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Pitch detektorok alkalmazásai
Low-bitrate speech coding: pitch adaptive (pl. GSM)
Speech Synthesis: processing unit inventories
Linguistic analysis, prosody processing
Music: auto-scoring, editing, midi conversion …
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyHogyan áll össze egy pitch
kontúr
Haladunk ablakról ablakra:- mindegyikre adunk egy alapfrekvencia becslést- tipikus hossz: 20 – 40 ms- tipikus lépésköz: 10 ms- általában átfedik egymást
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Algoritmusok: ACF
2/
2/
2
2/
2/
)(
)(*)()( wt
wti
wt
wtit
is
isisr
Auto Correlation Function (autokorreláció függvény):
s(t) – a beszédjel;w – az elemzett ablak hossza
csúcsa. legjobb"" )( az ahol / **0 trfsF
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Csúcs kiválasztás ACF-en
Az elemzett beszédablak: Csúcskeresés az ACF-en:
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Detekciós hiba lehetőségek Nagy hibák: oktáv vagy még nagyobb tévesztés az
alapfrekvenciában.Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén.
Kis hibák: apróbb pontatlanságok az alapfrekvenciában.Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók)
Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Examples for ACF
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Algoritmusok: ASDF
2/
2/
2
2/
2/
2
)(*2
)]()([)( wt
wti
wt
wtit
is
isisd
Average Squared Difference Function:
s(t) – a beszédjel;w – az elemzett ablak hossza
.mélypontja legjobb"" )( az ahol / **0 tdfsF
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Examples for ASDF
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Algoritmusok: AMDF
w
isisd
wt
wtit
2/
2/
)()()(
Average Magnitude Difference Function:
s(t) – a beszédjel;w – az elemzett ablak hossza
.mélypontja legjobb"" )( az ahol / **0 tdfsF
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Algoritmusok: Cepstrum Homomorph analysis:
CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Algoritmusok: LPC
3500 3550 3600 3650 3700 3750 3800 3850-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
Time (samples)
Am
plitu
de
Speech signal and its LPC error signal
speech LPC error
Csúcsokat keresünk az LPC hibajelben:- ezt pitch-mark kijelölésnek is hívják
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
F0 contour with ACF methodApplying ACF directly on speech signal:
Preproc.
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
A beszédjel célszerű torzításával csökkenthetjük a hibák arányát
My preprocessor is a combination oflow-pass filtering and center clipping.
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
A Preprocesszor (1):
Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
A Preprocesszor (2):
A szűrt jel és a középre vágási szint (center clip level)- a burkoló 40%-a:
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
A Preprocesszor (3):
Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
A Preprocesszor (4):
Hangzó illusztráció (s, sz, c eltűnik):
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
F0 contour with ACF methodApplying ACF after preprocessing the speech signal:
Original
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Egy összetett Pitch Detektor struktúrája
Preprocesszor
Basic Extractor- ACF számítása és elemzése -
F0 becslés
Bemenő beszédjel Meghallgatható:
Ablakozás
V/UV döntés
Pitch kontúr
*
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
A kiértékelés adatbázisa
Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével.
Database 2: FDA Evaluation Database
Paul Bagshow & al. Centre for Speech Technology Research, University of Edinburgh
Database 1: Keele Pitch Database Georg Meyer Keele University
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyBeszédfelvétel és
laryngográf jel
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Zöngés-zöngétlen átmenet
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Zöngés-zöngétlen átmenet
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnologyOptimization on the
database
0 0.5 1 1.5 2 2.5
0
0.2
0.4
0.6
0.8
1
Distribution of ACF parameter
unvoicedvoiced error
Error min: 7.02%
Expected decision error rate in terms of the threshold:
0 0.5 1 1.5 2 2.5
0
0.2
0.4
0.6
0.8
1
Distribution of ACF parameter
unvoicedvoiced error
Error min: 3.15%
Without preprocessor After preprocessor
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Zöngés/zöngétlen megkülönböztetés:
A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként.Mindkettőt egy-egy küszöbbel hasonlítjuk össze.
A tévesztési arány keresztkiértékeléssel: 2.1%
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Összehasonlítás:
Bagshaw (1993):
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Rekedt beszédhang pitch kontúrja:
Péter Pázmány Catholic University, Department of Information Péter Pázmány Catholic University, Department of Information TechnologyTechnology
Hangmagasság módosításaPitch-Synchronous Overlap-Add (PSOLA) on LPC residual
80%
eredeti
167%
125%
200%
Köszönöm a figyelmet