d wiĘk w multimediach
DESCRIPTION
D wiĘk w multimediach. Ryszard Gubrynowicz [email protected]. Wykład 2. Dźwięki mowy. Badanie dźwięków mowy określonego języka: Jak powstają ? Czym się charakteryzują ? Jakie są między nimi współzależności ? Jakie spełniają funkcje ?. - PowerPoint PPT PresentationTRANSCRIPT
2
Dźwięki mowy• Badanie dźwięków mowy określonego
języka:
• Jak powstają ?
• Czym się charakteryzują ?
• Jakie są między nimi współzależności ?
• Jakie spełniają funkcje ?
3
Dziedziny wiedzy obejmujące Dziedziny wiedzy obejmujące dwustronną komunikację werbalnądwustronną komunikację werbalną
Fonetyka akustyczna
Fonetyka percepcyjna
Fonetyka artykulacyjna
4
Podstawy opisu i klasyfikacji Podstawy opisu i klasyfikacji dźwięków mowydźwięków mowy
Opis artykulacyjny
Opis akustyczny
Opis percepcyjny
5
Fonetyka artykulacyjna
Przedmiotem fonetyki artykulacyjnej jest opisanie mechanizmu powstawania dźwięków mowy w narządzie artykulacyjnym człowieka.
6
Fonetyka akustyczna• Koncentruje się na analizie fizycznych
własności dźwięków mowy promieniowanych wokół osoby mówiącej.
• Badanie dźwięków mowy odbywa się przy zastosowaniu fizycznych metod analizy sygnałów akustycznych.
• Jednocześnie poszukuje powiązań istniejących między czynnością artykulacyjną i wytworzonym sygnałem mowy
7
Fonetyka percepcyjna
• Bada percepcję dźwięków mowy, na poziomie układu centralnego.
• W badaniach stosowane są metody analizy subiektywnej oceny własności sygnałów akustycznych, zrozumiałości mowy itp.
8
Układ akustycznyUkład akustycznyźródło –ośrodek-odbiornikźródło –ośrodek-odbiornik
9
Anatomia i akustyka narządu artykulacyjnego
10
Narząd artykulacyjny człowiekaNarząd artykulacyjny człowieka
11
„Le boulanger dit onze bieres”
Narząd artykulacyjny w akcjiNarząd artykulacyjny w akcji
12
Elementy narządu artykulacyjnego Elementy narządu artykulacyjnego uczestniczące w formowaniu uczestniczące w formowaniu
sygnału mowysygnału mowy
Fałdy głosowe
Podniebienie miękkie
Podniebienie twarde
Język
Zęby
Wargi
13
Źródłem energii promieniowanej podczas mówienia są płuca.
Podobnie jak ma to miejsce w instrumentach muzycznych dętych – źródłem energii niesionej przez dźwięk są płuca osoby grającej
14
Funkcjonalny schemat organu mowyFunkcjonalny schemat organu mowy
15
Układ oddechowy- płucaUkład oddechowy- płuca
16
Układ oddechowy - tchawicaUkład oddechowy - tchawica
17
Cykle oddechowe: proporcje czasoweCykle oddechowe: proporcje czasowe
Max pojemność płuc –ok. 7 litrówPojemność minimalna – 2 litry stale w płucach.Objętość powietrza wymieniana podczas każdego cyklu oddechowego – 0.5 lCzęst. oddychania w stanie spoczynku –12-20 cykli na minutę
18
Przebieg zmian objętości Przebieg zmian objętości powietrza w płucachpowietrza w płucach
VC – pojemność spoczynkowa
19
Źródłem pobudzającym tor Źródłem pobudzającym tor głosowy mogą być:głosowy mogą być:
a) fałdy głosowe – modulują w sposób regularny przepływ powietrza wychodzącego z płuc,
b) szczelina utworzona w torze głosowym - powoduje powstanie zawirowań,
c) przeszkoda (zęby) – j.w.d) krótkotrwały impuls powietrza – powstaje w
wyniku nagłego otwarcia toru głosowego, po chwilowym zwarciu w określonym miejscu toru głosowego.
20
Głośnia+fałdy głosowe+tchawicaGłośnia+fałdy głosowe+tchawicaPrzekrój pionowy
21
Fałdy głosowe – widok z góryFałdy głosowe – widok z góry
22
Fałdy głosowe w akcjiFałdy głosowe w akcji
Faza oddechuFaza oddechu Faza fonacjiFaza fonacji
23
Rozkład ciśnień powietrza w torze głosowym
24
Aerodynamika fałdów głosowychAerodynamika fałdów głosowych
25
Instrumenty muzyczne stroikowe
Harmonijka ustna
Działają na podobnej zasadzie jak fałdy głosowe
26
Przebieg zmian prędkości Przebieg zmian prędkości objętościowej strugi powietrza objętościowej strugi powietrza
u wylotu głośniu wylotu głośni
T0
T0=1/F0
27
Mechaniczny model źródła Mechaniczny model źródła pobudzenia krtaniowegopobudzenia krtaniowego
Model 1-masowy Model 3-masowym – masa fałdów głosowychk – sprężystość fałdówb – stratność w ruchu fałdów
28
Funkcjonalny model źródła krtaniowegoFunkcjonalny model źródła krtaniowego
29
Wzór na częstotliwość drgań Wzór na częstotliwość drgań fałdów głosowychfałdów głosowych
m – masa fałdówK – sztywność (napięcie) fałdówK* - sztywność aerodynamiczna
30
Widmo przebiegu piłokształtnegoWidmo przebiegu piłokształtnegoAproksymacja przebiegu zmian prędkości objętościowej strugi powietrza płynącego przez głośnię
31
Widmo pobudzenia krtaniowegoWidmo pobudzenia krtaniowego
Obwiednia widma opada z częstotliwością –12 dB/okt
32
Zmiana średniej częstotliwości Zmiana średniej częstotliwości tonu krtaniowego w funkcji wietonu krtaniowego w funkcji wieku
Skąd się biorą różnice?
Średnia długość fałdów:noworodki – 5 mmdzieci – 10-13 mmkobiety –11-15 mmmężczyźni – ok. 20 mm
Masa drgających fałdów jest proporcjonalna do ich długości
33
Przebieg zmian częstotliwości F0 Przebieg zmian częstotliwości F0 w zdaniu w zdaniu „„Czy mógłby pan...”Czy mógłby pan...”
34
Przebieg F0 z opisem fonetycznymPrzebieg F0 z opisem fonetycznym
tS I m
ug
bI
p
an
p
S
I sw
a
ts'k o
go
z've
ft o r e k r
a n
o
0
50
100
150
200
250
300
350
400
450
500
0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5
Czas [s]
35
Narząd artykulacyjny jako układ Narząd artykulacyjny jako układ akustycznyakustyczny
Jest on swoistego rodzaju układem akustycznym, w którym można wyróżnić dwa podstawowe elementy:a) źródło pobudzająceb) tor głosowy stanowiący w swej istocie rurę o zmiennym przekrojuwypełnioną powietrzem – w torze tym rozchodzi się fala płaska
36
Formowanie sygnału mowyFormowanie sygnału mowy
37
Akustyczny model toru głosowegoAkustyczny model toru głosowego
38
Rezonanse stratnej rury Rezonanse stratnej rury cylindrycznej o długości 17.5 cmcylindrycznej o długości 17.5 cm
formanty
39
Tor głosowy jako rura akustycznaTor głosowy jako rura akustycznao zmiennej konfiguracjio zmiennej konfiguracji
10
20
30
40
50
60
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Czestotliwosc [Hz]
651
14312136
3313
4285
10
20
30
40
50
60
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Czestotliwosc [Hz]
651
1370
2180
34943892
10
20
30
40
50
60
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Poziom [dB]
7121196
26153046
4284
40
Dlaczego rezonanse w modelu 2 - rurowym są inne niż w 1 - segmentowym (sumaryczna
długość w obu przypadkach jest taka sama)?
41
Co się dzieje na granicy 2 segmentów Co się dzieje na granicy 2 segmentów cylindrycznych? (Acylindrycznych? (AkkAAk+1k+1))
42
Jak wygląda przybliżony kształt toru Jak wygląda przybliżony kształt toru głosowego dla /a/ ?głosowego dla /a/ ?
Funkcja powierzchni przekroju toru głosowego An
43
Stosunek powierzchni AStosunek powierzchni Akk/A/Ak+1k+1 a a
charakterystyka częstotliwościowacharakterystyka częstotliwościowa
Nakładanie się fal padających i odbitych o różnym przesunięciu czasowym powoduje ich wielokrotne sumowanie (lub/i odejmowanie). Wielkość (amplituda) fal przenikających i odbitych zależy od stosunku powierzchni Ak/Ak+1. Stosunek tych powierzchni decyduje o charakterystyce częstotliwościowej układu cylindrów
44
Przekroje samogłoskowePrzekroje samogłoskowe
Samogłoska i Samogłoska I Samogłoska e
Samogłoska a Samogłoska o Samogłoska u
45
Miejsce i wysokość artykulacjiMiejsce i wysokość artykulacji
Wysokośćartykulacji
Miejsce artykulacji
długość toru głosowego - 17 cmdługość odcinka cylindrycznego - 1 cm
46
Wpływ położenia zwężenia na Wpływ położenia zwężenia na F1, F2, F3 dla konfiguracji /u/F1, F2, F3 dla konfiguracji /u/
47
Charakterystyka rezonansów Charakterystyka rezonansów modelu samogłoski /a/modelu samogłoski /a/
48
Porównanie widm modelu i Porównanie widm modelu i naturalnej samogłoski /a/naturalnej samogłoski /a/
-40
-35
-30
-25
-20
-15
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
F1
F2
F3
F4
Częstotliwość [kHz]Liczba rezonansów w torze głosowym istotnych dla percepcji dźwięku samogłoskowego jest ograniczona i nie przekracza zazwyczaj 5-7
49
Modelowanie toru głosowego za Modelowanie toru głosowego za pomocą filtrów formantowychpomocą filtrów formantowych
źródło
F1 F3F2
Pojedyncze rezonatory Funkcjapromieniowania
50
Definicja formantuDefinicja formantu
Maksima w charakterystyce częstotliwościowej toru głosowego wpływające na różnicowanie dźwięków mowy danego języka nazywamy formantami. Oznacza to, że nie każde maksimum w widmie danego dźwięku mowy musi być formantem.
51
Trudności w określaniu formantów Trudności w określaniu formantów w sygnałach naturalnychw sygnałach naturalnych
Dwie kolejne samogłoski /a/ w wyrazie „waga” (głos męski, F0=148 Hz)
0
10
20
30
40
50
60
0 500 1000 1500 2000 2500 3000 3500 4000 4500
0
10
20
30
40
50
60
0 500 1000 1500 2000 2500 3000 3500 4000 4500
0
10
20
30
40
50
60
0 500 1000 1500 2000 2500 3000 3500 4000 4500
Częstotliwość [Hz] Częstotliwość [Hz]
52
Wpływ częstotliwości F0 Wpływ częstotliwości F0 na widmo dźwięku mowyna widmo dźwięku mowy
widmo głosu niskiego
widmo głosu wysokiego
53
Zasadnicze tematyZasadnicze tematy
1) Jakie elementy narządu artykulacyjnego uczestniczą w formowaniu sygnału mowy ?
2) Jaki jest mechanizm działania fałdów głosowych ?
3) Jakie czynniki wpływają na częstotliwość drgań fałdów głosowych ?
4) Jaki jest model formowania dźwięków mowy ?
5) Miejsce i wysokość artykulacji
54
Terminy angielskie
Tchawica - tracheaKrtań – larynxFałdy głosowe – vocal foldsGłośnia - glottisPodniebienie miękkie – soft palatePodniebienie twarde – hard palateWargi – lipsŹródło pobudzenia – excitation sourceCzęstotliwość podstawowa (F0) – fundamental
frequencyTor głosowy – vocal tract
55
Terminy angielskie
• Widmo – spectrum
• Obwiednia widma – spectrum envelope
• Miejsce i wysokość artykulacji – place of articulation, height of articulation
• Formant - formant