phonetik i: akustische phonetik (ii) inhalt: akustische ... · o längsspannung der...
Post on 17-Sep-2018
220 Views
Preview:
TRANSCRIPT
Phonetik I: Akustische Phonetik (II)
Inhalt: Akustische Phonetik • Physikalische Grundlagen • Akustogenese: Generierung des Sprachschalls im Sprechtrakt
• Regeln zur Modifikation von Formantfrequenzen • Akustische Merkmale einzelner Lautgruppen• Akustische Analysemethoden • Einführung in das Arbeiten mit Sprachsignal-Analysesoftware• Durchführung und Vorbearbeitung von Sprachschallaufnahmen• Akustische Merkmale von Stimm- und Sprechstörungen
1
Akustogenese: Generierung des akustischen Sprachsignals im Sprechtrakt
Wichtige Theorie hierzu: Die Quelle-Filter Theorie (Fant 1960)• Dreiteilung des Sprechapparates aus funktionaler Sicht (aerodynamisch/akustisch)
Kent_03_05o Initiation: Lunge liefert aerodynamische Energie (Luftdruck und Luftstrom) o Phonation: Stimmlippenschwingung im Kehlkopf -> akustisches Signalo Artikulation: Vokaltrakt (Ansatzrohr: Rachen-, Mund- und Nasenraum) überformt
den Phonationsschall
• Zweiteilung des Sprechapparates aus engerer akustischer Sicht: Im Grunde die letzten beiden Punkte:o Phonation = Quelle: Generierung des Schallsignalso Artikulation / Vokaltrakt = Filter: Überformung / Filterung (und Abstrahlung) des
Schallsignals
2
Die Quelle: Phonation • Der Phonationsmechanismus: Aerodynamische Energie (Überdruck bei geschlossener
Stimmritze und Bernoulli-Unterdruck) -> mechanische Stimmlippenschwingung -> schnelle Variation des Luftstroms (Luftstrom-Impulse) -> akustisches Signal
PM_012 Grass_2_07 PM_015
• Zwei wichtige funktionale Parameter der Phonation: o Längsspannung der Stimmlippen -> Variation der Tonhöhe Kroe02_04o Ruheabstand der Stimmlippen: Grass_2_08
stark verschlossen (-> Vollverschluss []; keine Phonation) gepresst verschlossen (-> Knarrstimme; gepresste Stimme) locker verschlossen (-> normale Phonation) leicht geöffnet (-> behauchte Phonation) geöffnet (-> stimmlose Laute; keine Phonation) weit geöffnet (-> Atemstellung; keine Phonation)
3
Zur Aerodynamik und Akustik der Phonation
Ausgangspunkt: (mechanische) Stimmlippenschwingung führt zu zeitlicher Änderung der Fläche der Stimmritze (Glottis) quantitativ ähnliche Variation des Luftstroms PM_015 Glott_Parameter Variation des Schalldrucks PM_048 ( Phonationsschall)
Grundfreqeunz (F0) des Phonationsschalls liegt um ca. 120 Hz bei Männern um ca. 250 Hz bei Frauen;
4
Zum Spektrum des Phonationsschalls Glott_Spektrum• Frequenz der Obertöne sind immer ganzzahlige Vielfache des Grundtons F0
Abstand zweier Teiltöne entspricht genau F0 (Abb. hohes/tiefes F0)• abnehmende Intensität der Obertöne zu höheren Frequenzen hin PM_051 (a)
Kroe02_06 (a)• sprechakustisch relevante Obertöne im Bereich von 0 bis ca. 3 kHz• bei leisem Sprechen sinkt die Amplitude der Obertöne schneller PM_015
Spektrum: normales und leises Sprechen: testsig_synt_glott (200Hz, 400Hz)
Auftreten von Phonationsschall beim SprechenPhonationsschall tritt auf in allen stimmhaften Lauten: z.B. Vokale, Nasale, Laterale, Vibranten, stimmhafte Plosive und Frikative
5
Eine weitere akustische Quelle: Friktionsschall • Friktionsschall entsteht aufgrund der Luftströmung durch eine glottale oder supra
gottale Konstriktion (Enge) PM_049• Zum Mechanismus:
o Beschleunigung des Luftstroms in einer Enge; o Verwirbelung des Luftstrahls nach Verlassen der Enge (aufgrund von
Luftreibung) o Luftdruckschwankungen im Bereich der Wirbel o Schallentstehung
• Die Wirbelbildung ist ein nur noch „statistisch“ vorhersagbares Ereignis zugehöriges akustisches Signal: Rauschen PM_047
genannt: Friktionsrauschen (supraglottal)Aspiration (glottal)
6
Akustische Eigenschaften des Friktionsschalls Friktionsrauschen liegt im Bereich von ca. 3 bis 10 kHz: laute_fric [f], [s]Also: Meist höher als Phonationsschall inkl. der intensitätsstarken Obertöne
anhand der Energieverteilung im Sonagramm kann leicht stimmhaft/stimmlos detektiert werdendimh_01_sona (und Transkription)
Auftreten von Friktionsschall beim SprechenFriktionsschall tritt auf bei • Frikativlauten • Plosivlaute: kurzzeitiges Plosionsgeräusch ( transiente Anregung)
nachfolgend auch Aspiration (= glottales Friktionsrauschen)
7
Akustische Eigenschaften des Filters / des Ansatzrohres / des Vokaltraktes: Was passiert im Vokaltrakt / im Ansatzrohr (bei vokalischer Artikulation)?Eine Überformung des Phonationsschalls durch die Filterwirkung des Vokaltraktes.
Was bedeutet „Filterwirkung des Vokaltraktes“? • Der Vokaltrakt ist ein Hohlraum -> Es gibt Hohlraumresonanzen (Experiment: „An
blaseton“ einer Flasche) (Experiment: „Anschnipsen“ der Backe) • Das Ansatzrohr des Menschen ist ein Hohlraum: Anregung an Glottis, Abstrahlung am
Mund • Die Frequenzen des Glottissignals im Bereich dieser Resonanzen werden ohne Ab
schwächung durchgelassen bzw. verstärkt; alle anderen Frequenzen (zwischen den Resonanzen) werden abgeschwächt
Kroe02_06 (a,b,c) PM_051 (a,b,c)
8
Definition des Begriffs „Formant“Aus Sicht der Akustogenese: Formanten = Hohlraumresonanzen des AnsatzrohresAus Sicht der Analyse: Formant = (breites) Energiemaximum im Spektrum
(Breit im Vergleich zu den Spektrallinien der Teiltöne)
Darstellung der Formanten im abgestrahlten akustischen Sprachsignal:Formanten = Bereiche stärkerer Energie im Spektrum
= dunkle horizontale Balken im SonagrammHören: vokale_01 vokale_02Sonagramme mit sfs: sona_vokale_01_bs sona_vokale_02_bsSonagramme mit Praat: sona_vokale_01 sona_vokale_02
Die Änderung der Lage der Formanten deutet die Änderung der Lage und Formung der Sprechorgane (Lippen, Unterkiefer, Zunge, Gaumensegel) an.
9
Beispiele zu den „Formanten“Synthetisch erzeugte Vokale: testsig_synt_vok [a], [i], [u] natürliche Vokale: laute_vok [a], [i] (mittels Kurzzeitspektrum analysiert)
10
Formanten und stehende Wellen
Wieso entstehen Hohlraumresonanzen?
Antwort:Schallwellen können in Hohlräumen bei bestimmten Frequenzen stehende Wellen ausbilden BordHarris_04_60 Hess_aap2f_53
11
Schwingungen und WellenBisher diskutiert: Schwingungen: Auslenkung eines Punktes über die Zeit: PM_043 Siehe auch bereits PM_041 (vertikale Achse)
Jetzt neu: Wellen: Übertragung einer Schwingung auf benachbarte Punkte (Luftpartikel) und damit Ausbreitung der Schwingung in den Raum hinein PM_041 Zur Erläuterung von Schallwellen:• Generierung einer Welle aus einer Schwingung (Punktquelle) Generierung_Welle• Ausbreitung einer Welle im Raum Ausbreitung_Welle
Es schieben sich Teilchenverdichtungen durch den Raum• ( Empfang der Schallwelle am Trommelfell oder am Mikrofon (Membran)
Empfang_Welle )
12
Longitudinalwellen und TransversalwellenSchallwellen sind Longitudinalwellen: Schwingung der Teilchen in Richtung der Ausbreitung der Welle
Es gibt auch Transversalwellen: z.B. elektromagnetische Wellen; in Näherung auch: Wasserwellen, Seil Ausbr_transv_Welle
Anmerkung: Elektromagnetische Wellen treten je nach Wellenlänge in unterschiedlicher Form in Erscheinung:MikrowellenRadiowellensichtbares LichtRöntgenstrahlen...
13
Beschreibungsgrößen von Schallwellen Die Beschreibungsgröße einer Schallschwingung ist die Auslenkung des Teilchens bzw. die momentane Geschwindigkeit des Teilchens PM_041
Das kann auf die Schallwelle übertragen werden: Die Beschreibungsgrößen einer Schallwelle sind Schalldruck und Schallschnelle:
PM_041
Innerhalb der Welle treten auf: Schallwelle• Bereiche hohen Schalldrucks (hohe Dichte der Teilchen) Druckbäuche• Bereiche hoher Schallschnelle (schnelle Bewegung der Teilchen) SchnellebäucheDazwischen: Druckknoten und Schnelleknoten
Die Schwingungsform, die von der Schallquelle generiert wurde (hier eine Sinusschwingung) setzt sich in den Raum fort für Schalldruck und Schallschnelle PM_041
14
Stehende Wellen Zurück zum Sprechtrakt: Besondere Situation: Ausbreitung einer Schallwelle in einem „Röhrchen“ (Ansatzrohr): Reflexion der Schallwelle an den Enden des Röhrchens (Glottis / Mund)
Der Sprechtrakt / das Ansatzrohr stellt vereinfacht gesehen ein einseitig geschlossenes und einseitig offenes Rohr dar. BordHarris_04_60 Hess_aap2f_52• Geschlossenes Ende: Reflexion der Welle (intuitiv: wie Zurückprallen eines Balls) • Offenes Ende: Wieso entsteht am Mund eine Reflexion der Schallwelle?
Grund: Der Druck kann am offenen Mund nicht variieren (= Umgebungsdruck), wohl die Schnelle (longitudinal: freie Bewegung der Teilchen) Also: Reflexion des Schalldrucks Reflexion_Druck (wie fest eingespanntes Seil)
15
Also: Die Schallwellen werden an der Glottis erzeugt und dann an beiden Enden laufend reflektiert. Im Ansatzrohr laufen die an der Glottis erzeugten Schallwellen hin und her
Bei besonderen Wellenlängen (in Relation zur Länge des Ansatzrohres) können wegen der Reflexion stehende Wellen entstehen.Entstehung_steh_Welle (hier beidseitig geschlossenes Ende)Knoten (= Node)Bauch (= Antinode)
Für eine stehende Welle gilt: Ein Druckbauch fällt immer mit einem Schnelleknoten zusammen und umgekehrt. Schallwelle
16
Zum Zusammenhang Wellenlänge und Frequenz (Periodendauer)
Den Zusammenhang zwischen Wellenlänge λ und Frequenz f (Periodendauer T) der Welle definiert die Schallgeschwindigkeit: c = λ/T = λ*f = 350 m/s
• niederfrequente Schallwellen sind lang (Meterbereich) 100 Hz <-> 3.5 m• hochfrequente Schallwellen sind kurz (Millimeterbereich) 10kHz <-> 3.5mm
17
Wellenlänge (und Frequenz) von stehenden Wellen im AnsatzrohrErinnerung: BordHarris_04_60 Hess_aap2f_52• Offenes Ende (Mund): Hier kann immer nur ein Druckknoten (Umgebungsdruck) und
ein Schnellebauch (freies Ende) auftreten• Geschlossenes Ende (Glottis): Hier kann immer nur ein Druckbauch (freie Variation)
und ein Schnelleknoten (Teilchen können sich longitudinal nicht bewegen) auftreten.
Frage: Welche Wellenlängen können im Röhrchen als stehende Wellen auftreten? Antwort: Das sind Viertel-, Dreiviertel-, Fünfviertel-, .... -Wellen.
BordHarris_04_60 Hess_aap2f_52 Hess_aap2f_53
Obwohl das Glottisspektrum (die Glottisschwingung) alle Frequenzen (alle Wellenlängen) anbietet, werden nur die Frequenzen der stehenden Wellen im Ansatzrohr „besonders stark“. Die Frequenzen der stehenden Wellen sind die Resonanzfrequenzen des Ansatzrohres (die Formanten) PM_051
18
Die Sprechtraktlänge definiert somit die Länge der stehenden Wellen (der Resonanzen) und damit ihre Frequenz: Bei einer Sprechtraktlänge von 17.5 cm ergibt sich:• F1: λ = 4*17.5cm -> F1 = 500 Hz Hess_aap2f_53• F2: λ = 4*17.5cm / 3 -> F2 = 1500 Hz• F3: λ = 4*17.5cm / 5 -> F3 = 2500 Hz
Illustration / Animation die ersten vier stehenden Wellen bei • einem beidseitig geschlossenen Rohr Schnelle oder: • einem beidseitig offenen Rohr DruckMan erkennt die immer kleiner werdende Wellenlänge der Resonanzen:Welle_steh_h1 Welle_steh_h2 Welle_steh_h3 Welle_steh_h4
19
Anmerkung: Abstrahlung der Schallwelle am Mund
Erinnerung: Am Mund wird der Schalldruck reflektiert Grund: Druck ausserhalb des Mundes = Umgebungsdruck = const.Reflexion_Druck
Hier wird die Welle totalreflektiert; es findet keine Abstrahlung statt. (!?)
Realität: Der Druck außerhalb des Mundes kann leicht um den Umgebungsdruck schwanken.Damit wird eine Teilabstrahlung (und Teilreflexion) der Welle möglich:
Abstrahlung_Mund (Allgemeines Beispiel für Impedanzsprünge)
20
Quelle und Filter im Zeit- und im Frequenzbereich
1) Betrachtung von Quelle und Filter im FrequenzbereichPM_051• Quelle = kontinuierlich abfallendes Linienspektrum X(f)• Filter = Filterfunktion / Übertragungsfunktion H(f)• (Vom Mund) abgestrahltes Schallsignal Y(f) = X(f) * H(f)
Multiplikation im Frequenzbereich ( „Faltung“ im Zeitbereich)
Anmerkung: (Amplituden-)Spektren werden meist logarithmisch dargestelltGrund: Lautstärke wird vom Gehör näherungsweise logarithmisch verarbeitet:
Lautstärkepegel: L = 10 log10 (A2) [dB] = 20 log10 (A)
Im logarithmischen Amplitudenspektrum ergibt sich das abgestrahlte Schallsignal als Summe von Quelle und Filterfunktion: log(Y(f)) = log(X(f)) + log(H(f))
21
2) Betrachtung von Quelle und Filter im Zeitbereich
• Die Quelle macht „glottale Impulse“o Glottale Impulse sind oftmals in (Breitband-)Sonagrammen gut erkennbar
dimh_01_sonao Glottale Impulse repräsentieren den glottalen Schalldruck-Impuls zum Zeitpunkt
des Schließens der Stimmritze innerhalb des glottalen Schwingungszyklus PM_048
o Dieser „negative Maximalwert“ PM_048 liefert genau die „akustische Anregung“ des Vokaltraktes / des Ansatzrohres
o Eine solche Anregung passiert ca. alle 10 ms (100 Hz) bis unter 4 ms (250 Hz)
22
• Die „Antwort“ des Vokaltraktes auf einen glottalen Impuls (-> „Impulsantwort“) ist eine abklingende Schwingung, anhand der die Formanten abgelesen werden können. PM_050 hess_gsv3f_54
Versuch: Einstellen des Vokaltraktes auf einen Vokal [i, a, o, u] und „Anschlagen“ einer Wange -> Der Vokal ist (= Die Formanten sind) in der „Impulsantwort“ hörbar.
• Das Sprachsignal entsteht aus der zeitlichen Überlagerung von Impulsantworten, die jeweils zum Zeitpunkt eines glottalen Impulses ausgelöst werden („Faltung“) PM_050
Anmerkung: Die Faltung ist ein wesentlich komplizertes Verfahren als ein Multiplikation (oder Addition). Aus dieser Sicht ist die Betrachtung von Quelle und Filter im Frequenzbereich attraktiv.
23
Analyse von Quelle und Filter im Zeit- und im Frequenzbereich (Bsp.: Vokal)• Zeitbereich: PM_050
o Quelle: Anregungsimpulse des Sprechtraktes: Amplitudenmaxima im Oszillogramm; vertikale Balken im Breitbandsonagramm
o Filter: Impulsantwort des Ansatzrohres: Schwingung zwischen den Amplitudenmaxima im Oszillogramm; horizontale Balken im Breitbandsonagramm sona_vokale_02
• Frequenzbereich: PM_051o Quelle: Linienspektrum (wird sichtbar im Kurzzeitspektren mit Analysefens
terlänge um ca. 100 ms; wird sichtbar im Schmalbandsonagramm)o Filter: Übertragungsfunktion ist näherungsweise die Einhüllende des Spektrums
des abgestrahlten SchallsignalsProblem: Sehe die Teiltöne im abgestrahlten Schallsignal.Lösung: Durchführung einer „spektraler Glättung“ LPC, Cepstrum
24
Einfaches Verfahren der spektralen Glättung: Kurzzeitspektrum mit Analysefensterlänge unterhalb von T=1/F0. Nachteil: sehr schlechte Auflösung im Frequenzbereich.
Übung: Realisierung von Kurzzeitspektren (Cool-Edit > Analyse > Frequency ) zu den Vokalen [a] und [i] bei unterschiedlichen Analysefensterlängen: vok_aa_01 vok_ii_01
• kurzes Analysefenster: sehe kein Linienspektrum sehe die Einhüllende; aber bei sehr schlechter spektraler Auflösung kann die Formantfrequenzen nicht genau messen
• langes Analysefenster: sehe das Linienspektrum sehe die Einhüllende nicht mehr so gut; kann die Lage eines Formanten (die Formantfrequenz) zwischen zwei Teiltönen nur erahnen kann die Formantfrequenzen nicht genau messen
Es wird klar: Wir benötigen „weitergehende“ Methoden, um die Quelle und den Filter aus dem akustischen Signal separieren zu können.
25
top related