![Page 1: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/1.jpg)
2 und Logistic Regression
Jonathan Harrington
Die Analyse von Proportionen:
Befehle: proportion.txt
pfad = "den Pfad eingeben, wo die Datei gespeichert wurdelvoc = read.table(paste(pfad, "lvoc.txt", sep="/"), header=T)
/l/-Vokalisierung txt
![Page 2: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/2.jpg)
Kontinuierlich
Kontinuierlich und kategorialKontinuierlich und kategorial
Kategorial
Was ist die Wahrscheinlichkeit, dass:
F2 von [i:] höher ist als von [I] (t-test)F1 und Dauer von [a] miteinander korreliert sind (Regression)?
Eine steigende Melodie in Aussagen von jugendlichen im Vergleich zu älteren Personen verwendet wird?
Ein [r] statt [R] in Bayern im Vergleich zu Schleswig-Holstein verwendet wird?
Was ist die Wahrscheinlichkeit, dass:
![Page 3: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/3.jpg)
In einer kategorialen Analyse werden meistens 2 Proportionen miteinander verglichen.
Die tests dafür: 2 und Logistic Regression.
zB wir zählen wie oft steigende Melodien in Aussagen bei jugendlichen (35%) und älteren Leuten (11%) vorkommen. Sind diese Proportionen (35%, 11%) signifikant unterschiedlich?
![Page 4: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/4.jpg)
Solche Methoden haben insbesondere in der Soziolinguistik/phonetik eine Anwendung, in der sehr oft auditiv die Proportionen wahrgenommener Allophone miteinander als Funktion von Alter, Dialekt usw. verglichen werden, ohne unbedingt die kontinuierlichen akustischen (oder artikulatorischen) Parameter (Dauer, Formanten usw.) zu analysieren.
(In der Soziolinguistik: Logistic Regression = VARBRUL)
![Page 5: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/5.jpg)
Terminologie: Faktoren und Stufen (levels)
Was ist die Wahrscheinlichkeit, dass ein silbenfinaler /t/ gelöst wird?
Faktor = silbenfinaler /t/ mit 2 Stufen: gelöst oder nicht gelöst.
Was ist die Wahrscheinlichkeit, dass ein silbenfinaler /t/ gelöst, nicht-gelöst oder lenisiert wird?
Faktor = silbenfinaler /t/ mit 3 Stufen (gelöst, nicht-gelöst, lenisiert)
Ein Faktor
![Page 6: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/6.jpg)
Zwei Faktoren
Wird ein silbenfinaler /t/ häufiger in Bayern als in Hessen gelöst?
F1: /t/ mit 2 Stufen (gelöst, nicht-gelöst)
F2: Dialekt mit 2 Stufen (bayerisch, hessisch).
Ist die Verteilung der /t/ Realisierungen – ob sie gelöst, lenisiert oder nicht-gelöst werden – dieselbe in Bayern, Hessen, und Sachsen?
Zwei Faktoren ( /t/ und Dialekt) jeweils mit 3 Stufen.
![Page 7: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/7.jpg)
Drei Faktoren
Unterscheidet sich die Häufigkeit der //-Vokalisierungen zwischen Männern und Frauen in Bayern und Hessen?
F1: // mit 2 Stufen (vokalisiert oder nicht)
F2: Geschlecht mit 2 Stufen: (M, F)
F3: Dialekt mit 2 Stufen (Bayern, Hessen).
![Page 8: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/8.jpg)
Die statistische Analyse von Proportionen
Mehr als 2 Faktoren**
Logistic Regression (kann auch bei 2 Faktoren eingesetzt werden**, und gibt fast das gleiche Ergebnis wie ein 2-test).glm() = generalized linear model(der Name soll an lm() erinnern – da sie miteinander viele Ähnlichkeiten haben)
**Ein Faktor muss 2 Stufen haben
Eine oder zwei Faktoren
Analyse von Proportionen 2-test=
prop.test() chisq.test()
(aber prop.test() kann nicht eingesetzt werden, wenn beide Faktoren mehr als 2 Stufen haben)
![Page 9: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/9.jpg)
1. Ein Faktor, zwei Stufen
Ich werfe eine Münze 20 Mal und bekomme 5 Mal Kopf. Ist die Münze gezinkt?
d.h. weicht die Proportion 5/20 = ¼ signifikant von 10/20 = ½ ab?
prop.test(5, 20, .5)
data: 5 out of 20, null probability 0.5 X-squared = 4.05, df = 1, p-value = 0.04417alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.0959326 0.4941155 sample estimates: p 0.25
Die Münze ist gezinkt: 2(1) = 4.05, p < 0.05
(Faktor = Münze, Stufen = Kopf, Zahl)
![Page 10: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/10.jpg)
2 Faktoren jeweils 2 Stufen
Die Anzahl der glottalisierten silbenfinalen /t/s ist in einem englischen Dialekt getrennt fuer Männer und Frauen gemessen worden.
Männer
glottalisiert nicht-glottalisiert
Frauen
110 90
82 108
Kommt die Glottalisierung häufiger bei Männern vor?
n
200
190
Genauer: sind 110/200 und 82/190 voneinander signifikant unterschiedlich?
Silbenfinaler /t/
Geschlecht
Die Frage in eine Proportion umsetzen: unterscheiden sich die Proportionen der Glottalisierungen zwischen M und F?
![Page 11: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/11.jpg)
prop.test(c(110, 82), c(200, 190))
data: c(110, 82) out of c(200, 190) X-squared = 5.0034, df = 1, p-value = 0.0253alternative hypothesis: two.sided 95 percent confidence interval: 0.01473134 0.22211077 sample estimates: prop 1 prop 2 0.5500000 0.4315789
Männer und Frauen dieses Dialekts unterscheiden sich in der Häufigkeit der silbenfinalen /t/-Glottalisierung 2(1) = 5.00, p < 0.05.
Männer
glottalisiert nicht-glottalisiert
Frauen
110 90
82 108
n
200
190
Silbenfinaler /t/
Geschlecht
![Page 12: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/12.jpg)
Diese Daten zeigen, inwiefern in der Erzeugungen einiger Sätze H* im Gegensatz zu L*+H in akzentuierten Wörtern von Versuchspersonen aus München und Hamburg erzeugt wurden.
Gibt es zwischen München und Hamburg einen signifikanten Unterschied in der Verteilung dieser Tonakzente?
München
Hamburg
L*+H H*
25 14
56 93
![Page 13: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/13.jpg)
Die Verteilung der /l/ Vokalisierungen in einem Dialekt in 4 Altersgruppen ist wie folgt:
2 Faktoren, ein Faktor mit 2 Stufen, die andere mit mehr als 2 Stufen
A20min A20bis30 A31bis40 A41plusvok 58 55 62 38nicht-vok 34 49 84 59
Hat Alter einen signifikanten Einfluss auf /l/-Vokalisierung?
Alter/l/
pfad = "das Verzeichnis der gespeicherten Datei lvoc.txt"lvoc = as.matrix(read.table(paste(pfad, "lvoc.txt", sep="/")))
barplot(lvoc, beside=T, legend=T)
= ist die Verteilung der /l/s in den Alterstufen unterschiedlich?
![Page 14: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/14.jpg)
In Proportionen umwandeln – und dazu brauchen wir die jeweiligen Gruppensummen
A20min A20bis30 A31bis40 A41plusvok 58 55 62 38nicht-vok 34 49 84 59
lvoc
A20min A20bis30 A31bis40 A41plus 92 104 146 97
und vergleichen dann miteinander 58/92, 55/104, 62/146, 38/97
apply(lvoc, 2, sum)
prop.test(c(58, 55, 62, 38), c(92, 104, 146, 97))
![Page 15: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/15.jpg)
prop.test(c(58, 55, 62, 38), c(92, 104, 146, 97))
data: c(58, 55, 62, 38) out of c(92, 104, 146, 97) X-squared = 14.0959, df = 3, p-value = 0.002778alternative hypothesis: two.sided sample estimates: prop 1 prop 2 prop 3 prop 4 0.6304348 0.5288462 0.4246575 0.3917526
Alter hat einen signifikanten Einfluss auf //-Vokalisierung, 2(3) = 14.10, p < 0.01
Das gleiche mit chisq.test()
chisq.test(lvoc) Pearson's Chi-squared testdata: lvoc X-squared = 14.0959, df = 3, p-value = 0.002778
![Page 16: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/16.jpg)
Wie wird 2 berechnet?2 ist die Abweichung der tatsächlich vorkommenden (Observed) von den zu erwartenden (Expected) Verteilungen, unter der Annahme (Null Hypothese) dass die Verteilungen pro Gruppe gleich sind. A20min A20bis30 A31bis40 A41plusvok 58 55 62 38nicht-vok 34 49 84 59
Null Hypothese: die Proportion der vokalisierten //s ist in allen 4 Gruppen gleich.
d.h. unter der Null-Hypothese müssten 0.4851936 der /l/s in jeder Altersgruppe vokalisiert sein. zB für A20min:
0.4851936 * sum(lvoc[,1]) [1] 44.63781
[1] 0.4851936
Proportion der vok //s unabhängig vom Alter =
sum(lvoc[1,])/sum(lvoc)
Anzahl der vokalisierten /l/s dividiert durch Anzahl aller /l/s.
![Page 17: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/17.jpg)
A20min A20bis30 A31bis40 A41plusvok 44.63781nicht-vok 47.36219
A20min A20bis30 A31bis40 A41plusvok 58 55 62 38nicht-vok 34 49 84 59
Observed
Expected
0.4851936 * sum(lvoc[,1])
r = chisq.test(lvoc) r$expected
A20min A20bis30 A31bis40 A41plusvok 44.63781 50.46014 70.83827 47.06378nicht-vok 47.36219 53.53986 75.16173 49.93622
(1- 0.4851936) * sum(lvoc[,1]) oder sum(lvoc[,1])- 44.63781
![Page 18: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/18.jpg)
O = lvoc
E = r$expected
d = (O - E)^2/E
<20 30s 40s >41mitvok 3.999928 0.4084483 1.102723 1.745549ohnevok 3.769844 0.3849535 1.039292 1.645141
Je größer die Abweichung von 0 (Null) umso mehr trägt eine Zelle zum signifikanten Ergebnis bei.
Wie wird 2 berechnet?
Wir wollen die Größe der Abweichung, d, zwischen Observed und Expected prüfen (die Null Hypothese: d = 0).
E
EOd
2)(
2 ist dann einfach die Summe der Abweichungen:
sum(d) 14.0959
d
![Page 19: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/19.jpg)
2-Test für einen Trend
In der Standardaussprache von England, RP, wurde von einer vornehmeren Schichte der Gesellschaft vor 50 Jahren 'lost' mit einem hohen Vokal gesprochenen (auch 'often').
pfad = "das Verzeichnis der gespeicherten Datei lost.txt"lost = as.matrix(read.table(paste(pfad, "lost.txt", sep="/")))
Hier ist die Häufigkeit der Verwendung von /lo:st/ (Vokal = high) oder /lɔst/ (Vokal = low) in Sprechern, die in 6 verschiedenen Jahren aufgenommen wurden (hypothetische Daten). high low1950 30 51960 18 211971 15 261980 13 201993 4 322005 2 34
Gibt es einen Trend? d.h. nimmt die Proportion der /lɔst/ Erzeugungen zu?
In 1950 produzierten 30 Sprecher /lo:st/ und 5 /lɔst/.
![Page 20: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/20.jpg)
Abbildung
Wir standardisieren die Jahre, sodass 0 = 1950.
jahr = as.numeric(rownames(lost))jahr = jahr - 1950# Proportion von /lo:st/ berechnenp = lost[,1]/apply(lost, 1, sum)plot(jahr, p, type="b")
Test:
prop.trend.test(x, n, score)
x: die Anzahl von /lo:st/n: Gesamtanzahl pro Jahr
score: die X-Achsen Werte, für die wir einen linearen Trend berechnen wollen.
Proportionen von /lo:st/ über 55 Jahre
0 10 20 30 40 500.
20.
40.
60.
8jahr
Pro
port
ion
![Page 21: 2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt pfad = "den Pfad eingeben, wo die Datei gespeichert](https://reader035.vdocuments.site/reader035/viewer/2022062417/55204d6449795902118ba877/html5/thumbnails/21.jpg)
prop.trend.test(lost[,1], n, jahr)
# Spalte 1 hat die Anzahl von /lo:st/x = lost[,1]# Summe lo:st + lɔst getrennt pro Jahrn = apply(lost, 1, sum)
data: lost[, 1] out of n , using scores: 0 10 21 30 43 55 X-squared = 54.506, df = 1, p-value = 1.550e-13
Die Proportion von /lo:st/ nimmt in späteren Jahren signifikant ab (2(1) = 54.5, p < 0.001)