statistische modellbildung mit excel arbeitsskriptum
TRANSCRIPT
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 1
Statistische Modellbildung mit EXCELArbeitsskriptum
Inhalt:1 Wahrscheinlichkeitsverteilungen
1.1 Binomialverteilung1.2 Hypergeometrische Verteilung1.3 Poisson-Verteilung1.4 Normalverteilung
2 Eindimensionale Datenbeschreibung und Parameterschätzung2.1 Univariate Statistiken und Häufigkeitsverteilung2.2 Einfach gegliederte Berichte mit Gruppenstatistiken2.3 Parameterschätzung - Poisson-Verteilung2.4 Mittelwertschätzung bei normalverteilten Grundgesamtheiten2.5 Planung des Stichprobenumfangs bei Mittelwertschätzungen2.6 Schätzung von Wahrscheinlichkeiten
3 Ein-Stichprobenvergleiche 3.1 Binomialtest3.2 Gütefunktion des Binomialtests3.3 Einstichproben - t-Test3.4 Planung des Stichprobenumfangs beim Einstichproben - t-Test3.5 Chiquadrat-Test zur Anpassungsprüfung3.6 Kolmogorov-Smirnov-Test
4 Zwei-Stichprobenvergleiche I: Paarvergleiche4.1 t-Test für abhängige Stichproben4.2 Wilcoxon-Test für abhängige Stichproben4.3 Vorzeichentest für abhängige Stichproben4.4 Änderungsmessung mit dem McNemar-Test4.5 Gleichwertigkeit von Mittelwerten
5 Zwei-Stichprobenvergleiche II: Parallelversuche5.1 Vergleich von zwei Varianzen (F-, Levene-Test)5.2 Vergleich von zwei Mittelwerten (Welch-Test, t-Test)5.3 Paarvergleich und Parallelversuch5.4 U-Test für unabhängige Stichproben5.5 Vergleich zweier Anteile 5.6 Vergleich zweier Häufigkeitsverteilungen (Homogenitätsprüfung)5.7 Gleichwertigkeit von Anteilen
6 Korrelation und Regression6.1 Zweidimensionale Häufigkeitstabellen6.2 Abhängigkeitsprüfung mit Häufigkeitsdaten6.3 Korrelation bei metrischen Merkmalen6.4 Einfache lineare Regression6.5 Lineare Kalibration6.6 Zweifache lineare Regression6.7 Quadratische Regression
7 Varianzanalytische Modelle7.1 Einfaktorielle Varianzanalyse7.2 Rangvarianzanalyse für unabhängie Stichproben *)7.3 Randomsierte Blockanlage *)7.4 Rangvarianzanalyse für abhängige Stichproben *)7.5 Einfaktorielle Kovarianzanalyse *)7.6 Partieller F-Test *)7.7 Vergleich von Regressionsgeraden *)
Anhang 1: Datentransformationen und DatenbankfunktionenAnhang 2: Elementare Rechenverfahren
A2.1 Einfache FormelauswertungenA2.2 Verwendung von Excel-FunktionenA2.3 Verwendung von VariablennamenA2.4 Lösung von Gleichungen mittels ZielwertsucheA2.5 MatrizenmulktiplikationA2.6 Berechnung der KovarianzmatrixA2.7 Lineare GleichungssystemeA2.8 Gleitender Durchschnitt
Anhang 3: Problemlösungen mit VBA-ProzedurenA3.1 Benutzerdefinierte Funktionsprozeduren (numerische Integration) *)A3.2: Prozeduren mit Befehlsschaltflächen starten (Mindeststichprobenumfang) *)A3.3: Auslesen von Daten aus Tabellen (Berechnen von elementaren Statistiken) *)
*) in Vorbereitung
Grundlage: Lehrbuch "Einführung in die Biostatistik" von W. Timischl, Wien-New York: Springer 2000.
08.03.2004 angewstat_excel, Inhalt
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 2
1 Wahrscheinlichkeitsverteilungen
Aufgabe 1.1: Binomialverteilung
Verteilungs-modell:Gesucht:
Berechnung: mit Excel-Funktion BINOMVERT(Zahl_Erfolge;Versuche;Erfolgswahrsch;Kumuliert)P(X = Zahl_Erfolge ) = BINOMVERT(Zahl_Erfolge; Versuche; Erfolgswahrsch; 0)P(X <= Zahl_Erfolge ) = BINOMVERT(Zahl_Erfolge; Versuche; Erfolgswahrsch; 1)
Variante 1: Berechnung mit Verteilungsfunktion (Kumuliert = 1)P(X <= 3 ) = BINOMVERT(3; 5; 0,8; 1) = 0,2627
Variante 2: Berechnung mit Wahrscheinlichkeitsfunktion (Kumuliert = 0)P(X = 4 ) = BINOMVERT(Zahl_Erfolge; Versuche; Erfolgswahrsch; Kumuliert) =
BINOMVERT(4; 5; 0,8; 0) = 0,4096P(X = 5 ) = BINOMVERT(5; 5; 0,8; 0) = 0,3277P(X <= 3 ) = 0,2627
Aufgabe 1.2: Hypergeometrische Verteilung
Verteilungs-modell:
Gesucht: P(X = 2)
Berechnung: mit Excel-Funktion HYPGEOMVERT(Erfolge_S; Umfang_S; Erfolge_G; Umfang_G)P(X = Erfolge_S ) = HYPGEOMVERT(Erfolge_S; Umfang_S; Erfolge_G; Umfang_G)P(X = 2) = HYPGEOMVERT(2; 5; 100; 500) = 0,2053
Für eine bestimmte Blumenzwiebelsorte wird eine Wahrscheinlichkeit von mindestens 80% garantiert, dass eine Zwiebel nach dem Einsetzen austreibt. Jemand kauft 5 Zwiebeln und stellt fest, dass nur 3 austreiben. Unter der Voraussetzung, dass die garantierte Mindestwahrscheinlichkeit von 80% zutrifft, gebe man die Wahrscheinlichkeit dafür an, dass höchstens 3 der 5 Zwiebeln austreiben.
P(X <= 3) = 1 - P(X > 3) = 1 - P(X = 4) - P(X = 5)
Aus einer Population mit 500 Individuen werden 100 Individuen eingefangen, markiert und wieder freigelassen. Nachdem sich die markierten Individuen mit der übrigen Popualtion vermischt haben, wird eine zweite Stichprobe mit 5 Individuen entnommen. Wie groß ist die Wahrscheinlichkeit, dass davon zwei markiert sind?
X (Anzahl der markierten Individuen unter den wiedereingefangenen) ist hypergeometrisch-verteilt mit den Parametern N =500 (Größe der Gesamtpopulation), n = 5 (Anzahl der wiedereingefangenen Individuen) und p = a/N = 0,2 (a = 100 = Anzahl der insgesamt markierten Individuen).
X (Anzahl der austreibenden Zwiebel) ist binomialverteilt mit den Parametern p = 0,8 (Erfolgswahrscheinlichkeit) und n = 5 (Anz. d. Versuche).
08.03.2004 angewstat_excel, Kapitel 1
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 3
Aufgabe 1.3: Poissonverteilung
Verteilungs-modell:Gesucht: Erwartete Häufigkeit der Flächen mit mindestens 6 Larven =
Anzahl der Flächen x P(X >= 6) = 100 P(X >= 6) = 100 [1 - P(X <= 5)]
Berechnungen mit Excel-Funktion POISSON(x; Mittelwert; Kumuliert)P(X = x) = POISSON(x; Mittelwert; 0)P(X <= x) = POISSON(x; Mittelwert; 1)
Variante 1: Berechnung mit Verteilungsfunktion (Kumuliert = 1)P(X <= 5 ) = POISSON(5; 4; 1) = 0,78513Erwartete Häufig. von Flächen mit >=6 Larven = 100 [1-P(X <=5)] = 21,49
Variante 2: Berechnung mit Wahrscheinlichkeitsfunktion (Kumuliert = 0)P(X <= 5) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5)P(X = 0 ) = POISSON(0; 4; 0) = 0,01832P(X = 1 ) = POISSON(1; 4; 0) = 0,07326P(X = 2 ) = POISSON(2; 4; 0) = 0,14653P(X = 3 ) = POISSON(3; 4; 0) = 0,19537P(X = 4 ) = POISSON(4; 4; 0) = 0,19537P(X = 5 ) = POISSON(5; 4; 0) = 0,15629P(X <= 5) = 0,78513Erwartete Häufigk. von Flächen mit >=6 Larven = 100 [1-P(X <= 5)] = = 21,49
Aufgabe 1.4: Normalverteilung
Verteilungs-modell:Gesucht: i) P(9 <= X <= 11) = P(X <= 11) - P(X <= 9)
ii) unteres Quartil u mit der Eigenschaft P(X <= u) = 0,25iii) oberes Quantil o mit der Eigenschaft P(X <= o) = 0,75
i) Berechnungen mit Excel-Funktion NORMVERT(x; Mittelwert; Standabwn; Kumuliert)P(X <= x) = NORMVERT(x; Mittelwert;Standabwn; 1)P(X <= 11) = NORMVERT(11; 10; 0,5; 1) = 0,9772P(X <= 9) = NORMVERT(9; 10; 0,5; 1) = 0,0228Zu erwartender Anteil P(9 <= X <= 11) = 0,9545
Im Rahmen einer Studie ist geplant, die auf 100 Untersuchungsflächen bestimmter Größe befindlichen Eintagsfliegenlarven zu zählen. Wieviele Flächen mit mindestens 6 Larven sind zu erwarten, wenn die Anzahl der Larven auf den Untersuchungsflächen einer Poisson-Verteilung mit dem Mittelwert 4 folgt?
X (Anzahl der Larven auf der Untersuchungsfläche) ist poisson-verteilt mit dem Parameter λ = E[X] = 4 (Mittelwert).
Die Masse (in mg) einer Wirksubstanz W in einem Präparat sei normalverteilt mit dem Mittelwert 10 und der Varianz 0,25. i) Welcher Anteil von Präparaten mit der Substanz W zwischen 9mg und 11mg ist zu erwarten? ii) Wie groß ist der Median sowie das 25%- und das 75%-Quantil der Verteilung? Mit welcher Wahrscheinlichkeit wird ein Wert außerhalb des 2-fachen Interquartilabstandes um den Mittelwert angenommen?iii) Man stelle die Wahrscheinlichkeitsdichte grafisch dar!
X (Masse der Wirksubstanz) ist normalverteilt mit dem Mittelwert µ = E[X] = 10 und der Standardabweichung σ = 0,5.
08.03.2004 angewstat_excel, Kapitel 1
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 4
ii) Das 25%-Quantil ist die Lösung u der Gleichung P(X <= u) =0,25.
u = NORMINV(0,25;10;0,5) = 9,6628
Das 75%-Quantil ist die Lösung o der Gleichung P(X <= o) =0,75.o = NORMINV(0,75;10;0,5) = 10,3372
Interquartilabstand IR = o - u = 0,6745P(X < µ-2xIR)=NORMVERT(µ-2xIR;µ;σ;1) = 0,0035P(X <µ−2xIR oder X > µ+2xIR) = 0,70%
Wertetabelle:x f(x)
8,00 0,000278,25 0,001758,50 0,008868,75 0,035069,00 0,107989,25 0,259049,50 0,483949,75 0,70413
10,00 0,7978810,25 0,7041310,50 0,4839410,75 0,2590411,00 0,1079811,25 0,0350611,50 0,0088611,75 0,0017512,00 0,00027
iii) Den Wert f(x) der Dichtefunktion der N(µ, σ2)-Verteilung an der Stelle x erhält man mit der Excel-Funktion NORMVERT(x;Mittelwert; Standabwn; Kumuliert) mit Mittelwert = µ, Standabn = σ und Kumuliert = 0 (FALSCH).
Berechnung der Quantile der Normalverteilung mit der Excel-Funktion NORMINV(Wahrsch;Mittelwert;Standabwn).
Werte der Normalverteilung mit µ=10 und σ =0,5
0,00,10,20,30,40,50,60,70,80,9
7 8 9 10 11 12
x
08.03.2004 angewstat_excel, Kapitel 1
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 5
2 Eindimensionale Datenberschreibung und Parameterschätzung
Aufgabe 2.1: Univariate Statistiken und Häufigkeitsverteilung
Stichprobe: 3,6 1,5 6,6 6,0 4,26,7 2,5 5,4 4,5 5,42,5 3,0 5,6 4,7 6,56,7 1,7 5,3 4,6 7,45,4 4,1 5,1 5,6 5,46,1 7,6 6,2 6,0 5,55,8 8,2 3,1 5,8 2,69,5 3,4 8,8 7,3 1,36,9 3,2 4,7 3,8 5,96,6 4,4 5,7 4,5 7,7
n = ANZAHL(Bereich) = 50 (Bereich = Stichprobe)min = MIN(Bereich) = 1,3max = MAX(Bereich) = 9,5Anzahl k d. Klassen = approx. √(n) = 7,07 (=) 7 approx.Klassenbreite = (max - min)/k = = 1,16 (=) 1,5 approx.
Häufigkeits-verteilung: Analyse-Funktionen - Histogramm ...
Klassengrenzen (bis <=) Klasse Häufigkeit1,5 1,5 23,0 3,0 54,5 4,5 106,0 6,0 187,5 7,5 109,0 9,0 4
10,5 10,5 1und größer 0
Die Messung der Ozonkonzentration während der Sommermonate ergab für eine Großstadt die in der folgenden Tabelle enthaltenen Werte (Angaben in ppm/100). Man stelle die Verteilung der Ozonkonzentration dar (tabellarisch, grafisch) und berechne den Mittelwert, die Standardabweichung, den Median und die Quartile.
02468
101214161820
1,5 3,0 4,5 6,0 7,5 9,0 10,5 undgrößer
Ozonkonzentration
Häu
figke
it
08.03.2004 angewstat_excel, Kapitel 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 6
Mittelwert = MITTELWERT(Bereich) = 5,21Standardabweichung = STABW(Bereich) = 1,85Median = MEDIAN(Bereich) = 5,40unteres Quartil = QUANTIL(Bereich;0,25) = 4,13oberes Quartil = QUANTIL(Bereich;0,75) = 6,43
(Bereich = Stichprobe)
Aufgabe 2.2: Einfach gegliederte Berichte mit Gruppenstatistiken
Variante 1: Berichterstellung mittels "Daten - Teilergebnisse ..."(Originaldaten nach Gliederungsmerkmal GRUPPE sortieren, "Daten - Teilergebnisse ..." auf markierte Tabelle - hintereinander für gewünschte Statistiken anwenden, Zellenformatierung nachbearbeitet)
GRUPPE Nr ALT KG XBEG XEND1 1 28 60 19 361 3 21 51 12 91 4 29 62 26 201 10 29 68 12 201 12 24 68 34 311 13 25 77 48 241 14 20 101 27 511 16 23 53 43 291 17 23 54 23 221 18 22 68 15 22
1 N 10 10 10 101 MIN 20 51 12 9
1 MAX 29 101 48 511 MITTEL 24,40 66,20 25,90 26,40
1 STD 3,27 14,71 12,51 11,332 2 26 72 25 202 5 22 51 29 292 6 36 63 16 192 7 22 58 26 312 8 28 79 13 192 9 25 55 23 272 11 27 53 30 202 15 25 59 52 812 19 22 56 19 262 20 25 79 22 20
2 N 10 10 10 102 MIN 22 51 13 19
2 MAX 36 79 52 812 MITTEL 25,80 62,50 25,50 29,20
2 STD 4,16 10,48 10,76 18,75Gesamt-N 20 20 20 21Ges.-MIN 20 51 12 9
Ges.-MAX 36 101 52 81Ges.-MITTEL 25,10 64,35 25,70 26,90
Ges.-STD 3,71 12,58 11,36 15,32
In einer Studie sollen zwei Behandlungen (GRUPPE 1, GRUPPE =2) hinsichtlich einer Zielvariablen X mit einander verglichen werden. Die (metrische) Zielvariable wurde am Beginn (XBEG) und am Ende (XEND) der Behandlung gemesen. Gleichzeitig wurden das Alter (ALT) und das Gewicht (KG) erfasst. Man beschreibe die Verteilung der Variablen ALT, KG, XBEG und XEND in jeder Behandlungsgruppe sowie in der Gesamtgruppe mit Hilfe der üblichen Statistiken (Kleinst-/Größtwert, Mittelwert, Standardabweichung).
08.03.2004 angewstat_excel, Kapitel 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 7
Variante 2: Berichterstellung mittels "Daten - Pivot-Tabellenbericht ..."Originaldat.: GRUPPE Nr ALT KG XBEG XEND
1 1 28 60 19 362 2 26 72 25 201 3 21 51 12 91 4 29 62 26 202 5 22 51 29 292 6 36 63 16 192 7 22 58 26 312 8 28 79 13 192 9 25 55 23 271 10 29 68 12 202 11 27 53 30 201 12 24 68 34 311 13 25 77 48 241 14 20 101 27 512 15 25 59 52 811 16 23 53 43 291 17 23 54 23 221 18 22 68 15 222 19 22 56 19 262 20 25 79 22 20
Anwendung von "Daten - Pivot-Tabellenbericht ..." auf markierte Tabelle ergibt:
GRUPPEDaten 1 2 Gesamtergebnis
Anzahl - ALT 10 10 20Minimum - ALT 20 22 20Maximum - ALT 29 36 36Mittelwert - ALT 24,40 25,80 25,10
Standardabweichung (Stichprobe) - ALT 3,27 4,16 3,71Anzahl - KG 10 10 20
Minimum - KG 51 51 51Maximum - KG 101 79 101Mittelwert - KG 66,20 62,50 64,35
Standardabweichung (Stichprobe) - KG 14,71 10,48 12,58Anzahl - XBEG 10 10 20
Minimum - XBEG 12 13 12Maximum - XBEG 48 52 52Mittelwert - XBEG 25,90 25,50 25,70
Standardabweichung (Stichprobe) - XBEG 12,51 10,76 11,36Anzahl - XEND 10 10 20
Minimum - XEND 9 19 9Maximum - XEND 51 81 81Mittelwert - XEND 26,40 29,20 27,80
Standardabweichung (Stichprobe) - XEND 11,33 18,75 15,14
08.03.2004 angewstat_excel, Kapitel 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 8
Aufgabe 2.3: Parameterschätzung - Poissonverteilung
Beobachtete Häufigkeiten, Wahrscheinlichkeiten und erwartete Häufigkeiten:
X H (beob.H.) X*H P E (erwart.H.)0 57 0,0209 54,541 203 203 0,0809 210,942 383 766 0,1564 407,893 525 1575 0,2016 525,814 532 2128 0,1949 508,375 408 2040 0,1508 393,216 273 1638 0,0972 253,447 139 973 0,0537 140,028 45 360 0,0260 67,699 27 243 0,0112 29,09
10 16 160 0,0043 11,25>10 0 0,0022 5,75
Summe 2608 10086 1,0000 2608,00
n =SUMME(Bereich) = 2608 (Bereich = H-Spalte)Mittelwert λ =SUMME(Bereich)/n = 3,867 (Bereich = X*H-Spalte)
Berechnung der Poisson-Wahrscheinlichkeiten P:P(X = x| λ ) = POISSON(x;Mittelwert;Kumuliert) mit Mittelwert=λ, Kumuliert=0P(X <= x| λ ) = POISSON(x;Mittelwert;Kumuliert) mit Mittelwert=λ, Kumuliert=1z.B.: P(X = 4| 3,867) = POISSON(4;3,867;0) = 0,1949P(X <= 10| 3,867) = POISSON(10;3,867;1) = 0,9978P(X >10| 3,867) = 1 - P(X <= 10| 3,867) = 0,0022
Hinweis: Erwartete Häufigkeit = n x P
Rutherford und Geiger studierten die Emission von α-Teilchen, indem sie die Anzahl X der in Zeitintervallen der Länge 7,5s emittierten α-Teilchen zählten. Die Auswertung von 2608 Zeitintervallen ergab die in der folgenden Tabelle zusammengefassten Häufigkeiten H. Unter der Annahme, dass X Poisson-verteilt ist, schätze man den Verteilungsparameter λ und bestimme die erwarteten Häufigkeiten E.
08.03.2004 angewstat_excel, Kapitel 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 9
Aufgabe 2.4: Mittelwertschätzung bei normalverteilter Zufallsvariablen
i) Approximation für große StichprobenBerechnung mit KONFIDENZ(Alpha;Standabwn;Umfang_S) mitAlpha = 0,05Standabwn = 5Umfang_S = 40 (= n)Stichprobenumfang = 50Untere Grenze = Stichprobenmittel - KONFIDENZ(Alpha;Standabwn;Umfang_S)Obere Grenze = Stichprobenmittel + KONFIDENZ(Alpha;Standabwn;Umfang_S)
KONFIDENZ(0,05;5;40) = 1,55Untere Grenze = 48,45Obere Grenze = 51,55
ii) Exakte Rechnung(1 - α/2) -Quantil der t-Verteilung mit f = n - 1 = 39 Freiheitsgraden = TINV(Wahrsch;Freiheitsgrade) mit Wahrsch=α (!) und Freiheitsgrade=n-1 = TINV(0,05;39) = 2,0227Halbe Intervallbreite = s/WURZEL(n) x TINV(α;n-1) = s/WURZEL(n) x TINV(α;n-1) = 5/WURZEL(40) x TINV(0,05;39) = 1,60Untere Grenze = Stichprobenmittel - halbe Intervallbreite = 48,40Obere Grenze = Stichprobenmittel + halbe Intervallbreite = 51,60
Hinweis:
Aufgabe 2.5: Planung des Stichprobenumfangs bei Mittelwertschätzungen
Modell: Masse X ist nach Voraussetzung N(µ, σ²)-verteilt mit σ <= 2.
Forderungen an die Schätzung von µ:Genauigkeit d = 0,5Sicherheit 1 - α = 0,95, d.h., Quantil z(1 - α/2) = z(0,975) = STANDNORMINV(0,975) = 1,96
Berechnung des erforderlichen Mindeststichprobenumfangs:n >= [σ z(1-α/2)/d]² = 61,46
Hinweis: einschlägige Software zu Bestimmung von nz.B. nQuery Advisor (Statistical Solutions, Cork, Ireland) oderInternet-Calculators z.B. unter www.stat.ucla.edu
Die Masse X (in mg) einer Substanz in einem Präparat soll absolut auf +/-0,5 genau mit einer Sicherheit von 95% bestimmt werden. Für die Standardabweichung möge die Abschätzung σ<=2 zutreffen. Wieviele Proben müssen untersucht werden, wenn X als normalverteilt vorausgesetzt werden kann?
Die Excel-Funktion KONFIDENZ(Alpha;Standabwn;Umfang_S) liefert die halbe Breite des Konfidenzintervalls für den Mittelwert einer N(µ, σ²)-verteilten Zufallsvariablen bei bekanntem σ bzw. asymptotisch für großes n.
Die Sprosshöhe X eine Pflanze sei normalverteilt. Aus einer Stichprobe vom Umfang n = 40 wurden die Schätzwerte 50 und 5 für den Mittelwert bzw. die Standardabweichung ermittelt. Man bestimme zum Niveau 1 - α = 0,95 ein Konfidenzintervall für den Mittelwert µ von X.
08.03.2004 angewstat_excel, Kapitel 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 10
Aufgabe 2.6: Schätzung von Wahrscheinlichkeiten
Modell: X (Anzahl der Verstorbenen) ist binomialverteilt mit den Parametern p und n = 60.
Schätzung der Erfolgswahrscheinlichkeit p:Stichprobenumfang n = 60Anzahl m der Erfolge = 36Anteil h der erfolgr. Zwiebeln=Schätzwert für p = m/n = 0,6
Intervallschätzung:i) Approximatives 95%-Konfidenzintervall für p
Voraussetzungen: n > 20 und 10 <= m <= n-10Sicherheit 1 - α = 0,95(1-α/2)-Quantil der N(0,1)-Verteilung =
STANDNORMINV(0,975) = 1,96Untere Grenze = h - z(1-α/2)√(h(1-h)/n) = 0,4760Obere Grenze = h + z(1-α/2)√(h(1-h)/n) = 0,7240
ii) Exaktes Intervall mit den Pearson-Clopper-WertenAnzahl m der erfolgreichen Zwiebel = 36Stichprobenumfang n = 601-α/2 = 0,975q1 = α/2-Quantil der F(2m, 2(n-m+1))-Verteil.= FINV(1- α/2;2m;2(n-m+1)) =
0,6046q2 = 1- α/2-Quantil der F(2(m+1), 2(n-m))-Verteil.= FINV(α/2;2(m+1);2(n-m)) =
1,7048Hinweis: FINV(α; Freiheitsgr.1; Freiheitsgr. 2) liefert das (1 - α)-Quantil!
Untere Grenze = m q1/(n - m + 1 + m q1) = 0,4654Obere Grenze = (m +1) q2/(n - m + (m +1) q2) = 0,7244
In einem Feldversuch soll die Keimfähigkeit p (d.h. Wahrscheinlichkeit, dass ein ausgesetzter Zwiebel keimt) von Blumenzwiebeln geschätzt und die Genauigkeit der Schätzung durch ein 95%-Konfidenzintervall belegt werden. Es werden 60 Zwiebeln ausgesetzt, von denen 36 keimten.
08.03.2004 angewstat_excel, Kapitel 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 11
3 Ein-Stichprobenvergleiche
Aufgabe 3.1: Binomialtest
Modell: X = Anzahl der "entsprechenden" Probenist binomialverteilt mit den Parametern n = 60 und p = pο = 0,75
i) Test auf signifikante UnterschreitungH0: p >= pο = 0,75 vs. H1: p < pο = 0,75
Exakte Rechnung:P-Wert = P(X <= 35| n=60, p=0.75) = BINOMVERT(35;60;0,75;1) = 0,00342
Entscheid.: P-Wert < α = 0,05 --> Ho ablehnen
Normalverteilungsapproximation:Voraussetzungen: n > 20 und 10 <= npo <= n-10µ = npο = 45σ = √[np(1-pο)] = 3,3541Z = (X - µ)/σ ist standardnormalverteilt -->approx. P-Wert = P(Z < (35-µ)/σ)) = STANDNORMVERT((35-µ)/σ) = = 0,001435P-Wert < α = 0,05 --> Ho ablehnen
Hinweis:
approx. P-Wert = P(Z < (35,5-µ)/σ)) = STANDNORMVERT((35,5-µ)/σ) = 0,002310(mit dieser Approximation arbeitete z.B. SPSS, Version 8)
ii) Planung des Stichprobenumfangsα = 0,05β = 0,10∆ = 0,10
Normalverteilungsapproximation:Quantile: z(1 - a) = STANDNORMINV(1 - α) = 1,645
z(1 - β) = STANDNORMINV(1 - β) = 1,282Abschätzung für n:n>= (1/∆²)[z(1-α)√(pο(1-pο)) + z(1-β)√((pο−∆)(1-pο+∆))]² 175,2(ohne Stetigkeitskorrektur)
Hinweis auf einschlägige Software:z.B. nQuery Advisor (Statistical Solutions, Cork, Ireland) oder "Internet Calculators" (z.B. www.stat.ucla.edu )
Aufgabe 3.2: Gütefunktion des BinomialtestsMan stelle die Gütefunktion des Binomoialtests Ho: p>= 0,75 versus H1: p<0,75 für die Stichprobenumfänge n = 60, 100 bzw. 500 tabellarisch und grafisch dar. Man verwende dabei die Normalverteilungsapproximation.
Bessere Approximationen erreicht man mit der sog. Stetigkeitskorrektur, nach der der Zahl x das Intervall (x-0,5; x+0,5) entspricht. In der Formel ist demnach X = 35 durch X + 0,5 = 35,5 zu ersetzen. Dies ergibt:
Für ein Produkt wird vom Hersteller garantiert, dass der Gehalt einer Substanz mindestens 75% beträgt. In einer Stichprobe von 60 Proben entsprachen 35 der Produktdeklaration. i) Liegt eine signifikante Unterschreitung des garantierten Mindestwertes vor? Man prüfe diese Frage auf dem Signifikanzniveau α = 5%. ii) Welche Fallzahl ist notwendig, um eine Unterschreitung des garantierten Anteils um 0.1 mit einer Sicherheit von 90% feststellen zu können?
08.03.2004 Kapitel 3, angewstat_excel
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 12
H0: p >= pο = 0,75 vs. H1: p < pο = 0,75Y(relative Häufigkeit = Schätzfunktion für p): nY ist Bn,p -verteilt.Normalverteilungsapproximation:n>=20, 10<=npo<=n-10 --> Y ist approx. N(µ, σ2)-verteilt mit µ=p und σ2=p(1-p)/nTestgröße: TG = (Y - po)/√(po(1-po)/n) ist für p=po N(0,1)-verteiltEntscheidung: H0 wird auf Niveau α abgelehnt, wenn TG(Y) < zα ist.
Gütefunktion:G(p) = P(Ablehnung von H0 | p) =
P(TG(Y) < zα | p) =P( (Y-po)/√(po(1-po)/n) < zα | p) =P(Y < po + zα √(po(1-po)/n) | p) =P( (Y-p)/√(p(1-p)/n) < [-(p-po) + zα √(po(1-po)/n)]/√(p(1-p)/n) | p) =Φ([-(p-po) + zα √(po(1-po)/n)]/√(p(1-p)/n)) =STANDNORMVERT([-(p-po) + zα √(po(1-po)/n)]/√(p(1-p)/n))
Wertetabelle: n = 60 100 500po= 0,75 pα = 0,05 0,550 0,953748 0,995180 1,000000zα= -1,6449 0,575 0,903427 0,982103 1,000000
0,600 0,820651 0,946083 1,0000000,625 0,701527 0,866670 0,9999920,650 0,552006 0,726847 0,9993000,675 0,389616 0,532126 0,9802960,700 0,239135 0,321628 0,8120590,725 0,122734 0,150282 0,3657390,750 0,050000 0,050000 0,0500000,775 0,015027 0,010602 0,0011660,800 0,002990 0,001220 0,0000020,825 0,000333 0,000059 0,0000000,850 0,000016 0,000001 0,000000
Grafische Darstellung der Gütefunktion:
Was kann man der Gütefunktion entnehmen?
G(p)
G(0,65) = 0,5520 = 55,20% (bei n=60), d.h. der Test liefert eine Sicherheit (= Power) von rund 55%, eine Unterschreitung des Sollwertes po=0,75 um ∆=0,1 als signifkant zu erkennen. Bei n = 100 beträgt die Sicherheit 73%, bei n = 500 fast 100%.
0,0
0,2
0,4
0,6
0,8
1,0
0,55 0,65 0,75 0,85
p
G(p
)
08.03.2004 Kapitel 3, angewstat_excel
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 13
Aufgabe 3.3: Einstichproben - t-Test
Daten: Sollwert µο = 15Stichprobenmittelwert m = 16,5Standardabweichung s = 4Stichtpobenumfang n = 100
Modell: X = Nikotingehalt ist N(µ, σ²)-verteilt mit µ = µο
Hypothesen: H0: µ <= µο = 15 vs. H1: µ > µο = 15
Testgröße: TG = [(m - µο)/S] √n ist t-verteilt mit f = n - 1 FreiheitsgradenMit m = 16,5, µo = 15 und S = 4 folgt TG(s) = (16,5 - 15)/4 √100 = 3,75P-Wert = P(TG > TG(s)| µ=µo) =TVERT(x;Freiheitsgrade;Seiten) = 0,000149
[x = TG(s), Freiheitsgrade = n - 1, Seiten = 1 (1-seitige Ausläuferfläche)]Hinweis: x darf in TVERT(x;Freiheitsgrade;Seiten) nicht negativ sein!
Entscheid.: P-Wert < α = 0,01 --> Ho ablehnen
Hinweis:
Aufgabe 3.4: Planung des Stichprobenumfangs beim Einstichproben - t-Test
Modell: X = Umweltmessgröße ist N(µ, σ²)-verteilt mit σ = 10
α-Fehler α = 0,05Power 1-β = 0,90krit.Abw. ∆ = 6,50
Planung des Stichprobenumfanges n (Normalverteilungsapproximation):Quantile: z(1 - α) = STANDNORMINV(1 - α) = 1,645
z(1 - β) = STANDNORMINV(1 - β) = 1,282Abschätzformel:
n >= (σ/∆)² [z(1-α) + z(1-β)]² = 20,27
Hinweis auf einschlägige Software:z.B. nQuery Advisor (Statistical Solutions, Cork, Ireland) oder "Internet Calculators" (z.B. www.stat.ucla.edu )
Aufgabe 3.5: Chiquadrat-Test zur Anpassungsprüfung
TVERT(x;Freiheitsgrade;Seiten) liefert für Seiten=1 die "Überschreitungswahrscheinlichkeit" P(X > x) (!)
Bei einem seiner Kreuzungsversuche mit Erbsen erhielt Mendel 315 runde gelbe Samen, 108 runde grüne, 101 kantige gelbe und 32 kantige grüne. Sprechen die Beobachtungswerte gegen das theoretische Aufspaltungsverhältnis der Phänotypen von 9 : 3 : 3 : 1? Man wähle als Signifikanzniveau α = 5%.
Die Verpackung einer bestimmten Zigarettensorte weist einen mittleren Nikotingehalt von 15 mg pro Zigarette aus. Es wird eine Zufallsstichprobe von 100 Zigaretten getestet. Dabei ergab sich ein mittlerer Nikotingehalt von 16.5 mg und eine Standardabweichung von 4 mg. Kann aus dem Ergebnis der Stichprobe auf 1%igem Signifikanzniveau der Schluss gezogen werden, dass der tatsächliche Nikotingehalt im Mittel über 15 mg liegt?
Es sei X eine normalverteilte Umweltmessgröße mit dem (unbekannten) Mittelwert µ und der Standardabweichung σ = 10. Mit Hilfe einer Stichprobe soll geprüft werden, ob eine Überschreitung des Grenzwertes K vorliegt, wobei das α-Risiko mit 5% vorgegeben ist und eine kritische Überschreitung von 6.5 mit 90%iger Sicherheit erkannt werden soll. Welcher Stichprobenumfang ist zu planen?
08.03.2004 Kapitel 3, angewstat_excel
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 14
Modell: X (Phänotyp) ist eine 4-stufige Zufallsvariable mit den Wertenx1 = rund/gelb, x2 = rund/grün, x3 = kantig/gelb, x4 = kantig/grünund der theoretischen Verteilung p1 = P(X = x1), p2 = P(X = x2),p3 = P(X = x3), p4 = P(X = x4).
Stichprobenumfang n = 315 + 108 + 101 + 32 = 556
Hypothesen: Ho: Wahrscheinlichkeiten p1 = 9/16 = 0,5625p2 = 3/16 = 0,1875p3 = 3/16 = 0,1875p4 = 1/16 = 0,0625
bzw.erwartete Häufigkeiten E1=556x9/16= 312,75
E2=556x3/16= 104,25E3=556x3/16= 104,25E4=556x1/16= 34,75
H1: X weicht von den theoretischen Wahrscheinlichkeiten bzw. erwarteten Häufigkeiten ab.
Testgröße: GF = Σ(O - E)²/E
X-Werte erw.Häufigk. beob.Häufigk. (E-O)²/EE O
rund/gelb 312,75 315 0,0162rund/grün 104,25 108 0,1349kantig/gelb 104,25 101 0,1013kantig/grün 34,75 32 0,2176
556 556 0,4700 = GF(s)
P-Wert = P(GF > GF(s)) = CHIVERT(x;Freiheitsgrade)(mit x = GF(s) = 0,47 und Freiheitsgrade = Anz.d.Kat. - 1 = 3) = CHIVERT(0,47;3)
= 0,9254Entscheidung:P-Wert >= α = 0,05 --> Ho kann nicht abgelehnt werden
Hinweis: CHIVERT(x;Freiheitsgrade) liefert die "Überschreitungswahrscheinlichkeit" P(X > x) (!)
08.03.2004 Kapitel 3, angewstat_excel
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 15
Aufgabe 3.6: Kolmogorov-Smirnov-Test
Nullhypothese Ho: Spaltöffnungslänge X ist N(µ1, σ1²)-verteilt.
ungeordnete Stichprobe
geordnete Stichpr. (xi)
27 2225 2323 2327 2323 2325 24 Stichprobenkennwerte:25 25 Stichprobenumfang n = ANZAHL(Bereich1)= 15,00022 25 Mittelwert m = MITTELWERT(Bereich1)= 24,66725 25 Standardabw. s = STABW(Bereich1)= 1,58923 25 (Bereich1=geordnete Stichprobe)26 2623 2624 2626 2726 27
(versch.)Werte xi
abs. Häufig-keit
standard. Werte (zi)
Φ(zi) = P(Z<=zi)
Verteilungs- funktion S(zi)
Vert.funktion S(zi-1) max(Di+,Di-)
22 1 -1,6786 0,0466 0,0667 0 0,046623 4 -1,0491 0,1471 0,3333 0,0667 0,186324 1 -0,4196 0,3374 0,4000 0,3333 0,062625 4 0,2098 0,5831 0,6667 0,4000 0,183126 3 0,8393 0,7993 0,8667 0,6667 0,132727 2 1,4688 0,9290 1,0000 0,8667 0,0710
15
Standardisierte Werte: zi = (xi - m)/s = STANDARDISIERUNG(x;Mittelwert;Standabwn)Standardnormalverteilungsfunktion: P(Z<=z) = STANDNORMVERT(z)Verteilungsfunktion S(z) = Anteil der Werte <= zAbsolute Abweichungen: Di+ = |S(zi) - Φ(zi)| = ABS(S(zi) - Φ(zi))
Di- = |S(zi-1) - Φ(zi)| = ABS(S(zi-1) - Φ(zi))max(Di+, Di-) = größere der beiden absoluten Abweichungen
max(D1+, ..., Dn+, D1-, ..., Dn-) = MAX(Bereich2)= 0,1863K-S-Testgröße = √(n) x max(D1+, ..., Dn+, D1-, ..., Dn-)= 0,7214
Man prüfe, ob die Variation der Spaltöffnungslängen (in mm) gegen die Normalitätsvoraussetzung spricht. Gemessen wurden folgende Werte; 27, 25, 23, 27, 23, 25, 25, 22, 25, 23, 26, 23, 24, 26, 26. Es gelte α =0.05.
0,0
0,2
0,4
0,6
0,8
1,0
1,2
20 22 24 26 28X
Vert
eil.F
unkt
ione
n
S(zi-1)
0,0
0,2
0,4
0,6
0,8
1,0
1,2
20 22 24 26 28X
Vert
eil.F
unkt
ione
n
08.03.2004 Kapitel 3, angewstat_excel
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 16
(Bereich2 = max(Di+, Di-)-Spalte)
Entscheidung (auf dem Testniveau α = 5%): Ho (X ist normalverteilt) wird beibehalten, weil TG(s) = K-S-Testgröße x [1 - 0,01/√(n) + 0,85/n]= 0,760 <= 0,895
(Lilliefors-Schrankefür α = 5%)
08.03.2004 Kapitel 3, angewstat_excel
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 17
4 Zwei-Stichprobenvergleiche I: Paarvergleiche
Aufgabe 4.1: t-Test für abhängige Stichproben
Daten: X_b X_e D=X_b - X_e210 201 9169 165 4187 166 21160 157 3167 147 20176 145 31185 168 17206 180 26173 147 26146 136 10
Statistiken der Differenzstichprobe (Bereich = Differenzstichprobe):Stichpr.umfang n = ANZAHL(Bereich) = 10Mittelwert=mD=MITTELWERT(Bereich) = 16,70Standardabweich. s=STABW(Bereich) = 9,776
Modell:
i) Hypothesen:H0: µ = µο = 0 vs. H1: µ <> µο = 0Testgröße:TG = [(mD - µο)/S] √n ist t-verteilt mit f = n-1 FreiheitsgradenMit mD = 16,7, µo = 0 und S = 9,776 folgt TG(s) = 5,4021P-Wert = 2 P(TG < |TG(s)|) = TVERT(x;Freiheitsgrade;Seiten) = 0,0004318
[mit x=TG(s), Freiheitsgrade=n-1, Seiten=2 (2-seitige Ausläuferfläche)]Hinweis: x darf in TVERT(x;Freiheitsgrade;Seiten) nicht negativ sein!
Entscheidung:P-Wert < α = 0,05 --> Ho ablehnen, d.h., Behandlungseffekt ist signifikant
Die folgende Tabelle zeigt die Änderung des (systolischen) Blutdrucks (in mm Hg) bei zehn einer gewissen Behandlung unterworfenen Patienten. X_b und X_e bezeichnen die Blutdruckwerte am Beginn bzw. am Ende der Behandlung.i) Gibt es einen signifikanten Behandlungseffekt? ii) Welcher Stichprobenumfang muss geplant werden, um einen Effekt in der Größe von 25% der Änderung der Stichprobenmittelwerte mit einer Sicherheit von 90% feststellen zu können (α = 5%)?
Der Effekt wird als Differenz D des Beginn- und des Endwertes dargestellt. Damit ergibt sich ein 1-Stichprobenproblem mit der Differenz D als Zielvariable. Diese wird als N(µ, σ²)-verteilt angenommen.
08.03.2004 angewstat_excel, Kapitel 4
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 18
ii) Planung des Stichprobenumfangesα-Fehler α = 0,05Power 1-β = 0,90krit.Abw. ∆ = 0,25 x 16,7 = 4,175
Rechnung mit Normalverteilungsapproximation:Quantile: z(1 - α/2) = STANDNORMINV(1 - α/2) = 1,960
z(1 - β) = STANDNORMINV(1 - β) = 1,282Abschätzformel:n >= (σ/∆)² [z(1-α/2) + z(1-β)]² = 57,6
Hinweis auf einschlägige Software: z.B. nQuery bzw. Internet Calculators (www.stat.ucla.edu )
Aufgabe 4.2: Wilcoxon-Test für abhängige Stichproben
Daten: Tiefe/cm X1 (Stelle1) X2 (Stelle 2) D=X1 - X2 |D|10 19,4 25,0 -5,6 5,620 10,3 17,4 -7,1 7,130 17,9 20,0 -2,1 2,140 15,2 17,2 -2,0 2,050 8,3 25,0 -16,7 16,760 13,0 17,7 -4,7 4,770 17,4 28,6 -11,2 11,280 13,3 25,0 -11,7 11,790 20,0 10,0 10,0 10,0
Stichprobenumfang = 9
Rangskalierung der (absoluten) Paardifferenzen:Excel-Funktion RANG(Zahl; Bezug; Reihenfolge) mit
Zahl = Element, dessen Rang bestimmt werden sollBezug = Liste, in der der Rang zu bestimmen istReihenfolge = 0 oder <> 0 für absteigende bzw. steigende Rangfolge
An zwei Stellen eines Fließgewässers wurden aus neun Tiefenstufen Proben aus dem Substrat entnommen und das Lückenraumvolumen X (das um das Sediment verringerte Gesamtvolumen in % des Gesamtvolumens) bestimmt. Man prüfe mit dem Wilcoxon-Test, ob sich die Entnahmestellen hinsichtlich des Lückenraumvolumens im Mittel unterscheiden (α = 5%).
08.03.2004 angewstat_excel, Kapitel 4
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 19
Tiefe/cm D=X1 - X2 |D| RANG(|D|) Rangreihe10 -5,6 5,6 4 4 FALSCH20 -7,1 7,1 5 5 FALSCH30 -2,1 2,1 2 2 FALSCH40 -2,0 2,0 1 1 FALSCH50 -16,7 16,7 9 9 FALSCH60 -4,7 4,7 3 3 FALSCH70 -11,2 11,2 7 7 FALSCH80 -11,7 11,7 8 8 FALSCH90 10,0 10,0 6 6 6
t+ = Σ der Ränge zu pos. Paardifferenzen = 6
Hinweise:
Modell:
Hypothesen: H0: ζ >= 0 vs. H1: ζ < 0Testgröße: TG = T+ = Summe der Ränge zu positiven Paardifferenzen D
unter H0: E[TG] = n(n+1)/4, Var[TG] = n(n+1)(2n+1)/24Entscheidung (exakt):
wegen n = 9 und w9, 0.025 = 5, w9,0.975 = 40 --> H0 kann nicht abgelehnt werden.
Hinweis: Normalverteilungsapproximation für n>20 gerechtfertigt -->TG = [T+ -n(n+1)/4]/√(n(n+1)(2n+1)/12) unter H0 approx. N(0,1)-verteilt!
Aufgabe 4.3: Vorzeichentest für abhängige Stichproben
Daten: Kopfschmerz Kopfschmerz/Ende X2
Beginn X1 1 (nicht v.) 2 (leicht) 3 (deutlich)1 5 0 02 7 2 13 4 3 0
Zur Prüfung der Wirksamkeit eines Präparates wurde u.a. Die Zielvariable "Kopfschmerz" auf einer 3-stufigen Skala mit den Werten 1 (nicht vorhanden), 2 (leicht ausgeprägt) und 3 (deutlich ausgeprägt) am Beginn (Variable X1) und am Ende (Variable X2) der Behandlung an 22 Personen erhoben. Es soll mit dem Vorzeichentest auf dem 5%-Niveau geprüft werden, ob der Anteil der Personen mit einer Verbesserung signifikant größer als 0.5 ist.
Probanden mit Paardifferenz Null bleiben unberücksichtigt (entsprechend verkleinert sich der Stichprobenumfang);Die Rangskalierung der |D|-Spalte erfolgt mit Hilfe der Excel-Funktion RANG(x; Bereich; 1), indem die nach aufsteigender Größe angeordneten Werte durchnummeriert werden. Gleiche Rangzahlen werden dann händisch so nachkorrigiert, dass sie durch den Mittelwert der entsprechenden Rangpositionen ersetzt werden.
Der Effekt wird als Differenz D des Beginn- und des Endwertes dargestellt. Damit ergibt sich ein 1-Stichprobenproblem mit der Differenz D als Zielvariable. D wird als stetig und symmetrisch um den Median ζ verteilt angenommen.
H0 auf Niveau α = 0.05 ablehnen, wennt+ (=Realisierung von T+) <= wn, 0.025 oder t+ >= wn,0,975 ist.
08.03.2004 angewstat_excel, Kapitel 4
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 20
Modell:
n = 21p0 = 0,5m = 17 (Realisation von Y)
Hypothesen: H0: p <= po = 1/2 vs. H1: p > 1/2
exakte Rechnung:P-Wert = P(X >= m| n, p=p0) = 1 - BINOMVERT(m-1;n;p0;1) = 0,003599P-Wert < α = 0,05 --> Ho ablehnen
Normalverteilungsapproximation:µ = npο = 21 x 0,5 = 10,5σ = √[np(1-pο)] = √(21 x 0,5 x 0,5) = 2,2913Z = (X - µ)/σ ist standardnormalverteilt -->
Zs = (17-µ)/σ = 2,84approx. P-Wert = 1 - P(Z < (17-µ)/σ)) = 1- STANDNORMVERT((17-µ)/σ = 0,002278P-Wert < α = 0,05 --> Ho ablehnenHinweis:
approx. P-Wert = 1-P(Z < (16,5-µ)/σ)) = 1 - STANDNORMVERT((16,5-µ)/σ)(mit dieser Approximation arbeitet z.B. SPSS) = 0,004414
Aufgabe 4.4: Änderungsmessung mit dem McNemar-Test
Daten:Beginn innerh. (+) außerh. (-)innerh. (+) 32 (a) 22 (b)außerh. (-) 9 (c) 7 (d)
Modell:
Bei 7+4+3 = 14 Probanden ist X2 < X1, d.h. es ist eine Verbesserung eingetreten. Bei 1 Probanden kam es zu einer Verschlechterung, bei 5+2+0 = 7 trat keine Änderung ein. Indem eine Bindung (Fall ohne Änderung) weggelassen und die restlichen 6 je zur Hälfte zur Kategorie "Verbesserung" bzw. "Verschlechterung" gezählt wird, ergibt sich als Anzahl X von Personen mit einer Verbesserung der Stichprobenwert x = 17. Die Anzahl X ist binomialverteilt mit den Parametern p (=Wahrscheinlichkeit, dass bei einem Probanden eine Verbesserung eintritt) und n = 21 (ein Fall wurde weggelassen).
Bessere Approximationen erreicht man mit der sog. Stetigkeitskorrektur, nach der der Zahl x das Intervall (x-0,5; x+0,5) entspricht. In der Formel ist demnach m durch m-0,5 zu ersetzen. Dies ergibt:
In einer Studie wurde u.a. das Ges. Eiweiß i.S. am Beginn und am Ende bestimmt. Es ergab sich, dass bei 32 Probanden der Eiweißwert vor und nach Ende der Studie im Normbereich lag, bei 22 Probanden lag der Wert vorher im Normbereich und nachher außerhalb, bei 9 Probanden vorher außerhalb und nachher im Normbereich und bei 7 vorher und nachher außerhalb des Normbereichs. Hat sich während der Studie eine signifikante Änderung hinsichtlich des Normbereichs ergeben (α = 5%)?
Ende
Jede der b+c Veränderungen wird durch ein Zufallsexperiment mit zwei Ausgängen (Änderung von + nach - bzw. von - nach +) simuliert. Es finden b+c Wiederholungen statt. Jede Wiederholung führt mit der Wahrscheinlichkeit p+ - von + nach -.
08.03.2004 angewstat_excel, Kapitel 4
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 21
Hypothesen: Ho: p+_ = 1/2 vs. H1: p+_ <> 1/2
Näherungsweise Lösung (b+c>20):Testgröße: TG = (|b - c| -1)2/(b+c)
ist näherungsweise Chiquadrat-verteilt mit einem FreiheitsgradTG(s) = (|22 - 9| - 1)2/(22 + 9) = 4,645P-Wert = P(GF > GF(s)) = CHIVERT(x;Freiheitsgrade)
(mit x = GF(s) = 4,645 und Freiheitsgrade = 1) = CHIVERT(4,645;1)
= 0,0311P-Wert < α = 0,05 --> Ho ablehnen
Aufgabe 4.5: Gleichwertigkeit von Mittelwerten
Daten, Rückführung auf Einstichprobenproblem:Xt Xk D=Xt - Xk
1,50 1,95 -0,451,92 2,05 -0,131,43 2,46 -1,031,68 2,88 -1,201,97 2,52 -0,552,01 1,80 0,211,85 2,03 -0,18
In einer Bioverfügbarkeitsstudie wurden 7 Probanden zeitlich hintereinander ein Testpräparat (t) und ein Kontrollpräparat (k) verabreicht; die Zuordnung der Präparatsequenzen tk bzw. kt erfolgte zufällig. Die Zielvariable ist die Halbwertszeit Xt bzw. Xk (in h) für die Elimination des jeweiligen Wirkstoffes aus dem Blut. Es ergaben sich die folgenden Wertepaare für (Xt, Xk): (1.50, 1.95), (1.92, 2.05), (1.43, 2.46), (1.68, 2.88), (1.97, 2.52), (2.01, 1.80), (1.85, 2.03). i) Äquivalenzprüfung: Man prüfe, ob Gleichwertigkeit hinsichtlich der mittleren Halbwertszeiten besteht; die Wirkstoffe mögen als gleichwertig gelten, wenn sich die mittleren Halbwertszeiten um weniger als 20% des Kontrollmittels unterscheiden. ii) Wirksamkeitsprüfung: Ferner prüfe man, ob zwischen den mittleren Halbwertszeiten ein signifikanter Unterschied besteht. In beiden Fällen sei α = 5% vereinbart.
08.03.2004 angewstat_excel, Kapitel 4
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 22
Statistiken der Differenzstichprobe (Bereich = Differenzstichprobe):Stichprobenumfang = ANZAHL(Bereich ) = 7Mittelwert = mD = MITTELWERT(Bereich) = -0,4757Standardabweichung sD = STABW(Bereich) = 0,5025
Toleranzintervall (-∆, +∆):Mittelwert der Kontroll-Stichprobe = 2,2414Toleranzgrenze ∆=20% v. Xk-Mittelwert= 0,4483
Modell:
i) Hypothesen (Äquivalenzprüfung):H0: |µt - µk| >= ∆ versus H1: |µt − µk| < ∆ Entscheidungskriterium von Westlake:
SE = sD/√(n) = 0,190t(n-1,1-2α) = t(6, 0.9) = 1,943u = mD - t(n-1,1-2α) = -0,8448o = mD + t(n-1,1-2α) = -0,1066
Entscheidung: [u, o] nicht enthalten in (-∆, +∆) --> H0 (Nichtgleichwertigkeit) kann nicht abgelehnt werden
ii) Hypothesen (Wirksamkeitsprüfung):H0: µ = µt - µk = 0 versus H1: µ = µt − µk <> 0Testgröße:TG = [(mD - 0)/S] √n ist t-verteilt mit f = n - 1 = 6 FreiheitsgradenMit mD = - 0,4757 und S = sD = 0,5025 folgt TG(s) = -2,505P-Wert = 2 P(TG < |TG(s)|) = TVERT(x;Freiheitsgrade;Seiten) mit
x = TG(s), Freiheitsgrade = n-1, Seiten = 2 (2-seitige Ausläuferfl.) = TVERT(x;n-1;2) = = 0,04624Hinweis: x darf in TVERT(x;Freiheitsgrade;Seiten) nicht negativ sein!
Entscheidung:P-Wert < α = 0,05 --> Ho ablehnen, d.h., Behandlungseffekt ist signifikant
H0 wird auf Testniveau α abgelehnt, wenn das (1-2α)-Konfidenzintervall [u, o] für den Mittelwert m der Differenzstichprobe im Toleranzintervall (-∆, +∆) enthalten ist.
Der Effekt wird als Differenz D des Test- und des Kontrollwertes dargestellt. Damit ergibt sich ein 1-Stichprobenproblem mit der Differenz D als Zielvariable. Diese wird als N(µ, σ²)-verteilt angenommen.
08.03.2004 angewstat_excel, Kapitel 4
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 23
5 Zwei-Stichprobenvergleiche II: Parallelversuche
Aufgabe 5.1: Vergleich von zwei Varianzen (F-, Levene-Test)
Daten:Xt (Testpräp.) Xk (Kontrollpr.)
2,45 3,251,92 2,482,62 3,941,56 2,262,17 1,952,76 3,002,89 2,852,40 1,971,41 2,032,09 1,951,81 1,521,68 1,87
Statistiken: n = 12 12Mittelwert= 2,1467 2,4225STD= 0,4845 0,7044Varianz= 0,2347 0,4962
i) Varianzvergleich mit dem F-TestModell:
Hypothesen: Ho: σt2 = σk
2 vs. H1: σt2 <> σk
2
i.1) Explizite Berechnung:Testgröße: TG = Sk²/St² ist F-verteilt mit dem
ersten Freiheitsgrad (FG1) nk - 1 (Freiheitsgrad der Zählervarianz) und demzweiten Freiheitsgrad (FG2) nt - 1 (Freiheitsgrad der Nennervarianz)TG(s) = sk²/st² = 2,1141
P-Wert: P = 2 P(TG>TG(s)) = 2*FVERT(x:FG1; FG2) = 0,2301(mit x = TG(s), FG1 = nk - 1, FG2 = nt - 1)
Entscheidung: P-Wert >= α = 0,05 --> Ho (Varianzhomogenität) wird beibehalten
Hinweis:
i.2) Alternative Berechnung mit der Excel-Funktion FTEST:P-Wert: P = 2 P(TG > TG(s)) = FTEST(Bereich1;Bereich2) = = 0,2301
(Bereich1,2 = Bereich der Xt- bzw. Xk-Stichprobe)
Halbwertszeit
Die Variablen Xt und Xk werden als N(µt, σt²)- bzw. N(µt, σt²)-verteilt angenommen. Hinweis: Der F-Test ist wenig robust gegenüber Abweichungen von der Normalitätsvoraussetzung!
FVERT(x;Freiheitsgrad1;Freiheitsgrad2) liefert die "Überschreitungswahrscheinlichkeit" P(X > x) (!)
Im Rahmen einer Bioäquivalenzstudie wurde die Halbwertszeit (in Stunden) für die Elimination eines Testpräparats bestimmt an 12 Versuchspersonen bestimmt. Zum Vergleich wurde eine Kontrollgruppe mit 12 weiteren Personen gebildetet und die Halberwertszeiten für ein Kontrollpräparat ermittelt. Es ergaben sich die in der folgenden Tabelle angeführten Werte. Man prüfe auf 5%igem Testniveau, ob sich die Stichprobenvarianzen signifikant voneinander unterscheiden.
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 24
i.3) Weitere Alternative: Prozedur "Zwei-Stichproben F-Test" Hinweis:
Variable 1 Variable 2Mittelwert 2,4225 2,1467Varianz 0,4962 0,2347Beobachtungen 12 12Freiheitsgrade (df) 11 11Prüfgröße (F) 2,1141P(F<=f) einseitig 0,1150 *)Kritischer F-Wert bei einseitigem Test 2,8179
ii) Varianzvergleich mit dem Levene-Test Modell:
Hypothesen: Ho: γ = 1 ("Varianzhomogenität") vs. H1: γ <> 1
Xt Xk
Mittelwert= 2,1467 2,4225Anmerkung:
Transformation der Stichprobenwerte:Einzelwerte werden durch Abstand vom jeweiligen Median ersetzt.
Xt (Testpräp.) Xk (Kontrollpr.)0,3033 0,82750,2267 0,05750,4733 1,51750,5867 0,16250,0233 0,47250,6133 0,57750,7433 0,42750,2533 0,45250,7367 0,39250,0567 0,47250,3367 0,90250,4667 0,5525
*) Hinweis: Hier wird die Wahrscheinlichkeit angegeben, mit der die Realisation der Testgröße (=Prüfgröße) überschritten wird. Zur Testentscheidung ist die Überschreitungs-wahrscheinlichkeit mit α/2 zu vergleichen!
Die Variablen Xt und Xk werden als stetig vorausgesetzt; auf die Normalverteilungsvoraussetzung wird verzichtet. Die Verteilungsfunktionen F t
und Fk von Xt bzw. Xk lassen sich mit Hilfe von Ft(x) = F[(x-at)/bt] bzw. Fk(x) = F[(x-ak)/bk] aus einer Verteilungsfunktion F mit F(0) = 0,5 und F(1) - F(-1) = 0,6827 erzeugen. Die Parameter at und ak sind die Mediane der Verteilungsfunktionen F t bzw. Fk; die Parameter bt und bk sind Quantile mit der Eigenschaft Ft(at+bt) - Ft(at-bt) = 0,6823 bzw. Fk(ak+bk) - Fk(ak-bk) = 0,6823. D.h. die Intervalle (at-bt, at+bt) und (ak-bk, ak+bk) stellen Streubereiche um die entsprechenden Mediane dar, in denen 68,23% der Merkmalswerte zu erwarten sind. (Diese Streubereiche entsprechen bei normalverteilten Variablen den mit den Standardab-weichungen σt bzw. σk symmetrisch um die Mittelwerte gebildeten Intervallen.) Die Streubereiche stimmen überein, wenn der Skalierungsparameter γ = bk/bt =1 ist.
M.B. Brown und A.B. Forsythe (Robust Tests for the Equality of Variances. Journal of the American Stat. Assoc. Vol. 69, No. 346, 364-367 (1974)) empfehlen die Verwendung des Medians statt des aritmetischen Mittelwerts, um eine größere Robustheit bei schiefen Verteilungen zu erreichen. Hier wird am arithmetischen Mittelwert festgehalten, der u.a. auch im SPSS verwendet wird.
Diese Prozedur steht unter "Extras - Analyse-Funktionen" zur Verfügung und setzt eine Anordnung der Stichproben in Spalten bzw. Zeilen voraus!
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 25
Statistiken der transformierten Stichprobenwerte:Xt (Testpräp.) Xk (Kontrollpr.) Gesamt
ni 12 12 24Mittelwert = 0,4017 0,5679 0,4848
STD = 0,2423 0,3800 0,3230Anzahl der Gruppen (Faktorstufen) k = 2Gesamtstichprobenumfang N = 24
Streuuungszerlegung:SQFak = Σ [ni x (Stufenmittel - Gesamtmittel)2] = 0,1658MQFak = SQFak/(k-1) = 0,1658SQRes = Σ [(ni - 1) x Stufenvarianz] = 2,2343MQRes = SQRes/(N-k) = 0,1016SQTot = (N -1) x Gesamtvarianz = SQFak + SQRes = 2,4001 Testgröße: TG = MQFak/MQRes ist unter H0 approx. F-verteilt mit dem
ersten Freiheitsgrad k-1 (Freiheitsgrad von MQFak) und demzweiten Freiheitsgrad N-k (Freiheitsgrad von MQRes)Voraussetzung: Nicht zu kleine Stichprobenumfänge (etwa n i > 10)TG(s) = 1,6329
P-Wert: P = P(TG > TG(s)) = FVERT(x;FG1;FG2) = = 0,2146 (mit x = TG(s), FG = k-1, FG2 = N-k;FVERT) liefert die "Überschreitungswahrscheinlichkeit" P(X > x)! )
Entscheidung: P-Wert < α = 0,05 --> Ho (Varianzhomogenität) beibehalten!
Aufgabe 5.2: Vergleich von zwei Mittelwerten (Welch-Test, 2-Stichproben t-Test)
Modell:
Daten: Es liegen folgende zwei (unabhängige) Stichproben vor (Daten wie in Aufgabe 5.1):
Xt (Testpräp.) Xk (Kontrollpr.)2,45 3,251,92 2,482,62 3,941,56 2,262,17 1,952,76 3,002,89 2,852,40 1,971,41 2,032,09 1,951,81 1,521,68 1,87
Statistiken: n = 12 12 (nt, nk)Mittelwert= 2,1467 2,4225 (mt, mk)STD= 0,4845 0,7044 (st, sk)Varianz= 0,2347 0,4962
i) Vergleich der Mittelwerte mit dem Welch-Test
Die Variablen Xt (=Halbwertszeit/Testpräparat) und Xk (=Halbwertszeit/Kontrollopräparat) sind N(µt, σt²)- bzw. N(µk, σk²)-verteilt.
Halbwertszeit
Im Rahmen einer Bioäquivalenzstudie wurde die Halbwertszeit (in Stunden) für die Elimination eines Testpräparats bestimmt an 12 Versuchspersonen bestimmt. Zum Vergleich wurde eine Kontrollgruppe mit 12 weiteren Personen gebildetet und die Halberwertszeiten für ein Kontrollpräparat ermittelt. Man prüfe auf 5%igem Testniveau, ob sich die Stichprobenmittelwerte voneinander signifikant unterscheiden. Bei nicht-signifikantem Ausgang bestimme man den notwendigen Mindeststichprobenumfang, um die beobachtete Mittelwertdifferenz mit einer Sicherheit von 90% als signifikant erkennen zu können.
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 26
(ohne Kenntnis der Gleichheit der Varianzen) Hypothesen: Ho: µ1 = µ2 vs. H1: µ1 <> µ2
i.1) Explizite Berechnung:Freiheitsgrade:
FG = (St²/nt + Sk² /nk)2 / [(St²/nt)
2/(nt-1) + (Sk²/nk)2/(nk-1)] = 19,5038
Testgröße: TG = (mt - mk)/√[ (St²/nt + Sk² /nk] = -1,1176ist unter Ho approximativ t-verteilt mit FG Freiheitsgraden
TG(s) = P-Wert = P(TG < -|TG(s)|) + P(TG > |TG(s)|) =
TVERT(x;Freiheitsgrade;Seiten) = 0,2770 *)(mit x=|TG(s)|, Freiheitsgrade = FG+0,5 und Seiten = 2)
Entscheidung:
*) Beachte: TVERT rundet bei nicht ganzem FG auf die nächstkleinere ganze Zahl ab!
i.2) Alternative: Berechnung mit der Excel-Funktion TTESTP-Wert = TTEST(Matrix1;Matrix2;Seiten;Typ)Es bedeuten:Matrix1 = Bereich der ersten StichprobeMatrix2 = Bereich der Zweiten StichprobeSeiten = 1 bei 1-seitigen Hypothesen
2 bei 2-seitiger HypotheseTyp = 1 bei abhängigen Stichproben
2 bei unabhängigen Stichproben gleicher Varianz3 bei unabhängigen Stichproben ungleicher Varianz
Für die betrachtete Aufgabe gilt:Matrix1 = Bereich1, Matrix2 = Bereich2, Seiten = 2, Typ = 3, alsoP-Wert = TTEST(Bereich1;Bereich2;2;3) = 0,2773
(Bereich1,2 = Bereich der Xt- bzw. Xk-Stichprobe)
i.3) Weitere Alternative: Prozedur "Zwei-Stichproben t-Test: Unterschiedliche Varianzen" Hinweis:
Variable 1 Variable 2Mittelwert 2,1467 2,4225Varianz 0,2347 0,4962Beobachtungen 12 12Hypothetische Differenz der Mittelwerte 0Freiheitsgrade (df) 20 *)t-Statistik -1,1176P(T<=t) einseitig 0,1385Kritischer t-Wert bei einseitigem t-Test 1,7247P(T<=t) zweiseitig 0,2770 **)Kritischer t-Wert bei zweiseitigem t-Test 2,0860
*) Freiheitsgrade werden gerundet.**) Entscheidung: P(zweiseitig) >= α = 5% --> H0 kann nicht abgelehnt werden!
ii) Vergleich der Mittelwerte mit dem 2-Stichproben - t-TestVoraussetzung: Es liegt Varianzhomogenität vor!
Hypothesen: Ho: µ1 = µ2 vs. H1: µ1 <> µ2
ii.1) Prüfung auf Varianzungleichheit (Varianzinhomogenität) mit dem F-TestHypothesen: Ho: σ1² = σ2² vs. H1: σ1² <> σ2²Entscheidung: Annahme gleicher Varianzen (H0) kann nicht falsifiziert werden!
P-Wert >= α = 0,05 --> Ho (Gleicheit der Mittelwerte) kann nicht abgelehnt werden!
Diese Prozedur steht unter "Extras - Analyse-Funktionen" zur Verfügung und setzt eine Anordnung der Stichproben in Spalten bzw. Zeilen voraus!
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 27
ii.2) Vergleich der Mittelwerte mit dem t-Test - Explizite Berechnung
Gewichtete Varianz= Sp² = [(nt-1)St² + (nk-1)Sk²]/(nt+nk-2) = 0,3655Sp = √(Sp²) = 0,6046Testgröße TG = (mt - mk)/[Sp√(1/nt + 1/nk)]
ist t-verteilt mit nt+ nk - 2 FreiheitsgradenTG(s) = -1,1176
P-Wert = P(TG < -|TG(s)|) + P(TG > |TG(s)|) = = TVERT(x;Freiheitsgrade;Seiten) = 0,2758(mit x=|TG(s)|, Freiheitsgrade = nt+ nk - 2 und Seiten = 2)
Entscheidung:
ii.3) Vergleich der Mittelwerte mit dem t-Test - Berechnung mit der EXCEL Funktion TTEST
P-Wert = TTEST(Matrix1;Matrix2;Seiten;Typ)Es bedeuten:Matrix1 = Bereich der ersten StichprobeMatrix2 = Bereich der Zweiten StichprobeSeiten = 1 bei 1-seitigen Hypothesen
2 bei 2-seitiger HypotheseTyp = 1 bei abhängigen Stichproben
2 bei unabhängigen Stichproben gleicher Varianz3 bei unabhängigen Stichproben ungleicher Varianz
Für die betrachtete Aufgabe gilt:Matrix1 = Bereich1, Matrix2 = Bereich2, Seiten = 2, Typ = 2, alsoP-Wert = TTEST(Bereich1;Bereich2;2;2) = 0,2758
(Bereich1,2 = Bereich der Xt- bzw. Xk-Stichprobe)
ii.4)
Hinweis:
Variable 1 Variable 2Mittelwert 2,1467 2,4225Varianz 0,2347 0,4962Beobachtungen 12 12Gepoolte Varianz 0,3655Hypothetische Differenz der Mittelwerte 0Freiheitsgrade (df) 22t-Statistik -1,1176P(T<=t) einseitig 0,1379Kritischer t-Wert bei einseitigem t-Test 1,7171P(T<=t) zweiseitig 0,2758 *)Kritischer t-Wert bei zweiseitigem t-Test 2,0739
*) Entscheidung: P(zweiseitig) >= α = 5% --> H0 kann nicht abgelehnt werden!
iii) Planung des Stichprobenumfanges n = n t = nk
α-Fehler α = 0,05Power 1-β = 0,90krit.Abw. ∆ = |mt - mk| = 0,2758σ = Sp = 0,6046z(1 - α/2) = STANDNORMINV(1 - α/2) = 1,960z(1 - β) = STANDNORMINV(1 - β) = 1,282
P-Wert >= α = 0,05 --> Ho (Gleichheit der Mittelwerte) kann nicht abgelehnt werden!
Diese Prozedur steht unter "Extras - Analyse-Funktionen" zur Verfügung und setzt eine Anordnung der Stichproben in Spalten bzw. Zeilen voraus!
Vergleich der Mittelwerte mit dem t-Test - Berechnung mit der Prozedur "Zwei-Stichproben t-Test: Gleiche Varianzen"
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 28
Abschätzformel (Normalverteilungsapproximation):n >= 2(σ/∆)² [z(1-α/2) + z(1-β)]² = 100,95
Ergebnis:
Aufgabe 5.3: Paarvergleich und Parallelversuch
Daten: Testpräparat PlaceboProband X1 X2 Proband X1 X2
1 568 713 11 804 8842 668 820 12 572 6843 441 465 13 554 6304 466 340 14 273 5135 921 711 15 380 4696 696 555 16 1074 9847 231 190 17 447 5838 761 640 18 732 9049 605 696 19 674 646
10 504 397 20 719 613
a) Vergleiche innerhalb der Präparatgruppen (Paarvergleich)Modell:
Differenzstichproben (X1 - X2): Testpräparat Kontrollpräp.-145 -80-152 -112
-24 -76126 -240210 -89141 90
41 -136121 -172-91 28107 106
mi =MITTELWERT(Bereich i)= 33,40 -68,10si =STABW(Bereichi) = 128,87 111,59
Hypothesen: H0: µi = µο = 0 vs. H1: µi <> µο = 0
Testpräp.: Testgröße:TG = [(m1 - µο)/S1] √n ist t-verteilt mit f = n - 1Freiheitsgraden
TG(s) = 0,8196(m1 = 33,4, µo = 0 und S1 = 128,87)
P-Wert = 2 P(TG < |TG(s)|) = TVERT(x;Freiheitsgrade;Seiten)= 0,433606(mit x = TG(s), Freiheitsgrade = n-1, Seiten = 2)
In einem Placebo-kontrollierten Parallelversuch wurde die Wirkung eines Testpräparates und eines Kontrollpräparates (Placebo) auf eine (fiktive) Messgröße X untersucht und die folgenden Messwerte erhalten. X1 und X2 bezeichnen die Messgrößen am Beginn bzw. Ende der Behandlung. a) Man prüfe innerhalb jeder Präparatgruppe, ob sich die Messgröße im Mittel verändert.b) Man stelle die Präparatwirkung durch die Differenz X2 - X1 dar und vergleiche die Präparatgruppen hinsichtlich der mittleren Präparatwirkung. In beiden Fragestellungen sei α = 5%.
Aus dem nicht-signifikanten Testausgang kann nicht der Schluss gezogen werden, dass H0 (Gleichheit der Mittelwerte) gilt. Planung des Versuchs ist unzureichend!
In jeder Präparatgruppe i (i=1, 2 für das Test- bzw. Kontrollpräparat) wird die Änderung durch die Differenz Di des Beginn- und des Endwertes dargestellt. Damit ergibt sich ein 1-Stichprobenproblem mit der Differenz D i als Zielvariable. Diese wird als N(µi, σi²)-verteilt angenommen.
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 29
Entscheidung:P-Wert >= α = 0,05 --> Ho kann nicht abgelehnt werden.
Kontrolle: Testgröße:TG = [(m2 - µο)/S2] √n ist t-verteilt mit f = n - 1 Freiheitsgraden
TG(s) = -1,9299(m2 = 68.1, mo=0 und S2 = 111,59)
P-Wert = 2 P(TG < |TG(s)|) = TVERT(x;Freiheitsgrade;Seiten)= 0,0857(mit x = TG(s), Freiheitsgrade = n - 1, Seiten = 2)
Entscheidung:P-Wert >= α = 0,05 --> Ho kann nicht abgelehnt werden.
b) Vergleich der mittl. Präparatwirkung zwischen den Gruppen (Parallelversuch)
Modell:
Statistiken: Testgruppe:n1 = ANZAHL(Bereich1) = 10m1 = MITTELWERT(Bereich1) = 33,4000Standardabw. s1 = STABW(Bereich1) = 128,8662(Bereich1= Bereich der Test-Differenzstichprobe)
Kontrolle:n2 = ANZAHL(Bereich2) = 10m2 = MITTELWERT(Bereich2) = -68,1000Standardabw. s2 = STABW(Bereich2) = 111,5870(Bereich2= Bereich der Kontroll-Differenzstichprobe)
i) Vergleich der Varianzen (F-Test): Ho: σ1² = σ2² vs. H1: σ1² <> σ2²
Explizite Berechnung:Testgröße TG = S1²/S2² ist F-verteilt mit dem
ersten Freiheitsgrad n1 - 1 (Freiheitsgrad der Zählervarianz) und demzweiten Freiheitsgrad n2 - 1 (Freiheitsgrad der Nennervarianz)
TG(s) = s1²/s2² = 1,3337 > 1P-Wert = 2P(TG > TG(s)) = 2 FVERT(x;Freiheitsgrad1;Freiheitsgrad2) = 0,6749
(wegen x = TG(s), Freiheitsgrad1 = n2 - 1, Freiheitsgrad2 = n1 - 1)Entscheidung:P-Wert >= α = 0,05 --> Ho (Varianzhomogenität) wird beibehaltenHinweis:
Alternative: Berechnung mit der Excel-Funktion FTESTP-Wert = 2P(TG > TG(s)) = FTEST(Bereich2;Bereich1) = 0,6749
ii) Vergleich der Mittelwerte Ho: µ1 = µ2 vs. H1: µ1 <> µ2
Es liegt Varianzhomogenität vor.
Explizite Berechnung:Gewichtete Varianz= Sp² = [(n1-1)S1² + (n2-1)S2²]/(n1+n2-2) = 14529,07Sp = √(Sp²) = 120,5366Testgröße TG = (m2 - m1)/[Sp√(1/n1 + 1/n2)]
ist t-verteilt mit n1+ n2 - 2 FreiheitsgradenTG(s) = -1,8829
P-Wert = P(TG < -|TG(s)|) + P(TG > |TG(s)|) =TVERT(x;Freiheitsgrade;Seiten)= 0,0760(wegen x=TG(s), Freiheitsgrade = n1+ n2 - 2 und Seiten = 2)
Entscheidung: P-Wert >= α = 0,05 --> Ho kann nicht abgelehnt werden.
Alternative: Berechnung mit der Excel-Funktion TTESTP-Wert = TTEST(Matrix1;Matrix2;Seiten;Typ)Es bedeuten:
X (= Präparatwirkung = X1 - X2) ist in der Gruppe 1 (Testgruppe) N(µ1, σ1²)-verteilt und in der Gruppe 2 (Kontrolle) N(µ2, σ2²)-verteilt.
FVERT(x;Freiheitsgrad1;Freiheitsgrad2) liefert die "Überschreitungswahrscheinlichkeit" P(X >
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 30
Matrix1 = Bereich der ersten StichprobeMatrix2 = Bereich der Zweiten StichprobeSeiten = 1 bei 1-seitigen Hypothesen
2 bei 2-seitiger HypotheseTyp = 1 bei abhängigen Stichproben
2 bei unabhängigen Stichproben gleicher Varianz3 bei unabhängigen Stichproben ungleicher Varianz
Für die betrachtete Aufgabe gilt:Matrix1 = Bereich1, Matrix2 = Bereich2, Seiten = 2, Typ = 2, alsoP-Wert = TTEST(Bereich1;Bereich2;2;2) = 0,07598
Aufgabe 5.4: U-Test für unabhängige Stichproben
Daten: X1(Entfern.1) X2(Entfern.2) RANG(X1) RANG(X2)1278 1936 4 6
970 6020 1 113388 1047 10 21086 1706 3 52598 9390 8 122610 2543 9 7
Rangsummen r1 bzw. r2 = 35 43
Hinweis:
Modell:
Hypothesen: H0: Θ = 0 vs. H1: Θ <> 0Testgröße: TG = U = n1n2 + n1(n1+1)/2 - R1
(n1, n2 = Umfänge der X1- bzw. X2-Stichprobe; R1=Rangsumme in der X1-Stichprobe)TGs = 22
Entscheidung (exakt): H0 auf Niveau α = 0.05 ablehnen, wenn TGs <= Un1,n2, 0.025 oder TGs >= Un1,n2,0.975 istwegen n1=n2=6, U6,6, 0.025 = 5 und U6,6,0.975=n1n2-U6,6,0.025 = 36-5=31 --> H0 kann nicht abgelehnt werden!
Hinweis: Normalverteilungsapproximation für n1>20 oder n2>20 gerechtfertigt -->TG = [U - n1n2]/√(n1n2(n1+n2+1)/12) unter H0 approx. N(0,1)-verteilt
In zwei bestimmten Entfernungen vom Ufer eines Fließgewässers wurden an jeweils 6 Entnahmestellen die folgenden Besiedlungsdichten (Makrozoobenthos pro m 2) beobachtet: 1278, 970, 3388, 1086, 2598, 2610 (Entfernung 1) bzw. 1936, 6020, 1047, 1706, 9390, 2543 (Entfernung 2). Es ist mit dem U-Test zu prüffen, ob sich die betrachtete Besiedlungsdichte von der Entfernung 1 zur Entfernung 2 im Mittel signifikant verändert hat; als Signifikanzniveau sei α = 0.05 vereinbart.
RANG(X1) und RANG(X2) sind die mit Hilfe der Excel-Funktion RANG(x, Bereich;1) bestimmten Ränge der Werte der X1- bzw. X2-Stichprobe (=Platznummern der nach aufsteigender Größe angeordeneten Elemente beider Stichproben; wenn mehrere Excel-Ränge übereinstimmen, müssen diese Ränge händisch durch den Mittelwert der entsprechenden Platznummern ersetzt werden.)
Die Verteilungsfunktionen F1 und F2 von X1 bzw. X2 unterscheiden sich nicht in der gestalt, sondern nur in der Lage, d.h. der Graph von F2 geht durch Verschiebung um ein bestimmtes Θ in Richtung der positiven horizontalen Achse in den Graph von F1 über. Bei positiven (negativen) Θ ist X1 "im Mittel" größer (kleiner) als X2. Im Falle Θ = 0 sind X1 und X2 "im Mittel" gleich.
Hinweis: Analyse-Funktion "Zweistichproben t-Test" bei gleichen oder unterschiedlichen Varianzen setzt voraus, dass Bereich 1 bzw. Bereich2 Spalten oder Zeilen sind.
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 31
Aufgabe 5.5: Vergleich zweier Anteile
Daten: U-Merkm. X1 SummeGesamtchol. OÖ St<170 (opt.) 93 (n11) 42 (n12) n1. = 135>=170(Risik.) 52 (n21) 29 (n22) n2. = 81
Summe n.1 = 145 n.2 = 71 n.. = 216
Modell:
Hypothesen: Ho: p1 = p2 vs. H1: p1 <> p2
Näherungsweise Lösung bei großen Stichproben:Testgröße: TG = √(n..)(n11n22 - n12n21)/√(n.1n.2n1.n2.)
ist näherungsweise N(0,1)-verteilt für große n .1 und n.2
TG(s) = 0,711P-Wert = P(TG < -|TG(s)|) + P(TG > |TG(s)|) =
STANDNORMVERT(-0,711)+1-STANDNORMVERT(0,711) = 0,477Entscheidung:P-Wert >= α = 0,05 --> Ho kann nicht abgelehnt werden.
Aufgabe 5.6: Vergleich zweier Häufigkeitsverteilungen (Homogenitätsprüfung)
Daten: beobachtete Behandl.-Häufigk. (O) Erfolg A B Σ (Zeilen)
Verbess. 13 6 19k.Änderung 13 16 29Verschl. 7 5 12Σ (Spalten) 33 27 60
Σ (Gesamt)
Nullhypothese Ho: Behandlungserfolg ist von der Präparatgruppe unabhängigTestgröße: GF = Σ(O - E)²/E
ist unter Ho chiquadratverteilt mit 2 Freiheitsgraden
Bei Unabhängigkeit zu erwartende Häufigkeiten (E)(erw.H.=Zeilensumme x Spaltensumme/Gesamtsumme):
Behandl.-Erfolg A BVerbess. 10,45 8,55k.Änderung 15,95 13,05Verschl. 6,6 5,4
Im Rahmen einer Untersuchung des Ernährungsstatus von Schulkindern aus Oberösterreich und der Steiermark wurde u.a. das Gesamtcholesterin (in mg/dl) stichprobenartig erfasst (siehe nachfolgende Tabelle). Man prüfe auf 5%igem Niveau, ob sich die Schüleranteile in der optimalen Kategorie zwischen den Bundesländern signifikant unterscheidet.
In einer Studie wurden 33 Personen mit dem Präparat A und 27 Personen mit dem Präparat B behandelt. Der Behandlungserfolg wurde auf einer 3-stufigen Skala mit den Skalenwerten Verbesserung , keine Änderung , Verschlechterung dargestellt. In der Präparatgruppe A gab es 13 Personen mit einer Verbesserung, 13 Personen zeigten keine Veränderung und 7 Personen eine Verschlechterung. Die entsprechenden Häufigkeiten für die Präparatgruppe B sind 6, 16 bzw. 5. Man prüfe, ob der Behandlungserfolg vom Präparat abhängt (α = 5%).
Präparat
Gliederungsmerkmal X2
Die Werte a1 (opt.) und a2 (Risik.) des Untersuchungsmerkmals sind Realisationen einer Zweipunktvariablen mit dem Parameter p1=P(X1=a1|X2=OÖ) in der ersten Stichprobe und dem Parameter p2=P(X1=a1|X2=St) in der zweiten Stichprobe.
Präparat
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 32
GF(s) = Σ(O - E)²/E = 2,65P-Wert = P(GF > GF(s)) = CHIVERT(x;Freiheitsgrade) = 0,2659
(mit x = GF(s) = 2,65 und Freiheitsgrade = 2)Entscheidung:P-Wert > α = 0,05 --> Ho kann nicht abgelehnt werden
Aufgabe 5.7: Gleichwertigkeit von Anteilen
Daten:Therapieerfolg Test (t) Kontroll (k)Verbesserung 40 45eine Verbess. 10 5
50 50 Summen (nt, nk)
Deskriptive Statistiken:beob. Anteil yt der Probanden mit Verbess. in der Testgruppe =40/50 = 0,8beob. Anteil yk der Probanden mit Verbess. in der Kontrollgruppe =45/50 = 0,9
Toleranzintervall (- ∆ ,+ ∆ ):Toleranzgrenze ∆ = 20% des Anteils yk = 0,18
Modell:
Hypothesen (Äquivalenzprüfung):Ho: |p1 - p2| >= ∆ versus H1: |p1 - p2| < ∆
Entscheidungskriterium von Westlake:
SE(Yt-Yk) = √[yt(1-yt)/nt + yk(1-yk)/nk] = 0,071z(1-2α) = z(0.95) = 1,645u = (yt-yk) - z(1-2α) = -0,2163o = (yt-yk) + z(1-2α) = 0,0163
Entscheidung: [u, o] nicht enthalten in (-∆, +∆) --> H0 (Nichtgleichwertigkeit) kann nicht abgelehnt werden
H0 wird auf Testniveau α abgelehnt, wenn das (1-2α)-Konfidenzintervall [u, o] für die Differenz p = pt-pk im Toleranzintervall (-∆, +∆) enthalten ist.
In einer Studie zum Vergleich der Wirksamkeit von zwei Präparaten wurde der Therapieerfolg grob durch die Bewertungen "Verbesserung" bzw. "keine Verbesserung" erfasst. Der Prüfplan sah vor, dass 50 Patienten mit dem Testpräparat (t) und ebenso viele mit dem Referenzpräparat (k) behandelt werden. Am Behandlungsende gab es in der Testgruppe in 40 Fällen eine Verbesserung, in der Kontrollgruppe in 45 Fällen. Man prüfe, ob die Therapien gleichwertig sind. Als Irrtumswahrscheinlichkeit sei 5% vereinbart, als klinisch relevante Abweichung 20% des beobachteten Anteils der Verbesserungen in der Kontrollgruppe.
Die Werte "Verbesserung" und "keine Verbess." des Untersuchungsmerkmals X = "Therapieerfolg" sind Realisationen einer Zweipunktvariablen mit dem Parameter p1=P(X=Verbess.|Testpräparat) in der ersten Stichprobe und dem Parameter p2=P(X=Verbess.|Kontrollpräparat) in der zweiten Stichprobe. Für genügend große Stichprobenumfänge (etwa n t>30, nk>30) sind die Stichprobenanteile Yt und Yk approximativ N(pt, σt)- bzw. N(pk, σk)-verteilt mit σt=√[pt(1-pt)/nt], σk=√[pk(1-pk)/nk]. Folglich ist die Differenz Y=Yt-Yk der Stichprobenanteile approximativ N(p,σ)-verteilt mit p=pt-pk und σ=√(σt
2+σk2).
Präparat
08.03.2004 angewstat_excel, Kapitel 5
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 33
6 Korrelation und Regression
Aufgabe 6.1: Zweidimensionale Häufigkeitstabellen
Originaldaten: PROB GESCHL KOPF1 2 22 1 13 1 04 1 15 2 06 2 07 2 28 2 09 2 1
10 2 011 1 012 2 113 1 014 1 015 2 216 1 217 1 018 2 119 2 220 1 221 1 222 1 223 1 224 2 125 1 226 2 027 2 128 1 029 2 1
Kreuztabellierung KOPF vs. GESCHL mittels "Daten - Pivot-Tabelle ...":
KOPFGESCHL Daten 0 1 2 Gesamtergebnis
1 Anzahl - PROB 6 2 6 14% PROB 42,86% 14,29% 42,86% 100,00%
2 Anzahl - PROB 5 6 4 15% PROB 33,33% 40,00% 26,67% 100,00%
Gesamt: Anzahl - PROB 11 8 10 29Gesamt: % PROB 37,93% 27,59% 34,48% 100,00%
Die Verträglichkeit einer Behandung wurde in einer Studie u.a. durch Befragung über das Auftreten von Kopfschmerzen (Variable KOPF, Darstellung auf 3-stufiger Skala mit den Werten 0 = nicht vorhanden, 1 = leicht ausgeprägt, 2 = deutlich ausgeprägt) beurteilt. Man beschreibe die Variation des Veträglichkeitsparameters KOPF in Abhängigkeit vom Geschlecht (Variable GESCHL, 1 = männlich, 2 = weiblich) der Probanden (PROB).
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 34
Aufgabe 6.2: Abhängigkeitsprüfung mit Häufigkeitsdaten
Daten:beobachtete Proband sehr gut gut mäßig Σ (Zeilen)Häufigk. (O) sehr gut 36 10 4 50
gut 6 16 8 30mäßig 5 8 12 25Σ (Spalten) 47 34 24 105 (=n)
Σ (Gesamt)
Bei Unabhängigkeit zu erwartende Häufigkeiten (E)(erw.H.=Zeilensumme x Spaltensumme/Gesamtsumme):
Proband sehr gut gut mäßigsehr gut 22,38 16,19 11,43gut 13,43 9,71 6,86mäßig 11,19 8,10 5,71
Goodness-of-Fit-Statistik (Chi-quadratsumme):(Zellenelemente = (O - E)²/E )
Proband sehr gut gut mäßig Summesehr gut 8,287 2,367 4,829 15,483gut 4,109 4,067 0,190 8,367mäßig 3,425 0,001 6,914 10,340
GF(s) = Σ(O - E)²/E = 34,190
Cramersche Kontingenzindex V: V = √[GF(s)/n/(min(k,m) -1)] = 0,40
(k = Anz. d. Zeilen, m = Anz. d. Spalten in der Kontingenztafel)Nullhypothese Ho: Angaben der Probanden und Ärzte variieren voneinander unabhängig
Testgröße: GF = Σ(O - E)²/E ist unter Ho chiquadratverteilt mit (k-1)(m-1)=4 Freiheitsgraden
P-Wert = P(GF > GF(s)) = CHIVERT(x;Freiheitsgrade) = 0,000001(mit x = GF(s) = 34,19 und Freiheitsgrade = 4)
Entscheidung:P-Wert < α = 0,05 --> Ho ablehnen
Die Wirksamkeit einer Behandlung wurde einerseits durch den Probanden und andererseits durch den Prüfarzt beurteilt. Man beschreibe den Zusammenhang zwischen den Beurteilungen mit einem geeigneten Korrelationsmaß. Wie groß sind die bei einer angenommenen Unabhängigkeit zu erwartenden absoluten Häufigkeiten? Ist die Korrelation signifikant von null verschieden? (α = 5%)
Arzt
Arzt
Arzt
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 35
Aufgabe 6.3: Korrelation bei metrischen Merkmalen
Rangskalierte StichprobenDaten: Nr. X Y Rang (X) Rang (Y)
1 298 39 8 72 345 47 10 113 183 18 3 24 340 29 9 55 350 45 11,5 9,56 380 50 13,5 127 92 33 2 68 380 70 13,5 14,59 195 20 4 3
10 265 52 7 1311 232 70 6 14,512 90 14 1 113 200 28 5 414 350 45 11,5 9,515 620 40 15 8
Rangskalierung:Bestimmung des Ranges eines Wertes Zahl einer Stichprobe im Feld Bezugdurch RANG(x; Bezug; Reihenfolge); dabei ergibt sich der Rang in der nachaufsteigender (absteigender) Größe geordneten Stichprobe, wenn Reihenfolge <> 0 (=0).Achtung: Gleiche Werte erhalten dieselben Rangzahlen, Ersetzung durchMittelwert aus den verbundenen Rangwerten muss händisch erfolgen!
Statistiken mit Wertepaar 15:Mittelwert 288,00 40,00Standardabw. 133,52 16,94Produktmomentkorr. KORREL(X-Stichpr.; Y-Stichpr.) = 0,4391Spearman-Korr. KORREL(Rang(X);Rang(Y)) = 0,6317
Statistiken ohne Wertepaar 15:Mittelwert 264,29 40,00Standardabw. 100,57 17,58Produktmomentkorr. r = KORREL(Matrix1; Matrix2) = 0,6050Spearman-Korr. rs = KORREL(Rang(X);Rang(Y)) = 0,7011
Hypothesen: Ho: Produktmomentkorrelation ρ = 0 vs. H1: ρ <> 0Testgröße: TG = r √(n-2)/√(1 - r2)
ist unter Ho t-verteilt mit n-2 Freiheitsgraden (n=Stichprobenumfang)
TG(s) = r √(n-2)/√(1 - r2) = 2,6323(Testdurchführung ohne Wertepaar 15)
P-Wert = P(TG < -|TG(s)|) + P(TG > |TG(s)|) = TVERT(x;Freiheitsgrade;Seiten) = = 0,0219
(wegen x=TG(s), Freiheitsgrade = n-2=12 und Seiten = 2)Entscheidung:P-Wert < α = 0,05 --> Ho ablehnen
An 15 Pflanzen (Biscutella laevigata ) wurden u.a. die Sprosshöhe X und die Länge Y des untersten Stengelblattes gemessen (Angaben in mm). Man berechne die Produktmoment-korrelation. Was ergibt sich, wenn man das Wertepaar X=620, Y=40 als ausreißerverdächtig weglässt? Man überzeuge sich durch Berechnen der entsprechenden Maßzahlen, dass der Rang-korrelationskoeffizient von Spearman robuster als die Produktmoment-korrelation, d.h. gegenüber Ausreißerpaaren weniger empfindlich ist. Man zeige an Hand der Stichprobe (ohne das letzte Wertepaar), dass die Produktmomentkorrelation signifikant von null abweicht (α = 5%, Daten: siehe weiter unten).
Originalwerte
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 36
Aufgabe 6.4: Einfache lineare Regression
Daten: X E Y = lnE3,1 27,6 3,31784,2 50,6 3,92405,0 62,7 4,13845,4 147,1 4,99116,6 356,3 5,8758
Statistiken: Anzahl = 5Mittelwert = 4,8600 (=mX) 4,4494 (=mY)STD = 1,3107 (=sX) 0,9977 (=sY)Produktmomentkorrelation r = 0,8852
i) Schätzung der Regressionsparameter, AbhängigkeitsprüfungÜberprüfung der Adäquatheit des linearen Modells (grafisch):
Hypothesen: Ho: Produktmomentkorrelation ρ = 0 vs. H1: ρ <> 0 (Y hängt von X ab)Testgröße: TG = r √(n-2)/√(1 - r2)
ist unter Ho t-verteilt mit n-2 Freiheitsgraden (n=Stichprobenumfang)TG(s) = r √(n-2)/√(1 - r2) = 3,2963
P-Wert = P(TG < -|TG(s)|) + P(TG > |TG(s)|) = TVERT(x;Freiheitsgrade;Seiten) = = 0,0109
(wegen x=TG(s), Freiheitsgrade = n-2 und Seiten = 2)Entscheidung:P-Wert < α = 0,05 --> Ho ablehnen, d.h. Y hängt von X linear ab.
Schätzung der Geradenparameter:b1 = STEIGUNG(Y-Werte; X_Werte) = 0,7377b0 = ACHSENABSCHNITT(Y_Werte; X_Werte)= 0,8643Gleichung der Regressionsgeraden: Y = b0 + b1 X
Der (logarithmierte) Energieumsatz Y=lnE (E in kJ pro kg Körpergewicht und Stunde) wurde in Abhängigkeit von der Laufgeschwindigkeit X (in m/s) gemessen. i) Man stelle die Abhängigkeit des logaritmierten Energieumsatzes von der Laufgeschwindigkeit durch ein lineares Regressionsmodell dar und prüfe, ob im Rahmen des Modells überhaupt ein signifikanter Einfluss der Geschwindigkeit auf den Energieumsatz besteht (α=5%) ii) Ferner bestimme man ein 95%-Konfidenzintervall für den Anstieg der Regressionsgeraden sowie den 95%-Vorhersagebereich für den mittleren (logarithmierten) Energieumsatz in Abhängigkeit von X.
y = 0,7377x + 0,8643R2 = 0,9392
3
4
5
6
3 4 5 6 7X
Y =
lnE
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 37
Alternative: Lineare Regression mit RGPBezug ist Regressionsfunktion in der Form y = b0 + b1 xMatrixfunktion RGP(Y-Werte;X-Werte;Konstante; Statistik)
(Konstante = 0: y-Achsenabschnitt b0 = 0Konstante <> 0: y-Achsenabschnitt wird geschätzt;Statistik <> 0 liefert diverse Statistiken)
Ausgabe erfolgt in 5 x 2 Zellen, die vorher zu markieren sind:
Anstieg b1 0,7377 0,8643 b0
SE(b1) 0,1083 0,5415 SE(b0)B 0,9392 0,2840 SE(y)F-Wert 46,377 3 FGSQX 3,7394 0,2419 SQRes
Einfügen der Regressionsgeraden in das Streudiagramm:Datenpunkte mit rechter Maustaste anklicken,Trendlinie hinzufügen ...(Optionen: Formel im Diagramm darstellen)
ii) Konfidenzschätzung95%-Konfidenzintervall für den Geradenanstieg:
α = 0,05b1 = 0,7377
t(n-2,1-α/2)= 3,182MQRes = SQRes/(n-2) = 0,08063
sX2 = 1,7180
SE(b1) = √[MQRes/(n-1)/sX2] = 0,1083
untere Grenze = b1 - t(n-2,1-α/2)SE(b1) = 0,3929obere Grenze = b1 + t(n-2,1-α/2)SE(b1) = 1,0824
95%-Vorhersagebereich für das mittlere Y:y(erw.) = b0 + b1 X (an der Stelle X erwartetes y)
SE[y(erw.)] = √[MQRes(1/n + (x-mX)2/(n-1)/sX2)]
untere Grenze = y(erw.) - t(n-2, 1-α/2)SE[y(erw.)]obere Grenze = y(erw.) + t(n-2, 1-α/2)SE[y(erw.)]
X Y = lnE y(erw.) untere Gr. obere Gr.3,1 3,3178 3,151 2,4221 3,88014,2 3,9240 3,963 3,4988 4,42635,0 4,1384 4,553 4,1457 4,95975,4 4,9911 4,848 4,4028 5,29276,6 5,8758 5,733 5,0097 6,4562
2
3
4
5
6
7
2 3 4 5 6 7
y(erw.)untere Gr.obere Gr.
Y = lnE
X
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 38
Aufgabe 6.5: Lineare Kalibration
Daten: Kalibrierproben X Y (=y(beob.)) y(erw.) (mit Regres-1 1,409 0,027 0,02750 sionsfunktion2 3,013 0,040 0,04080 berechnet:3 5,508 0,065 0,06149 = b0 + b1 X)4 8,100 0,080 0,082975 10,303 0,102 0,10124
Statistiken: Anzahl = 5Mittelwerte mX, mY = 5,667 0,0628STD sX, sY = 3,627 0,0302Produktmomentkorrelation r = 0,9969
i) Schätzung der Regressionsparameter, AbhängigkeitsprüfungÜberprüfung der Adäquatheit des linearen Modells (grafisch):
Schätzung der Geradenparameter:b1 = Empfindlichkeit = STEIGUNG(Y-Werte; X-Werte) = 0,008291b0 = Kalibrationsblindwert =
= ACHSENABSCHNITT(Y-Werte; X-Werte) = 0,015821Gleichung der Regressionsgeraden: Y = b0 + b1 X
Alternative: Lineare Regression mit RGPBezug ist Regressionsfunktion in der Form y = b0 + b1 xMatrixfunktion RGP(Y-Werte;X-Werte;Konstante; Statistik)
(Konstante = 0: y-Achsenabschnitt b0 = 0Konstante <> 0: y-Achsenabschnitt wird geschätzt;Statistik <> 0 liefert diverse Statistiken)
Ausgabe erfolgt in 5 x 2 Zellen, die vorher zu markieren sind:
Anstieg b1 0,0082905 0,0158210 b0
SE(b1) 0,0003790 0,0024747 SE(b0)B 0,9937691 0,0027491 SE(y)F-Wert 478,470 3 FGSQX 0,0036161 0,0000227 SQRes
Zur Messung von Fe-Konzentrationen X sollen die Peakhöhen Y von Atomabsorptionsspektrallinien herangezogen werden. Zwecks Kalibration des Messverfahrens wurden die Peakhöhen (in cm) in Abhängigkeit von einigen vorgebenen Massenwerten (in ng) bestimmt. i) Man bestimme die lineare Kalibrationsfunktion (einschl. 95%-Konfidenzintervalle für die Geradenparameter) ii) Man bestimme einen 95%-Vorhersagebereich eines Analysenwertes X aus k Wiederholungsmessungen von Y.
y = 0,0083x + 0,0158R2 = 0,9938
0,00
0,05
0,10
0 2 4 6 8 10 12
X
Y
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 39
95%-Konfidenzintervall für den Geradenanstieg:α = 0,05
b1 = 0,008291t(n-2,1-α/2)= 3,182
SQRes = Σ[y(beob.) - y(erw.)]2 = 0,0000227MQRes = SQRes/(n-2) = 0,0000076
sX2 = 13,1529
SE(b1) = √[MQRes/(n-1)/sX2] = 0,0003790
untere Grenze = b1 - t(n-2,1-α/2) SE(b1) = 0,0070843obere Grenze = b1 + t(n-2,1-α/2)SE(b1) = 0,0094967
Abhängigkeitsprüfung:b1 auf Testniveau α = 5% signif. ungleich null (Y hängt von X ab),weil (1-α)-Konfidenzintervall für den Anstieg nicht die Null enthält!
95%-Konfidenzintervall für den Achsenabschnitt:b0 = 0,015821
SE(b0) = √[MQRes(1/n+mX2/(n-1)/sX
2] = 0,002475untere Grenze = b0 - t(n-2,1-α/2)SE(b0) = 0,007945obere Grenze = b0 + t(n-2,1-α/2)SE(b0) = 0,023697
ii) 95%-Vorhersagebereich für X aus k Wiederholungsmessungen von Y (inverse Regression)Wert x der Analysengröße X ist unbekannt;Zum Wert x werden k=2 Wiederholungsmessungen von Y durchgeführt:
Daten: Wiederh. Y1 0,0522 0,054
k = 2Mittelwert mY* = 0,053
Schätzwert x* von X zu m Y * (aus der Kalibrationsgleichung):x* = mX + (mY* - b0)/b1 = 10,151
SE(x*) = √[MQRes/b12]√[1/n+1/k+(mY*-b0)
2/b12/(n-1)/sX
2] = 0,3450Hinweis:Diese Formel gilt näherungsweise für kleines g=[t(n-2, 1-α/2)SE(b1)/b1]
2 (etwa g<0,1)!Im Beispiel ist g = 8,417E-06 < 0,1
Grenzen des 95%-Vorhersagebereichs:untere Grenze = x* - t(n-2,1-α/2)SE(x*) = 9,053obere Grenze = x* + t(n-2,1-α/2)SE(x*) = 11,249
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 40
Aufgabe 6.6: Zweifache lineare Regression
Daten, univariate Statistiken:X1 X2 Y Y(erwartet) <-- mit Regressionsfunktion
82 48 350 376,97 gerechnete Vorhersagewerte60 51 395 350,2182 55 440 401,0858 30 290 274,5080 58 400 408,0430 25 210 210,0865 45 350 337,9733 35 230 249,5970 50 310 363,6354 40 290 302,2168 30 255 291,3662 28 320 274,36
n= 12 12 12 12Mittelw.= 62 41 320 320
STD= 17,008 11,419 70,421 62,551VAR= 289,273 130,386 4959,091 3912,638
Schätzung der Modellparameter, globale Abhängigkeitsprüfung mit RGP:Modell: Y = bo + b1 X1 + b2 X2 + EE normalverteilt mit Mittelwert µ=0 und Varianz σΕ
2
Regressionsanalyse mit RGP:Bezug ist Regressionsfunktion in der Form y = b0 + b1 X1 + b2 X2Matrixfunktion RGP(Y-Werte;X1/X2-Wertebereich;Konstante; Statistik)(Konstante = 0: y-Achsenabschnitt b0 = 0Konstante <> 0: y-Achsenabschnitt wird geschätzt;Statistik <> 0 liefert diverse Statistiken)
b2 b1 bo
bi 3,4447 1,6857 73,3942107SE(bi) 1,2951 0,8695 43,8739165B=r2, SE(y) 0,7890 35,7631 #NVF, f2 16,825 9 #NVSQX, SQRes 43039,01393 11510,986 #NV
Die folgenden Daten sind einer Studie entnommen, in der u.a. das Gesamtcholesterin Y (in mg/dl), das Gewicht X1 (in kg) und das Alter X2 (in a) bestimmt wurden. Es soll (mit den von 12 Probanden stammenden Daten) im Rahmen eines zweifach-linearen Modells geprüft werden, ob Y global von X1 und X2 abhängt (globale Abhängigkeitsprüfung, α = 5%). Wenn ja, wie lautet das Regressionsmodell?
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 41
globaler F-Test: Ho: Y hängt von X1, X2 nicht abH1: Y hängt von X1, X2 ab - d.h. b1 oder b2 sign. ungleich null
Testgröße TG = (n-p-1)B/[p(1-B)] ist F-verteilt mit demersten Freiheitsgrad f1=p=2 (p=Anzahl der Einflussvariablen) und demzweiten Freiheitsgrad f2 = n-p-1 (n=Stichprobenumfang)
TG(s) = F = 16,8253P-Wert = 2P(TG > TG(s)) = 2 FVERT(x;f1;f2) = 0,001822
(wegen x= 16,8253f1= 2f2= 9 )
P-Wert <= α = 0,05 --> H1
Hinweis:
Regressionsfunktion:Y(erwartet)=73,3942 + 1,6857 X1 + 3,4447 X2
Überprüfung der Modelladäquatheit und Anpassungsgüte:
FVERT(x;Freiheitsgrad1;Freiheitsgrad2) liefert die "Überschreitungswahrscheinlichkeit" P(X > x) (!)
Es empfiehlt sich, die Modelladäquatheit an Hand eines mit den erwarteten und beobachteten Y-Werten gezeichneten Streudiagramms zu überprüfen. Ein Kennwert für die Anpassungsgüte ist das multiple Bestimmtheitsmaß (=Quadrat der Produktmomentkorrelation zwischen den erwarteten und beobachteten Y-Werten; im Beispiel ist B=r2=78,9%).
R2 = 0,789200
250
300
350
400
450
500
200 300 400 500
Y-beobachtet
Y-er
war
tet
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 42
Aufgabe 6.7: Quadratische Regression
Daten, univariate Statistiken (X 2 -Spalte nachträglich beigefügt):Y X X2 Y(erwartet) <-- mit Regressionsfunktion
17,91 15 225 18,52 gerechnete Vorhersagewerte18,30 15 225 18,5224,52 20 400 23,2124,41 20 400 23,2121,77 25 625 23,5122,73 25 625 23,5119,09 30 900 19,4120,57 30 900 19,41
n= 8 8 8Mittelw.= 21,2 22,5 537,5 SQRes = 8,644
STD= 2,620 5,976 270,251VAR= 6,866 35,714 73035,714
Grafische Analyse des Modelltyps im Streudiagramm:Punkteverteilung --> quadratisches Regressionspolynom: Y(erwart.) = b0 + b1 X + b2 X
2
Einfügen der Regressionsparabel in das Streudiagramm:Datenpunkte mit rechter Maustaste anklicken,Trendlinie hinzufügen ...(Optionen: Formel im Diagramm darstellen)
Schätzung der Modellparameter, globale Abhängigkeitsprüfung mit RGP:Modell: Y = bo + b1 X1 + b2 X2 + E mit den Regressoren X1=X und X2=X2
(E normalverteilt mit Mittelwert µ=0 und Varianz σΕ2)
Regressionsanalyse mit RGP (nach Generierung der X 2 -Spalte in der Datenmatrix):Bezug ist Regressionsfunktion in der Form y = b0 + b1 X1 + b2 X2Matrixfunktion RGP(Y-Werte;X1/X2-Wertebereich;Konstante; Statistik)(Konstante = 0: y-Achsenabschnitt b0 = 0Konstante <> 0: y-Achsenabschnitt wird geschätzt;Statistik <> 0 liefert diverse Statistiken)
Mit Hilfe angegebenen Daten soll die Photosynthese Y (in µmol CO2 pro m2 und s) einer Pflanze als Funktion der Temperatur X (in oC) bei konstant gehaltener (hoher) Lichintensität dargestellt werden. Für welche Temperatur ist der Y maximal?
y = -0,0889x2 + 4,0695x - 23,915R2 = 0,7226
15
20
25
14 18 22 26 30
X (Temp.)
Y (P
hoto
synt
hese
)
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 43
b2 b1 bo
bi -0,0878 4,0102 -21,8745SE(bi) 0,0186 0,8409 9,04030057B=r2, SE(y) 0,8202 1,3148 #NVF, f2 11,401 5 #NVSQX, SQRes 39,42036 8,644 #NV
Globale Abhängigkeitsprüfung:globaler F-Test:
Ho: Y hängt von X1, X2 nicht abH1: Y hängt von X1, X2 ab - d.h. b1 oder b2 sign. ungleich null
Testgröße TG = (n-p-1)B/[p(1-B)] ist F-verteilt mit demersten Freiheitsgrad f1=p=2 (p=Anzahl der Einflussvariablen) und demzweiten Freiheitsgrad f2 = n-p-1 (n=Stichprobenumfang)TG(s) = F = 11,4014P-Wert = 2P(TG > TG(s)) = 2 FVERT(x;f1;f2) = 0,012560
(wegen x = TG(s) = 104,0685, f1=2, f2 = 7)P-Wert <= α = 0,05 --> H1
Hinweis:
Regressionsfunktion:Y(erwartet)= - 21,8745 + 4,0102 X - 0,0878 X2
Optimale Temperatur:dY(erw.)/dX = 4,0102 - 2 * 0,0878 X = 0 --> X(opt.) = 22,8
Überprüfung der Modelladäquatheit und Anpassungsgüte:
FVERT(x;Freiheitsgrad1;Freiheitsgrad2) liefert die "Überschreitungswahrscheinlichkeit"
Es empfiehlt sich, die Modelladäquatheit an Hand eines mit den erwarteten und beobachteten Y-Werten gezeichneten Streudiagramms zu überprüfen. Ein Kennwert für die Anpassungsgüte ist das multiple Bestimmtheitsmaß (=Quadrat der Produktmomentkorrelation zwischen den erwarteten und beobachteten Y-Werten; im Beispiel ist B=r2=82,02%).
R2 = 0,8202
17
19
21
23
25
17 19 21 23 25
Y-beobachtet
Y-er
war
tet
08.03.2004 angewstat_excel, Kapitel 6
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 44
7 Varianzanalytische Modelle
Aufgabe 7.1: Einfaktorielle Varianzanalyse (Globaltest, Levene-Test, Scheffe-Test)
Daten:Lösung 1 Lösung 2 Lösung 3
356 1121 398431 1031 415619 1148 345472 1045 253555 1073 222564 904 256
a) Prüfung auf signifikante Mittelwertunterschiede zwischen den Ca-Faktorstufen (Globaltest)Statistiken:
Lösung 1 Lösung 2 Lösung 3 Gesamtni 6 6 6 18
Mittelwert 499,50 1053,67 314,83 622,67Standardabw. 97,53 85,79 82,17 333,63Anzahl der Gruppen (Faktorstufen) k = 3Gesamtstichprobenumfang N = 18
Streuungszerlegung:SQLös = Σ [ni x (Stufenmittel - Gesamtmittel)2] = 1774154,33MQLös = SQLös/(k-1) = 887077,17SQRes = Σ [(ni - 1) x Stufenvarianz] = 118119,67MQRes = SQRes/(N-k) = 7874,64SQTot = (N -1) x Gesamtvarianz = 1892274,00 = SQLös + SQRes =
Hypothesen: Ho: Faktorstufenmittelwerte stimmen überein vs. H1: wenigstens zwei Stufenmittelwerte sind verschieden (Globaltest)
Testgröße TG = MQLös/MQRes ist unter H0 F-verteilt mit demersten Freiheitsgrad k-1 (Freiheitsgrad von MQLös) und demzweiten Freiheitsgrad N-k (Freiheitsgrad von MQRes)
TG(s) = 887077,17/7874,64 = 112,65
P-Wert = P(TG > TG(s)) = FVERT(x;Freiheitsgrad1;Freiheitsgrad2) = FVERT(112,65;2;15) = 0,0000 (wegen x = TG(s), Freiheitsgrad1 = k-1 = 2, Freiheitsgrad2 = N-k = 15)
P-Wert < α = 0,05 --> Ho (Gleichheit der Stufenmittel) ablehnen!Hinweis:
Man vergleiche die Ca-Konzentration zwischen den Lösungen 1, 2 und 3. a) Bestehen zwischen den Lösungen signifikante Mittelwertunterschiede b) Man untersuche die Homogenität der Varianzen. c) Welche Mittelwerte sind signifikant verschieden? Als Testniveau sei α = 5% vereinbart, Daten: siehe weiter unten.
FVERT(x;Freiheitsgrad1;Freiheitsgrad2) liefert die "Überschreitungswahrscheinlichkeit" P(X > x) (!)
Ca
08.03.2004 angewstat_excel, Kapitel 7
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 45
Alternative: Analyse-Funktionen - Einfaktorielle Varianzanalyse ...
Anova: Einfaktorielle VarianzanalyseZUSAMMENFASSUNG
Gruppen Anzahl Summe Mittelwert VarianzLösung 1 6 2997 499,5 9512,3Lösung 2 6 6322 1053,66667 7359,066667Lösung 3 6 1889 314,833333 6752,566667
ANOVA
Streuungsursache
Quadratsummen (SS)
Freiheitsgrade (df)
Mittlere Quadratsum
me (MS)Prüfgröße
(F) P-Wertkritischer F-Wert
Unterschie-de zwischen den Gruppen 1774154,33 2 887077,167 112,649806 9,22649E-10 3,68231667Innerhalb der Gruppen 118119,667 15 7874,64444Gesamt 1892274 17
b) Überprüfung der Homogenität der Ca-Stufenvarianzen (Levene-Test)
Datenmatrix (Einzelwerte werden durch Abstand der Einzelwert vom jeweiligen Stufenmittel ersetzt):
Lösung 1 Lösung 2 Lösung 3143,50 67,33 83,17
68,50 22,67 100,17119,50 94,33 30,17
27,50 8,67 61,8355,50 19,33 92,8364,50 149,67 58,83
Einfaktorielle ANOVA mit diesen Stichproben (Analyse-Funktionen):
Anova: Einfaktorielle VarianzanalyseZUSAMMENFASSUNG
Gruppen Anzahl Summe Mittelwert VarianzLösung 1 6 479 79,8333333 1864,266667Lösung 2 6 362 60,3333333 2990,933333Lösung 3 6 427 71,1666667 674,9333333
ANOVA
Streuungsursache
Quadratsummen (SS)
Freiheitsgrade (df)
Mittlere Quadratsum
me (MS)Prüfgröße
(F) P-Wertkritischer F-
WertUnterschie-de zwischen den Gruppen 1145,44444 2 572,722222 0,31069173 0,737544529 3,68231667Innerhalb der Gruppen 27650,6667 15 1843,37778Gesamt 28796,1111 17
Ca
08.03.2004 angewstat_excel, Kapitel 7
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 46
Nullhypothese H0: Stufenvarianzen stimmen überein (Varianzhomogenität)P-Wert = 0,7375 > α = 0,05 --> Ho kann nicht abgelehnt werden!
c) Multiple Mittelwertvergleiche mit dem Scheffe-TestHinweis:Mittelwerte der Stufen i und j sind auf dem Testniveau α signifikant verschieden, wenn die Absolutdifferenz dieser Mittelwerte die kritische Differenz
dS(i,j) = √[(k-1) x Fk-1, N-k, 1-α MQRes (1/ni + 1/nj)]
übertrifft. Dabei ist Fk-1, N-k, 1-α = FINV(α;k-1; N-k) das 1-α-Quantil der F-Verteilung mit dem
Zählerfreiheitsgrad k-1 und dem Nennerfreiheitsgrad N-k.F2,15,0,95 = FINV(0,05; 2;15) = 3,682dS(1,2) = dS(1,3) = dS(2,3) = √[2 x 3,682 x 7874,64 x (1/6 + 1/6)] = 139,037
|Stufenmittel_1 - Stufenmittel_2| 554,17 sign.|Stufenmittel_1 - Stufenmittel_3| 184,67 sign.|Stufenmittel_2 - Stufenmittel_3| 738,83 sign.
Aufgabe 7.2: Partieller F-TestIm Anschluss an Aufgabe 6.6 soll untersucht werden, ob das zweifach-lineare Regressionsmodell auf
08.03.2004 angewstat_excel, Kapitel 7
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 47
Anhang 1: Datentransformationen und Datenbankoperationen
Datenbank:jahr mon tag T (C) Q(m3/s) OPO4(mg/l) BSB5(mg/l)81 1 13 1,1 1501 0,166 1,981 2 10 3,1 2817 0,190 3,681 3 3 2,8 1209 0,216 2,481 4 28 9,8 1651 0,032 3,981 5 12 13,8 1935 0,074 5,081 6 10 16,8 1717 0,087 1,681 7 7 18,5 1552 0,108 2,181 8 11 19,9 2113 0,066 2,881 9 8 16,6 1366 0,069 3,081 10 20 10,7 3172 0,113 3,981 11 10 7,5 1993 0,091 1,981 12 1 5,1 2387 0,165 1,585 1 15 0,0 690 0,271 3,785 2 12 1,6 2015 0,173 2,185 3 13 4,3 1144 0,240 1,085 4 9 10,1 1570 0,065 4,785 5 7 10,3 2071 0,086 6,485 6 11 16,0 2579 0,094 1,685 7 9 17,6 2481 0,106 2,285 8 6 18,4 2045 0,099 7,385 9 10 13,4 3005 0,105 1,885 10 10 13,4 1164 0,105 1,885 11 12 7,1 1207 0,207 3,185 12 2 3,9 1424 0,225 2,689 1 10 4,4 2720 0,120 1,989 2 7 3,8 1160 0,120 1,189 3 7 6,9 1684 0,110 2,089 4 18 10,5 2129 0,070 5,689 5 17 13,0 2197 0,040 2,689 6 13 15,4 1927 0,060 2,389 7 11 18,6 2759 0,070 1,389 8 8 16,9 2124 0,090 6,689 9 19 16,0 1651 0,060 4,889 10 17 10,6 1703 0,120 5,889 11 14 7,7 1441 0,150 1,189 12 12 1,4 922 0,130 1,5
Erzeugung von neuen Variablen (Spalten)neue Variable (Spalte) mit Feldnamen versehen;
z.B. Zeit (Bedeutung "Dezimaljahre")in erstes Feld Berechnungsformel eingeben;
= runden(jahr + (mon-1+ tag/30)/12;3)(Dezimaljahre auf 3 Nachkommastellen, 1 Jahr=12 Monate, 1 Monat=30 Tage)
Kopieren der Formel in alle Felder der Spalte.
jahr mon tag T (C) ... BSB5(mg/l) zeit81 1 13 1,1 1,9 81,03681 2 10 3,1 3,6 81,11181 3 3 2,8 2,4 81,175
08.03.2004 angewstat_excel, Anhang 1
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 48
Hinzufügen von neuen Variablen (über Schlüssel)
Lösung mit Schlüsseltabelle und Verweisfunktion:Schlüsseltabelle (=Suchbereich)
1. Spalte = Schlüssel2. Spalte = Ergebnisspalte anztag (Anz.d.Tage)
mon anztag1 312 283 314 305 316 307 318 319 30
10 3111 3012 31
Verweisfunktion:SVERWEIS(Suchkriterium;Matrix;Spaltenindex;Bereich_Verweis)
Suchkriterium=Wert des Feldes mon in DatenbankMatrix=SchlüsseltabelleSpaltenindex=2 (2. Spalte der Schlüsseltabelle)Bereich_Verweis = 0 (genaue Suche)
jahr mon tag T (C) ... BSB5(mg/l) anztag81 1 13 1,1 1,9 3181 2 10 3,1 3,6 2881 3 3 2,8 2,4 3181 4 28 9,8 3,9 3081 5 12 13,8 5,0 3181 6 10 16,8 1,6 3081 7 7 18,5 2,1 3181 8 11 19,9 2,8 3181 9 8 16,6 3,0 3081 10 20 10,7 3,9 3181 11 10 7,5 1,9 3081 12 1 5,1 1,5 3185 1 15 0,0 3,7 31
Hinweis:Mit SVERWEIS lassen sich auch Variablenwerte rekodieren!
z.B.: Es soll zur Datenbank eine Spalte hinzugefügt werden, die für jeden Monat 1,2, ..., 12 die entsprechende Anzahl von Tagen enthält (o.B.v.Schaltjahren).
08.03.2004 angewstat_excel, Anhang 1
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 49
RangskalierungMethode:
Lösung mit Funktion RANG(Zahl;Bezug;Reihenfolge):Zahl=Feld der Variablen, die rangskaliert werden soll;Bezug=Spalte mit den Werten der Variablen;Reihenfolge = 0 (Ränge in absteigend geordeten Reihe)
bzw. <>0 (Ränge der aufsteigend geeordneten Reihe).
z.B. Rangskalierung der BSB5-Werte des Jahres 81;rangskalierte Spalte = R(BSB5)
jahr mon tag T (C) ... BSB5(mg/l) R(BSB5)81 1 13 1,1 1,9 381 2 10 3,1 3,6 981 3 3 2,8 2,4 681 4 28 9,8 3,9 1081 5 12 13,8 5,0 1281 6 10 16,8 1,6 281 7 7 18,5 2,1 581 8 11 19,9 2,8 781 9 8 16,6 3,0 881 10 20 10,7 3,9 1081 11 10 7,5 1,9 381 12 1 5,1 1,5 1
Datensätze filternAuto-Filter-Funktion Daten - Filter - AutoFilter ...Spalte, auf die Suchkriterium angewendet wird, markieren (z.B.: T-Spalte)Daten - Filter - AutoFilter ... aktivieren;z.B. Benutzerdefiniertes Kriterium "> 5 und < 15" eingeben(Datenbank auf jahr=81 eingeschränkt):
jahr mon tag T (C) ... BSB5(mg/l)81 1 13 1,1 1,981 2 10 3,1 3,681 3 3 2,8 2,481 4 28 9,8 3,981 5 12 13,8 5,081 6 10 16,8 1,681 7 7 18,5 2,181 8 11 19,9 2,881 9 8 16,6 3,081 10 20 10,7 3,981 11 10 7,5 1,981 12 1 5,1 1,5
Den Werten einer Variablen werden die Platznummern in der nach aufsteigender (bzw.absteigender) Größe geordneten Datenreihe zugeordnet; Platznummern = Ränge; gleiche Originalwerte erhalten als Rang die Platznummer des ersten der übereinstimmenden Werte.
08.03.2004 angewstat_excel, Anhang 1
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 50
Spezialfilter-Funktion Daten - Filter - Spezialfilter ...(Im folgenden Beispiel Datenbank auf jahr=81 eingeschränkt.)
jahr mon tag T (C) ... BSB5(mg/l)81 1 13 1,1 1,981 2 10 3,1 3,681 3 3 2,8 2,481 4 28 9,8 3,981 5 12 13,8 5,081 6 10 16,8 1,681 7 7 18,5 2,181 8 11 19,9 2,881 9 8 16,6 3,081 10 20 10,7 3,981 11 10 7,5 1,981 12 1 5,1 1,5
Beispiel 1:Suchkriterien in Kritereinbereich formulieren;
T (C) BSB5(mg/l) (in Zeile stehende Kriterien werden durch "und">5 <2 verknüpft)
Suchbereich (Datenbank) markieren;Daten - Filter -SpezialFilter aktivieren(gefilterte Datensätze an andere Stelle kopieren):
jahr mon tag T (C) ... BSB5(mg/l)81 6 10 16,8 1,681 11 10 7,5 1,981 12 1 5,1 1,5
Beispiel 2 (mit anderen Suchkriterien):T (C)<5 (in Spalte stehende Kriterien werden durch "oder">15 verknüpft)
Ergebnis:jahr mon tag T (C) ... BSB5(mg/l)81 1 13 1,1 1,981 2 10 3,1 3,681 3 3 2,8 2,481 6 10 16,8 1,681 7 7 18,5 2,181 8 11 19,9 2,881 9 8 16,6 3,0
08.03.2004 angewstat_excel, Anhang 1
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 51
DatenbankfunktionenDatenbank: alle Datensätze der Jahre 81, 85 und 89Syntax: Funktionsname(Datenbank; Datenbankfeld; Suchkriterien)
Datenbank = Bereich der Datensätze (einschl. Spaltenbezeichnungen)Datenbankfeld = Variable(Spalte) , auf die Funktion angewendet wirdSuchkriterien = Kriterienbereich (wie bei Spezialfilter)
Beispiel:Kriterienbereich jahr mon
81 781 889 789 8
zu berechnen: Mittelwert und Stichprobenvarianz von BSB5(mg/l)Ergebnis:Anzahl(Datensätze) = DBANZAHL(Datenbank;Datenbankfeld;Suchkriterien) = 4Mittelwert = DBMITTELWERT(Datenbank;Datenbankfeld;Suchkriterien) = 2,450Varianz = DBVARIANZ(Datenbank;Datenbankfeld;Suchkriterien) = 5,513
verrechnete Datensätze (Darstellung mit Spezialfilter):jahr mon tag T (C) Q(m3/s) OPO4(mg/l) BSB5(mg/l)81 7 7 18,5 1552 0,108 2,181 8 11 19,9 2113 0,066 2,889 7 11 18,6 2759 0,070 1,389 8 8 16,9 2124 0,090 6,6
08.03.2004 angewstat_excel, Anhang 1
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 52
Anhang 2: Elementare Rechenverfahren
Aufgabe A2.1: Einfache Formelauswertungen
i) H/cm M/kg A/m2
160 60 1,62170 75 1,86180 80 2,00
ii) n (Upm) h (mm) vu (m/s) vk (m/s)3000 100 15,71 10,003300 95 16,41 10,45
500 330 8,64 5,50
Aufgabe A2.2: Verwendung von EXCEL-Funktionen
i) Seite s (cm) = 50Basiswinkel α (Grad)= 40Intensität (W/m2) = 400
Basisfläche (m2) = 0,46089056eingestr. Energie/h = 663682,409
ii) F (kN) = 3,6α2 = 45 α1 = 90F2 (kN) = 5,09 F1 (kN) = 3,6
Aufgabe A2.3: Verwendung von Variablennamen
Benennung von Zellen mit Namen:Zelle mit Namen markieren - Einfügen - Name - Definieren
Namen p_n v_n T_nZellen 101300,00 0,774 273
i) Die Körperoberfläche A (in m2) eines Menschen kann aus der Körperhöhe H (in cm) und dem Körpergewicht M (in kg) mit Hilfe der Formel A= 0,007184*H 0,725M0,425 geschätzt werden. Welche Hautfläche ergibt sich damit für einen Menschen mit 180cm Größe und 80kg Gewicht?ii) Ein Motor hat die Drehzahl n und die Hublänge h. Man bestimme die Umfanggeschwindigkeit vu
des Kurbelzapfens sowie die mittlere Kolbengeschwindigkeit vk.
i) Ein Ameisenhaufen möge näherungsweise die Gestalt eines Drehkegels mit einer Seitenlinie von 50 cm besitzen. Der Kegelmantel schließe mit der Basisfläche einen Winkel von 40o ein. Wie groß ist die bei senkrechter Sonneneinstrahlung auf den Ameisenhaufen pro Stunde auftreffende Sonnenenergie. wenn als mittlere Intensität der Sonneneinstrahlung 400 Joule pro m2 und Sekunde genommen wird?ii) Man zerlege die Kraft F = 3,6kN in zwei Komponenten F1 und F2, die unter den Winkeln α1 = 90o
und α2 = 45o zur Wirkungslinie von F liegen. Welche Beträge haben die Kräfte F1 und F2?
Man erstelle ein Tabelle für den Druck p_ eines Gases (Luft) in Abhängigkeit von der Temperatur T_ und dem spezifischem Volumen v_ auf der Grundlage der idealen Gasgleichung p_ = (p_n v_n/T_n) (T_/v_) (Druck in N/m2, spezifisches Volumen in m3/kg, Temperatur in Grad Kelvin; Normalbedingung: p_n = 101300, v_n = 0.774, T_n = 273; Temperaturbereich: 250 bis 300 K, Volumsbereich: 0,5 bis 1)
08.03.2004 angewstat_excel, Anhang 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 53
Variablennamen in Funktionen:Druck in N/m2:
Spez. Vol. 250 260 270 280 290 3000,5 143601,1 149345,1 155089,2 160833,2 166577,3 172321,30,6 119667,6 124454,3 129241,0 134027,7 138814,4 143601,10,7 102572,2 106675,1 110778,0 114880,9 118983,8 123086,70,8 89750,7 93340,7 96930,7 100520,8 104110,8 107700,80,9 79778,4 82969,5 86160,7 89351,8 92542,9 95734,1
1 71800,5 74672,6 77544,6 80416,6 83288,6 86160,7
Aufgabe A2.4: Lösung von Gleichungen mittels Zielwertsuche
i) Zu lösen: f(α) = sin α / sin (π/2 - α) - 1,5 = 0 α (Grad) f(α)10 -1,3236730220 -1,13602977
Extras - Zielwertsuche ... 56,3099261 -3,6155E-07 (=0)(Zielzelle = Zelle mit Formelwert,veränderb.Zelle = Zelle mit entspr. Argument,Zielwert = 0)
Hinweis:
ii) Zu lösen: f(t) = 0,7 - exp(-0,0001203t) = 0 t f(t)1000 -0,1866544
2964,87872 -2,3839E-08 (=0)
Aufgabe A2.5: Matrizenmultiplikation (Zerlegung von Kräften)
Gegebene Vektoren (1-spaltige Matrizen):F = 10 a = 1 b = 4
20 3 1
Einheitsvektoren (Richtungsvektoren):a0 = 0,31622777 b0 = 0,9701425
0,9486833 0,31622777
Fa, Fb = Beträge der Komponenten von F in Richtung a bzw. b, d.h., es gilt die ZerlegungF = Fa a0 + Fb b0
Multiplikation mit a0 bzw. b0 ergibt das Gleichungssystem:(F a0) = Fa + Fb (b0 a0)(F b0) = Fa (a0 b0) + Fb
i) Unter welchem Einfallswinkel α muss eine Lichtstrahl auf Glas (n = 1,5) fallen, wenn reflektierter und eindringender Strahl aufeinander senkrecht stehen soll?ii) Das Kohlenstoffisotop C14 wird zur Abschätzung des Alters von Fossilien verwendet. Dazu wird das Verhältnis v des Gehalts an C14 und C12 im Fossil bestimmt. Ist vo das entsprechende Verhältnis in der Atmosphäre. so erhält man eine Abschätzung für das Alter t aus der Formel v/vo = exp(-λt) (λ=0,0001203 1/Jahr). Wie groß ist t (in Jahren), falls v/vo= 0,7?
Um eine ausreichende Genauigkeit bei der iterativen Bestimmung der
Temperatur
Der im Nullpunkt eines ebenen Koordinatensystems angreifende Kraftvektor F = (10, 20) (in N) soll nach zwei Richtungen zerlegt werden. Die Richtungen seien durch die Radiusvektoren a = (1, 3) bzw. b = (4, 1) festgelegt. Wie groß sind die Beträge der in die beiden Richtungen wirkenden Zerlegungskräfte?
08.03.2004 angewstat_excel, Anhang 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 54
Berechnung der Matrizenprodukte (Skalarprodukte):(F a0) = MMULT(MTRANS(F-Bereich); a0-Bereich) = 22,1359436(F b0) = MMULT(MTRANS(F-Bereich); b0-Bereich) = 16,0259803
(a0 b0) = (b0 a0) = MMULT(MTRANS(b0-Bereich); a0-Bereich) = 0,606786
Hinweise:
Lösung des linearen Gleichungssystems mit der Cramersche Regel:Koeffizientenmatrix A = 1 0,606786
0,606786 1
D = | A | = MDET(Bereich A) = 0,63181076D(Fa) = 22,1359436 0,606786 = 12,4116032
16,0259803 1
D(Fb) = 1 22,1359436 = 2,594199730,606786 16,0259803
Lösungen: Fa = D(Fa)/D = 19,6445Fb = D(Fb)/D = 4,1060
Aufgabe A2.6: Berechnung der Kovarianzmatrix
X1 X2
Datenmatrix X = 4,43 13,704,88 14,004,40 13,904,61 14,703,72 11,005,13 15,404,77 14,80
Spaltenmittelwerte = 4,5629 13,9286
Zentrierte Datenmatrix Z = -0,1329 -0,2286 Hinweis:0,3171 0,0714
-0,1629 -0,02860,0471 0,7714
-0,8429 -2,92860,5671 1,47140,2071 0,8714
Transponierte von Z = Z' = MTRANS(Bereich Z) =-0,1329 0,3171 -0,1629 0,0471 -0,8429 0,5671 0,2071-0,2286 0,0714 -0,0286 0,7714 -2,9286 1,4714 0,8714
(n-1) x Kovarianzmatrix S = Z' Z = MMULT(Bereich Z'; Bereich Z) = 1,2219 3,5774(n = 7 = Stichprobenumfang) 3,5774 12,1543
Kovarianzmatrix S = 0,2037 0,59620,5962 2,0257
An 7 Probanden wurden folgende Werte der hämatologischen Parameter X1 (Erythrozyten in T/l) und X2 (Hämoglobin in g/dl) ermittelt. Man bestimme die Kovarianzmatrix S.
Von jedem Wert wird der entsprechende Spalten-mittelwert subtrahiert.
1) Die Funktion MMULT ist eine sog. Matrizenfunktion. Vor Eingabe der Formel ist der Ausgabebereich zu markieren; die eingegebene Formel mit SHIFT+CNTRL+ENTER abschließen.2) Die Funktion MTRANS(A) liefert die Transponierte der Matrix A.
08.03.2004 angewstat_excel, Anhang 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 55
Aufgabe A2.7: Lineare Gleichungssysteme (Determinante, inverse Matrix)
A = 2 -5 1 b = 21 2 -2 13 -4 -3 5
i) Determinante von A: | A | = MDET(Bereich A) = -23
ii) Inverse von A: A-1 = 0,6087 0,8261 -0,3478
0,1304 0,3913 -0,21740,4348 0,3043 -0,3913
iii) Lösung des Gleichungssystems A x = b:a) Matrizenmethode x = A-1 b = MMULT(Bereich A-1; Bereich b) = 0,3043
-0,4348-0,7826
b) Determinantenmethode (Cramersche Regel)D = | A | = MDET(Bereich A) = -23D(x1) = 2 -5 1 = -7
1 2 -25 -4 -3
D(x2) = 2 2 1 = 101 1 -23 5 -3
D(x3) = 2 -5 2 = 181 2 13 -4 5
Lösungen: x1 = D(x1)/D = 0,3043x2 = D(x2)/D = -0,4348x3 = D(x3)/D = -0,7826
Gegeben sind die Matrizen A = (aij)3 x 3 mit a11 = 2, a12 = -5, a13 = 1, a21 = 1, a22 = 2, a23 = -2, a31 = 3, a32 = -4, a33 = -3 und b = (bij)3 x 1 mit b11 = 2, b21 = 1, b31 = 5. Man berechne i) | A |, ii) A-1 und iii) die Lösungen von A x = b.
08.03.2004 angewstat_excel, Anhang 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 56
c) Gleichungsauflösung mit dem SolverVariante 1: (1. Gleichung ist Zielfunktion, 2. und 3. sind Nebenbedingungen)
x_1 x_2 x_3 ErgebniszelleStartwerte 0,3043 -0,4348 -0,7826 0
enthält (mit Startwerten):2*x_1+(-5)*x_2+1*x_3 - 2
Nebenbedingungen:1*x_1 + 2*x_2 + (-2)*x_3 - 1 03*x_1+(-4)*x_2 +(-3)*x_3 - 5 0
Aufruf des Solver: Extras - Solver ...
Zielzelle = Adresse der ErgebniszelleVeränderbare Zellen = Startwertzellen(enthalten nach Ablauf der Iteration die Lösungen)Nebenbedingungen = Ergebniszellen der Nebenbedingungen
Variante 2: Idee: Man bilde die Gleichungsterme g_1 = 2*z_1+ (-5)*z_2 + 1*z_3 - 2
g_2 = 1*z_1 + 2*z_2 + (-2)*z_3 - 1 g_3 = 3*z_1+(-4)*z_2 +(-3)*z_3 - 5
z_1 0,3043 g_1 0z_2 -0,4348 g_2 0z_3 -0,7826 g_3 0
Ergebnis = QUADRATESUMME(g_1;g_2;g_3) = 0
Extras - Solver ...Zielzelle = Adresse der ErgebniszelleVeränderbare Zellen = Startwertzellen(enthalten nach Ablauf der Iteration die Lösungen)
Veränderbare Zellen (enthalten am Anfang die Startwerte, z.B. 0)
Gleichungsterme (mit den veränderbarenZellen berechnet)
(Hinweis: Startwertzellen und darüberstehende Beschriftung markieren, mit "Einfügen - Namen - Erstellen" erhalten die Startwertzellen die darüberstehenden Namen.)
enthalten (mit Startwertzellen) gebildete Nebenbedingungen
Gesucht sind jene Werte z_1, z_2 und z_3, für die g_1 = g_2 = g_3 = 0 bzw. die
08.03.2004 angewstat_excel, Anhang 2
W. Timischl: Statistische Modellbildung - Lösung von Grundaufgaben mit Excel 57
Aufgabe A2.8: Gleitender Durchschnitt
DurchschnittDaten Jahr Mittl.Temp. 3-gliedrig
78 11,279 10,1 10,1080 9 9,9081 10,6 10,0382 10,5 10,3783 10 10,1384 9,9 10,0085 10,1 10,2386 10,7 10,1387 9,6 10,3088 10,6 10,2089 10,4 10,6390 10,9 10,5091 10,2 11,0092 11,9 10,9093 10,6 11,3394 11,5 10,6795 9,9
Hinweis: Bestimmung der geglätteten Zeitreihen durch direkte Berechnung oder mit Extra - Analyse-Funktionen ... Gleitender Durschnitt
Von einer Messstelle bei Wolfsthal wurden von 1978 bis 1995 u.a. die Wassertemperatur der Donau bestimmt.Die daraus abgeleiteten Jahresmittelwerte sind inb der folgenden Datentabelle aufgelistet. Man führe eine Glättung der Zeitreihe mit einem dreigliedrigen Durchschnitt durch.
Wassertemperatur 1978-1995 der Donau (Wolfsthal)
8
9
10
11
12
13
78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
Jahr
Jahr
esm
ittel
in o C
Mittl.Temp. 3-gliedrig
08.03.2004 angewstat_excel, Anhang 2