Download - 12 Rangtests zum Vergleich zentraler Ten- denzen · 12.2 Gepaarte Stichproben: Der Wilcoxon{Vorzeichen{Rangtest Sei (X 1;X 2) ein metrisch skaliertes Merkmals-paar. Man m ochte wissen,

12 Rangtests zum Vergleich zentraler Ten-denzen

12.1 Allgemeine Bemerkungen

12.2 Gepaarte Stichproben: Der Wilcoxon–Vorzeichen-

Rangtest

12.3 Unabhangige Stichproben: Der Wilcoxon–Rang-

summentest und der Mann–Whitney–U–Test

Appendix A: Mann–Whitney–U–Test mit SPSS

Appendix B: Ubersicht der Testverfahren

12.1 Allgemeine Bemerkungen

Warum Rangtests?

1. Der z–Test ist nur fur große Stichproben-

umfange anwendbar (aufgrund des zentralen

Grenzwertsatzes).

2. Der t–Test setzt insbesondere normalverteilte

Merkmale voraus.

StatBio 357

Rangtests verzichten auf die Normalverteilungs-

annahme (wie der z–Test auch) und sind insbe-

sondere fur kleine Stichprobenumfange geeignet.

Folgende Hypothesen werden betrachtet:

Nullhypothese: Grundgesamtheit 1 und Grund-

gesamtheit 2 besitzen gleiche Verteilungen(damit besteht insbesondere kein Unterschied

in der zentralen Tendenz).

Alternative: Wenn ein Unterschied zwischen

den Verteilungen zweier Grundgesamtheiten be-

steht, dann soll dieser Unterschied in derzentralen Tendenz zum Ausdruck kommen

(annahernd gleiche Streuung, ahnliche Vertei-

lungsformen).

StatBio 358

12.2 Gepaarte Stichproben: Der Wilcoxon–Vorzeichen–Rangtest

Sei (X1, X2) ein metrisch skaliertes Merkmals-

paar. Man mochte wissen, ob die Auspragungs-

werte von X1 tendenziell kleiner oder großer

als die Auspragungen des zugehorigen Paarwer-

tes X2 sind.

Wiederum von Interesse ist die Paardifferenz

X1 −X2

Bezeichne medX1−X2 den Populations–Median

der Paardifferenzen.

Gilt medX1−X2 > 0, so sind die Auspragungen

von X1 tendenziell großer als die Auspragungen

des zugehorigen Paarwertes X2.

Gilt medX1−X2 < 0, so sind die Auspragungen

von X1 tendenziell kleiner als die Auspragungen

des zugehorigen Paarwertes X2.

StatBio 359

Gilt medX1−X2 = 0, so besteht keine solche

Tendenz. Die Auspragungswerte von X1 − X2

konnen positiv wie negativ sein; weder positive

noch negative Werte sollten uberwiegen.

Verteilungsannahme: Das Merkmal X1−X2 ist

stetig und symmetrisch um den Populations–

Median medX1−X2 verteilt.

Betrachtet werden die Testprobleme

(A) zweiseitig

H0 : medX1−X2 = 0, H1 : medX1−X2 6= 0

(B) einseitig

H0 : medX1−X2 ≤ 0, H1 : medX1−X2 > 0

(C) einseitig

H0 : medX1−X2 ≥ 0, H1 : medX1−X2 < 0

StatBio 360

Sei

(x11, x21), . . . , (x1n, x2n)

eine gepaarte Stichprobe vom Umfang n. Um

Unterschiede festzustellen, werden – wie beim

z– bzw. t–Test auch – die Paardifferenzen

di = x1i − x2i, i = 1, . . . , n

betrachtet.

Der Wilcoxon–Rangtest fur gepaarte Stich-proben (Wilcoxon matched pairs rank test),

auch Wilcoxon–Vorzeichen–Rangtest (Wil-

coxon signed rank test) genannt, funktioniert

nach folgendem Schema:

1. Die Paardifferenzen

di = x1i − x2i, i = 1, . . . , n

werden gebildet. Annahme: di 6= 0 fur i =

1, . . . , n (siehe nachfolgende Bem. 12.1 (ii)).

StatBio 361

2. Den Absolutbetragen der Paardifferenzen

|d1|, . . . , |dn| werden Range zugeordnet: 1

Ri = Rang(|di|), i = 1, . . . , n

3. Dann werden zwei Rangsummen gebildet:

Die Summe der Range, die einer positivenPaardifferenz zugeordnet sind und die Summe

der Range, die einer negativen Paardifferenz

zugeordnet sind:

R+ =∑i:di>0

Ri und R− =∑i:di<0

Ri

Unter H0 wird erwartet, dass diese Rangsum-

men annahernd gleich groß sind: R+ ≈ R−

1Per Definition ist |di| = di, falls di > 0 und |di| = −di, falls

di < 0.

StatBio 362

4. Die Wilcoxon–Teststatistik ist die kleinere

der beiden Rangsummen:

w = min(R+, R−)

Die Verteilung von w unterH0 hangt nicht von

der Verteilung der Paardifferenzen X1−X2 ab

(,,verteilungsfrei”)(!) und kann mittels kom-

binatorischer Uberlegungen bestimmt werden.

5. Der Prufgroßenwert w wird mit einem kriti-

schen Wert wkrit ( Tab. 12–1) verglichen.

Ist ein Testniveau α vorgegeben, so lauten die

Testentscheidungen wie folgt:

(A) Zweiseitige Alternative:

H1 : medX1−X2 6= 0

Ablehnung von H0, falls

w ≤ wn;α/2

StatBio 363

(B) Einseitige Alternative:

H1 : medX1−X2 > 0

Unter H1 werden mehr positive als negative

Differenzen erwartet und damit R+ > R−Ablehnung von H0, falls

w = R− ≤ wn;α

(C) Einseitige Alternative:

H1 : medX1−X2 < 0

Unter H1 werden mehr negative als positive

Differenzen erwartet und damit R− > R+

Ablehnung von H0, falls

w = R+ ≤ wn;α

StatBio 364

12.1 Bemerkung:

(i) Kommt bei den Differenzen d1, . . . , dn ein

Absolutwert mehrfach vor (sogenannte Bin-

dung), so erhalten die numerisch gleich großen

Einzelwerte als Rangzahl den Durchschnitts-rang. Bindungen beeinflussen den Wert von R+

bzw. R− nur dann, wenn sie zu Differenzen mit

unterschiedlichen Vorzeichen gehoren.

(ii) Sollten Paardifferenzen gleich Null sein, so

ist es ublich, diese einfach wegzulassen. 2 Das

heißt, der Wilcoxon–Vorzeichen–Rangtest ba-

siert immer auf Paardifferenzen di 6= 0. DieAnzahl der Paare, die beim Wilcoxon–Vorzeichen–Rangtest Berucksichtigung fin-den, ist

m = n− Anzahl der Differenzen di mit di = 0

2Dies ist ein Auswertungsnachteil, da gerade diese Werte fur die

Gultigkeit der Nullhypothese sprechen wurden.

StatBio 365

Tabelle 12–1 Kritische Werte wm;α fur den Wilcoxon–Vorzeichen–Rangtest mit α = 0.1, 0.05, 0.02 und 0.01.

m = Anzahl der αDifferenzen 6= 0 0.1 0.05 0.02 0.01

5 0 – – –6 2 0 – –7 3 2 0 –8 5 3 1 09 8 5 3 1

10 10 8 5 3

11 13 10 7 512 17 13 9 713 21 17 12 914 25 21 15 1215 30 25 19 15

Fortsetzung nachste Seite!

StatBio 366

m = Anzahl der αDifferenzen 6= 0 0.1 0.05 0.02 0.01

16 35 29 23 1917 41 34 27 2318 47 40 32 2719 53 46 37 3220 60 52 43 37

21 67 58 49 4222 75 65 55 4823 83 73 62 5424 91 81 69 6125 100 89 76 68

26 110 98 84 7527 119 107 92 8328 130 116 101 9129 140 126 110 10030 151 137 120 109

StatBio 367

Fortsetzung von Beispiel 11.1: Es soll auf

die Normalverteilungsannahme verzichtet wer-

den. Man mochte feststellen, ob eine spezielle

Diat zu einer Gewichtsabnahme fuhrt. Bei 10

Personen wurde das Gewicht (in kg) vor der

Diat (x1i) und nach der Diat (x2i) gemessen.

Sei di = x1i − x2i, i = 1, . . . , 10.

Person xi1 x2i di |di| Ri Vorzeichen1 85 78 7 7 8 +2 78 75 3 3 4.5 +3 92 90 2 2 3 +4 103 93 10 10 9 +5 94 93 1 1 1.5 +6 89 83 6 6 6.5 +7 84 85 −1 1 1.5 –8 82 79 3 3 4.5 +9 109 98 11 11 10 +10 102 96 6 6 6.5 +

Man vermutet von vornherein eine Gewichtsre-

duzierung durch die Diat. Betrachtet wird daher

StatBio 368

das einseitige Testproblem

H0 : medX1−X2 = 0, H1 : medX1−X2 > 0

Das Testniveau sei α = 0.05. Es gilt

R+ = 8+4.5+3+9+1.5+6.5+4.5+10+6.5=53.5

und

R− = 1.5

Rechenkontrolle: Es muss gelten

Gesamtsumme der Range =m · (m+ 1)

2

= 1 + 2 + . . .+m

In Bsp. 11.1 ist m = 10:

10∑i=1

Ri = R+ +R− = 53.5 + 1.5 = 55

StatBio 369

und

1 + 2 + . . .+ 10 =10 · 11

2= 55

Unter H0 hatte man erwartet, dass R+ und R−in der Nahe von 55/2 = 27.5 liegen.

Wegen

w = min(53.5, 1.5) = 1.5 < 8 = w10;0.05

(siehe Tab. 12–1) kann die Nullhypothese H0

zum Niveau 0.05 abgelehnt werden.

11.2 Bemerkung: Fur m > 30 ist unter H0 die

standardisierte Wilcoxon–Rangsumme

w+ =R+ − m(m+1)

4√m(m+1)(2m+1)

24

(11.1)

unter H0 naherungsweise standardnormalver-

teilt.

StatBio 370

Ein Prufgroßenwert w+ spricht gegen H0, falls

im zweiseitigen Fall (A)

w+ ≤ −z1−α/2 oder w+ ≥ z1−α/2

in den einseitigen Fallen (B) und (C)

w+ ≥ z1−α

bzw.

w+ ≤ −z1−αgilt. (Die kritischen Werte sind wieder Quanti-

le der Standard–Normalverteilung, Tab. 10.1,

letzte Zeile.)

Liegen Bindungen vor, so wird die Prufgroße(11.1) haufig korrigiert, um die Annaherung an

die Standard–Normalverteilung zu verbessern.

StatBio 371

12.3 Unabhangige Stichproben: DerWilcoxon–Rangsummentest und derMann–Whitney–U–Test

Voraussetzung: Zwei Merkmale X1 und X2 sind

metrisch skaliert und stetig verteilt.

Man mochte wissen, ob die Auspragungswerte

von X1 (Grundgesamtheit 1) tendenziell kleiner

oder großer als die Auspragungswerte von X2

(Grundgesamtheit 2) sind. Formaler: Bezeichnet

med1 und med2 den Median von Grundgesamt-

heit 1 bzw. 2, so betrachtet man Testprobleme

(A) zweiseitig

H0 : med1 = med2, H1 : med1 6= med2

(B) einseitig

H0 : med1 ≤ med2, H1 : med1 > med2

StatBio 372

(C) einseitig

H0 : med1 ≥ med2, H1 : med1 < med2

Seien

x11, . . . , x1n1 (Stichprobe 1)

und

x21, . . . , x2n2 (Stichprobe 2)

zwei unabhangige Stichproben.

Die Herleitung einer Prufgroße ist einfach.

1. Man betrachtet die vereinigte Stichprobe

x11, . . . , x1n1, x21, . . . , x2n2

und bildet die Range bezuglich der vereinigten

Stichprobe.

StatBio 373

2. Man berechnet Rangsummen: Man addiert

die Range auf, die zur Stichprobe 1 gehoren,

R1 = Rang(x11) + . . .+Rang(x1n1)

und man addiert die Range auf, die zur Stich-

probe 2 gehoren,

R2 = Rang(x21) + . . .+Rang(x2n2)

Da R1 +R2 die Gesamtsumme der Range ist,

R1 +R2 = 1 + . . .+ (n1 + n2)

=(n1 + n2) · (n1 + n2 + 1)

2

(dies kann als Rechenkontrolle dienen), gilt

zwischen R1 und R2 die lineare Beziehung

R2 =(n1 + n2) · (n1 + n2 + 1)

2−R1

StatBio 374

Gilt med1 > med2, so sind in Stichprobe 1

tendenziell großere Werte als in Stichprobe 2 zu

erwarten. Folglich ist R1 > R2 zu erwarten.

Gilt med1 < med2, so sind in Stichprobe 1

tendenziell kleinere Werte als in Stichprobe 2 zu

erwarten. Folglich ist R1 < R2 zu erwarten.

Unter H0 zeigt sich keine solche Tendenz und

die beiden Rangsummen R1 und R2 werden

annahernd gleich groß sein.

Wilcoxon–Rangsummentest

Dieser Test verwendet die Prufgroße R1 (genau-

so gut kann als Prufgroße R2 gewahlt werden).

Testentscheidung:

(A) zweiseitige AlternativeH1 :med1 6= med2Ablehnung von H0 zum Niveau α, falls

R1 ≤ unterer kritischer Wert

StatBio 375

oder

R1 ≥ oberer kritischer Wert

(B) einseitige Alternative H1 : med1 > med2Ablehnung von H0 zum Niveau α, falls

R1 ≥ oberer kritischer Wert

(C) einseitige Alternative H1 : med1 < med2Ablehnung von H0 zum Niveau α, falls

R1 ≤ unterer kritischer Wert

Die kritischen Werte hangen von n1, n2 und α

ab und sind in Tabellen wiedergegeben.

StatBio 376

Mann–Whitney–U–Test

Dieser Test betrachtet die folgenden Prufgroßen:

U1 = n1 · n2 +n1 · (n1 + 1)

2−R1

und

U2 = n1 · n2 +n2 · (n2 + 1)

2−R2

Es gilt stets

U1 + U2 = n1 · n2

Die eigentliche Prufgroße ist dann

U = min(U1, U2)

(Mann–Whitney–U–Statistik). Es gilt stets

0 ≤ U ≤ n1 · n2

StatBio 377

Testendscheidung:

(A) zweiseitige AlternativeH1 :med1 6= med2

Ablehnung von H0 zum Niveau α, falls

U ≤ ukrit

(B) einseitige Alternative H1 : med1 > med2Ablehnung von H0 zum Niveau α, falls

U = U1 ≤ ukrit

(C) einseitige Alternative H1 : med1 < med2Ablehnung von H0 zum Niveau α, falls

U = U2 ≤ ukrit

Die kritischen Werte hangen von n1, n2 und α

ab und sind in Tabellen wiedergegeben.

StatBio 378

Bemerkung: Die Prufgroße U hat gegenuber

der Verwendung der Wilcoxon–Prufgroße

R1 den Vorteil, dass man nur untere kriti-

sche Werte benotigt (aus Symmetriegrunden).

Man kommt also mit sparsameren Tabellen

aus. Der Mann–Whitney–U–Test und der

Wilcoxon–Rangsummentest sind aquivalent,

d.h. beide Tests fuhren immer zu derselben Te-

stentscheidung!

Nachste Seite:

Tabelle 12–2 Kritische Werte ukrit des Mann–Whitney–U–Tests zum Niveau α = 0.05 (zweiseitig)und zum Niveau α = 0.025 (einseitig).

StatBio 379

n1

n2 1 2 3 4 5 6 7 8 9 101 - - - - - - - - - -2 - - - - - - - 0 0 03 - - - - 0 1 1 2 2 34 - - - 0 1 2 3 4 4 55 - - 0 1 2 3 5 6 7 8

6 - - 1 2 3 5 6 8 10 117 - - 1 3 5 6 8 10 12 148 - 0 2 4 6 8 10 13 15 179 - 0 2 4 7 10 12 15 17 20

10 - 0 3 5 8 11 14 17 20 23

11 - 0 3 6 9 13 16 19 23 2612 - 1 4 7 11 14 18 22 26 2913 - 1 4 8 12 16 20 24 28 3314 - 1 5 9 13 17 22 26 31 3615 - 1 5 10 14 19 24 29 34 39

16 - 1 6 11 15 21 26 31 37 4217 - 2 6 11 17 22 28 34 39 4518 - 2 7 12 18 24 30 36 42 4819 - 2 7 13 19 25 32 38 45 5220 - 2 8 14 20 27 34 41 48 55

Fortsetzung nachste Seite!

StatBio 380

n1

n2 11 12 13 14 15 16 17 18 19 201 - - - - - - - - - -2 - 1 1 1 1 1 2 2 2 23 3 4 4 5 5 6 6 7 7 84 6 7 8 9 10 11 11 12 13 145 9 11 12 13 14 15 17 18 19 20

6 13 14 16 17 19 21 22 24 25 277 16 18 20 22 24 26 28 30 32 348 19 22 24 26 29 31 34 36 38 419 23 26 28 31 34 37 39 42 45 48

10 26 29 33 36 39 42 45 48 52 55

11 30 33 37 40 44 47 51 55 58 6212 33 37 41 45 49 53 57 61 65 6913 37 41 45 50 54 59 63 67 72 7614 40 45 50 55 59 64 69 74 78 8315 44 49 54 59 64 70 75 80 85 90

16 47 53 59 64 70 75 81 86 92 9817 51 57 63 69 75 81 87 93 99 10518 55 61 67 74 80 86 93 99 106 11219 58 65 72 78 85 92 99 106 113 11920 62 69 76 83 90 98 105 112 119 127

StatBio 381

12.3 Beispiel: (siehe Kap. 1, Untersuchung

uber die fraßhemmmende Wirkung eines Alka-

loids). Substrat S1 enthalt ein bestimmtes Al-

kaloid, Substrat S2 nicht. Von 15 Raupen einer

Insektenart (gleiches Gelege, gleicher Entwick-

lungsstand) werden 7 auf das Substrat S1 ge-

setzt und 8 auf das Substrat S2. Nach funf Tagen

wird die Gewichtszunahme (in mg) gemessen:

Gewichts– Gewichts–zunahme mit S1 zunahme mit S2

81 8867 12460 10896 84

116 10492 7576 85

116

Es gilt

med1 = 81 und med2 =88 + 104

2= 96

StatBio 382

Frage: Kann man aus diesem Unterschied der

Mediane schon schließen, dass das Alkaloid der

Grund fur die Gewichtsreduzierung ist? Es soll

keine Normalverteilungsannahme getroffen wer-

den. Hier ist n1 = 7 und n2 = 8. Es soll nicht

von vorneherein ausgeschlossen werden, dass das

Alkaloid sich positiv auswirken konnte und da-

her wird zweiseitig getestet. Sei α = 0.05 das

vorgegebene Signifikanzniveau.

Zunachst wird die gesamte Stichprobe der Große

nach geordnet, die Range vergeben, und die

Zugehorigkeit zu den Stichproben festgestellt:

StatBio 383

Stichprobenwerte Rang Stichprobegeordnet

60 1 167 2 175 3 276 4 181 5 184 6 285 7 288 8 292 9 196 10 1104 11 2108 12 2116 13.5 1116 13.5 2124 15 2

Die Rangsummen betragen

R1 = 1 + 2 + 4 + 5 + 9 + 10 + 13.5 = 44.5

und

R2 = 3 + 6 + 7 + 8 + 11 + 12 + 13.5 + 15 = 75.5

StatBio 384

Wegen n1 = 7 und n2 = 8 ist

U1 = 7 · 8 +7 · 8

2− 44.5 = 39.5

und

U2 = 7 · 8 +8 · 9

2− 75.5 = 16.5

Kontrolle:

U1 + U2 = 39.5 + 16.5 = 56 = 7 · 8 = n1 · n2

Die Mann–Whitney–U–Statistik hat somit

den Wert

U = min(39.5, 16.5) = 16.5

Aus Tab. 12–2 ergibt sich der kritische Wert

ukrit = 10

StatBio 385

so dass H0 nicht abgelehnt werden kann.

Bemerkung: Kommt in der gemeinsamen Stich-

probe x11, . . . , x1n1, x21, . . . , x2n2 ein bestimm-

ter Wert mehrfach vor (Bindung), so erhal-

ten die numerisch gleich großen Einzelwerte als

Rangzahl den Durchschnittsrang. Bindungen

beeinflussen den Wert von U1 und U2 nur dann,

wenn sie zwischen den beiden Stichproben auf-

treten.

Große Stichprobenumfange

Fur große Stichprobenumfange (n1 > 20, n2 >

20) kann unter H0 die Stichprobenverteilung

der standardisierten U–Testtatistik annahernd

durch die Standard–Normalverteilung beschrie-

ben werden. Liegen Bindungen vor, so wird die

Prufgroße haufig korrigiert, um die Annahe-

rung an die Standard–Normalverteilung zu ver-

bessern.

StatBio 386

Liegen keine Bindungen vor, so kann die stan-

dardisierte Prufgroße

Z =U − n1 · n2

2√n1 · n2 · (n1 + n2 + 1)

12

verwendet werden. In Bsp. 12.3 erhalt man den

Wert (nicht fur Bindungen korrigiert)

Z =16.5− 7 · 8

2√7 · 8 · (7 + 8 + 1)

12

= −1.331

StatBio 387

Abschließende Bemerkung: Der Vergleich von

zwei (unabhangigen) Stichproben lasst sich ver-

allgemeinern auf k Stichproben mit k > 2. Dies

fuhrt zur Varianzanalyse (analysis of variance,

ANOVA).

Unter einer Normalverteilungsannahme ist dies

eine Verallgemeinerung des Zwei–Stichproben–

t–Tests (parametrische Varianzanalyse).

Die nichtparametrische Varianzanalyse ist eine

Verallgemeinerung des Mann–Whitney–U–Tests

und fuhrt zum Kruskal–Wallis–Test.

Appendix A: Mann–Whitney–U–Test mitSPSS

Fortsetzung von Bsp. 12.3

Dateneingabe: Sie erfolgt im Daten–Editor–

Fenster nach folgendem Muster:

StatBio 388

Befehle: Folgende Befehle sind aus der Menulei-

ste auszuwahlen:

StatBio 389

Analysieren

Nichtparametrische Tests

Zwei unabhangige Stichproben

Programm–Output:

Output–Exegese:

StatBio 390

Im SPSS–Output bedeuten:

Mann–Whitney–U: Prufgroße U = min(U1, U2)

Wilcoxon–W: Rangsumme R1 (Prufgroße des

Wilcoxon–Rangsummentests)

Z: Standardisierte Prufgroße des Mann–

Whitney–U–Tests

Asymptotische Signifikanz (2–seitig): Asym-

ptotischer p–Wert (zweiseitig), genauer:

0.183 = 2 · Φ(−1.332) = 2 · (1− Φ(1.332))

Dies entspricht annahernd dem p–Wert.

Exakte Signifikanz (2–seitig): p–Wert (zwei-

seitig)

p(−1.332) = 0.189

StatBio 391

(Zur Erinnerung: Der p–Wert ist die Wahrschein-

lichkeit, einen im Sinne der Nullhypothese noch

kleinern Prufgroßenwert U zu beobachten als

16.5.) Wegen p > 0.05 kann H0 nicht abgelehnt

werden.

p–Wert (einseitig) =p–Wert (zweiseitig)

2

=0.189

2

= 0.0945

Appendix B: Ubersicht der Testverfahren

Tests auf zentrale Tendenz: Voraussetzung: me-

trisch skalierte Merkmale X1 und X2.

Abkurzung: SP=Stichprobe(n)

StatBio 392

Gepaarte SP

Name des Tests Verteilungsannahme SP-der Paardifferenzen Umfang

t-Test fur gepaarte SP normalverteilt beliebig(Ein-SP-t-Test)

z-Test fur gepaarte SP keine groß(Ein-SP-z-Test)

Wilcoxon-Vorzeichen- stetig und sym- beliebigRangtest metrisch verteilt

Unabhangige SP

Name des Tests Verteilungs- SP-annahme Umfang

Zwei-SP-t-Test normalverteilt und beliebigVarianzhomogenitat

Zwei-SP-z-Test keine groß

Wilcoxon-Rang- stetig verteilt beliebigsummentest bzw.Mann-Whitney-U-Test

StatBio 393

Download - 12 Rangtests zum Vergleich zentraler Ten- denzen · 12.2 Gepaarte Stichproben: Der Wilcoxon{Vorzeichen{Rangtest Sei (X 1;X 2) ein metrisch skaliertes Merkmals-paar. Man m ochte wissen,

Top Related