12 Rangtests zum Vergleich zentraler Ten-denzen
12.1 Allgemeine Bemerkungen
12.2 Gepaarte Stichproben: Der Wilcoxon–Vorzeichen-
Rangtest
12.3 Unabhangige Stichproben: Der Wilcoxon–Rang-
summentest und der Mann–Whitney–U–Test
Appendix A: Mann–Whitney–U–Test mit SPSS
Appendix B: Ubersicht der Testverfahren
12.1 Allgemeine Bemerkungen
Warum Rangtests?
1. Der z–Test ist nur fur große Stichproben-
umfange anwendbar (aufgrund des zentralen
Grenzwertsatzes).
2. Der t–Test setzt insbesondere normalverteilte
Merkmale voraus.
StatBio 357
Rangtests verzichten auf die Normalverteilungs-
annahme (wie der z–Test auch) und sind insbe-
sondere fur kleine Stichprobenumfange geeignet.
Folgende Hypothesen werden betrachtet:
Nullhypothese: Grundgesamtheit 1 und Grund-
gesamtheit 2 besitzen gleiche Verteilungen(damit besteht insbesondere kein Unterschied
in der zentralen Tendenz).
Alternative: Wenn ein Unterschied zwischen
den Verteilungen zweier Grundgesamtheiten be-
steht, dann soll dieser Unterschied in derzentralen Tendenz zum Ausdruck kommen
(annahernd gleiche Streuung, ahnliche Vertei-
lungsformen).
StatBio 358
12.2 Gepaarte Stichproben: Der Wilcoxon–Vorzeichen–Rangtest
Sei (X1, X2) ein metrisch skaliertes Merkmals-
paar. Man mochte wissen, ob die Auspragungs-
werte von X1 tendenziell kleiner oder großer
als die Auspragungen des zugehorigen Paarwer-
tes X2 sind.
Wiederum von Interesse ist die Paardifferenz
X1 −X2
Bezeichne medX1−X2 den Populations–Median
der Paardifferenzen.
Gilt medX1−X2 > 0, so sind die Auspragungen
von X1 tendenziell großer als die Auspragungen
des zugehorigen Paarwertes X2.
Gilt medX1−X2 < 0, so sind die Auspragungen
von X1 tendenziell kleiner als die Auspragungen
des zugehorigen Paarwertes X2.
StatBio 359
Gilt medX1−X2 = 0, so besteht keine solche
Tendenz. Die Auspragungswerte von X1 − X2
konnen positiv wie negativ sein; weder positive
noch negative Werte sollten uberwiegen.
Verteilungsannahme: Das Merkmal X1−X2 ist
stetig und symmetrisch um den Populations–
Median medX1−X2 verteilt.
Betrachtet werden die Testprobleme
(A) zweiseitig
H0 : medX1−X2 = 0, H1 : medX1−X2 6= 0
(B) einseitig
H0 : medX1−X2 ≤ 0, H1 : medX1−X2 > 0
(C) einseitig
H0 : medX1−X2 ≥ 0, H1 : medX1−X2 < 0
StatBio 360
Sei
(x11, x21), . . . , (x1n, x2n)
eine gepaarte Stichprobe vom Umfang n. Um
Unterschiede festzustellen, werden – wie beim
z– bzw. t–Test auch – die Paardifferenzen
di = x1i − x2i, i = 1, . . . , n
betrachtet.
Der Wilcoxon–Rangtest fur gepaarte Stich-proben (Wilcoxon matched pairs rank test),
auch Wilcoxon–Vorzeichen–Rangtest (Wil-
coxon signed rank test) genannt, funktioniert
nach folgendem Schema:
1. Die Paardifferenzen
di = x1i − x2i, i = 1, . . . , n
werden gebildet. Annahme: di 6= 0 fur i =
1, . . . , n (siehe nachfolgende Bem. 12.1 (ii)).
StatBio 361
2. Den Absolutbetragen der Paardifferenzen
|d1|, . . . , |dn| werden Range zugeordnet: 1
Ri = Rang(|di|), i = 1, . . . , n
3. Dann werden zwei Rangsummen gebildet:
Die Summe der Range, die einer positivenPaardifferenz zugeordnet sind und die Summe
der Range, die einer negativen Paardifferenz
zugeordnet sind:
R+ =∑i:di>0
Ri und R− =∑i:di<0
Ri
Unter H0 wird erwartet, dass diese Rangsum-
men annahernd gleich groß sind: R+ ≈ R−
1Per Definition ist |di| = di, falls di > 0 und |di| = −di, falls
di < 0.
StatBio 362
4. Die Wilcoxon–Teststatistik ist die kleinere
der beiden Rangsummen:
w = min(R+, R−)
Die Verteilung von w unterH0 hangt nicht von
der Verteilung der Paardifferenzen X1−X2 ab
(,,verteilungsfrei”)(!) und kann mittels kom-
binatorischer Uberlegungen bestimmt werden.
5. Der Prufgroßenwert w wird mit einem kriti-
schen Wert wkrit ( Tab. 12–1) verglichen.
Ist ein Testniveau α vorgegeben, so lauten die
Testentscheidungen wie folgt:
(A) Zweiseitige Alternative:
H1 : medX1−X2 6= 0
Ablehnung von H0, falls
w ≤ wn;α/2
StatBio 363
(B) Einseitige Alternative:
H1 : medX1−X2 > 0
Unter H1 werden mehr positive als negative
Differenzen erwartet und damit R+ > R−Ablehnung von H0, falls
w = R− ≤ wn;α
(C) Einseitige Alternative:
H1 : medX1−X2 < 0
Unter H1 werden mehr negative als positive
Differenzen erwartet und damit R− > R+
Ablehnung von H0, falls
w = R+ ≤ wn;α
StatBio 364
12.1 Bemerkung:
(i) Kommt bei den Differenzen d1, . . . , dn ein
Absolutwert mehrfach vor (sogenannte Bin-
dung), so erhalten die numerisch gleich großen
Einzelwerte als Rangzahl den Durchschnitts-rang. Bindungen beeinflussen den Wert von R+
bzw. R− nur dann, wenn sie zu Differenzen mit
unterschiedlichen Vorzeichen gehoren.
(ii) Sollten Paardifferenzen gleich Null sein, so
ist es ublich, diese einfach wegzulassen. 2 Das
heißt, der Wilcoxon–Vorzeichen–Rangtest ba-
siert immer auf Paardifferenzen di 6= 0. DieAnzahl der Paare, die beim Wilcoxon–Vorzeichen–Rangtest Berucksichtigung fin-den, ist
m = n− Anzahl der Differenzen di mit di = 0
2Dies ist ein Auswertungsnachteil, da gerade diese Werte fur die
Gultigkeit der Nullhypothese sprechen wurden.
StatBio 365
Tabelle 12–1 Kritische Werte wm;α fur den Wilcoxon–Vorzeichen–Rangtest mit α = 0.1, 0.05, 0.02 und 0.01.
m = Anzahl der αDifferenzen 6= 0 0.1 0.05 0.02 0.01
5 0 – – –6 2 0 – –7 3 2 0 –8 5 3 1 09 8 5 3 1
10 10 8 5 3
11 13 10 7 512 17 13 9 713 21 17 12 914 25 21 15 1215 30 25 19 15
Fortsetzung nachste Seite!
StatBio 366
m = Anzahl der αDifferenzen 6= 0 0.1 0.05 0.02 0.01
16 35 29 23 1917 41 34 27 2318 47 40 32 2719 53 46 37 3220 60 52 43 37
21 67 58 49 4222 75 65 55 4823 83 73 62 5424 91 81 69 6125 100 89 76 68
26 110 98 84 7527 119 107 92 8328 130 116 101 9129 140 126 110 10030 151 137 120 109
StatBio 367
Fortsetzung von Beispiel 11.1: Es soll auf
die Normalverteilungsannahme verzichtet wer-
den. Man mochte feststellen, ob eine spezielle
Diat zu einer Gewichtsabnahme fuhrt. Bei 10
Personen wurde das Gewicht (in kg) vor der
Diat (x1i) und nach der Diat (x2i) gemessen.
Sei di = x1i − x2i, i = 1, . . . , 10.
Person xi1 x2i di |di| Ri Vorzeichen1 85 78 7 7 8 +2 78 75 3 3 4.5 +3 92 90 2 2 3 +4 103 93 10 10 9 +5 94 93 1 1 1.5 +6 89 83 6 6 6.5 +7 84 85 −1 1 1.5 –8 82 79 3 3 4.5 +9 109 98 11 11 10 +10 102 96 6 6 6.5 +
Man vermutet von vornherein eine Gewichtsre-
duzierung durch die Diat. Betrachtet wird daher
StatBio 368
das einseitige Testproblem
H0 : medX1−X2 = 0, H1 : medX1−X2 > 0
Das Testniveau sei α = 0.05. Es gilt
R+ = 8+4.5+3+9+1.5+6.5+4.5+10+6.5=53.5
und
R− = 1.5
Rechenkontrolle: Es muss gelten
Gesamtsumme der Range =m · (m+ 1)
2
= 1 + 2 + . . .+m
In Bsp. 11.1 ist m = 10:
10∑i=1
Ri = R+ +R− = 53.5 + 1.5 = 55
StatBio 369
und
1 + 2 + . . .+ 10 =10 · 11
2= 55
Unter H0 hatte man erwartet, dass R+ und R−in der Nahe von 55/2 = 27.5 liegen.
Wegen
w = min(53.5, 1.5) = 1.5 < 8 = w10;0.05
(siehe Tab. 12–1) kann die Nullhypothese H0
zum Niveau 0.05 abgelehnt werden.
11.2 Bemerkung: Fur m > 30 ist unter H0 die
standardisierte Wilcoxon–Rangsumme
w+ =R+ − m(m+1)
4√m(m+1)(2m+1)
24
(11.1)
unter H0 naherungsweise standardnormalver-
teilt.
StatBio 370
Ein Prufgroßenwert w+ spricht gegen H0, falls
im zweiseitigen Fall (A)
w+ ≤ −z1−α/2 oder w+ ≥ z1−α/2
in den einseitigen Fallen (B) und (C)
w+ ≥ z1−α
bzw.
w+ ≤ −z1−αgilt. (Die kritischen Werte sind wieder Quanti-
le der Standard–Normalverteilung, Tab. 10.1,
letzte Zeile.)
Liegen Bindungen vor, so wird die Prufgroße(11.1) haufig korrigiert, um die Annaherung an
die Standard–Normalverteilung zu verbessern.
StatBio 371
12.3 Unabhangige Stichproben: DerWilcoxon–Rangsummentest und derMann–Whitney–U–Test
Voraussetzung: Zwei Merkmale X1 und X2 sind
metrisch skaliert und stetig verteilt.
Man mochte wissen, ob die Auspragungswerte
von X1 (Grundgesamtheit 1) tendenziell kleiner
oder großer als die Auspragungswerte von X2
(Grundgesamtheit 2) sind. Formaler: Bezeichnet
med1 und med2 den Median von Grundgesamt-
heit 1 bzw. 2, so betrachtet man Testprobleme
(A) zweiseitig
H0 : med1 = med2, H1 : med1 6= med2
(B) einseitig
H0 : med1 ≤ med2, H1 : med1 > med2
StatBio 372
(C) einseitig
H0 : med1 ≥ med2, H1 : med1 < med2
Seien
x11, . . . , x1n1 (Stichprobe 1)
und
x21, . . . , x2n2 (Stichprobe 2)
zwei unabhangige Stichproben.
Die Herleitung einer Prufgroße ist einfach.
1. Man betrachtet die vereinigte Stichprobe
x11, . . . , x1n1, x21, . . . , x2n2
und bildet die Range bezuglich der vereinigten
Stichprobe.
StatBio 373
2. Man berechnet Rangsummen: Man addiert
die Range auf, die zur Stichprobe 1 gehoren,
R1 = Rang(x11) + . . .+Rang(x1n1)
und man addiert die Range auf, die zur Stich-
probe 2 gehoren,
R2 = Rang(x21) + . . .+Rang(x2n2)
Da R1 +R2 die Gesamtsumme der Range ist,
R1 +R2 = 1 + . . .+ (n1 + n2)
=(n1 + n2) · (n1 + n2 + 1)
2
(dies kann als Rechenkontrolle dienen), gilt
zwischen R1 und R2 die lineare Beziehung
R2 =(n1 + n2) · (n1 + n2 + 1)
2−R1
StatBio 374
Gilt med1 > med2, so sind in Stichprobe 1
tendenziell großere Werte als in Stichprobe 2 zu
erwarten. Folglich ist R1 > R2 zu erwarten.
Gilt med1 < med2, so sind in Stichprobe 1
tendenziell kleinere Werte als in Stichprobe 2 zu
erwarten. Folglich ist R1 < R2 zu erwarten.
Unter H0 zeigt sich keine solche Tendenz und
die beiden Rangsummen R1 und R2 werden
annahernd gleich groß sein.
Wilcoxon–Rangsummentest
Dieser Test verwendet die Prufgroße R1 (genau-
so gut kann als Prufgroße R2 gewahlt werden).
Testentscheidung:
(A) zweiseitige AlternativeH1 :med1 6= med2Ablehnung von H0 zum Niveau α, falls
R1 ≤ unterer kritischer Wert
StatBio 375
oder
R1 ≥ oberer kritischer Wert
(B) einseitige Alternative H1 : med1 > med2Ablehnung von H0 zum Niveau α, falls
R1 ≥ oberer kritischer Wert
(C) einseitige Alternative H1 : med1 < med2Ablehnung von H0 zum Niveau α, falls
R1 ≤ unterer kritischer Wert
Die kritischen Werte hangen von n1, n2 und α
ab und sind in Tabellen wiedergegeben.
StatBio 376
Mann–Whitney–U–Test
Dieser Test betrachtet die folgenden Prufgroßen:
U1 = n1 · n2 +n1 · (n1 + 1)
2−R1
und
U2 = n1 · n2 +n2 · (n2 + 1)
2−R2
Es gilt stets
U1 + U2 = n1 · n2
Die eigentliche Prufgroße ist dann
U = min(U1, U2)
(Mann–Whitney–U–Statistik). Es gilt stets
0 ≤ U ≤ n1 · n2
StatBio 377
Testendscheidung:
(A) zweiseitige AlternativeH1 :med1 6= med2
Ablehnung von H0 zum Niveau α, falls
U ≤ ukrit
(B) einseitige Alternative H1 : med1 > med2Ablehnung von H0 zum Niveau α, falls
U = U1 ≤ ukrit
(C) einseitige Alternative H1 : med1 < med2Ablehnung von H0 zum Niveau α, falls
U = U2 ≤ ukrit
Die kritischen Werte hangen von n1, n2 und α
ab und sind in Tabellen wiedergegeben.
StatBio 378
Bemerkung: Die Prufgroße U hat gegenuber
der Verwendung der Wilcoxon–Prufgroße
R1 den Vorteil, dass man nur untere kriti-
sche Werte benotigt (aus Symmetriegrunden).
Man kommt also mit sparsameren Tabellen
aus. Der Mann–Whitney–U–Test und der
Wilcoxon–Rangsummentest sind aquivalent,
d.h. beide Tests fuhren immer zu derselben Te-
stentscheidung!
Nachste Seite:
Tabelle 12–2 Kritische Werte ukrit des Mann–Whitney–U–Tests zum Niveau α = 0.05 (zweiseitig)und zum Niveau α = 0.025 (einseitig).
StatBio 379
n1
n2 1 2 3 4 5 6 7 8 9 101 - - - - - - - - - -2 - - - - - - - 0 0 03 - - - - 0 1 1 2 2 34 - - - 0 1 2 3 4 4 55 - - 0 1 2 3 5 6 7 8
6 - - 1 2 3 5 6 8 10 117 - - 1 3 5 6 8 10 12 148 - 0 2 4 6 8 10 13 15 179 - 0 2 4 7 10 12 15 17 20
10 - 0 3 5 8 11 14 17 20 23
11 - 0 3 6 9 13 16 19 23 2612 - 1 4 7 11 14 18 22 26 2913 - 1 4 8 12 16 20 24 28 3314 - 1 5 9 13 17 22 26 31 3615 - 1 5 10 14 19 24 29 34 39
16 - 1 6 11 15 21 26 31 37 4217 - 2 6 11 17 22 28 34 39 4518 - 2 7 12 18 24 30 36 42 4819 - 2 7 13 19 25 32 38 45 5220 - 2 8 14 20 27 34 41 48 55
Fortsetzung nachste Seite!
StatBio 380
n1
n2 11 12 13 14 15 16 17 18 19 201 - - - - - - - - - -2 - 1 1 1 1 1 2 2 2 23 3 4 4 5 5 6 6 7 7 84 6 7 8 9 10 11 11 12 13 145 9 11 12 13 14 15 17 18 19 20
6 13 14 16 17 19 21 22 24 25 277 16 18 20 22 24 26 28 30 32 348 19 22 24 26 29 31 34 36 38 419 23 26 28 31 34 37 39 42 45 48
10 26 29 33 36 39 42 45 48 52 55
11 30 33 37 40 44 47 51 55 58 6212 33 37 41 45 49 53 57 61 65 6913 37 41 45 50 54 59 63 67 72 7614 40 45 50 55 59 64 69 74 78 8315 44 49 54 59 64 70 75 80 85 90
16 47 53 59 64 70 75 81 86 92 9817 51 57 63 69 75 81 87 93 99 10518 55 61 67 74 80 86 93 99 106 11219 58 65 72 78 85 92 99 106 113 11920 62 69 76 83 90 98 105 112 119 127
StatBio 381
12.3 Beispiel: (siehe Kap. 1, Untersuchung
uber die fraßhemmmende Wirkung eines Alka-
loids). Substrat S1 enthalt ein bestimmtes Al-
kaloid, Substrat S2 nicht. Von 15 Raupen einer
Insektenart (gleiches Gelege, gleicher Entwick-
lungsstand) werden 7 auf das Substrat S1 ge-
setzt und 8 auf das Substrat S2. Nach funf Tagen
wird die Gewichtszunahme (in mg) gemessen:
Gewichts– Gewichts–zunahme mit S1 zunahme mit S2
81 8867 12460 10896 84
116 10492 7576 85
116
Es gilt
med1 = 81 und med2 =88 + 104
2= 96
StatBio 382
Frage: Kann man aus diesem Unterschied der
Mediane schon schließen, dass das Alkaloid der
Grund fur die Gewichtsreduzierung ist? Es soll
keine Normalverteilungsannahme getroffen wer-
den. Hier ist n1 = 7 und n2 = 8. Es soll nicht
von vorneherein ausgeschlossen werden, dass das
Alkaloid sich positiv auswirken konnte und da-
her wird zweiseitig getestet. Sei α = 0.05 das
vorgegebene Signifikanzniveau.
Zunachst wird die gesamte Stichprobe der Große
nach geordnet, die Range vergeben, und die
Zugehorigkeit zu den Stichproben festgestellt:
StatBio 383
Stichprobenwerte Rang Stichprobegeordnet
60 1 167 2 175 3 276 4 181 5 184 6 285 7 288 8 292 9 196 10 1104 11 2108 12 2116 13.5 1116 13.5 2124 15 2
Die Rangsummen betragen
R1 = 1 + 2 + 4 + 5 + 9 + 10 + 13.5 = 44.5
und
R2 = 3 + 6 + 7 + 8 + 11 + 12 + 13.5 + 15 = 75.5
StatBio 384
Wegen n1 = 7 und n2 = 8 ist
U1 = 7 · 8 +7 · 8
2− 44.5 = 39.5
und
U2 = 7 · 8 +8 · 9
2− 75.5 = 16.5
Kontrolle:
U1 + U2 = 39.5 + 16.5 = 56 = 7 · 8 = n1 · n2
Die Mann–Whitney–U–Statistik hat somit
den Wert
U = min(39.5, 16.5) = 16.5
Aus Tab. 12–2 ergibt sich der kritische Wert
ukrit = 10
StatBio 385
so dass H0 nicht abgelehnt werden kann.
Bemerkung: Kommt in der gemeinsamen Stich-
probe x11, . . . , x1n1, x21, . . . , x2n2 ein bestimm-
ter Wert mehrfach vor (Bindung), so erhal-
ten die numerisch gleich großen Einzelwerte als
Rangzahl den Durchschnittsrang. Bindungen
beeinflussen den Wert von U1 und U2 nur dann,
wenn sie zwischen den beiden Stichproben auf-
treten.
Große Stichprobenumfange
Fur große Stichprobenumfange (n1 > 20, n2 >
20) kann unter H0 die Stichprobenverteilung
der standardisierten U–Testtatistik annahernd
durch die Standard–Normalverteilung beschrie-
ben werden. Liegen Bindungen vor, so wird die
Prufgroße haufig korrigiert, um die Annahe-
rung an die Standard–Normalverteilung zu ver-
bessern.
StatBio 386
Liegen keine Bindungen vor, so kann die stan-
dardisierte Prufgroße
Z =U − n1 · n2
2√n1 · n2 · (n1 + n2 + 1)
12
verwendet werden. In Bsp. 12.3 erhalt man den
Wert (nicht fur Bindungen korrigiert)
Z =16.5− 7 · 8
2√7 · 8 · (7 + 8 + 1)
12
= −1.331
StatBio 387
Abschließende Bemerkung: Der Vergleich von
zwei (unabhangigen) Stichproben lasst sich ver-
allgemeinern auf k Stichproben mit k > 2. Dies
fuhrt zur Varianzanalyse (analysis of variance,
ANOVA).
Unter einer Normalverteilungsannahme ist dies
eine Verallgemeinerung des Zwei–Stichproben–
t–Tests (parametrische Varianzanalyse).
Die nichtparametrische Varianzanalyse ist eine
Verallgemeinerung des Mann–Whitney–U–Tests
und fuhrt zum Kruskal–Wallis–Test.
Appendix A: Mann–Whitney–U–Test mitSPSS
Fortsetzung von Bsp. 12.3
Dateneingabe: Sie erfolgt im Daten–Editor–
Fenster nach folgendem Muster:
StatBio 388
Befehle: Folgende Befehle sind aus der Menulei-
ste auszuwahlen:
StatBio 389
Analysieren
Nichtparametrische Tests
Zwei unabhangige Stichproben
Programm–Output:
Output–Exegese:
StatBio 390
Im SPSS–Output bedeuten:
Mann–Whitney–U: Prufgroße U = min(U1, U2)
Wilcoxon–W: Rangsumme R1 (Prufgroße des
Wilcoxon–Rangsummentests)
Z: Standardisierte Prufgroße des Mann–
Whitney–U–Tests
Asymptotische Signifikanz (2–seitig): Asym-
ptotischer p–Wert (zweiseitig), genauer:
0.183 = 2 · Φ(−1.332) = 2 · (1− Φ(1.332))
Dies entspricht annahernd dem p–Wert.
Exakte Signifikanz (2–seitig): p–Wert (zwei-
seitig)
p(−1.332) = 0.189
StatBio 391
(Zur Erinnerung: Der p–Wert ist die Wahrschein-
lichkeit, einen im Sinne der Nullhypothese noch
kleinern Prufgroßenwert U zu beobachten als
16.5.) Wegen p > 0.05 kann H0 nicht abgelehnt
werden.
p–Wert (einseitig) =p–Wert (zweiseitig)
2
=0.189
2
= 0.0945
Appendix B: Ubersicht der Testverfahren
Tests auf zentrale Tendenz: Voraussetzung: me-
trisch skalierte Merkmale X1 und X2.
Abkurzung: SP=Stichprobe(n)
StatBio 392
Gepaarte SP
Name des Tests Verteilungsannahme SP-der Paardifferenzen Umfang
t-Test fur gepaarte SP normalverteilt beliebig(Ein-SP-t-Test)
z-Test fur gepaarte SP keine groß(Ein-SP-z-Test)
Wilcoxon-Vorzeichen- stetig und sym- beliebigRangtest metrisch verteilt
Unabhangige SP
Name des Tests Verteilungs- SP-annahme Umfang
Zwei-SP-t-Test normalverteilt und beliebigVarianzhomogenitat
Zwei-SP-z-Test keine groß
Wilcoxon-Rang- stetig verteilt beliebigsummentest bzw.Mann-Whitney-U-Test
StatBio 393