4 statistische maˇzahlen - rechenzentrum: startseite · statistische maˇzahlen {dienen der...
TRANSCRIPT
![Page 1: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/1.jpg)
4 Statistische Maßzahlen
4.1 Maßzahlen der mittleren Lage
4.2 Weitere Maßzahlen der Lage
4.3 Maßzahlen der Streuung
4.4 Lineare Transformationen, Schiefemaße
4.5 Der Box–Plot
Ziel: Charakterisierung einer Stichprobe bzw.
einer empirischen Verteilung (Haufigkeitsvertei-
lung) durch Kennzahlen.
StatBio 75
![Page 2: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/2.jpg)
Statistische Maßzahlen
– dienen der Beurteilung einzelner Beobach-
tungswerte innerhalb der Gesamtheit aller Be-
obachtungswerte,
– reprasentieren eine empirische Verteilung
durch wenige Zahlenwerte,
– ermoglichen einen einfachen und schnellen
Vergleich von Stichproben bzw. empirischen
Verteilungen.
StatBio 76
![Page 3: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/3.jpg)
Statistische Maßzahlen beschreiben drei Aspek-te:
• Lage Wo liegen die Daten auf der verwende-
ten Skala? Wo liegt das Zentrum, die ,,Mit-
te”? Auskunft geben Maßzahlen der Lage(Abschnitt 4.1 und 4.2).
• Streuung Wie weit streuen die Daten auf
der verwendeten Skala? Wie weit sind die
Daten vom Zentrum entfernt? Auskunft geben
Maßzahlen der Streuung (Abschnitt 4.3).
• Form Wie verhalten sich die Daten links und
rechts vom Zentrum? Wie weit weicht ei-
ne Haufigkeitsverteilung von der Symmetrie
ab? Auskunft geben Maßzahlen der Schiefe(Abschnitt 4.4).
StatBio 77
![Page 4: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/4.jpg)
4.1 Maßzahlen der mittleren Lage
Maße der zentralen Tendenz, Mittelwerte
Ziel: Ein Mittelwert soll die Gesamtheit der Be-
obachtungen (Daten) moglichst gut reprasentie-
ren.
• Modus (Modalwert)
Definition:Der Modus ist die Merkmalsauspragung, die
in der Stichprobe am haufigsten vorkommt.
Als Lagemaß ist der Modus sinnvoll fur
– ordinale Merkmale
– diskrete metrische Merkmale (Zahldaten)
wenn er eindeutig ist!
StatBio 78
![Page 5: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/5.jpg)
Bemerkung: Da der Modus allein von der
Haufigkeit abhangt, muss er nicht in der ,,Mitte”
einer Verteilung liegen.
Beispiel (fur ordinale Merkmale): Bei 100 Pati-
enten ergaben sich folgende Therapieerfolge:
Therapieerfolg Haufigkeit1 = keine Heilung 102 = teilweise Heilung 25
3 = vollstandige Heilung 65
Der Modus ist 3.
Bemerkung:
1. Bei stetigen (und somit metrisch skalierten)
Merkmalen macht der Modus im Allgemeinen
keinen Sinn (alle Daten sind i.d.R. verschieden).
StatBio 79
![Page 6: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/6.jpg)
2. Im klassierten Fall ist der Modus defi-
niert als die Klassenmitte der am haufig-sten besetzten Klasse. Aber Vorsicht!
Der Modus hangt von der Klassenwahlab! (vgl. Aufgabe 2, Blatt 2)
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
Der Modus ist nicht eindeutig (die Werte 3.9
und 4.0 kommen vier mal vor), im klassierten
Fall der Tab. 3–3 ist die Klasse (3.80, 4.00]
am dichtesten besetzt (namlich 8 mal) und der
Modus ist
3.80 + 4.00
2= 3.90
StatBio 80
![Page 7: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/7.jpg)
• Median (Zentralwert)
Genauer: Empirischer Median, Stichproben–Median (sample median)
Voraussetzung: ordinalskalierte Merkmale
Bezeichnung: med, medx
Median: (Beobachtungs–)Wert, der sich in der
,,mittleren” Position der geordneten Stichprobe
befindet (bei geradem Stichprobenumfang gibt
es zwei Beobachtungen in einer mittleren Positi-
on und es wird gemittelt).
Zahlenbeispiel:
3 4 4 5 6 3 4 4 5 6 7
med = 4 med =4 + 5
2= 4.5
StatBio 81
![Page 8: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/8.jpg)
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
Die geordnete Stichprobe lautet:
3.3 3.6 3.6 3.7 3.8 3.8 3.8 3.9 3.9 3.9
3.9 4.0 4.0 4.0 4.0 4.1 4.1 4.6 4.6 4.6
In der mittleren Position sind die 10–te und die
11–te Ordnungsgroße, beide haben den Wert 3.9.
Der Median ist dann das arithmetische Mittel
dieser beiden Ordnungsgroßen:
med =x(10) + x(11)
2=
3.9 + 3.9
2= 3.9
Um allgemein den Median von Daten x1, . . . , xn
zu bestimmen, sind zunachst die Werte der
Große nach zu sortieren. Bezeichne
x(1) ≤ x(2) ≤ . . . ≤ x(n)
wieder die geordneten Daten.
StatBio 82
![Page 9: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/9.jpg)
Definition:Der empirische Median ist definiert durch
med =
{x(n+1
2 ), n ungerade(x(n2)
+ x(n2+1)
)/2, n gerade
Hinweis: Der Median teilt die Stichprobe so,
dass mindestens 50% der Daten kleiner oder
gleich diesem Wert und mindestens 50% der
Daten großer oder gleich diesem Wert sind.
Fortsetzung von Bsp. 2.1: (Plasma–Daten): 11
Beobachtungen sind kleiner oder gleich dem Me-
dian, also 55%; 13 Beobachtungen sind großer
oder gleich dem Median, also 65%.
StatBio 83
![Page 10: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/10.jpg)
• Arithmetisches Mittel
Mittelwert, Stichprobenmittel (sample mean)
Voraussetzung: metrisch skaliertes Merkmal oder
Merkmal ist binar und 0/1–kodiert.
Bezeichnung: x, xn
Definition:Der Mittelwert einer Stichprobe x1, . . . , xn
ist definiert durch
x =1
n· (x1 + . . . + xn) =
1
n
n∑i=1
xi
Bemerkung: Selbstverstandlich kommt es bei
der Aufsummierung nicht auf die Reihenfolge
an. So andert sich der Wert des arithmetischen
StatBio 84
![Page 11: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/11.jpg)
Mittels nicht, wenn man z. B. die geordneten
Daten aufsummiert:
x =1
n· (x(1) + . . . + x(n))
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
x20 =1
20· (3.3 + 3.6 + 3.6 + . . . + 4.6) = 3.96
Bei einem binaren Merkmal, dessen Auspragun-
gen mit 0 und 1 kodiert sind, ist das arithmeti-
sche Mittel identisch mit der relativen Haufigkeit
der Auspragung 1:
x =Anzahl der Daten xi mit xi = 1
n
100 · x gibt den prozentualen Anteil der Aus-
pragung 1 wieder.
StatBio 85
![Page 12: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/12.jpg)
Mittelwert oder Median?
Median und arithmetisches Mittel haben unter-
schiedliche Eigenschaften:
• Der Median wird von Ausreißern kaum oder
gar nicht beeinflusst (Ausreißer sind Beobach-
tungen die (augenfallig) weit entfernt von den
ubrigen Daten liegen.) Man sagt: Der Median
ist robust. Das arithmetische Mittel reagiert
hingegen außerst sensibel auf Ausreißer (und
kann daher zu sachlich verzerrten Aussagen
fuhren). Aber Achtung! Robustheit ist eineEigenschaft, kein Gutekriterium!
• Fur schiefe Verteilungen ist der Median bes-
ser interpretierbar als das arithmetische Mittel.
Bei (annahernd) symmetrischen Verteilungen
ist das arithmetische Mittel dem Median vor-
zuziehen.
StatBio 86
![Page 13: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/13.jpg)
• Der Median setzt lediglich ein ordinales Ska-
lenniveau voraus, wahrend das arithmetische
Mittel metrisch skalierte Merkmale voraus-
setzt (Ausnahme: binare, 0/1– kodierte Merk-
male).
• Das arithmetische Mittel gibt einen rechneri-
schen Bezug zur Summe aller Beobachtungs-
werte, der Median gibt eher einen typischen
Wert im Zentrum der Verteilung wieder.
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
Lasst man die großte Beobachtung 4.6 weg (die-
se kommt drei mal vor), so erhalt man
x17 = 3.85 med = x(9) = 3.9
Der Mittelwert hat also um 0.11 abgenommen,
der Median hingegen bleibt in diesem Beispiel
sogar unverandert.
StatBio 87
![Page 14: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/14.jpg)
Robustifizierung des arithmetischen Mittels:Weglassen der k kleinsten und großten Beobach-
tungen (k ≤ n/2). Das Ergebnis
xn,k =1
n− 2 · k
n−k∑j=k+1
x(j) (4.1)
ist das sogenannte gestutzte oder getrimmteMittel (trimmed mean).
Beispiel: 5%–getrimmtes Mittel (Weglassen der
5% kleinsten und 5% großten Beobachtungen)
Bemerkung: In der Darstellung (4.1) werden
alle Daten gleich gewichtet. Das Gewicht ist
1
n− 2 · k
Es gibt aber auch andere Festlegungen.
StatBio 88
![Page 15: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/15.jpg)
4.2 Weitere Maßzahlen der Lage
In diesem Abschnitt werden Maßzahlen vorge-
stellt, die haufig zur Beschreibung der nicht
zentralen Lage der Daten verwendet werden.
• • | • • | • • | • •
↑ ↑ ↑ ↑ ↑min Q1 Q2 = med Q3 max
• Minimum: Kleinster Beobachtungswert
x(1) = min(x1, , . . . , xn)
• Maximum: Großter Beobachtungswert
x(n) = max(x1, , . . . , xn)
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
x(1) = 3.3, x(20) = 4.6
StatBio 89
![Page 16: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/16.jpg)
• Quartile
Die Interpretation von Quartilen ist die Folgen-
de: Das 1. Quartil (1st quartile) Q1 teilt die
Stichprobe so, dass ungefahr 25% der Daten
darunter liegen. Das 2. Quartil (2nd quartile)
Q2 teilt die Stichprobe so, dass ungefahr 50%
der Daten darunter liegen (entspricht dem Me-
dian) und das 3. Quartil (3rd quartile) Q3 teilt
die Stichprobe so, dass ungefahr 75% der Daten
darunter liegen.
Die Bestimmung von Quartilen geschieht wie
folgt:
1. Quartil: Division von 1·(n+1) durch 4 ergibt
n + 1
4= k1 + Rest
Der Rest kann nur die Werte 0, 0.25, 0.5 und
0.75 annehmen (den Wert 0, wenn n + 1 durch
4 teilbar ist).
StatBio 90
![Page 17: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/17.jpg)
Definition: 1. Quartil
Q1 = x(k1) + Rest ·(x(k1+1) − x(k1)
)Im Fall Rest = 0 ist Q1 = x(k1).
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
Hier ist n = 20 und
n + 1
4=
21
4= 5.25 = 5 + 0.25
Also ist k1 = 5, Rest = 0.25 und
Q1 = x(5) + 0.25 · (x(6) − x(5))
= 3.8 + 0.25 · (3.8− 3.8) = 3.8
Von den 20 Daten liegen 4 Daten unterhalb des
1. Quartils, also etwa 20%, 7 Daten sind kleiner
oder gleich dem 1. Quartil, also 35%.
StatBio 91
![Page 18: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/18.jpg)
2. Quartil: Division von 2·(n+1) durch 4 ergibt
2 · (n + 1)
4=
n + 1
2= k2 + Rest
Der Rest kann den Wert 0 annehmen, wenn
n + 1 durch 2 teilbar ist. In diesem Fall ist
k2 =n + 1
2
Der Rest kann den Wert 0.5 annehmen, wenn
n+ 1 ungerade, also n gerade ist. In diesem Fall
ist
k2 =n
2
StatBio 92
![Page 19: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/19.jpg)
Definition: 2. Quartil
Q2 = x(k2) + Rest ·(x(k2+1) − x(k2)
)=
{x(n+1
2 ), n ungerade
0.5 · x(n2)+ 0.5 · x(n2+1),n gerade
= med
3. Quartil: Division von 3·(n+1) durch 4 ergibt
3 · (n + 1)
4= k3 + Rest
Der Rest kann nur die Werte 0, 0.25, 0.5 und
0.75 annehmen (den Wert 0, wenn 3 · (n + 1)
durch 4 teilbar ist).
StatBio 93
![Page 20: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/20.jpg)
Definition: 3. Quartil
Q3 = x(k3) + Rest ·(x(k3+1) − x(k3)
)Im Fall Rest = 0 ist Q3 = x(k3).
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
Wegen 21 · 0.75 = 15.75 ist k3 = 15, Rest =
0.75 und
Q3 = x(15) + 0.75 · (x(16) − x(15))
= 4.0 + 0.75 · (4.1− 4.0) = 4.075
Von den 20 Daten sind 15 Daten kleiner als das
3. Quartil, also 75%.
Bemerkung: Es gibt auch geringfugig andere
Festlegungen von Quartilen.
StatBio 94
![Page 21: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/21.jpg)
4.3 Maßzahlen der Streuung
Variabilitatsmaße, Dispersionsmaße (measu-
res of dispersion)
Lagemaße geben i. A. wenig Auskunft daruber,
wie weit die Daten vom Zentrum entfernt lie-
gen, wie stark also die Daten um das Zentrum
variieren (,,streuen”).
Zahlenbeispiel 4.1 (wird fortgesetzt): Fur
die beiden Stichproben 0, 0, 10, 10 und
0, 0, 2, 8, 10, 10 gilt (nachrechnen!):
x = 5
Minimum = 0
Maximum = 10
Q1 = 0
Q2 (med) = 5
Q3 = 10
StatBio 95
![Page 22: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/22.jpg)
• Spannweite (range)
Voraussetzung: ordinal skalierte Merkmale
Definition:Die Spannweite einer Stichprobe x1, . . . , xn
ist die Differenz zwischen großtem und klein-
stem Beobachtungswert:
Spannweite = x(n) − x(1)
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
Spannweite = 4.6− 3.3 = 1.3
Nachteile: Die Spannweite
– ist extrem ausreißerempfindlich
– berucksichtigt nicht die (Lage der) Daten, die
StatBio 96
![Page 23: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/23.jpg)
zwischen Minimum und Maximum liegen
– wird mit wachsendem Stichprobenumfang nie
kleiner.
• Quartilsabstand (interquartile range, IQR)
Dieses Streuungsmaß, auch Quartilsdifferenz(quartile deviation) genannt, ist eine Robustifi-
zierung der Spannweite.
Definition:Der Quartilsabstand einer Stichprobe
x1, . . . , xn ist die Differenz zwischen dem
dritten und ersten Quartil:
IQR = Q3 −Q1
StatBio 97
![Page 24: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/24.jpg)
Bemerkung: Der Quartilsabstand hat eine sehr
anschauliche Interpretation: Er misst die Lange
des Intervalls, das etwa die Halfte der ,,mittle-
ren” Beobachtungen enthalt. Das Intervall
[Q1, Q3]
umfasst die Beobachtungen zwischen Q1 und
Q3.
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
IQR = Q3 −Q1 = 4.075− 3.8 = 0.275
Im Intervall [3.8, 4.075] liegen die (mittleren)
Beobachtungenwerte
3.8 3.8 3.8 3.9 3.9 3.9
3.9 4.0 4.0 4.0 4.0
Dies sind 55% aller Beobachtungwerte.
StatBio 98
![Page 25: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/25.jpg)
• Standardabweichung (standard deviation)
Genauer: empirische Standardabweichung,
Stichproben–Standardabweichung
Bezeichnungsweisen: s, sn
Voraussetzung: metrisch skalierte Merkmale
Definition:Die Standardabweichung von x1, . . . , xn
ist definiert durch
s = sn =
√√√√ 1
n− 1
n∑i=1
(xi − x)2
Die Standardabweichung
– betrachtet die Summe der quadratischen Ab-
weichungen vom arithmetischen Mittel
StatBio 99
![Page 26: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/26.jpg)
– nimmt Bezug zum Stichprobenumfang n
– zieht die Wurzel aus der Summe der quadra-
tischen Abweichungen, damit das Streuungs-
maß die gleiche Maßeinheit besitzt wie die
Stichprobenwerte.
Beachte: Nur die Abweichungen (also ohne
Quadrat) zu nehmen, ist sinnlos. Es gilt stets
n∑i=1
(xi − xn) = 0
(Aufgabe 3, Blatt 2).
Fortsetzung von Zahlenbeispiel 4.1: Die
Stichprobe 0, 0, 10, 10 (x = 5) besitzt die Stan-
dardabweichung
s4 =
√1
3· 100 = 5.77
StatBio 100
![Page 27: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/27.jpg)
die Stichprobe 0, 0, 2, 8, 10, 10 (x = 5) besitzt
die Standardabweichung
s6 =
√1
5· 118 = 1.90
Das Quadrat der (Stichproben–)Standardab-
weichung
s2 = s2n =1
n− 1
n∑i=1
(xi − x)2
heißt (Stichproben–)Varianz.
Fortsetzung von Bsp. 2.1: (Plasma–Daten)
Varianz (in (g/dl)2):
s2 =1
19
((3.3− 3.96)2 + . . . + (4.6− 3.96)2
)= 0.112
StatBio 101
![Page 28: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/28.jpg)
Standardabweichung (in g/dl):
s =√
0.112 = 0.335
Bemerkungen:
(i) Die Maßeinheit der Varianz ist das Quadrat
der Maßeinheit der Stichprobenwerte. Die Vari-
anz ist daher nur schwer interpretierbar.
(ii) Standardabweichung bzw. Varianz werden
von Ausreißern stark beeinflusst, sind also nicht
robust. Beispiel: (Plasma–Daten) Wurde man
die extreme Beobachtung 4.6 weglassen, so
ergabe sich eine Standardabweichung von 0.207
– eine deutliche Verringerung gegenuber 0.335.
StatBio 102
![Page 29: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/29.jpg)
(iii) Im Gegensatz zum Quartilsabstand hat die
Standardabweichung s keine anschauliche Inter-
pretation (vgl. Bemerkung im Anschluss an De-
finition des Quartilsabstandes). Als Faustregel
sollte man sich aber merken, dass fur annahernd
normalverteilte Stichproben das Intervall
[x− s, x + s]
ungefahr 2/3 aller Beobachtungen enthalt; un-
gefahr die Halfte liegt im Intervall
[x− 0.67 · s, x + 0.67 · s]
Was normalverteilt bedeutet, wird in der Wahr-
scheinlichkeitsrechnung erklart.
(iv) Mochte man Standardabweichungen von
verschiedenen Stichproben vergleichen, so ist es
haufig sinnvoll, diese in Bezug zu den arithmeti-
schen Mitteln zu setzen (vgl. Aufgabe 9, Blatt 2).
StatBio 103
![Page 30: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/30.jpg)
4.4 Lineare Transformationen, Schiefemaße
Wie wirkt sich eine Anderung der Maßeinheit auf
Lage– und Streuungsmaße aus? Beispiele:
Stoffmenge: Gramm und Mol
1 mmol/l = 18mg/dl
Lange: Nanometer (nm) und Meter (m)
1nm = 10−9m
Temperatur: Fahrenheit [F] und Celsius [C]:
F = 32 + 1.8 · C
Der Ubergang zu einer anderen Maßeinheit lasst
sich mathematisch durch eine Funktion (Trans-
formation) beschreiben:
StatBio 104
![Page 31: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/31.jpg)
Im Fall der Stoffmenge
y = 18 · x (xmmol/l sind 18 · xmg/dl)
im Fall der Lange
y = 10−9 · x (x nm sind 10−9 · xm)
im Fall der Temperatur
y =32+1.8·x (xCelsius sind 32+1.8·xFahrenheit).
Diese Transformationen sind von der Form
y = a + b · x, b > 0
(die x–Werte werden erst mit einen Faktor b > 0
gewichtet und dann um den Wert a verscho-
ben). Solche Transformationen nennt man li-neare Transformationen.
StatBio 105
![Page 32: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/32.jpg)
Wendet man eine lineare Transformation
y = a + b · x, b > 0
auf eine Stichprobe x1, . . . , xn an, so erhalt man
die linear transformierten Daten
y1 = a + b · x1, . . . , yn = a + b · xn
Alle Lage– und Streuungsmaße (außer die Va-
rianz) sind dadurch charakterisiert, dass siesich bei linearen Transformationen in einerbestimmten Weise mitverandern:
StatBio 106
![Page 33: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/33.jpg)
Lagey = a + b · Lagex
Streuungy = b · Streuungx
Fur die vorgestellten Lagemaße gilt also
y = a + b · xQ1,y = a + b ·Q1,x
medy = a + b ·medx
Q3,y = a + b ·Q3,x
und fur die vorgestellten Streuungmaße gilt
sy = b · sxIQRy = b · IQRx
StatBio 107
![Page 34: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/34.jpg)
Selbst wenn Stichproben in Lage und Streuung
ubereinstimmen sollten, bleiben im Allgemeinen
Unterschiede, die man unter dem Begriff Formzusammenfasst.
Die Form der Verteilung ist das, was
sich unter linearen Transformationen nicht
andert.
Ein anschaulicher Aspekt der Form ist die
Schiefe (skewness).
Schiefe ist die Abweichung von der Symmetrieeiner Haufigkeitsverteilung. Ausreißer bewirken,
dass Mittelwert und Median voneinander abwei-
chen. In diesen Fallen ist die Verteilung schief.
StatBio 108
![Page 35: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/35.jpg)
Rechtsschiefe (Linkssteilheit) in den Daten liegt
vor, wenn mehr Beobachtungen unterhalb des
Mittelwertes liegen als oberhalb, also der Median
kleiner als der Mittelwert ist
medx < x
Die Plasma–Daten aus Bsp. 2.1 zeigen eine
leichte Rechtsschiefe (vgl. Abb. 3–3).
Linksschiefe (Rechtssteilheit) in den Daten liegt
vor, wenn mehr Beobachtungen oberhalb des
Mittelwertes liegen als unterhalb, also der Medi-
an großer als der Mittelwert ist
medx > x
Im Fall x = med spricht man von Symmetrie.
StatBio 109
![Page 36: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/36.jpg)
Beachte: Unter linearen Transformationen
a + b · x, b > 0
bleibt
(i) eine rechtsschiefe Verteilung (medx < x)
rechtsschief:
a + b ·medx < a + b · x
(ii) eine linksschiefe Verteilung (medx > x)
linksschief:
a + b ·medx > a + b · x
(iii) eine symmetrische Verteilung (medx = x)
symmetrisch:
a + b ·medx = a + b · x
StatBio 110
![Page 37: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/37.jpg)
• Schiefemaße
Ein Schiefemaß ist ein Maß fur die Ausgepragt-
heit der Schiefe einer Verteilung, fur den Grad
der Asymmetrie.
Konvention:
· Bei rechtsschiefer Verteilung wird die Maß-
zahl positiv
· bei linksschiefer Verteilung wird die Maßzahl
negativ
· bei symmetrischer Verteilung wird die Maß-
zahl Null.
Schiefemaß nach Yule–Pearson:
Schiefe YP =3 · (x−med)
s
StatBio 111
![Page 38: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/38.jpg)
Schiefemaß 3. Moment:
Schiefe M =1
n
n∑i=1
(xi − x
s
)3
(4.2)
Fortsetzung von Bsp. 2.1 (Plasma–Daten) Mit
x = 3.96, med = 3.9 und s = 0.335 erhalt man
Schiefe YP =3 · (3.96− 3.9)
0.335= 0.53
Schiefe M =1
20
(3.3− 3.96
0.335
)3
+ . . . +
(4.6− 3.96
0.335
)3 = 0.508
Dies deutet auf eine Rechtsschiefe hin.
StatBio 112
![Page 39: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/39.jpg)
Da die Form einer Verteilung sich unter linea-
ren Transformationen a + b · x, b > 0, nicht
andert, ist es vernunftig, von einem Schiefemaß
zu fordern, dass es sich ebenfalls unter linearen
Transformationen nicht andert (Aufgabe 2, Blatt
3).
Bemerkung: Rechtsschiefe Verteilungen sind
weit verbreitet. Logarithmus– und Wurzel-transformation
x1, , . . . , xn −→√x1, . . . ,
√xn
x1, , . . . , xn −→ ln(x1), . . . , ln(xn)
fuhren zu einer Abnahme der Rechtsschiefe. Dies
ist oft ein Grund fur ihre Anwendung: Man
mochte nicht–schiefe Haufigkeitsverteilungen er-
halten. Dies ist vor allem im Hinblick auf viele
Methoden der schließenden Statistik von Vorteil.
StatBio 113
![Page 40: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/40.jpg)
Standardisierte Stichproben
Jede Stichprobe lasst sich mittels einer linearen
Transformation a + b · x, b > 0, in eine Stich-
probe uberfuhren, deren (mittlere) Lage 0 und
Streuung 1 ist. Sei x1, . . . , xn eine Stichprobe.
Standardisierung A: Als Lagemaß sei das arith-
metische Mittel x und als zugehoriges Streu-
ungsmaß die Standardabweichung sx gewahlt.
Fur die transformierten Beobachtungswerte
zi =xi − x
sx= − x
sx︸︷︷︸=a
+1
sx︸︷︷︸=b
·xi
i = 1, . . . , n, gilt dann
z = 0, sz = 1
(Aufgabe 4, Blatt 3). Der standardisierte Wert
zi wird als
StatBio 114
![Page 41: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/41.jpg)
z–score (z–Wert)
des ursprunglichen Wertes xi bezeichnet. Er be-
sitzt keine Maßeinheit und kennzeichnet, um das
,,Wievielfache der Streuung” der Ursprungswert
vom Zentrum (x) entfernt ist. z1, . . . , zn heißt
standardisierte Stichprobe.
Standardisierung B: (Robuste Variante) Als
Lagemaß sei der Median medx und als zugehori-
ges Streuungsmaß der Quartilsabstand IQRx
gewahlt. Fur die transformierten Beobachtungs-
werte
zi =xi −medxIQRx
= −medxIQRx︸ ︷︷ ︸=a
+1
IQRx︸ ︷︷ ︸=b
·xi
i = 1, . . . , n, gilt dann
medz = 0, IQRz = 1
(Aufgabe 4, Blatt 3).
StatBio 115
![Page 42: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/42.jpg)
4.5 Der Box–Plot
Genauer: Box– and Whiskers–PlotEr benutzt Quartile zur graphischen Darstellung
von Lage und Streuung, gibt Hinweise auf Sym-
metrie oder Schiefe, und hebt potenzielle Aus-
reißer hervor.
Ziel: Schneller visueller Vergleich verschiedener
Stichproben.
Ausgangspunkt dieser Darstellung (bei vertikaler
Orientierung) bildet eine Box, deren untere und
obere Begrenzungslinien durch das untere und
obere Quartil festgelegt sind. Die Lange der Box
ist also der Quartilsabstand. Innerhalb der Box
wird der Median durch eine horizontale Linie
markiert.
Die Whiskers (vertikale Linienstucke) werden
unterhalb und oberhalb der Box abgetragen. Die
StatBio 116
![Page 43: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/43.jpg)
Linienendpunkte sind durch die großte und klein-
ste Beobachtung definiert. Wenn allerdings die
Beobachtungen vom oberen bzw. unteren Rand
der Box zu weit entfernt liegen, namlich mehr als
1.5 ·(Q3−Q1), endet die Linie bei dem hochsten
bzw. niedrigsten Beobachtungswert, der gera-
de noch innerhalb dieses Bereiches liegt (man
spricht von der großten ,,normalen” und klein-
sten ,,normalen” Beobachtung). Alle Messwer-
te, die extremer sind, werden einzeln, meistens
durch Sterne, gekennzeichnet. Dies sind dann
potenzielle Ausreißer. Die Zahl 1.5 ist so gewahlt,
dass fur ,,normale” Stichproben Folgendes gilt:
Etwa 99% der Daten liegen im Intervall
[Q1 − 1.5 · IQR,Q3 + 1.5 · IQR]
Ist der Boxplot unsymmetrisch, so zeigt dieser
eine Schiefe in den Daten.
StatBio 117
![Page 44: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/44.jpg)
*
� großte ,,normale” Beobachtung(≤ Q3 + 1.5 · IQR)
� Q3
� Q2� Q1
� kleinste ,,normale” Beobachtung(≥ Q1 − 1.5 · IQR)
** � extreme Beobachtung
Abbildung 4–1 Aufbau eines Box–Plots.
Man beachte, dass alle im Box–Plot verwendeten
Kennzahlen relativ robust gegenuber Ausreißern
sind, denen damit praktisch die Moglichkeit ge-
nommen wird, sich hinter bereits beeinflussten
Kennzahlen zu verstecken (,,masking”).
StatBio 118
![Page 45: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/45.jpg)
Abbildung 4–2 Box–Plot der Plasma–Daten
StatBio 119
![Page 46: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/46.jpg)
Fur die Plasma–Daten ergibt sich wegen
1.5 · IQR = 1.5 · 0.275 = 0.4125
das Intervall
[Q1 − 1.5 · IQR,Q3 + 1.5 · IQR]
= [3.8− 0.4125, 4.075 + 0.4125]
= [3.338, 4.487].
Die kleinste Beobachtung 3.3 (Beobachtungs-
nummer 2) liegt nicht in diesem Intervall und
wird als potenzieller Ausreißer gekennzeichnet.
Der untere Whisker endet somit bei bei der klein-
sten ,,normalen” Beobachtung 3.6. Die großte
Beobachtung (Beobachtungsnummer 3, 8, 16)
betragt 4.6 und liegt nicht in diesem Intervall.
Diese Beobachtung wird daher als potenzieller
Ausreißer gekennzeichnet. Die großte ,,normale”
StatBio 120
![Page 47: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,](https://reader030.vdocuments.site/reader030/viewer/2022040710/5e0fdafaf2372d1663623821/html5/thumbnails/47.jpg)
Beobachtung ist dann 4.1, wo auch der obere
Whisker endet. Der Median von 3.9 liegt naher
an 4.1 (großte normale Beobachtung) als an 3.6
(kleinste normale Beobachtung). Dies deutet auf
eine Linkssschiefe hin. Betrachtet man den Me-
dian nur in Bezug zur Box, so zeigt sich eine
leichte Rechtsschiefe (der Median liegt etwas
naher an 3.338 als an 4.487).
StatBio 121