statistik i für betriebswirte vorlesung 9...klassenbildung i bei erstellung einer h au...

22
Statistik I f¨ ur Betriebswirte Vorlesung 9 Prof. Dr. Hans-J¨ org Starkloff TU Bergakademie Freiberg Institut f¨ ur Stochastik 06. Juni 2016 Prof. Dr. Hans-J¨ org Starkloff Statistik I f¨ ur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 1

Upload: others

Post on 03-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Statistik I fur BetriebswirteVorlesung 9

Prof. Dr. Hans-Jorg Starkloff

TU Bergakademie FreibergInstitut fur Stochastik

06. Juni 2016

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 1

Page 2: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

2.2 Eindimensionale Merkmale

2.2.1 Haufigkeitsverteilungen

I Eine Stichprobe vom Umfang n sei erhoben und die Variable X (dasMerkmal X ) sei beobachtet worden.

I Urliste (Rohdaten): Liste, in der die erhobenen Beobachtungswertevon X nacheinander aufgeschrieben werden; Bezeichnung: x1, ..., xn .

I a1, ..., ak : Merkmalsauspragungen, die in der Urliste vorkommen;k ≤ n .

I Absolute Haufigkeit der Auspragung ai : Hi = H(ai ) beschreibt, wieoft die Auspragung ai bei den n Beobachtungen vorkommt.

I Relative Haufigkeit der Auspragung ai : hi = h(ai ) = Hin entspricht

dem Anteil der Auspragung ai bezogen auf die n Beobachtungen.

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 2

Page 3: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Beispiel 2.4 Prufungsnoten – UrlistePerson Note Person Note Person Note Person Note

1 4 16 3 31 4 46 12 3 17 2 32 1 47 23 3 18 5 33 4 48 44 1 19 3 34 2 49 55 5 20 4 35 3 50 36 4 21 4 36 5 51 57 5 22 5 37 5 52 48 3 23 4 38 4 53 59 1 24 5 39 3 54 2

10 5 25 5 40 4 55 211 5 26 5 51 4 56 312 2 27 3 42 4 57 513 3 28 4 43 3 58 414 5 29 5 44 3 59 415 3 30 4 45 5

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 3

Page 4: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Fortsetzung Beispiel 2.4Note (ai ) 1 2 3 4 5

abs H. (Hi ) 4 6 14 17 18rel. H. (hi ) 0.068 0.102 0.237 0.288 0.305

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 4

Page 5: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Klassenbildung

I Bei Erstellung einer Haufigkeitsverteilung ist es oft sinnvoll odersogar notig, die Informationen aus der Urliste zu straffen, falls

I die Anzahl der Merkmalsauspragungen k zu groß ist,I und/oder ein stetiges Merkmal vorliegt.

I Ausweg: Klassenbildung:Benachbarte Merkmalsauspragungen werden zu einer Klasse oderGruppe zusammen gefasst. In der gruppierten Haufigkeitsverteilungerscheinen nur noch die Gruppen mit der Haufigkeit allerAuspragungen in der Gruppe.

I Bei der Klassenbildung ist zu beachten:I Merkmalsauspragungen moglichst gleichmaßig auf die Klassen

verteilen (moglichst gleiche Klassenbreite);I keine Uberschneidungen der Klassen;I Klassen mussen vollstandig sein.

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 5

Page 6: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Beispiel 2.5 Mieten

Merkmal: Mieten (2013) fur zufallig ausgewahlte Einraumwohnungen inBerlin Mitte in Euro Quelle: Eckstein, Statistik fur Wirtschaftswissenschaftler, 5. Auflage 2016, Springer

Urliste fur n = 45 Wohnungen:

219 275 163 299 268 282 283.1 195.4 327.7272 243 310 324 280 285 329 227 265.6334.1 150 321 322 307 300 238 322.5 332.3385 292.2 360 341 418 340.3 275 286 365402.1 351 408 501.4 509.5 670 926.1 910 1087

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 6

Page 7: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Haufigkeitstabelle fur gruppierte (klassierte) DatenBeispiel 2.5 Mieten

Häufigkeitstabellen für MieteUntere Obere Relative Kumulative Kum. Rel.

Klasse Grenze Grenze Mittelpunkt Häufigkeit Häufigkeit Häufigkeit Häufigkeitbei oder unterhalb 100 0 0,0000 0 0,0000

1 100 200,0 150,0 3 0,0667 3 0,06672 200 300,0 250,0 17 0,3778 20 0,44443 300 400,0 350,0 16 0,3556 36 0,80004 400 500,0 450,0 3 0,0667 39 0,86675 500 600,0 550,0 2 0,0444 41 0,91116 600 700,0 650,0 1 0,0222 42 0,93337 700 800,0 750,0 0 0,0000 42 0,93338 800 900,0 850,0 0 0,0000 42 0,93339 900 1000,0 950,0 2 0,0444 44 0,977810 1000 1100,0 1050,0 1 0,0222 45 1,0000

oberhalb 1100 0 0,0000 45 1,0000Mittelwert = 362,273 Standardabweichungen = 188,907

Der StatAdvisorHier wird eine Häufigkeitstabelle erzeugt, indem der Wertebereich von Miete in gleichbreite Intervalle aufgeteilt und die Anzahl von Datenwerten in jedem Intervall gezählt wird. Die (absoluten) Häufigkeiten sind die Anzahl von Datenwerten in jedem Intervall, während die relativen Häufigkeiten den Anteil der Daten in jedem Intervall (bezogen auf die Gesamtanzahl) zeigen. Sie können die Einstellungen für die Intervalle ändern, indem Sie die rechte Maustaste drücken und die Ergebnisfenster-Optionen auswählen. Sie können sich die Häufigkeiten in einer Grafik anschauen, wenn Sie das Häufigkeitsdiagramm von der Liste der Grafiken auswählen.

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 7

Page 8: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Histogramm fur gruppierte Daten

Bemerkung: Regel fur Saulenhohen: Hohe= Besetzungszahl/Breite , beiabweichenden Klassenbreiten wird die Skalierung der senkrechten Achsemeistens weggelassen.

Histogramm Beispiel 2.5 Mieten

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 8

Page 9: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

2.2.2 Statistische Kenngroßen

I Lagemaße(Wo liegt Mehrzahl / Mitte / Schwerpunkt der beobachtetenMerkmalswerte?)

I Streumaße(Uber welchen Bereich erstrecken sich die Beobachtungen, wie starkschwanken sie?)

I Konzentrationsmaße(Wie sind die Merkmalsauspragungen auf die Merkmalstragerverteilt?)

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 9

Page 10: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Lagemaße

i) Mittelwerte

(fur quantitative Merkmale)

a) Arithmetisches Mittel:

x =1

n

n∑i=1

xi =1

n(x1 + x2 + . . .+ xn) .

I Auf Basis relativer Haufigkeiten:

x =m∑j=1

hjaj = h1a1 + h2a2 + . . .+ hmam

bei m Merkmalsauspragungen aj und relativen Haufigkeiten hj .

I Im Beispiel 2.5 Mieten: x =219 + . . .+ 1087

45= 362.273 .

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 10

Page 11: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Klassierte (gruppierte) Daten

Die Formel

x =m∑j=1

hjaj = h1a1 + h2a2 + . . .+ hmam

kann auch fur klassierte Daten verwendet werden zur naherungsweisenBerechnung des arithmetischen Mittels mit aj , Klassenmitten.

Z.B. in Beispiel 2.5 gilt

x ≈ 363.333 =

3 · 150 + 17 · 250 + 16 · 350 + 3 · 450 + 2 · 550 + 650 + 2 · 950 + 1050

45.

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 11

Page 12: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Zusammenfassung von Mittelwerten

I Beispiel 2.6 (Quelle: Bleymuller et al, Statistik fur Wirtschaftswissenschaftler, 14. Auflage)Unternehmen mit Betrieben A und BA: 400 Beschaftige mit Bruttodurchschnittsverdienst 1920.84 eB: 300 Beschaftige mit Bruttodurchschnittsverdienst 2012.17 e⇒ durchschnittlicher Bruttomonatsverdienst samtlicher 700Beschaftigten von A und B zusammen:

x =400 · 1920.84 e+ 300 · 2012.17 e

700= 1959.98 e

I Fur Mittelwerte aus Teilgesamtheiten gilt:Liegt ein Datensatz in r Teilgesamtheiten (sog. Schichten) vor undkennt man die Stichprobenumfange nj sowie die arithmetischenMittel x j pro Schicht, so lasst sich daraus das Gesamtmittel xberechnen als

x =1

n

r∑j=1

nj · x j .

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 12

Page 13: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

b) Geometrisches Mittel

Definition: xG = n√x1 · x2 · . . . · xn

I Voraussetzung: xi > 0, i = 1, 2, . . . , n .

I Berechnung uber Haufigkeiten: xG = ah11 · a

h22 · . . . · a

hmm

bei m Merkmalsauspragungen aj und relativen Haufigkeiten hj .

I Anwendung zum Beispiel bei der Mittelung von Wachstumsfaktoren.

I ZahlenbeispielZeitpunkt 0 1 2

Kapital 100 81 100

Wachstumsfaktor x1 = 0.81 x2 = 1.234

⇒ xG = 1.000aber x = 1.022 (obwohl insgesamt kein Wachstum des Kapitals).

I Es gilt immer xG ≤ x .

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 13

Page 14: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

ii) Empirische Quantile

I Ordnen der Datenreihe x1, x2, . . . , xn ergibt geordnete Datenreihe(geordnete Stichprobe, Variationsreihe)

xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .

I Empirisches α-Quantil (0 < α < 1): Zahlenwert xα, so dassα · 100% der Werte in der Variationsreihe links davon liegen:

xα =

x(k) falls nα keine ganze Zahl ist, k ist

dann die auf nα folgende ganze Zahl

12

(x(k) + x(k+1)

)falls nα =: k eine ganze Zahl ist

(fur quantitative Merkmale).

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 14

Page 15: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Empirischer Median, empirische Quartile

I Empirischer Median: empirisches 0.5-Quantil, (mittlerer Wert dergeordneten Stichprobe)

x = xmed := x0.5 =

x( n+12 ), falls n ungerade;

12

(x( n

2 ) + x( n2

+1)

), falls n gerade.

I Unteres empirisches Quartil (unterer Viertelwert): Vu = x0.25 .

I Oberes empirisches Quartil (oberer Viertelwert): Vo = x0.75 .

I Bemerkung: Der arithmetische Mittelwert x ist empfindlichgegenuber Ausreißern, der Median x weniger.

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 15

Page 16: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

iii) Empirischer Modalwert, Modus

I xmod Wert mit der großten Haufigkeit in der Stichprobe.

I Hangt bei klassierten Daten stark von der gewahltenKlasseneinteilung ab ⇒ Modalklasse.

I Im Allgemeinen gilt x 6= x 6= xmod .

I Auch verwendbar bei qualitativen Merkmalen.

I Zum Beispiel Partei mit den meisten Stimmen bei einer Wahl.

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 16

Page 17: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Streumaße (fur metrisch skalierte Daten)

I Spannweite: ∆ = xmax − xmin .

I Quartilsabstand (Viertelweite): dQ = Vo − Vu .

I Empirische Varianz (Stichprobenstreuung):

s2 =1

n − 1

n∑i=1

(xi − x)2 =1

n − 1

(n∑

i=1

x2i − nx2

).

I Empirische Standardabweichung: s =√s2 .

I Empirischer Variationskoeffizient: v =s

x· 100% (falls x > 0),

besitzt keine phys. Einheit, er ist fur kleine Werte x nicht sehraussagekraftig.

I Ausreißergrenzen: Au = Vu − 1.5dQ Ao = Vo + 1.5dQ .

(sogenannte innere Zaune; außere Zaune bei ±3dQ).

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 17

Page 18: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Beispieldaten

I Geordnete Stichprobe: (n = 11)k 1 2 3 4 5 6 7 8 9 10 11

x(k) 1 4 13 14 14 15 17 19 19 21 23

I Median: 11 · 0.5 = 5.5 ⇒ x = x(6) = 15 .

I Unteres Quartil: 11 · 0.25 = 2.75 ⇒ Vu = x(3) = 13 .

I Oberes Quartil: 11 · 0.75 = 8.25 ⇒ Vo = x(9) = 19 .

I Quartilsabstand (Viertelweite): dQ = Vo − Vu = 19− 13 = 6 .

I Ausreißergrenzen:Au = Vu − 1.5dQ = 13− 9 = 4 = x(2) ,Ao = Vo + 1.5dQ = 19 + 9 = 28 > x(11) = 23 .

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 18

Page 19: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Statgraphics fur Beispieldatensatz

k 1 2 3 4 5 6 7 8 9 10 11

x(k) 1 4 13 14 14 15 17 19 19 21 23

Summenstatistiken für Col_1Anzahl 11Arithm. Mittelwert 14,5455Standardabweichungen 6,75816Variationskoeffizient 46,4624%Minimum 1,0Maximum 23,0Spannweite 22,0Stand. Schiefe -1,39246Stand. Wölbung 0,374684

Der StatAdvisorDiese Tabelle zeigt Summenstatistiken für Col_1. Sie enthält Maßzahlen für die zentrale Lage, die Variabilität und die Gestalt der Verteilung. Von speziellem Interesse sind hier die standardisierte Schiefe und die standardisierte Wölbung, die man verwenden kann, um herauszufinden, ob die Daten normalverteilt sind. Falls die Werte dieser Statistiken außerhalb des Bereiches von –2 bis +2 liegen, bedeutet das eine signifikante Abweichung von der Normalverteilung, wodurch ein statistischer Test (bei dem Normalverteilung unterstellt wird) (z.B.) mit Bezug zur Standardabweichung problematisch ist. In diesem Fall liegt der Wert für die standardisierte Schiefe innerhalb des Bereiches, den man für normalverteilte Daten erwarten würde. Der Wert für die standardisierte Wölbung liegt innerhalb des Bereiches, den man für normalverteilte Daten erwarten würde.

Perzentile für Col_1Perzentile

1,0% 1,05,0% 1,010,0% 4,025,0% 13,050,0% 15,075,0% 19,090,0% 21,095,0% 23,099,0% 23,0

Der StatAdvisorDieses Ergebnisfenster zeigt die Stichproben-Perzentile für Col_1 an. Das Perzentil ist ein Wert, für den ein bestimmter Prozentsatz der Daten kleiner oder gleich dieser Zahl ist. Sie können sich die Perzentile in einer Grafik anschauen, wenn Sie das Quantil-Diagramm von der Liste der Grafiken auswählen.

Box-Whisker-Plot

0 4 8 12 16 20 24

Col_1

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 19

Page 20: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Box-Plot I

I Aussagekraftige graphische Darstellung der Funfer-Charakteristik,bestehend aus Median x , den empirischen Quartilen (Viertelwerten)Vu,Vo und den Ausreißergrenzen Au,Ao .

I Die untere Begrenzungslinie wird dabei bestimmt durch denkleinsten Wert, der ≥ Au ist, (= xmin falls xmin ≥ Au) wahrend dieobere Begrenzungslinie durch den großten Wert, der ≤ Ao ist,definiert wird (= xmax falls xmax ≤ Ao).

I Ausreißer (Datenwerte außerhalb der Ausreißergrenzen) werdenextra durch Punkte angegeben.

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 20

Page 21: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Box-Plot II Beispiel 2.5 Mieten

Box-Whisker-Plot

0 200 400 600 800 1000 1200

Miete

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 21

Page 22: Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au gkeitsverteilung ist es oft sinnvoll oder sogar n otig, die Informationen aus der Urliste zu

Box-Plot III Beispiel zum Vergleich

Box-and-Whisker Plot

Fach

Punk

te

1 2 3 4 5 6 70

10

20

30

40

1: Bilanzierung 5: Produktion und Beschaffung 2: Wirtschaftsinformatik 6: Investition und Finanzierung

3: Organisation 7: Anlagenwirtschaft 4: Marketing

Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 22