untersuchung ausgewählter sozioökonomischer probleme unter ... · semesterarbeit untersuchung...
TRANSCRIPT
Semesterarbeit
Untersuchung ausgewählter sozioökonomischer Probleme
unter Anwendung von Methoden der deskriptiven und induktiven Statistik
Semesterarbeit
im Fach Stochastik und Induktive Statistik im Fachbereich Wirtschaftswissenschaften II im Masterstudiengang Wirtschaftsinformatik
der Hochschule für Technik und Wirtschaft Berlin
vorgelegt von: Marcus Behrens
Matrikel-Nr.: 518161 Mathias Slawik
Matrikel-Nr.: 517918 Betreuer: Prof. Dr. Rudolf Swat Abgabetermin: 15.03.2010
Inhaltsverzeichnis
II
Inhaltsverzeichnis
1 Aufgabenstellung ............................................................................................... 1
2 Beschreibung der Datenbasis ............................................................................ 2
2.1 Merkmalsträger ........................................................................................... 2
2.2 Grundgesamtheit ........................................................................................ 2
2.3 Stichprobe .................................................................................................. 2
2.4 Datenerhebung ........................................................................................... 3
2.5 Datenformat ................................................................................................ 3
3 Beschreibung der Erhebungsmerkmale .............................................................. 4
3.1 Geschlecht .................................................................................................. 4
3.2 Familienstand .............................................................................................. 5
3.3 Erwerbstätigkeit in Berichtswoche ............................................................... 6
3.4 Vollzeit-/Teilzeittätigkeit ................................................................................ 7
3.5 Wohnfläche ................................................................................................. 8
3.6 Zahl der Personen in der Wohnung ........................................................... 10
3.7 Monatliches Haushaltsnettoeinkommen ..................................................... 13
4 Bearbeitung der Problemstellungen .................................................................. 16
4.1 Problemstellung 1 ..................................................................................... 16
4.2 Problemstellung 2 ..................................................................................... 18
4.3 Problemstellung 3 ..................................................................................... 20
5 Fazit ................................................................................................................. 23
Abbildungsverzeichnis
III
Abbildungsverzeichnis
Abbildung 1: EF32 Geschlecht Grafik Verteilung ...................................................... 4
Abbildung 2: EF35 Familienstand Grafik Verteilung .................................................. 5
Abbildung 3: EF95 Erwerbstätigkeit Grafik Verteilung ............................................... 6
Abbildung 4: EF138 Vollzeit-/Teilzeittätigkeit Grafik Verteilung .................................. 7
Abbildung 5: EF453 Wohnfläche Grafik Ausschnitt ................................................... 8
Abbildung 6: EF500 Zahl der Personen in Wohnung Grafik Verteilung .................... 11
Abbildung 7: EF539 Haushaltsnettoeinkommen Grafik Verteilung ........................... 13
Abbildung 8: EF539 Monatliches Haushaltsnettoeinkommen Grafik Vergleich
Normalverteilung ................................................................................................... 15
Abbildung 9: Problemstellung 1 - Kreuztabelle ....................................................... 17
Abbildung 10: Problemstellung 2 - Übersicht Regressionsmodelle ......................... 19
Tabellenverzeichnis
Tabelle 1: EF32 Geschlecht Verteilung ..................................................................... 4
Tabelle 2: EF35 Familienstand Verteilung ................................................................. 5
Tabelle 3: EF95 Erwerbstätigkeit Verteilung .............................................................. 6
Tabelle 4: EF138 Vollzeit-/Teilzeittätigkeit Verteilung ................................................. 7
Tabelle 5: EF453 Wohnfläche Lagemaße ............................................................... 10
Tabelle 6: EF500 Zahl der Personen in der Wohnung Verteilung ............................. 11
Tabelle 7: EF500 Zahl der Personen in der Wohnung Lagemaße ............................ 12
Tabelle 8: EF539 Monatliches Haushaltsnettoeinkommen Lagemaße ..................... 15
Tabelle 9: Problemstellung 3 - PASW Ergebnis Wann-Whitney-Test ...................... 21
Aufgabenstellung
1
1 Aufgabenstellung
Die vorliegende Semesterarbeit stellt den Abschluss des Fachs Stochastik und In-
duktive Statistik dar und begründet sich in der vorliegenden Aufgabenstellung.1
Es wird eine der vorgeschlagenen
Diese Semesterarbeit hat als Ziel aufzuzeigen, in welchem Maße wir in der Lage sind,
ausgewählte statistische Problemstellungen zu erfassen und mit den in der Lehrver-
anstaltung vermittelten Werkzeugen zu bearbeiten.
2 Datenquellen, der Mikrozensus 20023
1.
verwendet
und nach den Anforderungen an die Auswertung der Datenbasis mit Hilfe des Prog-
ramms PASW Statistics der Version 17 untersucht.
Folgende Fragen sollen durch Anwendung der in der Lehrveranstaltung vermittelten
Methoden beantwortet werden:
Die Lösung dieser Frage soll unter Anwendung eines Chi-Quadrat-
Unabhängigkeitstest
Kann auf Basis der Stichprobe davon ausgegangen werden, dass es einen
Zusammenhang zwischen dem monatlichen Haushaltsnettoeinkommen
und der Gesamtfläche der Wohnung gibt?
4
2.
erfolgen.
In dieser Fragestellung sollen ausgewählte Regressionsmodelle angewendet
werden, um eine Schätzfunktion für den vermuteten Zusammenhang zu ermit-
teln.
Kann dieser Zusammenhang in einer Funktion ausgedrückt werden, die für
die Stichprobe eine möglichst geringe Abweichung von den tatsächlich
beobachteten Ausprägungen besitzt?
3.
Hier wird der MANN-WHITNEY-Test
Kann aufgrund der vorliegenden Stichprobe davon ausgegangen werden,
dass der Median des monatlichen Haushaltseinkommens eines Haushalts
(nicht verheiratet, keine Kinder, erwerbstätig, Vollzeitbeschäftigung) bei
Frauen geringer ist, als bei Männern?
5
1 (Swat, 2009)
Anwendung erfahren.
2 (Swat, 2009 S. 4) 3 CAMPUS-File: (Statistische Ämter des Bundes und der Länder, 2009) 4 (Pearson, 1900)
Beschreibung der Datenbasis
2
2 Beschreibung der Datenbasis
Die Datenbasis, das CAMPUS-File zum Mikrozensus 2002 ist eine Stichprobe des
Mikrozensus 2002. Da es speziell für Studenten und Lehrende erstellt wurde, bietet
es sich als Datenbasis der vorliegenden Semesterarbeit an.
Durch methodische Anonymisierung6
2.1 Merkmalsträger
des Mikrozensus 2002 handelt es sich bei dem
CAMPUS-File um eine absolut anonyme Datenbasis. Sie ist für jeden frei verfügbar
(sog. Public-Use-File).
Durch die Stichprobenziehung des Quellmaterials und die mit der Anonymisierung
einhergehende Vergröberung ergeben sich Beeinträchtigungen der Aussagefähigkeit
der auf Basis dieses Datenmaterials gewonnen Kenntnisse.
Da es jedoch auf der einen Seite abwegig ist, durch eine beschränkte Semesterarbeit
zu neuen Erkenntnissen bei einem solch stark bearbeiteten Datenmaterial zu kom-
men und auf der anderen Seite es hier primär darum geht, zu zeigen, dass wir in der
Lage sind, vermittelte statistische Methoden korrekt anzuwenden, ist diese Beeint-
rächtigung der Aussagefähigkeit nicht als Beeinträchtigung der gesamten Semester-
arbeit anzusehen.
Merkmalsträger des CAMPUS-Files zum Mikrozensus 2002 sind aufgrund des Mik-
rozensusgesetzes7
2.2 Grundgesamtheit
ausgewählte und befragte natürliche Personen. Diese sind für die
Erhebung auskunftspflichtig.
Grundgesamtheit ist die im Jahr 2002 wohnhafte Gesamtbevölkerung Deutschlands,
schätzungsweise 82,5 Mio. Personen.
2.3 Stichprobe
Die für den Mikrozensus zu befragenden 788.049 Personen werden auf Grundlage
des Mikrozensusgesetzes nach festgelegten statistischen Verfahren zufällig aus der
Grundgesamtheit ausgewählt.
5 (Mann, et al., 1947) 6 Beschreibung der Anonymisierung: (Statistisches Bundesamt – Forschungsdatenzentrum, 2008) 7 (Statistisches Bundesamt Deutschland, 2004)
Beschreibung der Datenbasis
3
Die Stichprobe des CAMPUS-Files von 25.137 Datensätzen erfolgt nach der festge-
legten Anonymisierungsmethodik.
2.4 Datenerhebung
Die Quelldaten des CAMPUS-Files, also die Daten des Mikrozensus 2002, werden
auf der einen Seite durch eine Befragung durch ehrenamtliche Erhebungsbeauftragte
erfasst. Auf der anderen Seite können diese durch schriftliche Auskunftserteilung auf
Erhebungsvordrucke erfolgen.
2.5 Datenformat
Das CAMPUS-File zum Mikrozensus 2002 liegt in den Datenformaten SAS, SPSS,
STATA und ASCII CSV vor. Grundlage dieser Semesterarbeit ist die im SPSS-Format
vorliegende Datendatei. Diese enthält 25.137 Datensätze und 335 Variablen, inklusi-
ve zugehöriger Wertelabels.
Beschreibung der Erhebungsmerkmale
4
3 Beschreibung der Erhebungsmerkmale
In den folgenden Unterkapiteln werden alle für die Bearbeitung der drei Fragestellun-
gen notwendigen Erhebungsmerkmale unter Anwendung von Methoden der deskrip-
tiven Statistik dargestellt.
3.1 Geschlecht
Das Geschlecht (EF32) ist ein dichotomes, nominales Merkmal. Es ist für jeden Da-
tensatz in der Datenbasis vorhanden und wird für die Bearbeitung der Fragestellung
drei benötigt.
Seine Verteilung stellt sich wie folgt dar:8
Häufigkeit Prozent
Männlich 12.087 48,1 %
Weiblich 13.050 51,9 %
∑ 25.137
Tabelle 1: EF32 Geschlecht Verteilung
Abbildung 1: EF32 Geschlecht Grafik Verteilung
8 Datei ef32_Geschlecht_Verteilung.spv
Beschreibung der Erhebungsmerkmale
5
3.2 Familienstand
Der Familienstand (EF35) ist ein nominales Merkmal für das vier unterschiedliche
Ausprägungen definiert sind. Es ist für jeden Datensatz in der Datenbasis vorhanden
und wird für die Bearbeitung der Fragestellung drei benötigt.
Seine Verteilung stellt sich wie folgt dar:9
Häufigkeit Prozent
Ledig 9.648 38,4 %
Verheiratet 12.149 48,3 %
Verwitwet 2.029 8,1 %
Geschieden 1.311 5,2 %
∑ 25.137
Tabelle 2: EF35 Familienstand Verteilung
Abbildung 2: EF35 Familienstand Grafik Verteilung
9 Datei ef35_Familienstand_Verteilung.spv
Beschreibung der Erhebungsmerkmale
6
3.3 Erwerbstätigkeit in Berichtswoche
Das Merkmal Erwerbstätigkeit in Berichtswoche (EF95) ist ein nominales, dichotomes
Merkmal. Es ist für jeden Datensatz der Datenbasis vorhanden, entfällt jedoch bei
Kindern, die das 14. Lebensjahr noch nicht überschritten haben. Es wird für die Be-
arbeitung der Fragestellung drei benötigt.
Seine Verteilung stellt sich wie folgt dar:
Häufigkeit Prozent Gültige Prozente
Gültig Ja 10.796 42,9 % 50,1 %
Nein 10.743 42,7 % 49,9 %
Gesamt 21.539 85,7 % 100,0 %
Fehlend Entfällt (Kinder < 15 Jahre)
3.598 14,3 %
Gesamt 25.137 100,0 %
Tabelle 3: EF95 Erwerbstätigkeit Verteilung10
Abbildung 3: EF95 Erwerbstätigkeit Grafik Verteilung11
10 Datei ef95_Erwerbstätigkeit_Verteilung.spv 11 Eigene Darstellung
Auf den ersten Blick kann der Wert von 42,7% an nicht erwerbstätigen Personen in
Anbetracht der geläufigen Arbeitslosenstatistik eventuell falsch interpretiert werden.
Die Arbeitslosenstatistik, die Quoten um die 8% aufweist, hat als Grundgesamtheit
lediglich Personen, die in der Lage wären, einer Beschäftigung nachzugehen, aber
derzeit arbeitslos sind.
10.796 (42,9 %) 10.743 (42,7%) 3.598(14,3%)
0% 20% 40% 60% 80% 100%
JaNeinEntfällt
Beschreibung der Erhebungsmerkmale
7
Da die Grundgesamtheit des Mikrozensus jedoch die Gesamtbevölkerung Deutsch-
lands ist, werden als nicht erwerbstätige Personen auch die Personengruppen in die
Berechnung des Merkmals EF95 mit aufgenommen, die in der Arbeitslosenstatistik
nicht betrachtet werden, beispielsweise Rentner, Schüler, Auszubildende und Stu-
denten.
3.4 Vollzeit-/Teilzeittätigkeit
Das Merkmal Vollzeit-/Teilzeittätigkeit (EF138) ist ein nominales, dichotomes Merkmal.
Es ist für jeden Datensatz der Datenbasis vorhanden, entfällt jedoch unter Anderem
bei allen Nichterwerbstätigen. Es wird bei der Bearbeitung der Fragestellung drei be-
nötigt.
Seine Verteilung stellt sich wie folgt dar:12
Häufigkeit Prozent Gültige Prozente
Gültig Vollzeit 8.894 35,4 % 79,3 %
Teilzeit 2.317 9,2 % 20,7 %
Gesamt 11.211 44,6 % 100,0 %
Fehlend Entfällt (Nichterwerbstätige) 13.926 55,4 %
Gesamt 25.137 100,0 %
Tabelle 4: EF138 Vollzeit-/Teilzeittätigkeit Verteilung
Abbildung 4: EF138 Vollzeit-/Teilzeittätigkeit Grafik Verteilung
12 Datei ef138_Vollzeit-_Teilzeittätigkeit_Verteilung.spv
Beschreibung der Erhebungsmerkmale
8
3.5 Wohnfläche
Das Merkmal Wohnfläche (EF453) ist ein verhältnisskaliertes Merkmal. Es ist für alle
Datensätze der Datenbasis vorhanden, entfällt jedoch für 252 Personen (approxima-
tiv 1% der Datenbasis), die eine Gemeinschafts- oder Anstaltsunterkunft bewohnen.
Das Merkmal findet Verwendung in den Fragestellungen eins und zwei.
Zwei Besonderheiten sind dem Merkmal zu Eigen. Auf der einen Seite lassen sich
signifikante Ausschläge bei runden Werten der Wohnfläche erkennen. Dies ist wohl
im typischen Verhalten eines Befragten zu begründen, der sicherlich einen Wert von
„zirka 100 m²“ eher nennen wird, als „genau 98,72 m²“.
Folgender Ausschnitt verdeutlicht dies in besonderem Maße:13
Häufigkeit Prozent
97 qm 55 0,2
98 qm 1.76 0,7
99 qm 32 0,1
100 qm 1.670 6,7
101 qm 38 0,2
102 qm 80 0,3
103 qm 65 0,3
Abbildung 5: EF453 Wohnfläche Grafik Ausschnitt
Zum Anderen sind einige Ausprägungen der Datenbasis zu Klassen zusammenge-
fasst. Der numerische Wert der Ausprägung entspricht hierbei der Obergrenze der
Klasse.
Wir nehmen für die weitere Untersuchung an, dass die Klassierung der Daten weni-
ger Einfluss auf die Untersuchungsergebnisse hat, als die „natürliche“ Klassierung der
Daten durch das Antwortverhalten der Befragten. Denn Grundlage der Klassierung
sind die Originaldaten des Mikrozensus, während das Antwortverhalten der Befrag-
ten zu einer mutwilligen Vergröberung der Daten führt.
13 Datei ef453_Wohnfläche.spv
Beschreibung der Erhebungsmerkmale
9
Dieser Annahme folgend müssen wir anerkennen, dass die Genauigkeit der Untersu-
chungsergebnisse beeinträchtigt wird. Jedoch beeinträchtigt dies nicht unser Vorha-
ben, die Ausführung der in der Lehrveranstaltung vermittelten statistischen Werkzeu-
ge zu demonstrieren.
Es gelten folgende Lagemaße für das Merkmal Wohnfläche:
N 24885 Anzahl der vorhandenen Merkmalsausprägungen.
Spannweite 988 Wird durch Klassierung des obersten Wertes (401-998 m²) festgelegt.
Minimum 10 Wird durch Klassierung des untersten Wertes (0 – 10 m²) festgelegt.
Maximum 998 Wird durch Klassierung der untersten und obersten Werte festgelegt.
Mittelwert 101,37 Im Mittel beträgt die bewohnte Wohnfläche aller Merkmalsträger der Stichprobe 101,37 m².
Schiefe 6,343 Die Verteilung ist nicht symmetrisch, sie ist rechts-schief.
Standardfehler 0,016
Kurtosis 90,166 Die Verteilung ist steilgipflig. Die Merkmalsausprä-gungen gruppieren sich dichter als bei der Normal-verteilung und haben längere Flanken. Standardfehler 0,031
Standardab-weichung
55,557 Wäre das Merkmal normalverteilt, würden 68,3% der Merkmalsausprägungen im Intervall 101,37 m² ± 55,557 m² liegen.
In diesem Fall liegen 86,5% der Merkmalsausprä-gungen im angegebenen Intervall, worauf auch der hohe Wert der Kurtosis deutet.
Varianz 3086,534
25-perzentil 70 25% der Merkmalsausprägungen liegen unterhalb, 75% oberhalb von 70 m².
50-perzentil 92 50% der Merkmalsausprägungen liegen unterhalb, 50% oberhalb von 92 m².
Beschreibung der Erhebungsmerkmale
10
75-perzentil 120 75% der Merkmalsausprägungen liegen unterhalb, 25% oberhalb von 120m².
Insgesamt liegen 50% der Merkmalsausprägungen zwischen 70m² und 120m².
Tabelle 5: EF453 Wohnfläche Lagemaße14
Das folgende Diagramm veranschaulicht die Auswirkungen des Aussageverhaltens
auf die gesamte Datenbasis sehr deutlich:
3.6 Zahl der Personen in der Wohnung
Das Merkmal Zahl der Personen in der Wohnung (EF500) ist ein verhältnisskaliertes
Merkmal, welches als nominales Merkmal mit 10 unterschiedlichen Ausprägungen
gespeichert ist. Es ist für alle Datensätze der Datenbasis vorhanden, entfällt jedoch
für 252 Personen (approximativ 1% der Datenbasis) die eine Gemeinschafts- oder
Anstaltsunterkunft bewohnen.
14 Datei ef453_Wohnfläche.spv
Beschreibung der Erhebungsmerkmale
11
Das Merkmal findet Verwendung in der Fragestellung drei und verteilt sich wie folgt:
Abbildung 6: EF500 Zahl der Personen in Wohnung Grafik Verteilung15
Häufigkeit Prozent Gültige Prozente
Gültig 1 Person 4.069 16,2 % 16,4 %
2 Personen 8.042 32,0 % 32,3 %
3 Personen 4.959 19,7 % 19,9 %
4 Personen 5.248 20,9 % 21,1 %
5 Personen 1.785 7,1 % 7,2 %
6 Personen 554 2,2 % 2,2 %
7 Personen 175 0,7 % 0,7 %
8 Personen 24 0,1 % 0,1 %
9 Personen 27 0,1 % 0,1 %
10 und mehr Personen 2 0,0 % 0,0 %
Gesamt 24.885 99,0 % 100,0 %
Feh-lend
Entfällt (Gemeinschafts-/Anstaltsunterkunft)
252 1,0 %
Gesamt 25.137 100,0 %
Tabelle 6: EF500 Zahl der Personen in der Wohnung Verteilung16
15 Datei ef500_Zahl_der_Personen_Verteilung.spv
Beschreibung der Erhebungsmerkmale
12
Es lassen sich folgende Lagemaße identifizieren:
Mittelwert 2,81 Im Mittel bewohnen einen Stichproben-Haushalt
2,81 Personen.
Standardabweichung 1,349 Wäre das Merkmal normalverteilt, würden
68,3% der Merkmalsausprägungen im Intervall
2,81 ± 1,349 liegen.
Schiefe 0,662 Die Verteilung ist nicht symmetrisch, sie ist
rechtsschief. Standardfehler 0,016
Kurtosis 0,306 Die Verteilung ist leicht steilgipflig.
Standardfehler 0,031
Spannweite 9 Die Spannweite wird durch die Festlegung der
nominalen Ausprägungen festgelegt.
Minimum 1 Das Minimum wird durch die Erhebungssyste-
matik festgelegt. Jeder Haushalt wird durch
mindestens eine Person bewohnt.
Maximum 10 Das Maximum von 10 ergibt sich aus der Erhe-
bungssystematik. Alle Fälle mit mehr als 10 Per-
sonen pro Haushalt werden der Merkmalsaus-
prägung 10 zugeordnet.
Perzentile 25 2,00 Durch den nominalen Charakter des Merkmals
(es gibt keine halben Personen) haben die Per-
zentilwerte nur eingeschränkte Aussagekraft. 50 3,00
75 4,00
Tabelle 7: EF500 Zahl der Personen in der Wohnung Lagemaße17
16 Datei ef500_Zahl_der_Personen_Verteilung.spv 17 Datei ef500_Zahl_der_Personen_Verteilung.spv
Beschreibung der Erhebungsmerkmale
13
3.7 Monatliches Haushaltsnettoeinkommen
Das Merkmal monatliches Haushaltsnettoeinkommen (EF539) ist ein verhältnisskalier-
tes, nominalklassiert gespeichertes Merkmal. Es ist für alle Datensätze in der Daten-
basis vorhanden, entfällt jedoch in 1.566 Fällen (approximativ 6% der Datenbasis).
Das Merkmal findet Verwendung in den Fragestellungen eins und zwei und verteilt
sich wie folgt:
Abbildung 7: EF539 Haushaltsnettoeinkommen Grafik Verteilung18
18 Datei ef539_Haushaltsnettoeinkommen.spv
Beschreibung der Erhebungsmerkmale
14
Für die Berechnung der Lagemaße ist es notwendig, die Variable umzukodieren. Da-
bei werden alle entfallenden Werte gefiltert und die jeweiligen Merkmalsausprägun-
gen durch die Klassenmitten ersetzt. Würden weitere Lagemaße für die Grundge-
samtheit vorliegen, würden genauere Werte, als die Klassenmitten verwendet werden
können.
Die Umkodierung erfolgt mit Hilfe des folgenden PASW-Befehls:
RECODE ef539 (1=75) (2=225) (3=400) (4=600) (5=800) (6=1000) (7=1200)
(8=1400) (9=1600) (10=1850) (11=2150) (12=2450) (13=2750) (14=3050)
(15=3400) (16=3800) (17=4250) (18=4750) (19=5250) (20=5750) (21=6750)
(22=8750) (23=14000) (24=18000) (0=SYSMIS) (50=SYSMIS) (99=SYSMIS)
INTO ef539b.
VARIABLE LABELS ef539b 'Haushaltsnettoeinkommen'.
EXECUTE.
Auf Basis dieser umkodierten Variablen lassen sich folgende Lagemaße identifizie-
ren:19
N
Gültig 23.571
Fehlend 1.566
Mittelwert 2.514,55 Das durchschnittliche Haushaltsnetto-
einkommen der Haushalte der Stich-
probe beträgt 2.514,55 €.
Standardabweichung 1.774,87 Wäre das Merkmal normalverteilt, wür-
den 68,3% der Merkmalsausprägungen
im Intervall 2.514,55 € ± 1.774,87€ lie-
gen.
In der Datenbasis sind dies approxima-
tiv 83% der Merkmalsausprägungen.
19 Datendatei mz02_cf_mit_haushaltsnettoeinkommen_und_wohnfläche.sav
Beschreibung der Erhebungsmerkmale
15
Schiefe 3,391 Die Verteilung ist nicht symmetrisch, sie
ist rechtsschief. Standardfehler 0,016
Kurtosis 20,289 Die Verteilung ist steilgipflig.
Standardfehler 0,032
Spannweite 17925,00 Die Spannweite, sowie das Minimum
und Maximum werden durch die Um-
kodierungssystematik festgelegt. Minimum 75,00
Maximum 18000,00
Per-
zentile
25 1400,00 Durch den nominalen Charakter des
Merkmals (die Klassierung der Einkom-
men) haben die Perzentilwerte nur ein-
geschränkte Aussagekraft.
50 2150,00
75 3050,00
Tabelle 8: EF539 Monatliches Haushaltsnettoeinkommen Lagemaße20
Die folgende Grafik vergleicht die Verteilung des Merkmals mit der Standardnormal-
verteilung. Anhand der Abbildung lassen sich leicht die durch die Lagemaße Schiefe
und Kurtosis beschriebenen Eigenschaften der Verteilung erkennen:
Abbildung 8: EF539 Monatliches Haushaltsnettoeinkommen Grafik Vergleich Normalverteilung
20 Datei ef539_Haushaltsnettoeinkommen.spv
Bearbeitung der Problemstellungen
16
4 Bearbeitung der Problemstellungen
4.1 Problemstellung 1
Problemstellung 1 liegt folgende Fragestellung zu Grunde:
Kann auf Basis der Stichprobe davon ausgegangen werden, dass es einen
Zusammenhang zwischen dem monatlichen Haushaltsnettoeinkommen und
der Gesamtfläche einer Wohnung gibt?
Diese Problemstellung soll mit Hilfe des Chi-Quadrat-Unabhängigkeitstestverfahrens
bearbeitet werden.
Die Nullhypothese H0 wird wie folgt definiert: „Die Variablen Wohnfläche und monatli-
ches Haushaltsnettoeinkommen sind stochastisch voneinander unabhängig“.
Die Nullhypothese soll auf einem vorab definierten Signifikanzniveau von α = 0,05
getestet werden.
Da das Merkmal Wohnfläche für eine sinnvolle Darstellung des Chi-Quadrat-Tests zu
viele Merkmalsausprägungen besitzt, wird die Variable mit Hilfe des folgenden
PASW-Befehls in das Merkmal EF453b umkodiert, welches fünf nominelle Ausprä-
gungen analog des zugehörigen Pentils der Ausprägung des Merkmals Wohnfläche
besitzt:21
21 Datei mz02_cf_mit_haushaltsnettoeinkommen_und_wohnfläche.sav
RECODE ef453 (0 thru 63=1) (64 thru 79=2) (80 thru 99=3) (100 thru 129=4)
(130 thru 999=5) INTO ef453b.
EXECUTE.
Nun kann mithilfe des PASW-Werkzeugs Kreuztabellen der Chi-Quadrat-
Unabhängigkeitstest durchgeführt werden.
In der folgenden Tabelle werden die beobachteten mit den erwarteten Häufigkeiten
verglichen. Selbst bei oberflächlicher Betrachtung fällt auf, dass sich die beiden Wer-
te, teilweise erheblich, voneinander unterscheiden. Dies kann als ein Hinweis darauf
gedeutet werden, dass die Nullhypothese abgelehnt werden muss.
Bearbeitung der Problemstellungen
17
Abbildung 9: Problemstellung 1 - Kreuztabelle22
22 Datei 1_Problemstellung.spv
Bearbeitung der Problemstellungen
18
Das Werkzeug Kreuztabelle ermittelt einen Chi-Quadrat-Wert von χ² ≈ 7.731,84.
Da 𝜒𝜒2 ≈ 7.731,84 > 𝜒𝜒0,95 92⁄2 = 115.39 muss die Nullhypothese abgelehnt und von
einer Abhängigkeit der beiden Merkmale ausgegangen werden.
Da 𝜒𝜒2 ≈ 67 ∗ 𝜒𝜒0,95 92⁄2 kann das Ergebnis als „hochsignifikant“ bewertet werden.
4.2 Problemstellung 2
Problemstellung 2 beschäftigt sich mit der folgenden Frage:
Kann der in Problemstellung 1 ermittelte Zusammenhang in einer Funktion
ausgedrückt werden, die für die Stichprobe eine möglichst geringe Abwei-
chung von den tatsächlich beobachteten Ausprägungen besitzt?
Diese Problemstellung wird mit Hilfe der Regressionsanalyse gelöst.
Die Regressionsanalyse versucht hierbei, einen numerischen Zusammenhang zwi-
schen den beobachteten Merkmalsausprägungen für Haushaltsnettoeinkommen und
Wohnfläche zu finden, diesen in einer Funktion auszudrücken und die Parameter so
zu wählen, dass der Unterschied zwischen den tatsächlichen und den durch die
Funktion berechneten Werten (dem Schätzfehler) möglichst gering zu halten.
Als Vorbereitung der Regression wird das Merkmal Wohnfläche auf die Merkmals-
ausprägungen 10 bis 400 begrenzt, sodass der numerische Wert 998 für „größer als
400“ herausfällt und somit die Regressionsfunktion durch die starke Abweichung zu
den anderen Werten nicht beeinflussen kann. Dies geschieht durch folgenden
PASW-Befehl, welcher für alle Fälle mit der Merkmalsausprägung 998 des Merkmals
Wohnfläche den Wert auf „fehlend“ setzt:
RECODE ef453 (998=SYSMIS).
EXECUTE.
Wir haben zur Lösung der Problemstellung den Programmpunkt „Kurvenanpas-
sung“ von PASW verwendet, um zehn unterschiedliche Funktionen für je ein mögli-
ches Regressionsmodell zu ermitteln.
Darüber hinaus verwendeten wir PASW zur Berechnung des Bestimmtheitsmaßes R2
für jede der ermittelten Funktionen, um die Güte der jeweiligen Regressionsfunktion
zu ermitteln.
Bearbeitung der Problemstellungen
19
Im folgenden Diagramm werden die unterschiedlichen Funktionen der besten
Schätzfunktion, der Exponentialfunktion, gegenübergestellt. Schwarz hervorgehoben
ist das Regressionsmodell, für welches der höchste Wert für R2 ermittelt wurde. Die
restlichen Gleichungen sind je nach Ihrer Güte eingefärbt - die fünf schlechtesten im
gestrichelten Grau und die vier besseren im durchgezogenen Grau.
Die tatsächlich beobachteten Merkmalsausprägungen wurden mit kleinen grauen
Kreuzen markiert. Es ergeben sich vertikale Striche, da die Merkmalsausprägungen
lediglich gruppiert vorliegen.
Darüber hinaus wurde die Skalierung der Achsen angepasst, sodass der Verlauf der
einzelnen Regressionsfunktionen distinguierter erscheint.
Abbildung 10: Problemstellung 2 - Übersicht Regressionsmodelle
In der Ausgabedatei23
23 Datei 2_Problemstellung.spv
lassen sich die einzelnen Modelle genauer untersuchen, als in
der vorangegangenen Übersichtsgrafik.
Bearbeitung der Problemstellungen
20
Aus der Regressionsanalyse ergibt sich die geschätzte Exponentialfunktion für das
Verhältnis zwischen den Merkmalen Haushaltsnettoeinkommen und Wohnfläche wie
folgt:
𝑦𝑦 = 5,3253 ∗ 𝑥𝑥0,371 mit
𝑦𝑦 = Wohnfläche und
𝑥𝑥 = Haushaltsnettoeinkommen
4.3 Problemstellung 3
Problemstellung 3 besteht aus der folgenden sozioökonomischen Fragestellung:
Bei der Lösung dieser Problemstellung wird der MANN-WHITNEY-Test
Kann aufgrund der vorliegenden Stichprobe davon ausgegangen werden, dass
der Median des monatlichen Haushaltseinkommens eines Haushalts (nicht
verheiratet, keine Kinder, erwerbstätig, Vollzeitbeschäftigung) bei Frauen ge-
ringer ist, als bei Männern?
24 Anwendung
erfahren, da dieser einerseits zur Untersuchung des Medians zweier unabhängiger
Stichproben geeignet ist und andererseits immer dann angewendet werden sollte,
wenn die Stichproben nicht aus einer normalverteilten Grundgesamtheit stammen,25
3.7
was nach den Ergebnissen aus Kapitel nicht angenommen werden kann.
Als Vorbereitung des Tests werden in der Datendatei26
24 (Mann, et al., 1947)
die Fälle aussortiert, die nicht
die gewünschten Merkmale (nicht verheiratet, keine Kinder, erwerbstätig, Vollzeitbe-
schäftigung) aufweisen.
25 (Eckstein, 2006 S. 337) 26 Datei mz02_cf_mann_whitney.sav
Bearbeitung der Problemstellungen
21
Diese Filterung erfolgt durch folgenden PASW-Befehl:
USE ALL.
COMPUTE filter_$=(ef35 = 1 & ef95 = 1 & ef138 = 1 & ef500 = 1).
VARIABLE LABEL filter_$ 'ef35 = 1 & ef95 = 1 & ef138 = 1 & ef500 = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.
Diese Filterung wird vorgenommen, um innerhalb der Stichprobe den Einfluss ande-
rer Merkmale als des Geschlechts auf den Median des Haushaltsnettoeinkommens
auszuschließen.
Es ist offensichtlich, dass als Fortführung der Semesterarbeit auch andere Untersu-
chungsmerkmale ausgewählt werden könnten, um einen MANN-WHITNEY-Test durch-
zuführen, beispielsweise verheiratete versus unverheiratete Vollzeit-Arbeitnehmer
oder Alleinerziehende vs. Verheiratete.
Nachdem die nicht erwünschten Fälle der Stichprobe aussortiert wurden, soll nun
mithilfe von PASW der MANN-WHITNEY-Test durchgeführt werden.
Die Nullhypothese H0 wird wie folgt definiert: „Der Median der monatlichen Haus-
haltseinkommen eines männlichen und weiblichen Single-Haushalts ist gleich“.
Diese soll auf einem vorab definierten Signifikanzniveau von α = 0,05 getestet werden.
Das Ergebnis dieses Tests stellt sich wie folgt dar:27
Haushaltsnettoeinkommen
Z -1,566
Asymptotische Signifikanz (2-seitig) 0,117
Tabelle 9: Problemstellung 3 - PASW Ergebnis Wann-Whitney-Test
27 Ausgabedatei 3_Problemstellung.spv
Bearbeitung der Problemstellungen
22
Die Nullhypothese H0 muss, entgegen der anfangs angenommenen Vermutung, auf-
grund des Testergebnisses angenommen werden, da der berechnete Wert der Test-
variable Z von -1,566 die Bedingung
|𝑧𝑧𝑛𝑛 | ≤ 𝑧𝑧𝑝𝑝
also auf dem vorgegebenen Signifikanzniveau
|𝑧𝑧| ≤ 𝑧𝑧0,975
erfüllt, da gilt:
1,566 ≤ 1,96
Der Wert der asymptotischen Signifikanz gibt an, dass erst bei Annahme eines mehr
als doppelt so hohen Signifikanzniveaus von α = 0,117 die Nullhypothese angenom-
men werden müsste. Sollte dieser Wert für das Signifikanzniveau angenommen wor-
den sein, so müsste aber gleichfalls eine lediglich 88-prozentige Sicherheit der Test-
entscheidung in Kauf genommen werden.
Somit muss schlussendlich auf Basis der vorliegenden Stichprobe davon ausgegan-
gen werden, dass es keinen Grund gibt, die Nullhypothese H0 unter den gegebenen
Umständen abzulehnen. Allerdings sei zu beachten, dass hiermit kein Beweis für die
Richtigkeit der Hypothese gefunden wurde, dass der Median des Nettoeinkommens
beider Geschlechtergruppen gleich ist.
Fazit
23
5 Fazit
Mit der vorliegenden Semesterarbeit haben wir gezeigt, dass wir die vorgegebenen
Lernergebnisse28
des Moduls „Stochastik und Induktive Statistik“ erzielt haben.
Wir haben gezeigt, dass wir auf Basis von Kenntnissen in den Vorgehensweisen der
induktiven Statistik und der Schätz- und Testtheorie in der Lage sind, elementare
statistische Schätz- und Testverfahren zur Untersuchung ausgewählter elementarer
Problemstellungen unter Nutzung von Statistiksoftware vorzubereiten und durchzu-
führen.
Wir haben darüber hinaus unterschiedliche sozioökonomische Probleme unter An-
wendung von Methoden der deskriptiven und induktiven Statistik untersucht und die
Ergebnisse umfassend und anschaulich dargestellt.
Schlussendlich haben wir ferner gezeigt, dass wir mit einer Datenbasis arbeiten kön-
nen, in welcher einige Merkmale lediglich klassiert vorliegen und daraufhin in der La-
ge sind, unser Vorgehen anzupassen.
Infolgedessen kann die Aufgabenstellung als vollständig gelöst betrachtet werden.
28 (Hochschule für Technik und Wirtschaft, 2008 S. 434)
Literaturverzeichnis
IV
Literaturverzeichnis
Eckstein, Peter P. 2006. Repetitorium Statistik. Wiesbaden : Betriebswirtschaftlicher
Verlag Dr. Th. Gabler | GWV Fachverlage GmbH, 2006. ISBN 978-3-8349-0464-5.
Hochschule für Technik und Wirtschaft. 2008. Amtliches Mitteilungsblatt 17/08.
Berlin : s.n., 2008.
Mann, Henry und Whitney, Donald. 1947. On a Test of Whether one of Two Random
Variables is Stochastically Larger than the Other. The Annals of Mathematical
Statistics. 1947, Bd. 18, Nr. 1, S. 50-60.
Pearson, Karl. 1900. On the Criterion that a given System of Deviations from the
Probable in the Case of a Correlated System of Variables is such that it can be
reasonably supposed to have arisen from Random Sampling. [Hrsg.] Taylor & Francis
Group. Philosophical Magazine. Series 5, 1900, Vol 50, S. 157-175.
Statistische Ämter des Bundes und der Länder. 2009. Forschungsdatenzentren der
Statistischen Ämter des Bundes und der Länder. Forschungsdatenzentren der
Statistischen Ämter des Bundes und der Länder. [Online] 27. Juli 2009. [Zitat vom: 2.
März 2010.]
http://www.forschungsdatenzentrum.de/bestand/mikrozensus/cf/2002/index.asp.
Statistisches Bundesamt – Forschungsdatenzentrum. 2008. Konzept zur
Anonymisierung des Mikrozensus 2002 zur Verwendung als CAMPUS File (CF).
forschungsdatenzentrum.de. [Online] 7. April 2008. [Zitat vom: 4. März 2010.]
http://www.forschungsdatenzentrum.de/bestand/mikrozensus/cf/2002/fdz_mikrozen
sus_cf_2002_methodenbeschreibung.pdf.
Statistisches Bundesamt Deutschland. 2004. Mikrozensusgesetz. destatis.de.
[Online] 7. Juli 2004. [Zitat vom: 14. März 2010.]
http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/SharedContent/Oeffentlic
h/AZ/ZD/Rechtsgrundlagen/Statistikbereiche/Bevoelkerung/054a__MZG__2005,pro
perty=file.pdf.
Swat, Rudolf. 2009. Hinweise zum Beleg. [Dokument
STO_STA_Beleghinweise_V_01_09w.pdf] Version 01-b, Berlin : Hochschule für
Technik und Wirtschaft, 23. November 2009.
Online-Quellen
V
Online-Quellen
Die folgende Tabelle listet zusätzlich verfügbare Online-Quellen für einige Quellen des
Literaturverzeichnisses auf:
(Mann, et al., 1947) http://projecteuclid.org/euclid.aoms/1177730491
(Pearson, 1900) http://zs.thulb.uni-jena.de/servlets/MCRFileNodeServlet/ jportal_derivate_00128512/PMS_1900_Bd50.pdf
Abschließende Erklärung
Wir versichern hiermit, dass wir die vorliegende wissenschaftliche Arbeit selbststän-
dig und ohne fremde Hilfe angefertigt und keine andere als die angegebene Literatur
benutzt haben. Alle von anderen Autoren wörtlich übernommene Stellen wie auch die
sich an die Gedankengänge anderer Autoren eng anlehnenden Ausführungen unse-
rer Arbeit sind besonders gekennzeichnet. Diese Arbeit wurde bisher in gleicher oder
ähnlicher Form keinem anderen Dozenten vorgelegt und auch nicht veröffentlicht.
Berlin, den 15. März 2010