institut für statistik und mathematische ... · institut für statistik und mathematische...
Post on 12-Oct-2019
6 Views
Preview:
TRANSCRIPT
Institut für Statistik und Mathematische Wirtschaftstheorie
Universität Augsburg
Datenanalyse I
Stefan Etschberger
Wintersemester 2004/2005
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Organisatorisches
• Vorlesung Montag, 8.30 - 10.15 Uhr
• Vorlesungsmaterialien sind wöchentlich unterhttp://www.wiwi.Uni-Augsburg.de/ibo -> Downloadsabrufbar
• 60-minütige Klausur, vier Leistungspunkte
• Wünschenswerte Vorkenntnisse: Statistik I, II
• Sprechstunde: Während des SemestersMontags, 13.00 - 14.00 Uhr WIWI, Raum 2325
• email: Etschberger@WIWI.Uni-Augsburg.de
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 1|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Inhalt
• Einleitung: Fragestellungen,
Überblick, Anwendungsbeispiele
• Daten: Objekte, Merkmale, Skalen
• Fehlende Daten: Ursachen,
Ausfallmechanismen,
Strukturanalyse, Behandlung
• Deskriptive Analyse: Univariate
deskriptive Statistiken,
Kreuztabellen, graphische
Darstellung
• Repräsentation: Ziele, Varianten,
Faktorenanalyse
• Klassifikation: Überblick über
Verfahren, Multiple Regression,
Varianzanalyse
• Segmentierung metrischer Daten:
Segmentierungsarten, Heuristiken,
Bewertungskriterien,
partitionierende- und hierarchische
Segmentierungsverfahren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 2|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
1EinleitungFragestellungen, Überblick, Anwendungsbeispiele
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 3|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Problemstellung
• Die Datenanalyse (Numerische Taxonomie,Multivariatenanalyse) stellt sich die Aufgabe,Ähnlichkeitsbeziehungen zwischen Elementen einerbestimmten Menge zu analysieren.
• Die Datenanalyse ist ein Teilgebiet der Statistik und kommt inder Regel dann zum Einsatz, wenn große Datenmengen durchmehrere Merkmale charakterisiert werden.
• Ausgangspunkt der Datenanalyse ist stets eine Datenmatrixoder eine Distanzmatrix.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 4|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Die Datenmatrix
• enthält zeilenweise Objekte (Merkmalsträger, cases)
• enthält spaltenweise Merkmale (variables, items)
BeispielMerkmale
ObjektePreis PS Verbrauch Land Wertverlust ABS
Tipo 1600 I.E. 20.800 90 8.5 I hoch nein
Honda Civic 1.3 20.400 75 7.8 JAP mittel nein
Mitsubishi Colt 1.5 19.700 84 7.8 JAP niedrig nein
Kadett LS 1.6i 19.400 75 7.5 D mittel ja
Renault 19 GTS 19.000 73 7.8 F mittel ja
VW Golf CL 20.500 70 8.1 D niedrig ja
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 5|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Die Distanzmatrix
• enthält zeilen- und spaltenweise Objekte.
• Die Einträge der Matrix sind Werte für die Verschiedenheit(Distanzen) zweier Objekte.
Objekte
ObjekteTipo
1600 I.E.
Honda
Civic 1.3
Mitsub.
Colt 1.5
Kadett
LS 1.6i
Renault
19 GTS
VW Golf
CL
Tipo 1600 I.E. 0.00 9.09 4.11 10.50 10.55 4.16
Honda Civic 1.3 9.09 0.00 7.05 2.41 2.45 7.65
Mitsubishi Colt 1.5 4.11 7.05 0.00 8.19 8.24 3.50
Kadett LS 1.6i 10.50 2.41 8.19 0.00 2.05 8.05
Renault 19 GTS 10.55 2.45 8.24 2.05 0.00 8.74
VW Golf CL 4.16 7.65 3.50 8.05 8.74 0.00
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 6|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Teilbereiche der Datenanalyse
Es lassen sich nach dem Zweck der Anwendung drei Teilbereiche
unterscheiden:
DatenverdichtendeVerfahren(deskriptiv)
• Kennzahlen
• Indizes
• Faktorenanalyse
StrukturaufdeckendeVerfahren(explorativ)
• Kreuztabellen
• Faktorenanalyse
• Clusteranalyse
• MDS
• Korrespondenzanalyse
StrukturprüfendeVerfahren(induktiv)
• Varianzanalyse
• Regressionsanalyse
• logistische Regression
• Diskriminanzanalyse
• Conjoint-Analyse
• Kausalanalyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 7|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Datenanalyse in der Forschung
Beliebige DatenExplorative Datenanalyse
• Klassifikation
• Repräsentation
• Identifikation
Theorie(n)
Inspiration
Intuition
Wissenstransfer,
allgemeine
Überlegungen
Repräsentative Daten
• empirische
Sozialforischung
• StichprobentheorieInduktive Methoden der
Statistik
Wissenschaftliche
Erkenntnisse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 8|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Klassische Anwendungsbereiche der Datenanalyse
Marketing/Marktforschung
• Marktsegmentierung
• Kundentypisierung
• Aufdecken von
Marktnischen
• Ermittlung von Marktre-
aktionen
Sozialwissenschaften
• Einstellungsanalysen
• Qualifikationsprofile
Biologie
• Zuordnung von Pflanzen
oder Tieren zu Gattun-
gen
Medizin
• Diagnose
• Überprüfung von Thera-
pieerfolgen
Volkswirtschaft
• Input-Output-Analysen
zur Abgrenzung und
Aggregation von Wirt-
schaftssektoren
Bibliothekswesen
• Katalogisierung von Bü-
chern
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 9|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Nutzung von Methoden der Datenanalyse in derMarktforschung
nach Gaul, Förster, Schiller (1986)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 10|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Die klassische 3-Teilung der DA
• Segmentierung (Clusteranalyse): Zusammenfassung vonObjekten zu homogenen Klassen aufgrund von Ähnlichkeiten inwichtigen Merkmalsbereichen
• Repräsentation: Darstellung von Objekten durch Punkte im2- oder 3-dimensionalen Raum, wobei Ähnlichkeitsbeziehungendurch räumliche Nähe zum Ausdruck kommen sollen
• Identifikation: Reproduktion einer gegebenen Segmentierungoder Repräsentation mit Hilfe weniger aussagekräftigerMerkmale (Ziel: Prognose, Klassifikation)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 11|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Datenanalyse
Segmentierung
Clusteranalyse
Repräsentation Identifikation
MDSKorrespondenz-
analyseFaktorenanalyse
einer
Klassifika-
tioneiner
Repräsen-
tation
Diskriminanz-
analyse
Conjoint-
analyse
Regressions-
analyse
Varianz-
analyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 12|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Segmentierung
• Eine meist unübersichtliche Menge vonUntersuchungsobjekten (z.B. Kunden, Produkte) ist inGruppen, Typen oder Klassen so aufzuteilen, dass die Objekteeiner Klasse möglichst ähnlich, die Objekte je zweier Klassenmöglichst verschieden sind.
K1
K2
K3
Anwendung: Kundentypologien, Produktkategorien,Marktsegmente
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 13|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Beispiel einer Segmentierung
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 14|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Typische Fragestellungen der Segmentierung in derMarktforschung
• Lassen sich die Kunden eines Kaufhauses entsprechend ihrerBedürfnisse in Gruppen einteilen?
• Gibt es bei Zeitschriften verschiedene Lesertypen?
• Wie kann man die Käuferschaft eines Produktes entsprechendihrer Mediengewohnheiten aufteilen?
• Welche Produkte sind einander besonders ähnlich (werden alsbesonders ähnlich empfunden)?
• Wie sollte ein neues Produkt aussehen (empfunden werden)?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 15|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Repräsentation
• Eine gegebene Menge von Untersuchungsobjekten (Produkte,Konkurrenten) ist in einem möglichst niedrig dimensioniertenRaum graphisch so anzuordnen, dass die Ähnlichkeit vonObjektpaaren durch ihre räumliche Distanz gutwiedergegeben wird.
D1
D2
Anwendung: Marktnischen, -verdichtungen, Konkurrenzanalysen
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 16|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Beispiel Repräsentation:Multidimensionale Skalierung (MDS)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 17|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Typische Fragestellungen der MDSin der Marktforschung:
• Inwieweit entspricht das eigene Produkt denIdealvorstellungen der Konsumenten?
• Welches Image besitzt die Marke XY?
• Hat sich die Einstellung der Konsumenten zu einer Marke inden letzten Jahren verändert?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 18|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Beispiel Repräsentation:Faktorenanalyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 19|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Typische Fragestellungen der Faktorenanalyse in derMarktforschung
• Lässt sich die Vielzahl der Eigenschaften, die die Käufer einerMarke als wichtig empfinden, auf wenige komplexe Faktorenreduzieren?
• Wie lassen sich darauf aufbauend die verschiedenen Markenanhand dieser Faktoren beschreiben?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 20|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Identifikation
• Die erhobenen Merkmale sind auf Zusammenhänge hin zuüberprüfen (Korrelation). Ferner ist aufzuzeigen, ob undgegebenenfalls wie bestimmte Merkmale durch andereMerkmale erklärt werden können.
M1,M2, . . .
Regressionsanalyse
M1,M2, . . .
Varianzanalyse
• Erklärung von Marktvariablen (Marktanteil, etc.) durchUnternehmensvariablen
• Analyse von Gruppenunterschieden
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 21|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Beispiel Identifikation: Varianzanalyse
Source
Term
DF Sum of
Squares
Mean
Square
F-Ratio Prob.
Level
A (Land) 3 9,691936E+08 3,230645E+08 2,97 0,050882 *
S 25 2,715837E+09 1,086335E+08
Total (Adj.) 28 3,685031E+09
Total 29
*) Eine Abhängigkeit des Prei-
ses vom Herstellerland kann zur
Irrtumswahrscheinlichkeit von 5
Prozent nicht bestätigt werden.
(H0 : alle Mittelwerte gleich, H1 :
MW ungleich
hier: H0 nicht ablehnen)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 22|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Typische Fragestellungen der Identifikation in derMarktforschung
Varianzanalyse
• Hat die Art der Verpackung einen Einfluss auf die Höhe derAbsatzmenge?
• Hat die Farbe einer Anzeige einen Einfluss auf die Zahl derPersonen, die sich an die Werbung erinnern?
• Hat die Wahl des Absatzweges einen Einfluss auf dieAbsatzmenge?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 23|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Typische Fragestellungen der Identifikation in derMarktforschung
Regressionsanalyse
• Wie verändert sich die Absatzmenge eines Produktes, wenn dieWerbeausgaben um x% gekürzt werden?
• Wie läßt sich der Preis für ein Produkt in den kommendenMonaten schätzen?
• Hat die Qualität einer Werbeanzeige einen signifikanten Einflussauf das Kaufverhalten der Adressaten?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 24|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Typische Fragestellungen der Identifikation in derMarktforschung
Diskriminanzanalyse
• In welcher Hinsicht unterscheiden sich Käufer vonNicht-Käufern?
• Welche Merkmale einer Anzeige tragen am meisten zu ihrerErinnerung bei?
• Lassen sich bestimmte Kreditkunden anhand der MerkmaleEinkommen, Schulbildung, Alter etc. als kreditwürdig einstufen?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 25|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Gliederung der Vorlesung
In Datenanalyse I bzw. Datenanalyse II behandelte Themen:
Beschreibungder Daten
• Objekte und Merkmale
• Distanzen
• Fehlende Daten
StrukturaufdeckendeVerfahren
• Clusteranalyse
• Faktorenanalyse
• MDS
• Korrespondenzanalyse
StrukturprüfendeVerfahren
• Regressionsanalyse
• Varianzanalyse
• Kovarianzanalyse
• Conjoint-Analyse
• Diskriminanzanalyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 26|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Literatur - Teil 1
• Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (2000): Multivariate Analysemethoden, 9. Auflage,
Springer, Berlin
• Bamberg, G.; Baur, F. (2002): Statistik, 12. Auflage, Oldenbourg, München
• Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten
Datenanalyse, Bergisch Gladbach
• Eckes, T.; Roßbach, H. (1980): Clusteranalysen, Kohlhammer, Stuttgart
• Everitt, B.; Dunn, G. (1991): Applied Multivariate Data Analysis, Arnold, London
• Fahrmeir, L.; Hamerle, A. (1996): Multivariate statistische Verfahren, 2. Auflage, de Gruyter, Berlin
• Hartung, J.; Elpelt, B.; Klösener, K.-H. (1995): Statistik, 10. Auflage, Oldenbourg, München
• Hartung, J.; Elpelt, B. (1999): Multivariate Statistik, 6. Auflage, Oldenbourg, München
• Hilbert, A. (1998): Zur Theorie der Korrelationsmaße, Eul, Bergisch Gladbach
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 27|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Literatur - Teil 2
• Jobson, J.D. (1991): Applied Multivariate Data Analysis, Volume I: Regression and Experimental
Design, Springer, New York
• Jobson, J.D. (1992): Applied Multivariate Data Analysis, Volume II: Categorical and Multivariate
Methods, Springer, New York
• Opitz, O. (1980): Numerische Taxonomie, UTB, Fischer, Stuttgart
• Schwaiger, M. (1997): Multivariate Werbewirkungskontrolle: Konzepte zur Auswertung von
Werbetests, Gabler, Wiesbaden
• Steinhausen, D.; Langer, K. (1977): Clusteranalyse: Einführung in Methoden und Verfahren der
automatischen Klassifikation, de Gruyter, Berlin
• Weber, E. (1974): Einführung in die Faktorenanalyse, Fischer, Stuttgart
• Tatsuoka, M (1988): Multivariate Analysis, Second Edition, Macmillan Publishing Company, New
York
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 28|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
Ablauf einer datenanalytischen Untersuchung
a) Präzisierung des Untersuchungsziels
b) Diskussion der Datenbasis
c) Datenerhebung und -erfassung
d) Datenanalyse
e) Interpretation der Ergebnisse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 29|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
a) Präzisierung des Untersuchungsziels
• Formulierung der Zielsetzung
• Abgrenzung der Untersuchungsobjekte
• Ableitung der taxonomischen Aufgabenstellung
- Segmentierung
- Repräsentation
- Identifikation
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 30|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
b) Diskussion der Datenbasis
• Auswahl der Merkmale
• Festlegung des Skalenniveaus oder
• Charakterisierung der Objekte durch direkte Vergleiche
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 31|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
c) Datenerhebung und -erfassung
• Primär- oder Sekundärerhebung
• Vollerhebung oder Teilerhebung (Stichprobenauswahl!)
• Datencodierung und ggf. Dateneingabe in DV-Systeme
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 32|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
d) Datenanalyse
• Univariate Datenanalyse (Screening,
erster Einblick in die Merkmalsstruktur,
Plausibilitätsprüfung)
Deskriptive Verfahren
• Multivariate Datenanalyse (nicht
’statistics all’, sondern Verfahrenseinsatz
nach Aufgabenstellung und Zielsetzung)
Explorative und
induktive Verfahren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 33|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einleitung
e) Interpretation der Ergebnisse
• Klassenstatistiken und Bezeichnungen bei Clusteranalysen
• Benennung der Achsen bei Repräsentationsverfahren
• Zusammenfassung signifikanter Einflussgrößen beiIdentifikationsverfahren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 34|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
2DatenObjekte, Merkmale, Skalen
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 35|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Gliederung Kapitel 2: Daten
2.1 Objekte und Merkmale
2.2 Merkmalstypen und Skalenarten• Nominale Merkmale• Ordinale Merkmale• Quantitative Merkmale
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 36|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
2.1 Objekte und Merkmale
Einige grundlegende Definitionen:
• G = {1, 2, 3, . . .} Grundgesamtheit von Objekten
• N = {1, . . . ,n} Objektmenge
• Falls G = N Vollerhebung
• Falls N ⊂ G Stichprobe aus der Grundgesamtheit
• M = {1, . . . ,m} Merkmalsmenge
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 37|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Die Datenmatrix
A = (aik)n×m =
a11 . . . a1m
.... . .
...
an1 . . . anm
Datenmatrix
mit aik als Ausprägung des Merkmals k bei Objekt i
• Zeilen von A (Objektvektoren): aTi = (ai1, . . . ,aim), i ∈ N
• Spalten von A (Merkmalsvektoren): ak =
a1k
...
ank
, k ∈ M
• Ak Menge der möglichen Ausprägungen
bei Merkmal k
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 38|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Beispiel: Hörer einer VorlesungMerkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen
Objekte
1 22 männlich Augsburg 5 BWL mit VD
2 25 männlich Karlsruhe 10 Mathe mit HD
3 21 weiblich München 4 VWL mit VD
4 28 männlich Augsburg 13 BWL mit VD
5 24 männlich Augsburg 8 BWL ohne VD
= A
Merkmal k Ausprägungsmenge Ak
Alter Menge der natürlichen Zahlen
Geschlecht {männlich, weiblich}
Wohnort Menge aller Orte
Semester Menge der natürlichen Zahlen
Studiengang {BWL, VWL, Mathematik, Informatik, ...}
Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom}
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 39|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
2.2 Merkmalstypen und Skalenarten
Grundsätzlich lassen sich folgende Merkmalstypen unterscheiden:
• Quantitative Merkmale:
Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen
benannt.
• Qualitative Merkmale:
Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe,
nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale).
Da es häufig von Vorteil ist, daß die Ausprägungen eines Merkmals durch Zahlen
wiedergegeben werden, quantifiziert man i.d.R. die qualitativen Merkmale.
Dies geschieht mit Hilfe einer Abbildung, die man Skala nennt.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 40|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Definition: Skala
Sei k ein Merkmal mit der Ausprägungsmenge Ak.Dann heißt die Abbildung f : Ak → R eine Skala.
Bemerkung:
Die Abbildung f sollte so gewählt werden, dass die Informationenund Relationen, die für bzw. zwischen den einzelnen Merkmals-ausprägungen aik gelten, auch für die Bildwerte f(aik) korrektsind.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 41|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Nominale Merkmale
Definition:
Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die
Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( 6=)
unterschieden werden kann.
Bezüglich der Äquivalenz (≈) zweier Objekte gilt:
i ≈k
j ⇔ aik = ajk bzw. i 6≈k
j ⇔ aik 6= ajk
Die Abbildung f : Ak → R mit
aik 6= ajk ⇒ f(aik) 6= f(ajk)
heißt Nominalskala.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 42|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Unterscheidung nominaler Merkmale
• Ein Merkmal heißt dichotom (zweiwertig, binär), wenn es genauzwei Ausprägungen besitzt. Beispiel: Geschlecht
• Ein Merkmal heißt polytom oder mehrwertig, wenn es mehr alszwei Ausprägungen besitzt. Beispiel: Wohnort
Bemerkung: Jedes mehrwertige Merkmal mit r Ausprägungenkann durch r dichotome Merkmale ersetzt werden, wobei jedeAusprägung ein Merkmal darstellt.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 43|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Beispiel: Nominale Merkmale
Alter Geschlecht Wohnort Semester Studiengang Prüfungen
Objekte
1 22 1 1 5 1 mit VD
2 25 1 2 10 2 mit HD
3 21 0 3 4 3 mit VD
4 28 1 1 13 1 mit VD
5 24 1 1 8 1 ohne VD
Dabei wird folgende
Skalierung verwendet:
Geschlecht: fGeschlecht(weiblich) = 0
fGeschlecht(männlich) = 1
Wohnort: fWohnort(Augsburg) = 1
fWohnort(Karlsruhe) = 2
fWohnort(München) = 3
Studiengang: fStudiengang(BWL) = 1
fStudiengang(Mathe) = 2
fStudiengang(VWL) = 3
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 44|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Ordinale Merkmale
Definition:
Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig
geordnet werden können.
Bezüglich der Ordnung zweier Objekte gilt:
i ≺k
j ⇔ aik < ajk → niedrigerer Rang
i ≈k
j ⇔ aik = ajk → gleicher Rang
i ≻k
j ⇔ aik > ajk → höherer Rang
Die Abbildung f : Ak → R mit
aik < ajk ⇒ f(aik) < f(ajk)
heißt Ordinalskala.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 45|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Beispiel: ordinale Merkmale: Prüfungen der Hörer
Alter Geschlecht Wohnort Semester Studiengang Prüfungen
Objekte
1 22 1 1 5 1 2
2 25 1 2 10 2 3
3 21 0 3 4 3 2
4 28 1 1 13 1 2
5 24 1 1 8 1 1
Dabei wird folgende Skalierung verwendet:
Prüfungen: f(ohne VD) = 1, f(mit VD) = 2, f(mit HD) = 3
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 46|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Quantitative Merkmale
Definition:
Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn esordinal ist und die Differenzen von Ausprägungspaaren vollständiggeordnet werden können.
Dies bedeutet insbesondere, dass das Ausmaß derUnterschiedlichkeit zweier Ausprägungen bestimmt werden kannund aussagekräftig ist. Je nachdem, welche Aussagen bzgl. diesesAusmaßes getroffen werden können, unterscheidet man dabei dieTypen Intervallskala, Verhältnisskala und Absolutskala.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 47|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Definition: Intervallskala
• Die Abbildung f : Ak → R mit
f(aik) = α · aik + β (α > 0, β ∈ R)
heißt Intervallskala.
• Nur der Abstand zwischen zwei Ausprägungen kann verglichenwerden:
- Kein natürlicher Nullpunkt
- z.B. Temperatur (Celsius, Fahrenheit)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 48|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Definition: Verhältnisskala
• Die Abbildung f : Ak → R mit
f(aik) = α · aik (α > 0)
heißt Verhältnisskala.
• Das Verhältnis zwischen zwei Ausprägungen kann sinnvollerWeise verglichen werden:
- Existenz eines natürlichen Nullpunktes
- z.B. Längen, Preise, Zeiten
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 49|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Definition: Absolutskala
• Die Abbildung f : Ak → IN0 mit
f(aik) = aik
heißt Absolutskala.
• Es existiert eine natürliche Maßeinheit:
- z.B. Stückzahlen
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 50|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Skalendegression und Skalenprogression
Ziel der Skalierung ist es, die durch die Datenmatrix gegebene Information angemessen abzubilden,
ohne Über- bzw. Unterschätzungen zu riskieren.
Es gilt:
• Grundsätzlich können alle Merkmale nominal skaliert werden.
• Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden.
Diese Änderungen der Skalenniveaus nennt man Skalendegression. Dabei ist ein
Informationsverlust in Kauf zu nehmen.
Aber es gilt auch:
• Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden.
• Ordinale Merkmale dürfen nicht metrisch skaliert werden.
Dieses Vorgehen nennt man Skalenprogression, bei der mehr Informationen in die Merkmale
interpretiert würde, als inhaltlich vertretbar ist (Gefahr der Fehlinterpretation)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 51|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Klassische Informationsniveaus
Informationsniveau
Ab
solu
tskala
Verhältnisskala
Intervallskala
MetrischOrdinalNominal
nie
drig
ho
ch
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 52|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Erweiterungen der klassischen Skalentypen
Es gibt Merkmale, bei denen eine Nominalskala die vorhandenen Informationen
nicht voll nutzt, eine Ordinalskala jedoch nicht vertretbar erscheint.
• Hierarchische Merkmale zeichnen sich durch Ausprägungspaare aus, die
ähnlicher sind als andere, wenn sie zu einem Oberbegriff zusammengefasst
werden können. Je abstrakter der Oberbegriff ist, unter dem sie
zusammengefasst werden können, desto unähnlicher sind sie.
• Bei verbandsgeordneten Merkmalen kann eine Merkmalsausprägung in
mehrere Komponenten zerlegt werden. Die Ähnlichkeit zweier
Ausprägungen solcher Merkmale misst man dann durch den Grad der
Übereinstimmung in den Komponenten. In einer graphischen Repräsentation
solcher Merkmale werden zwei Ausprägungen aik und ajk z.B. durch eine
Kante verbunden (sind also maximal ähnlich), wenn aik maximal echte
Teilmenge von ajk ist.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 53|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Beispiel: Hierarchisches MerkmalAlle Hörer
ordentliche
Studierende
Wirtschaftswiss.
BWL VWL
Sozialwiss.
Sozio Psycho
Naturwiss.
Mathe Informatik
Gasthörer
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 54|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Beispiel: Verbandsgeordnetes Merkmal
PKW-Beurteilung bzgl. mehrerer Eigenschaften
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 55|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Daten
Informationsniveaus
Informationsniveau
Verbandsgeordnet
Hierarchisch
MetrischOrdinalNominal
nie
drig
ho
ch
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 56|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
3Fehlende DatenUrsachen, Ausfallmechanismen, Strukturanalyse, Behandlung
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 57|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
3 Fehlende Daten (Missing Values, Missing Data, MD)
3.1 Ursachen fehlender Daten
3.2 Ausfallmechanismen
3.3 Strukturanalyse
3.4 Behandlung fehlender Daten
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 58|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
3.1 Ursachen fehlender Daten
Ablauf einer datenanalytischen Untersuchung
a) Präzisierung des Untersuchungsziels
b) Diskussion der Datenbasis
Merkmalsauswahl, Skalenniveau
c) Datenerhebung und -erfassung
Datenaufbereitung (PC-gestützt)
d) Datenanalyse
e) Interpretation der Ergebnisse
Ursachen für das Fehlen von Daten sind in den der eigentlichen Datenanalyse
vorgelagerten Stufen b) und c) zu suchen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 59|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Allgemeine Ausfallursachen
Diskussion der Datenbasis
• Fehlerhaftes Untersuchungs-
design, z.B. ’Alter der Kinder’
• Mangelhaftes Untersuchungs-
design, z.B. durch miss-
verständliche Fragen,
unübersichtliche oder zu
lange Fragebögen
Datenerhebung aus
Sekundärquellen
• Unvollständigkeit der
Sekundärquellen
• Verwendung mehrerer
Sekundärquellen
• Akualitätsprobleme
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 60|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Allgemeine Ausfallursachen
Datenerhebung aus Primärquellen
• Unangenehme oder persönliche
Fragen
• Übersehen von Fragen
• Mangelndes Wissen der Befragten
• Antwortverweigerung
• Motivationsprobleme bei der
Befragung
• Verständnisprobleme
• Meinungslosigkeit
• Zeitknappheit
Datenaufbereitung bzw. -erfassung
• Codierfehler
• Übertragungsfehler
• Löschung unmöglicher Daten
• Löschung fehlerhafter Daten
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 61|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
3.2 Ausfallmechanismen
Bei der Existenz von fehlenden Daten sind nicht dieAusfallursachen an sich, sondern lediglich die Auswirkungen aufdas Datenmaterial von Bedeutung. Die Ausfallursachen habenaber Auswirkungen auf das vorliegende Datenmaterial.
Das führt zur Frage nach dem Mechanismus, der zum Fehlen derDaten führt.
Man unterscheidet dabei zwei Arten von MD:
• Unsystematisch bzw. zufällig fehlende Daten
• Systematisch bzw. nicht-zufällig fehlende Daten
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 62|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Systematisch fehlende Daten
Die Ursache des Fehlens ist hierbei in den Merkmals-ausprägungen der fehlenden Daten selbst zu suchen.
Das bedeutet, eine Charakterisierung der entsprechendenObjekte anhand der fehlenden Ausprägungen ist möglich.
Wirkung:
Unter Umständen erhebliche Verzerrungen der Ergebnisse, wennbei der Auswertung nur die vorhandenen Daten betrachtetwerden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 63|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel für systematisch fehlende Daten
Im Rahmen einer Befragung werden ausschließlich die MerkmaleEinkommen und Alter erhoben.
Eine Verfälschung wäre dann gegeben, wenn beim MerkmalEinkommen lediglich Personen mit einem niedrigen Einkommenverweigern würden.
Eine Schätzung des mittleren Einkommens auf Basis dervorhandenen Daten überschätzt dann den wahren Wert.
Objektabhängiges Fehlen von Daten wegenAuskunftsunfähigkeit oder Unwilligkeit eines Befragten
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 64|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Unsystematisch fehlende Daten
werden durch Einflußfaktoren auf die Untersuchungssituationhervorgerufen, die sich nicht eindeutig auf bestimmte Objekteoder Merkmale konzentrieren.
Ursachen sind z.B. Unaufmerksamkeiten bei der Datenerhebungund/oder -aufbereitung
Verzerrungen der Ergebnisse sind nicht zu erwarten, wenn bei derAuswertung nur die vorhandenen Daten betrachtet werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 65|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Grundlegende, verbale Definitionen
Daten werden als zufällig fehlend bezeichnet, wenn
• die fehlenden Daten gleichmäßig über die Matrix gestreut sind(keine Konzentration),
• für ein Objekt ein fehlende Merkmalsausprägung unabhängigvon jeder anderen Merkmalsausprägung ist,
• für ein gegebenes Merkmal die fehlenden Ausprägungendieselbe Verteilung besitzen wie der ganze Merkmalsvektor,d.h. kein Zusammenhang zwischen dem Ausfallmechanismusund dem Wertebereich eines Merkmals existiert,
• zwischen den fehlenden Daten zweier Merkmale keinZusammenhang besteht.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 66|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Ausfallmechanismen: MAR und MCAR
Daten sind missing at random (MAR), wenn
• das Fehlen der Daten unabhängig von den fehlenden Wertenselbst ist,
• aber von anderen Merkmalen abhängen kann.
Daten sind missing completely at random (MCAR),
• wenn das Fehlen der Daten in keinerlei Beziehung zu denfehlenden und den vorhandenen Werten oder anderenMerkmalen und ihren Ausprägungen bei den Objekten mitfehlenden Werten steht.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 67|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel unsystematisch fehlender Daten
Im Rahmen einer Befragung werden ausschließlich die MerkmaleEinkommen und Alter erhoben, wobei einige Personen dieAngabe des Einkommens verweigern.
• Die Daten sind MAR, wenn das Fehlen derEinkommensangaben nicht von der Höhe des Einkommensselbst abhängt, es aber möglich ist, daß z.B ältere Personen dieAntwort tendenziell öfter verweigern.
• Ist das Fehlen der Einkommensangabe unabhängig von derHöhe des Einkommens und des Alters, dann sind die Datensogar MCAR.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 68|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Konsequenzen für die Datenauswertung
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 69|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
3.3 Strukturanalyse
Bemerkung:
Im Rahmen einer Strukturanalyse können im allgemeinen nurbestimmte Beziehungen, die fehlende Daten verursachenuntersucht werden. Die Untersuchung aller Einflussfaktoren ist i.a.nicht möglich.
Die Ergebnisse der Strukturanalysekönnen somit zwarhinreichend für eine Verwerfung,aber nurnotwendig für eine Akzeptierungeines bestimmten unsystematischenAusfallmechanismus sein.
!Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 70|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Die Indikatormatrix
Ausgangspunkt jeder Strukturanalyse fehlender Daten ist i.a. diesogenannte Indikatormatrix
V = (vik)n×m =
v11 . . . v1m
.... . .
...
vn1 . . . vnm
Indikatormatrix
mit vik als Indikator für das Fehlen der Ausprägungdes Merkmals k bei Objekt i
Es gilt dabei: vik =
{1 falls aik vorhanden
0 sonst
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 71|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel: Hörer einer Vorlesung
Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen
Objekte
1 männlich 5 BWL mit VD
2 25 männlich Karlsruhe 10
3 21 München 4 VWL mit VD
4 28 männlich Augsburg 13 BWL mit VD
5 24 männlich 8 BWL ohne VD
=⇒ V =
A G W Se St P
1 0 1 0 1 1 1
2 1 1 1 1 0 03 1 0 1 1 1 1
4 1 1 1 1 1 1
5 1 1 0 1 1 1
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 72|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Möglichkeiten der Strukturanalyse
Die Strukturanalyse läßt sich grundsätzlich in folgende Bereicheuntergliedern:
• Deskriptive Analyse
• Explorative Analyse
• Induktive Analyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 73|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Deskriptive Analyse
Zur rein deskriptiven Analyse der Datenmatrix hinsichtlich desAuftretens fehlender Daten bieten sich
• Kennzahlen (Missing-Data-Maße) oder
• graphische Verfahren an,
die erste Anhaltspunkte bezüglich des vorliegendenAusfallmechanismus ergeben (können).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 74|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Missing-Data-Maße - Teil I
Missing-Data-Maße (MD-Maße) verdichten die in denIndikatormatrizen enthaltenen Information und geben sie mit Hilfeeiner Kennzahl wieder.
Es existieren u.a. folgende Maße:
MD-Indikator für Objekt i vindi• =
1 fallsm∑
k=1
vik = m
0 sonst
MD-Indikator für Merkmal k vind•k =
1 fallsn∑
i=1
vik = n
0 sonst
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 75|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende DatenMissing-Data-Maße - Teil II
Anzahl der fehlenden Daten und
der vorhandenen bei Objekt i
vmisi• = m − vobs
i• = m −m∑
k=1
vik
Anzahl der fehlenden Daten und
der vorhandenen bei Merkmal k
vmis•k = n − vobs
•k = n −n∑
i=1
vik
Anzahl der vorhandenen Daten in
der Datenmatrix i
vobs =n∑
i=1
vobsi• =
m∑
k=1
vobs•k =
m∑
k=1
n∑
i=1
vik
Anzahl der vorhandenen Daten in
der Datenmatrix i
vmis = m · n − vobs
Des weiteren sind alle dargestellten Kennzahlen auch noch alsrelative Kennzahlen denkbar.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 76|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende DatenBeispiel: Hörer einer Vorlesung, Missing-Data-Maße
V =
A G W Se St P
1 0 1 0 1 1 1
2 1 1 1 1 0 03 1 0 1 1 1 1
4 1 1 1 1 1 1
5 1 1 0 1 1 1
⇒
Objekt 1 2 3 4 5
vindi• 0 0 0 1 0
vmisi• 2 2 1 0 1
vobsi• 4 4 5 6 5
⇒
Merkmal A G W Se St P
vind•k 0 0 0 1 0 0
vmis•k 1 1 2 0 1 1
vobs•k 4 4 3 5 4 4
Des Weiteren gilt:
n = 5, m = 6, n · m = 30,
vmis = 6, vobs = 24
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 77|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Graphische Verfahren
• Bei einer graphischen Darstellung der Indikatormatrix V könnensowohl das Ausmaß wie auch Konzentrationstendenzen derfehlenden Daten untersucht werden.
• Sind die fehlenden Werte jeweils regellos über die gesamteMatrix verteilt, dann wird man einen unsystematischenAusfallmechanismus vermuten.
• (Im nächsten, induktiven Schritt, entsteht dann das Problem, einobjektives Maß für systematischen Ausfall zu finden.)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 78|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel: Hörer einer Vorlesung
Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen
Objekte
1 männlich 5 BWL mit VD
2 25 männlich Karlsruhe 10
3 21 München 4 VWL mit VD
4 28 männlich Augsburg 13 BWL mit VD
5 24 männlich 8 BWL ohne VD
Fehlende Ausprägun-
gen werden durch das
Symbol • dargestellt=⇒
A G W Se St P
1 • •2 • •3 •4
5 •Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 79|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Graphische Verfahren mit Sortierreihenfolge
• Gerade bei größeren Datenmatrizen kann eine übersichtlichereDarstellung der MD-Muster erreicht werden, wenn dieIndikatormatrix bezüglich der Objekte sortiert wurde.
• Dabei kann der Sortieralgorithmus die Objekte mit denwenigsten MD zu Beginn stellen, solche mit vielen MD eher amEnde.
• Alternativ kann nach der Anzahl der MD innerhalb einesObjektes und der Spaltenposition einer fehlendenMerkmalsausprägung in der Datenmatrix geordnet werden
⇒ Ausfallmechanismen sind nach dem Sortiervorgang oft besserzu erkennen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 80|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Ein Sortieralgorithmus
Sortierrangfolge mittels der sogenannten Objekt-Pattern-Variablen PV , die gemäß
PVi = 2m − 1 −
m∑
k=1
vik · 2k−1
berechnet werden kann. Aufsteigende bzw absteigende Sortierungder Objekte wird dann nach der Regel
Objekt i vor Objekt j ⇐⇒ PVi 6 PVj
vorgenommen.
Analog kann die transponierte Indikatomatrix VT durch diegeeignete Konstruktion einer Merkmals-Pattern-Variable sortiertwerden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 81|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel: Hörer einer Vorlesung
Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen
Objekte
1 männlich 5 BWL mit VD
2 25 männlich Karlsruhe 10
3 21 München 4 VWL mit VD
4 28 männlich Augsburg 13 BWL mit VD
5 24 männlich 8 BWL ohne VD
Sortierung mittels PV
PVi = 2m − 1 −
m∑
k=1
vik · 2k−1
=⇒
i PVi A G W Se St P
4 0
3 2 •
5 4 •
1 5 • •
2 48 • •
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 82|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Explorative Analyse• Im Rahmen einer explorativen Analyse soll nach Zusammenhängen innerhalb einer
unvollständigen Datenmatrix gesucht werden, um dadurch die vorliegenden
Abhängigkeitsbeziehungen der fehlenden Werte aufzudecken.
• Den Ausgangspunkt der Betrachtung stellt damit, neben der Datenmatrix, in erster Linie die
jeweilige Indikatormatrix dar.
• Um die Eigenschaft MAR in der Datenmatrix zu untersuchen, können korrelationsanalytische,
faktoren-analytische, clusteranalytische sowie dependenz-analytische Ansätze zu Einsatz
kommen, um die Eigenschaft MAR in der Datenmatrix zu untersuchen.
• Eine Untersuchung der Abhängigkeit der MD von den Realisierungen der Daten selbst ist nicht
möglich, da zusätzliche (externe) Informationen, wie zum Beispiel die Verteilung der
Grundgesamtheit i.a. nicht genutzt werden können.
• Mittels explorativer Methoden können lediglich Abhängigkeitsbeziehungen der fehlenden Werte
innerhalb der Datenmatrix aufgezeigt, aber nicht statistisch überprüft werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 83|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Korrelationsanalytische Ansätze
• dienen der Untersuchung der Abhängigkeit der fehlendenAusprägungen vom Fehlen der Daten bei anderen Merkmalen.
• Eine Berechnung kann mit Hilfe aller gängigenKorrelationskoeffizienten, angewandt auf die Spalten derIndikatormatrix V , erfolgen.
• Besonders geeignet ist der Phi-Koeffizient Φ, der demBravais-Pearson-Koeffizient r für binäre Variablen entspricht.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 84|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Phi-Koeffizient: Definition
Φ ist ein Zusammenhangsmaß, das für Kontingenztabellenentwickelt wurde und speziell für 2 × 2 Tabellen der Form
0 1
0 αkl βkl
1 γkl δkl
mit
αkl = |{i : vik = 0, vil = 0}|
und βkl, γkl, δkl analog
wie folgt definiert ist:
Φkl =αklδkl − βklγkl√
(αkl + βkl) (γkl + δkl) (αkl + γkl) (βkl + δkl)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 85|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Phi-Koeffizient Φ - Eigenschaften
Φ kann dabei Werte zwischen
-1 Es existieren nur (0,1)/(1,0)-Paare und
+1 Es existieren nur (0,0)/(1,1)-Paare
annehmen.
Werte in der Nähe von Null weisen daraufhin, dass zwischen demFehlen der Werte beim ersten Merkmal und dem Fehlen der Wertebeim zweiten Merkmal kein Zusammenhang besteht.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 86|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel: Hörer einer Vorlesung
Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen
Objekte
1 männlich 5 BWL mit VD
2 25 männlich Karlsruhe 10
3 21 München 4 VWL mit VD
4 28 männlich Augsburg 13 BWL mit VD
5 24 männlich 8 BWL ohne VD
Korrelationsmatrix der Φ Koeffizienten
(Homogenes Merkmal Semester
weggelassen)=⇒
A G W St P
A 1 -0.25 0.61 -0.25 -0.25
G 1 -0.41 -0.25 -0.25
W 1 -0.41 -0.41
St 1 1
P 1
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 87|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Weitere explorative Ansätze
Die Faktorenanalytische Untersuchung dient ebenfalls derUntersuchung der Abhängigkeit der fehlenden Ausprägungen vomFehlen der Daten bei anderen Merkmalen und basiert auf der obenbeschriebenen Korrelationsmatrix.
Die Clusteranalyse untersucht die Ähnlichkeit derMissing-Data-Muster der Merkmale/Objekte und verwendet dieIndikatormatrix selbst als Ausgangspunkt. Die Zielrichtung ist aberdieselbe wie oben.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 88|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Induktive Analyse
Im Rahmen einer induktiven Analyse der MD-Struktur unvollständiger
Datenmatrizen sollen zuvor formulierte Hypothesen bezüglich der fehlenden
Werte mittels statistischer Testverfahren überprüft werden.
Dabei betreffen die in diesem Zusammenhang relevanten Hypothesen das
Vorliegen von unsystematischen Ausfallmechanismen.
Die Hypothesen lassen sich in der folgenden allgemeinen Form formulieren:
H0: Die Daten fehlen zufällig.
H1: Die Daten fehlen systematisch.
Bemerkung:
Alle Tests zur Überprüfung dieser Hypothesen bestätigen nie das zufällige
Fehlen von Daten, sondern können lediglich bestimmte Formen eines
zufälligen Fehlens mit der Irrtumswahrscheinlichkeit α ausschließen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 89|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Typen von Testverfahren
Typ 1: Untersuchung der Abhängigkeit der MD von den an sichunbekannten Realisierungen dieser Werte (MAR): (Anpassungstest,parametrische Einstichproben-Tests)
Typ 2: Untersuchung der Abhängigkeit der MD vom Fehlen derDaten bei anderen Merkmalen (MAR): (Test derKorrelationskoeffizienten bzw. -matrix)
Typ 3: Untersuchung der Abhängigkeit der MD von denvorhandenen Ausprägungen bei anderen Merkmalen; Testen aufMCAR , wenn MAR vorliegt: (Test auf Lokalisationsunterschiedebzw. Unabhängigkeit)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 90|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Testverfahren - Typ 1
Untersuchung der Abhängigkeit der MD von den unbekanntenRealisierungen dieser Werte (MAR)
• Überprüfung, inwieweit die für ein Merkmal vorliegenden Dateneiner hypothetischen Verteilung genügen
• damit Berücksichtigung externer Informationen notwendig,wie z.B. Verteilungsannahmen bezüglich der Grundgesamtheit
• praktische Anwendung stark eingeschränkt!
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 91|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Der χ2-Anpassungstest
• Überprüft für ein nominales oder ordinales Merkmal, ob dievorliegenden Daten einer hypothetischen Verteilung genügen(H0).
• Kann sinnvoll angewandt werden, wenn nur wenigeverschiedene Merkmalsausprägungen vorliegen
• benötigt eine Stichprobengröße, die garantiert, dass jedeMerkmalsausprägung mindestens fünf Beobachtungenaufweist; ansonsten müssen Merkmalsklassen gebildet werden;sinnvollerweise aus benachbarten Werten.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 92|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Der χ2-Anpassungstest: Definition
Die Wahrscheinlichkeit einer Merkmalsausprägung at sei pt, diebeobachtete Häufigkeit sei ht. Insgesamt können k verschiedeneAusprägungen bei n Objekten beobachtet werden. DerTestfunktionswert T des χ2-Anpassungstests ist dann wie folgtdefiniert:
T =
k∑
t=1
(ht − n · pt)2
n · pt
T folgt näherungsweise einer χ2(k − 1)-Verteilung.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 93|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel: χ2-Anpassungstest für MD
Im Rahmen einer Analyse werden 100 Personen befragt, von denen 35 beim
Merkmal Geschlecht keine Antwort gegeben haben. Unter den Verbleibenden
waren 30 Männer und 35 Frauen. Von der zugrunde gelegten Grundgesamtheit
weiß man, dass die beiden Geschlechter im Verhältnis 2 : 3 verteilt sind.
Für den Testfunktionswert T ergibt sich
T =
k∑
t=1
(ht − n · pt)2
n · pt
=
(30 − 65 · 2
5
)2
65 · 25
+
(35 − 65 · 3
5
)2
65 · 35
= 1.025
Das 95%-Fraktil der χ2(1)-Verteilung ist 3.84, der Testfunktionswert ist in diesem
Fall kleiner, die Nullhypothese kann also nicht verworfen werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 94|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Der Einstichenproben-Gaußtest
überprüft, inwieweit die für ein kardinales Merkmal vorliegendenDaten aus einer Grundgesamtheit mit dem Erwartungswert µ
stammen können.
kann sinnvoll angewandt werden, wenn viele verschiedeneMerkmalsausprägungen vorliegen
ist i.A. nur ein approximativer Test
benötigt daher eine Stichprobe, die mindestens 30Beobachtungen enthält. Liegen weniger als 30 Beobachtungen vor,kann im Fall einer N(µ,σ)-Verteilung der Einstichproben-T-Testangewandt werden ( Bamberg/Baur Kap. 14.4 )
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 95|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Testverfahren - Typ 2
Untersuchung der Abhängigkeit der MD vom Fehlen der Daten beianderen Merkmalen (MAR)
- Überprüfung, inwieweit das Fehlen der Daten bei einemMerkmal vom Fehlen der Daten bei einem anderen Merkmalabhängt
- Berechnung der Korrelationskoeffizienten Φ bzw. derKorrelationsmatrix R
- Berücksichtigung zusätzlicher, also externer Informationennicht notwendig und damit sehr praxisnah
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 96|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Globaltest der Korrelationsmatrix R
Sei R = (Φkl) = (rkl) die nicht-singuläre Korrelationsmatrix derDimension q × q, die auf Basis der Indikatormatrix V dieAbhängigkeit zwischen dem Fehlen der Daten innerhalb derDatenmatrix beschreibt mit: 2 6 q 6 m. Der Testfunktionswert Wdes Globalen Korrelationstests ist dann wie folgt definiert
W =
(4
3q − n +
5
6
)· ln(det R)
und folgt approximativ einer χ2-Verteilung. Die Anzahl derFreiheitsgrade df bestimmt sich gemäß
df =1
2· q · (q − 1)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 97|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel: Hörer einer Vorlesung
Um zu analysieren, ob das Feh-len der Daten in den ersten dreiMerkmalen des Beispiels zufälligoder systematisch ist, überprüftman die Korrelationsmatrix R derersten drei Merkmale mit Hilfe desGlobaltests.
R A G W
A 1 -0.25 0.61
G 1 -0.41
W 1
Als Determinante von R ergibt sich zunächst 0.5224.
Da die Teststatistik W, gemäß
W =
(4
3· 3 − 5 +
5
6
)· ln(0.5224) = 0.1082
kleiner ist als das 95%-Fraktil der χ2(3)-Verteilung (7.81), kann dieNullhypothese nicht verworfen werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 98|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Testverfahren - Typ 3: auf MCAR
Untersuchung der Abhängigkeit der MD von den vorhandenenAusprägungen bei anderen Merkmalen: MCAR. Voraussetzung:MAR ist schon gezeigt oder kann angenommen werden.
- Überprüfung, inwieweit das Fehlen der Daten bei Merkmal k aufbestimmte Ausprägungen eines Merkmals l 6= k zurückzuführensind
- Berechnung skalenniveau-adäquater Lageparameter fürsinnvolle Merkmale l, möglichst ohne MD in l, wobei eineGruppierung in Merkmal k fehlt bzw. Merkmal k fehlt nicht erfolgt
- anschließend Test der Lageparameter auf Gleichheit
- Berücksichtigung externer Informationen nicht notwendigund damit sehr praxisnah
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 99|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Approximativer Zweistichenproben-Gaußtest
überprüft, inwieweit die für ein kardinales Merkmal in zweiGruppen vorliegenden Daten parametrischen, hypothetischenVerteilungen genügen, die durch die Erwartungswerte µ1 und µ2
charakterisiert sind (H0 : µ1 = µ2).
benötigt zwei Stichproben, die je mindestens 30 Beobachtungenenthalten. Liegen weniger als 30 Beobachtungen vor, könnenalternative Zweistichproben-Test angewandt werden (z.B. einexakter 2-Stip-B(n,p)-Test, falls Anzahl der Beobachtungen nichtzu groß, siehe Bamberg, Baur, S. 193f ).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 100|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Approximativer Zweistichenproben-Gaußtest:Definition
Sei X bzw. Y der Mittelwert der n1 bzw. n2 vorhandenenAusprägungen bei Merkmal l für die Objekte, für die bei Merkmal k
fehlende bzw. vorhandene Daten vorliegen. Des Weiteren seien S1
und S2 die zugehörigen empirischen Standardabweichungen.Dann ist der Testfunktionswert T des approximativenZweistichproben-Gaußtest wie folgt definiert
T =X − Y√S2
1
n1+
S22
n2
und folgt approximativ einer N(0, 1)-Verteilung.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 101|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiel für app. 2-Stip-Gauß-Test
Bei der Befragung von 100 Personen haben 35 beim MerkmalGeschlecht keine Antwort gegeben. Beim Merkmal Alter hingegenantworteten alle Personen, wobei festzustellen ist, dass dasDurchschnittsalter unter den Verweigerern 28.4 Jahre ist, bei denAntwortenden aber 30.2. Die separate Berechnung der empirischenStandardabweichung ergibt die Werte 2 bzw. 3 Jahre. Da derTestfunktionswert T gemäß
T =28.4 − 30.2√
435
+ 965
= −3.58
im Verwerfungsbereich (−∞,−1.96) ∪ (1.96,∞) derN(0, 1)-Verteilung zur Irrtumswahrscheinlichkeit von 5% liegt,muss die Nullhypothese verworfen werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 102|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
3.4 Behandlung fehlender Daten
Auf Basis der Ergebnisse der Strukturanalyse können eventuellgeeignete Verfahren zur Behandlung der fehlenden Daten,sogenannte MD-Verfahren, angewandt werden.
Man unterscheidet dabei folgende Verfahrenskategorien
- Eliminierungsverfahren
- Imputationsverfahren
- Sonstige Verfahren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 103|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Eliminierungsverfahren (EV)
Unter dem Begriff der EV sind Methoden zur Behandlung desunvollständigen Datenmaterials zusammengefasst, die Objektebzw. Merkmale mit fehlenden Werten aus der Untersuchungausschließen.
Das Eliminieren von Objekten ist nur unter der sehr restriktivenAnnahme, dass die Daten der Bedingung MCAR genügen,uneingeschränkt anwendbar.
Die anschließende Auswertung kann auf Basis eines reduzierten,aber vollständigen Datenmaterials erfolgen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 104|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Complete-Case Analysis
Im Rahmen einer Auswertung der vollständig erhobenenObjekte werden nur die Objekte in einer Analyse verwendet,deren Merkmalsausprägungen bezüglich aller Merkmale vorliegen.
Gleiches gilt auch für die Auswertung vollständig erhobenerMerkmale.
Falls die Datenmatrix einen geringen Prozentsatz fehlenderWerte aufweist (< 5%), wird die Durchführung einerObjekt-eliminierung als akzeptabel bezeichnet. Fehlen mehr Daten,so kann dieses Verfahren zu erheblichen Verzerrungen führen,wenn die Voraussetzung MCAR nicht gesichert ist.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 105|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Available-Case Analysis
Werden nur univariate oder bivariate Kennzahlen bzw. Verfahrenauf Basis der unvollständigen Datenmatrix angewandt, so ist esnicht sinnvoll, alle Objekte zu eliminieren, die überhaupt ein MDvorweisen. Sinnvoller erscheint hier nur, die Objekte zu eliminieren,die bei dem bzw. den betrachteten Merkmal(en) fehlende Werteaufweisen.
Man erhält so bei der Auswertung die available-case analysisbzw. die pairwise available-case analysis.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 106|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Beispiele
Für: Available-case analysis:Berechnung aller univariaten Kennzahlen, z.B.
• Lageparameter oder
• Streuungsparameter
auf Basis der vorhandenen Daten des Merkmals
Für Pairwise available-case analysis:
Berechnung der Korrelation zwischen zwei Merkmalen auf Basisder Objekte, für die bei beiden Merkmalen Werte vorliegen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 107|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Eigenschaften der Eliminierungsverfahren
+ Vorteil: Einfache Anwendbarkeit
Resultat: Vollständige Datenmatrix
- Nachteil: Informationsverlust durch die
Eliminierung vorhandener Daten
Bemerkung:
Viele Statistiksoftwarepakete bieten Eliminierungsverfahren an.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 108|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Imputationsverfahren (IV)
Unter dem Begriff der IV sind Methoden zur Behandlung desunvollständigen Datenmaterials zusammengefasst, die diefehlenden Werte in der Datenmatrix mit Hilfe von Schätzungenersetzen, die auf den vorhandenen Werten basieren.
In Abhängigkeit von der Imputationstechnik müssen die DatenMAR oder MCAR sein.
Die anschließende Auswertung kann auf Basis des vollständigenDatenmaterials erfolgen, unterliegt aber gewissen Verzerrungen,die aber i.a. auf ein akzeptables Maß reduziert werden können.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 109|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Einfache Imputationstechniken
• Die hier vorgestellten IV liefern ohne großen AufwandSchätzungen für die fehlenden Daten
• setzen aber voraus, dass das Fehlen einzelner Werteunabhängig von den fehlenden sowie den vorhandenen Werteder Datenmatrix ist (MCAR)
Man unterscheidet dabei vor allem
• Imputation des Lageparameters
• Imputation mittels Verhältnisschätzer
• Imputation mittels Zufallsauswahl
• Imputation auf Basis von Expertenratings
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 110|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Imputation des Lageparameters
Ausgehend von einer Datenmatrix kann als Imputationswert z.B. ein Lageparameter herangezogen
werden. In Abhängigkeit vom jeweiligen Skalenniveau der Merkmale verwendet man dann z.B. als
Schätzwert für die fehlenden Parameter
• für metrisch skalierte Merkmale einer Datenmatrix das arithmetische Mittel
aik = ak =1
|Nk|
∑
j∈Nk
ajk ∀i,k : vik = 0 ,
• für ordinal skalierte den Median
aik = aMedk ∀i,k : vik = 0 und
• für nominal skalierte den Modus
aik = aModk ∀i,k : vik = 0.
Dabei bezeichnet Nk = {i : vik = 1}.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 111|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Imputation mittels Verhältnisschätzer• Voraussetzungen:
1. Merkmal Mk mit MD hat metrisches Datennvieau und es existiert ein weiteres, zu Mk
hoch korreliertes Merkmal Ml, das ebenfalls metrisches Datenniveau besitzt.
2. Beim Hilfsmerkmal Ml müssen mindestens für die Objekte, bei denen beim zu
ersetzenden Merkmal Mk Daten zu schätzen sind, Werte vorhanden sein.
• Dabei werden die fehlenden Daten von Mk durch die Verwendung des Hilfsmerkmals Ml
geeignet ersetzt:
aik = aRatiok =
∑
j∈Nl
ajl
|Nl|·
∑
j∈Nk
ajk
∑
j∈Nk
ajl
∀i,k : vik = 0(k, l ∈ M,Nk ⊆ Nl
Bemerkungen:
• Nk = Nl ⇒ aRatiok = ak
• Für sinnvolle Verhältnisschätzungen sollte deswegen Nk ⊂ Nl gelten
• Ideal wäre Nl = {1, . . . ,n}
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 112|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Imputation mittels Zufallszahlen
Die Imputation durch Zufallszahlen ist ebenfalls an die BedingungMCAR gebunden.
Dabei werden die fehlenden Daten
• durch einen von einem Zufallszahlengenerator erzeugtenWert oder
• durch eine Zufallsauswahl aus den vorhandenen Daten
ersetzt.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 113|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Fehlende Daten
Sonstige Verfahren
Parameterschätzverfahren
• Schätzung von Erwartungswert, Varianz und Kovarianz aufBasis der nicht vervollständigten Daten
• Techniken: Auf Basis der Maximum-Likelihood-Theorie
EM-Algorithmus (Expectation Maximization)
Multivariate Analyseverfahren: Entwicklung spezieller Verfahren,die das Fehlen von Daten explizit berücksichtigen, z.B. bei der
• Clusteranalyse mit Missing value linkage oder der
• Multidimensionale Skalierung mit ALSCAL
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 114|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Einschub: Datenanalyse mit RR ist eine open-source Umgebung für Statistik und Datenanalyse. Die meisten Beispiele
der Vorlesung wurden mit R berechnet oder zumindest überprüft.
Vorteile von R (aus: simpleR Using R for Introductory Statistics, John Verzani)
• R is free. R is open-source and runs on UNIX, Windows and Macintosh.
• R has an excellent built-in help system.
• R has excellent graphing capabilities.
• Students can easily migrate to the commercially supported S-Plus program if commercial
software is desired.
• R’s language has a powerful, easy to learn syntax with many built-in statistical functions.
• The language is easy to extend with user-written functions.
• R is a computer programming language. For programmers it will feel more familiar than others
and for new computer users, the next leap to programming will not be so large.
R History The S language was developed in the late 1980s at AT&T labs. The R project was started by
Robert Gentleman and Ross Ihaka of the Statistics Department of the University of Auckland in 1995.
It has quickly gained a widespread audience. It is currently maintained by the R core-development
team, a hard-working, international team of volunteer developers. The R project web page
http://www.r-project.org is the main site for information on R. At this site are directions for
obtaining the software, accompanying packages and other sources of documentation.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 115|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
4Deskriptive AnalyseUnivariate deskriptive Statistiken, Kreuztabellen, Graphische
Darstellungsverfahren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 116|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
4 Deskriptive Analyse
4.1 Univariate deskriptive Statistiken
4.2 Häufigkeitsauszählungen, Kreuztabellen
4.3 Graphische Darstellungsverfahren
- Boxplots
- Sterndiagramme
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 117|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Ziele der deskriptiven Analyse
Die deskriptive Analyse dient einer möglichst einfachenCharakterisierung der Daten und soll
• eine einfache Beschreibung der Merkmals- und/oderObjektstruktur und
• Hinweise für eine geeignete Gewichtung der Merkmale beider Aggregation von Distanzen
liefern.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 118|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
4.1 Univariate deskriptive Statistiken
dienen einem ersten Einblick in die Struktur einzelner Merkmale,oft auch einer Ausreißererkennung.
Wichtige skalenniveau-adäquate Kennzahlen sind:
• die Lageparameter
- Modus, Minimum, Maximum
- Quartile, Median, Mittelwert
• die Streuungsparameter
- mittlere quadratische Abweichung, Standardabweichung,Spannweite
- Modalabweichung, QuartilsabstandDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 119|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Lageparameter: Definition α-Quantil ( α-Fraktil)
An n Objekten 1, . . . ,n werden die Ausprägungen eines metrischoder ordinal skalierten Merkmals Mj beobachtet und aij
bezeichnet den Beobachtungswert am i-ten Objekt. Ordnet manaj aufsteigend gemäß ai1j 6 ai2j 6 . . . 6 ainj, so berechnet sichdas α-Quantil ajα
wie folgt:
ajα=
aikj , falls nα keine ganze Zahl ist (mit k als die auf
nα folgende ganze Zahl)
12
(aikj + aik+1j) , falls nα eine ganze Zahl ist (mit k = nα)
Der Median ist definiert als das 12
-Quantil.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 120|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Beispiel: Hörer einer Vorlesung
Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen
Objekte
1 22 männlich Augsburg 5 BWL mit VD
2 25 männlich Karlsruhe 10 Mathe mit HD
3 21 weiblich München 4 VWL mit VD
4 28 männlich Augsburg 13 BWL mit VD
5 24 männlich Augsburg 8 BWL ohne VD
Bemerkung: Das ordinale Merkmal Prüfungen wird mit Hilfe derWerte 1, 2 bzw. 3 skaliert.
Eine Skalierung der nominalen Merkmale ist (hier) nichtnotwendig.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 121|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Lageparameter der Merkmale
Merkmale Alter Geschlecht Wohnort Semester Studieng. Prüfungen
Objekte
1 22 männlich Augsburg 5 BWL 2
2 25 männlich Karlsruhe 10 Mathe 3
3 21 weiblich München 4 VWL 2
4 28 männlich Augsburg 13 BWL 2
5 24 männlich Augsburg 8 BWL 1
Modus - männlich Augsburg - BWL 2
Minimum 21 - - 4 - 1
25% - Quartil 22 - - 5 - 2
Median 24 - - 8 - 2
75% - Quartil 25 - - 10 - 2
Maximum 28 - - 13 - 3
Mittelwert 24 - - 8 - 2
unzulässig
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 122|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Streuungsparameter der Merkmale
Merkmale Alter Geschlecht Wohnort Semester Studieng. Prüfungen
Objekte
1 22 männlich Augsburg 5 BWL 2
2 25 männlich Karlsruhe 10 Mathe 3
3 21 weiblich München 4 VWL 2
4 28 männlich Augsburg 13 BWL 2
5 24 männlich Augsburg 8 BWL 1
Modalabweich. - 1 2 - 2 2
Quartilsabst. 3 - - 5 - 0
Spannweite 7 - - 9 - 2
Mittl. qdr. Abw. 6 - - 10.8 - 0.4
Standardabw. 2.45 - - 3.29 - 0.63
unzulässig
����
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 123|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
4.2 Häufigkeitsauszählungen, Kreuztabellen
dienen vor allem der Aufdeckung der Merkmalsstruktur beinominalen Merkmalen
Geeignete Kenngrößen sind absolute und relative Häufigkeitender Merkmalsausprägungen
• eines Merkmals ⇒ Häufigkeitsauszählung
• zweier Merkmale ⇒ Kreuztabellen
Kaum für Merkmale mit vielen verschiedenen Ausprägungengeeignet (kardinale Merkmale)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 124|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Beispiel: Hörer einer Vorlesung
Alter Geschlecht Wohnort Semester Studiengang Prüfungen
1 22 männlich Augsburg 5 BWL mit VD
2 25 männlich Karlsruhe 10 Mathe mit HD
3 21 weiblich München 4 VWL mit VD
4 28 männlich Augsburg 13 BWL mit VD
5 24 männlich Augsburg 8 BWL ohne VD
Berechnung der Häufigkeiten für die nominalen MerkmaleGeschlecht, Wohnort, Studiengang sowie das ordinale MerkmalPrüfungen
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 125|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Beispiel: Hörer einer Vorlesung
Augsburg Karlsruhe München
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Wohnort
BWL Mathe VWL
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Studiengang
mit HD mit VD ohne VD
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Pruefungen
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 126|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
4.3 Graphische Darstellungsverfahren
dienen sowohl der Darstellung
• der Merkmalsstruktur ⇒ Boxplot
als auch der Darstellung
• der Objektstruktur ⇒ Sterndiagramme
und sind generell für nominal binäre Merkmale (im Sinne von„Eigenschaft vorhanden: ja/nein“), ordinale und kardinaleMerkmale geeignet.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 127|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Boxplots
• dienen der Darstellung der Merkmalsstruktur eines nicht
nominal-polytomen Merkmals
• und bereiten ausgewählte Quantile des Merkmals graphisch auf.
Der Aufbau:
potentielle Ausreißer
Minimum
10%-Quantil
25%-Quantil
Median
75%-Quantil
90%-Quantil
Maximum
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 128|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive AnalyseBeispiel: The Effect of Vitamin C on Tooth Growth in Guinea Pi gs
Description: The response is the length of odontoblasts (teeth) in each of 10 guinea
pigs at each of three dose levels of Vitamin C (0.5, 1, and 2 mg) with each of two delivery methods
(orange juice or ascorbic acid). (Src.: C. I. Bliss (1952) The Statistics of Bioassay. Academic Press.)
0.5 1 2
05
1015
2025
3035
Guinea Pigs’ Tooth Growth
Vitamin C dose mg
toot
h le
ngth
0.5 1 2
05
1015
2025
3035
Ascorbic acidOrange juice
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 129|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Beispiel Hörer einer Vorlesung
Alter Geschlecht Wohnort Semester Studiengang Prüfungen
1 22 männlich Augsburg 5 BWL 2
2 25 männlich Karlsruhe 10 Mathe 3
3 21 weiblich München 4 VWL 2
4 28 männlich Augsburg 13 BWL 2
5 24 männlich Augsburg 8 BWL 1
Boxplots zu den Merkmalen Alter, Semester und Prüfungen?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 130|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive AnalyseSterndiagrammedienen der Darstellung der Objektstruktur ausgewählter Objekte bei Betrachtung
mehrerer nicht nominal-polytomer Merkmale
und stellen für jedes Objekt die jeweilige Merkmalsausprägung mit Hilfe eines Sternzackens dar, der
eine der relativen Größe der Ausprägung entsprechend Länge besitzt.
Aufbau der Sterndiagramme
Gemäß der Definition gilt für die Länge eines Zackens (als Anteil vom Kreisradius):
• größte Merkmalsausprägung: Zackenlänge = 100 %
• kleinste Merkmalsausprägung: Zackenlänge = 0 %
(der Zacken verschwindet im Mittelpunkt)
Beliebige Ausprägung bei Objekt i bzgl. Merkmal k: Die Zackenlänge selbst berechnet sich dabei
gemäß
Zackenlänge =
aik − minj
ajk
maxj
ajk − minj
ajk
∈ [0%, 100%]
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 131|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive AnalyseBeispiel: Motor Trend Car Road Tests
Description: The data was extracted from the 1974 Motor Trend US
magazine, and comprises fuel consumption and 10 aspects of automobile
design and performance for 32 automobiles (1973-74 models).
Format: A data frame with 32 observations on 11 variables.
1 mpg Miles/(US) gallon
2 cyl Number of cylinders
4 hp Gross horsepower
6 wt Weight (lb/1000)
7 qsec 1/4 mile time
10 gear Number of forward gears
11 carb Number of carburettors
Source: Henderson and Velleman (1981), Building multiple regression models
interactively. Biometrics, *37*, 391-411.Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 132|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive AnalyseBeispiel: Motor Trend Car Road Tests
Mazda RX4Mazda RX4 Wag
Datsun 710Hornet 4 Drive
Hornet SportaboutValiant
Duster 360Merc 240D
Merc 230Merc 280
Merc 280CMerc 450SE
Merc 450SLMerc 450SLC
Cadillac FleetwoodLincoln Continental
Chrysler ImperialFiat 128
Honda CivicToyota Corolla
Toyota CoronaDodge Challenger
AMC JavelinCamaro Z28
Pontiac FirebirdFiat X1−9
Porsche 914−2Lotus Europa
Ford Pantera LFerrari Dino
Maserati BoraVolvo 142E
mpg
cylhp
wt
qsec
gearcarb
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 133|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Deskriptive Analyse
Interpretation der Sterndiagramme
Anhand der Sterndiagramme lassen sich ähnliche und unähnlicheObjekte (bzgl. der ausgewählten Merkmale) erkennen.
Somit sollten gerade die Objekte mit Hilfe der Sterndiagramme alsähnlich erkannt werden, die bei einer Distanzaggregation(siehe Datenanalyse II) den kleinsten Distanzindex erhaltenhaben.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 134|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
5RepräsentationZiele, Varianten, Faktorenanalyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 135|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
5 Repräsentation
5.1 Einführung
5.2 Faktorenanalyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 136|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
5.1 Einführung
Ziel der Repräsentation
Anordnung der Objekte in einem möglichst niedrigdimensionierten Raum, so dass die relative Lage der sichergebenden Punkte (Objekte) die Ähnlichkeit der Objekteangemessen beschreibt.
• Aufdeckung von
Gruppierungen leichter
(Kontrolle einer Klassifikation)
• Durch Interpretation der
Achsen evtl. Aufschluss über
den Grund der Lage
bestimmter Objekte
••
•
•
•
••
•
Dimension 2
Dimension 1
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 137|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Varianten der Repräsentation (I)
Mehrdimensionale Skalierung (Datenanalyse II)
Die beliebig skalierte, i.a. nicht notwendigerweise metrischeDatenmatrix A wird nicht direkt verarbeitet.
Vielmehr wird zunächst unter Zuhilfenahme von Distanzindizeseine ordinale Distanzmatrix D berechnet, die anschließend in einemetrische Repräsentation X umgewandelt wird.
A = (aik)n×m → D = (dij)n×nMDS−→ X = (xik)n×q, q ∈ {1, 2, 3}
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 138|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel: Multidimensionale Skalierung
Lawyers’ Ratings of State Judges in the US Superior Court
Description: Lawyers’ ratings of state judges in the US Superior Court. A data
frame containing 43 observations on the following 12 numeric variables.
CONT Number of contacts of lawyer with judge. INTG Judicial integrity.
DMNR Demeanor. DILG Diligence.
CFMG Case flow managing. DECI Prompt decisions.
PREP Preparation for trial. FAMI Familiarity with law.
ORAL Sound oral rulings. WRIT Sound written rulings.
PHYS Physical ability. RTEN Worthy of retention.
Source: New Haven Register, 14 January, 1977 (from John Hartigan).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 139|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel: Multidimensionale Skalierung : (Lawyers’ Ratings of
State Judges in the US Superior Court)
−0.05 0.00 0.05 0.10
−0.0
4−0
.02
0.00
0.02
0.04
0.06
MDS axis 1
MD
S a
xis
2
AARONSON,L.H.
ALEXANDER,J.M.ARMENTANO,A.J.
BERDON,R.I.
BRACKEN,J.J.
BURNS,E.B.CALLAHAN,R.J.
COHEN,S.S.
DALY,J.J.
DANNEHY,J.F.
DEAN,H.H.
DEVITA,H.J.
DRISCOLL,P.J.
GRILLO,A.E.
HADDEN,W.L.JR.
HAMILL,E.C.
HEALEY.A.H.
HULL,T.C.
LEVINE,I.
LEVISTER,R.L.
MARTIN,L.F.MCGRATH,J.F.
MIGNONE,A.F.
MISSAL,H.M.
MULVEY,H.M.NARUK,H.J.
O’BRIEN,F.J.O’SULLIVAN,T.J.
PASKEY,L.RUBINOW,J.E.
SADEN.G.A.
SATANIELLO,A.G.
SHEA,D.M.
SHEA,J.F.JR.
SIDOR,W.J.
SPEZIALE,J.A.
SPONZO,M.J.
STAPLETON,J.F.
TESTO,R.J.
TIERNEY,W.L.JR.WALL,R.A.
WRIGHT,D.B.ZARRILLI,K.J.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 140|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Typische Fragestellungen der MDS in derMarktforschung
• Welche Produkte einer Gruppe sind sich ähnlich/unähnlich?
• Inwieweit entspricht das eigene Produkt den Idealvorstellungender Konsumenten?
• Welches Image besitzt eine bestimmte Marke?
• Hat sich die Einstellung der Konsumenten zu einer Marke in denletzten Jahren verändert
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 141|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Varianten der Repräsentation (II)
Faktorenanalyse
Die quantitative, d.h. metrische Datenmatrix A wird direktverarbeitet.
Hierzu wird unter Zuhilfenahme von Varianz-Kovarianz-Strukturenaus der metrischen Datenmatrix A direkt eine metrischeRepräsentation X berechnet.
A = (aik)n×m
Faktorenanalyse−→ X = (xik)n×q
Problem: Lassen sich die m quantitativen Merkmale sinnvolldurch q (meist 2 oder 3) sogenannte Faktoren ersetzen?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 142|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel: Faktorenanalyse
Violent Crime Rates by US State
Description: This data set contains statistics, in arrests per 100,000 residents for
assault, murder, and rape in each of the 50 US states in 1973. Also given is the
percent of the population living in urban areas. A data frame with 50
observations on 4 variables.
Murder numeric Murder arrests (per 100,000)
Assault numeric Assault arrests (per 100,000)
UrbanPop numeric Percent urban population
Rape numeric Rape arrests (per 100,000)
Source: World Almanac and Book of facts 1975. (Crime rates).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 143|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel Faktorenanalyse : Violent Crime Rates by US State
−0.2 −0.1 0.0 0.1 0.2 0.3
−0.2
−0.1
0.00.1
0.20.3
Comp.1
Comp
.2
AlabamaAlaska
Arizona
Arkansas
California
ColoradoConnecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana IowaKansas
KentuckyLouisiana
MaineMaryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
OregonPennsylvania
Rhode Island
South Carolina
South DakotaTennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
−5 0 5
−50
5
Murder
Assault
UrbanPop
Rape
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 144|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Typische Fragestellungen der Faktorenanalyse
• Läßt sich die Vielzahl der Eigenschaften, die die Käufer einerMarke als wichtig empfinden, auf wenige komplexe Faktorenreduzieren
• Wie lassen sich darauf aufbauend die verschiedenen Markenanhand dieser Faktoren beschreiben?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 145|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
5.2 Faktorenanalyse
Neben Methoden der multidimensionalen Skalierung, die auf(Unähnlichkeits-) Daten basiert, können bei der Auswertung vonkardinalen Datenmatrizen auch die Methoden derFaktorenanalyse zur Repräsentation von Objekten eingesetztwerden.
Im Unterschied zur MDS erfolgt in diesem Falle eine direkteAuswertung der Merkmalsausprägungen bzgl. der interessierendenMerkmalsmenge ohne den Zwischenschritt einer Berechnung vonDistanzindizes.
Dabei wurden die Methoden der Faktorenanalyse in dem Bestrebenentwickelt, “etwas über die Struktur des Zusammenhangs einerMenge von meßbaren Variablen zu erfahren.” (Überla, 1971)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 146|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Grundlagen und Begriffe
Problem: Welche Aussagen lassen sich über die Struktur desZusammenhangs von Merkmalsvariablen treffen, wenn mMerkmalsvariablen gemessen werden und damit m · (m − 1)/2
Korrelationen zwischen den Merkmalen gebildet werden können?
• Sobald m groß wird, wird die Analyse des gesamtenVariablenkomplexes oft schwierig.
• Andererseits vernachlässigt die bivariate Analyse, d.h. dieisolierte Betrachtung nur je zweier Variablen, die vielschichtigenBeziehungen zwischen mehreren Variablen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 147|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Hauptaufgaben der Faktorenanalyse
• Die Faktorenanalyse erlaubt es, aus den zwischen m Variablen beobachteten Beziehungen
(Korrelationen) hypothetische Größen (Faktoren) zu extrahieren, welche die in der
Korrelationsmatrix enthaltenen Zusammenhänge beschreiben und „erklären“.
• Mit anderen Worten bedeutet dies, daß korrelierende Variablen zu Merkmalskomplexen
zusammengefaßt werden, es erfolgt somit eine Faktorenextraktion.
• Die Faktorenextraktion führt zu einer Reduktion der Ausgangsdaten: Anstelle der m
Variablen stehen (i.a.) wenige Faktoren, wobei der Anteil der verlorengegangenen Information
möglichst gering sein sollte.
• Diese Datenkompression erlaubt eine leichtere Interpretation als die Fülle der Ausgangsdaten.
• Zudem können die Faktoren als unkorrelierte Variablen bei anderen Problemstellungen
verwendet werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 148|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Hauptkomponentenanalyse
Bevorzugte Anwendung findet in der FA bei metrischenDatenmatrizen die Hauptkomponentenanalyse.
Sie unterstellt eine lineare Beziehung zwischen den ursprünglicherhobenen und den neu zu bestimmenden hypothetischen Größen(Faktoren).
Somit lassen sich die Merkmalsvektoren ak (Spaltenvektor) alsLinearkombination von q Faktoren x1, ..., xq (Spaltenvektoren )darstellen.
Im Falle q = m ist dies gemäß folgender Gleichung stets möglich:
ak =
m∑
i=1
fkixi (k = 1, . . . ,m)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 149|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Faktoren und Ladungsvektoren der HKA
Matriziell ergibt sich somit:
A = X × FT
a11 · · · a1m
......
ai1 · · · aim
......
an1 · · · anm
=
x11 · · · x1q
......
...
... xik
...
......
...
xn1 · · · xnq
·
f11 · · · fk1 · · · fm1
.... . .
.... . .
...
f1q · · · fkq · · · fmq
Dabei bezeichnet man
xip als Faktorwert fkp als Faktorladung
xp als Faktor fk als Ladungsvektoren
X als Faktorwertematrix F als FaktorladungsmatrixDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 150|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Bemerkungen
Anhand der matriziellen Schreibweise wird deutlich, dass einObjekt i, dargestellt durch die Zeile i der Datenmatrix A, nun mitHilfe der Zeile i der Faktorwertematrix X repräsentiert werdenkann.
Die Frage, die sich dabei allerdings stellt, kann wie folgtbeschrieben werden: Ist diese Darstellung aller Objekte mitHilfe von X ohne zu großen Informationsverlust möglich?
Um dies beantworten zu können, benötigt man ein Maß für denInformationsgehalt einer Daten- bzw. Faktorwertematrix(→ Varianzkriterium).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 151|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Informationsgehalt von A und X
Mit Hilfe der Kovarianzmatrizen S (von A) bzw. C (von X) lassensich die Informationsgehalte der Daten- bzw. Faktorwertematrixgeeignet messen.
Dabei wird - wie häufig - unterstellt, dass der Informationsgehaltvon Merkmalen/Faktoren umso größer ist, je größer die Varianzdieser Merkmale/Faktoren ist.
Um nun ein geeignetes Maß für die Gesamtvariabilität allerMerkmale/Faktoren zu erhalten, addiert man die Varianzen allerbetrachteten Merkmale bzw. Faktoren.
Die Summe der Varianzen entspricht der Spur von S bzw. C.Spur(S) bzw. Spur(C) ermöglicht so einen Vergleich desInformationsgehaltes der beiden Matrizen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 152|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Berechnung des Informationsgehaltes
Für die Datenmatrix A berechnet sich die Kovarianzmatrix S = (skl)m×m gemäß
skl =1
n
n∑
i=1
(aik − a·k)(ail − a·l) mit a·k =1
n
n∑
i=1
aik
Als Maß für die Gesamtinformation von A ergibt sich dann
Spur S =
m∑
k=1
skk =1
n
n∑
i=1
m∑
k=1
(aik − a·k)2
Für die Faktorwertematrix X ergibt sich analog die Kovarianzmatrix C
= (ckl)q×q und die Spur C gemäß
Spur C =
q∑
k=1
ckk =1
n
n∑
i=1
q∑
k=1
(xik − x·k)2
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 153|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Informationsgehalt
Gegeben sei eine metrischeDatenmatrix A, die mit Hil-fe zweier unterschiedlicherFaktorkombinationen reprä-sentiert werden soll.
A =
22 5
25 10
21 4
28 13
24 8
Faktorkombination 1 bzw. 2 ist dabei gegeben durch dieFaktorladungsmatrizen F ′ bzw. F ′′ gemäß
F ′ =
(0.6 0.8
0.8 −0.6
)bzw. F ′′ =
(0.9 0.2
0.8 −0.5
)
Frage: Wie gut sind die beiden daraus resultierendenRepräsentationen?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 154|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Berechnung Kombination 1
Berechnet man für die Matrix A die Kovarianzmatrix S und die SpurS, so ergeben sich folgende Werte:
S =
(6 8
8 10.8
)⇒ Spur(S) = 6 + 10.8 = 16.8
Mit Hilfe der Faktorladungsmatrix F ′ und X = A · (F ′T )−1 ergibtsich für X ′ folgendes (Berechnung s. Vorlesung):
X ′ =
17.2 14.6
23 14
15.8 14.4
27.2 14.6
20.8 14.4
sowie C =
(16.752 −0.064
−0.064 0.048
)
⇒ Spur(C) = 16.752 + 0.048 = 16.8
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 155|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Interpretation Kombination 1
Mit Hilfe der neuen Repräsentation kann die Objektmenge ohneInformationsverlust dargestellt werden.(Spur S = SpurC = 16.8)
Die neue Darstellung hat darüber hinaus den Vorteil, dass dieentstandenen Faktoren (nahezu) unkorreliert sind, während dieursprünglichen Merkmale eine hohe Korrelation aufweisen. Es giltnämlich:
→ Korrelation (a1,a2) = 0.9938
→ Korrelation (x1, x2) = −0.0714
Beschränkt man sich auf eine Darstellung der Objekte mit Hilfe desersten Faktors, so können immerhin noch 99.71% derInformationen dargestellt werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 156|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Graphik zur Kombination 1
21 23 25 270
5
10
−5
b
b
b
b
b
Merkmal 1
Mer
kmal
2
Faktor 1 ( f ′11, f
′21)
Faktor 2 ( f ′21, f
′22)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 157|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Graphik zur Kombination 1
14 16 18 20 22 24 2611
12
13
14
15
b
b
b
b
b
Faktor 1
Fakt
or
2
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 158|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Berechnung Kombination 2
Wie oben bereits erwähnt ergibt sich für die Matrix A dieKovarianzmatrix S und die Spur(S) wie folgt:
S =
(6 8
8 10.8
)⇒ Spur(S) = 6 + 10.8 = 16.8
Mit Hilfe der Faktorladungsmatrix F ′′ und X = A · (FT )−1 ergibtsich für X ′′ folgendes (Berechnung s. Vorlesung):
X ′′ =
19.67 21.47
23.77 18.03
18.52 21.63
27.21 17.54
22.29 19.67
sowie C =
(9.49 −5.01
−5.01 2.87
)
⇒ Spur(C) = 9.49 + 2.87 = 12.36
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 159|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Interpretation Kombination 2
Mit Hilfe dieser zweiten Repräsentation kann die Objektmengenicht ohne Informationsverlust dargestellt werden. (SpurS = 16.8 und Spur(C) = 12.36)
Die neue Darstellung hat darüber hinaus den Nachteil, dass dieentstandenen Faktoren fast genauso hoch (absolut) korreliert sindwie die ursprünglichen Merkmale. Es gilt nämlich:
• Korrelation (a1,a2) = −0.9938
• Korrelation (x1, x2) = −0.9597
Somit stellt sich also die Frage, wie die Repräsentation und damitdie Faktorladungsmatrix F optimal gewählt werden soll.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 160|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Graphik zur Kombination 2
21 23 25 270
5
10
−5
b
b
b
b
b
Merkmal 1
Mer
kmal
2
Faktor 1 ( f ′′11, f
′′21)
Faktor 2 ( f ′′21, f
′′22)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 161|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel - Graphik zur Kombination 2
17 19 21 23 25 2717
18
19
20
21
b
b
b
b
b
Faktor 1
Fakt
or
2
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 162|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Satz 1 der Hauptkomponentenanalyse
Sei A = X · FT und F orthogonal (d.h. FT · F = F · FT = E), dann gilt:
Spur S = Spur C
C = FT · S · F
Bemerkungen:
Spur S = Spur C ↔ Information bleibt erhalten
F orthogonal → A = X · FT ↔ A · F = X · FT · F = X
ckk = fkT · S · fk , d.h. der durch den Faktor xk erklärte Anteilder Varianz hängt nur von fk ab.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 163|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Problem der Faktorenwahl der HKA
Ziel der HKA ist u.a. die Merkmalsreduktion, d.h., man möchte mitwenigen, unkorrelierten Faktoren auskommen und trotzdem einenGroßteil der Information darstellen.
→ Die durch die Faktoren erklärten Varianzanteile sollen mitwachsendem Index abnehmen, d.h., Faktor x1 soll dengrößtmöglichen Varianzanteil erklären, Faktor x2 denzweitgrößten Anteil ...
→ c11 > c22 > c33 > . . . > cqq für q 6 m
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 164|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Optimierungsproblem der HKA
Aus den oben genannten Forderungen ergibt sich folgendes:
1. max c11 = max f1T · S · f1 mit f1T · f1 = 1
2. max c22 = max f2T · S · f2 mit f2T · f2 = 1 und f2T · f1 = 0
. . .
d.h. das allgemeine Optimierungsproblem (∗)
max ckk = max fkT · S · fk mit fkT · fk = 1
und fkT · fl = 0 für l = 1, ...,k − 1
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 165|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Satz 2 der Hauptkomponentenanalyse
Die Lösung der Optimierungsprobleme (∗) impliziert folgendesEigenwertproblem von S:
(S − λ · E) · f = 0
mit
c11, c22, c33, . . . , cmm > 0 sind Eigenwerte von S
f1, f2, . . . , fq mit fkT · fk = 1, fkT · fl = 0(l 6= k) sindEigenvektoren von S
Für die Matrix C gilt: C =
c11 0. . .
0 cqq
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 166|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Konsequenzen aus Satz 2 der HKA
A = X · FT ↔ X = A · F→ Faktoren x1 = A · f1, . . . , xm = A · fm
C ist Diagonalmatrix→ Faktoren sind paarweise unkorreliert.
Numerierung der Faktoren x1, . . . , xm derart, dassλ1 = c11 > λ2 = c22 > . . . > λm = cmm > 0
→ x1 erklärt mit λ1/∑
λk den größten Anteil der Varianz→ x2 erklärt mit λ2/
∑λk den zweitgrößten Anteil ...
Bewertung des Informationsverlustes einer Merkmalsreduktionauf q < m Faktoren
b(q) = 1 −λ1+...+λq
λ1+...λm=[1 −
c11+...+cqq
c11+...+cmm
]∈ [0, 1] und b(m) = 0
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 167|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Vorgehensweise der HKA
Datenmatrix A, maximaler Informationsverlust b0
Berechne Kovarianzmatrix S
Löse Eigenwertproblem (S − λ · E) · f = 0
λ1 = c11 > λ2 = c22 > . . . > λm = cmm > 0
(f1, f2, . . . , fm) = F
Bestimme q minimal, so dass b(q) = 1 −λ1+...+λq
λ1+...+λm6 b0
Ladungsmatrix Fq = (f1, f2, . . . , fq)
Faktorwertematrix Xq = A · Fq = (x1, x2, . . . , xq)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 168|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Beispiel 1 - Hauptkomponentenanalyse
Für die Produkte P1,P2,P3 und P4 konnten bezüglich der MerkmaleM1,M2 und M3 folgende Werte erhoben werden:
A =
6 0 0
8 8 4
0 4 0
2 8 8
• Berechnen Sie die Kovarianzmatrix derMerkmale und interpretieren Sie diese.
• Lösen Sie das zugehörigeEigenwertproblem und interpretierenSie die Ergebnisse.
• Bestimmen Sie die Faktorwertematrixund stellen Sie diese zweidimensionaldar.
• Betten Sie die ursprünglichen Merk-malsvektoren in den Faktorwerteplotein.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 169|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Interpretationshilfen
Eine Aussage über den Zusammenhang rkp zwischen denursprünglichen Merkmalen ak und den Hauptkomponenten(Faktoren) xp kann wie folgt berechnet werden:
rkp =
1n
n∑
i=1
(aik − a·k)(xip − x·p)
√skk
√cpp
,k = 1, . . . ,m
p = 1, . . . ,q
Dieser Korrelationskoeffizient kann als zusätzlicher Anhaltspunktbei der Interpretation der Analyseergebnisse herangezogenwerden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 170|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Kommunalitäten - Teil 1
Auf Grundlage der Korrelationskoeffizienten rkp läßt sich derAnteil der auf die ersten q Faktoren (p = 1, ...,q) übertrageneInformation des k-ten Merkmals ak mit Hilfe der Kommunalität kk
wie folgt berechnen:
kk =
q∑
p=1
r2kp ∈ [0, 1] für k = 1, . . . ,m
Diese Kommunalität gibt an, wieviel Prozent der Informationendes (standardisierten) Merkmals ak noch in den Faktoren x1 . . . xq
enthalten sind. Bei nicht-standardisierten Merkmalen giltVergleichbares.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 171|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Kommunalitäten - Teil 2Des Weiteren kann die Berechnung der Kommunalität kk im Falleeiner standardisierten Datenmatrix A auch auf Basis derFaktorladungsmatrix F und der dazugehörigen (normierten)Eigenwerte erfolgen. Hierzu benötigt man zunächst das normiertePendant von F:
F =
f11˜f1m
. . .˜fm1
˜fmm
= F ·
√λ1 0
. . .
0√
λm
Mit Hilfe dieser Matrix können die Kommunalitäten dann wie folgtberechnet werden:
kk =
q∑
p=1
f2kp ∈ [0, 1] für k = 1, . . . ,m
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 172|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Wahl der Repräsentationsdimension
Allgemeingültige Kriterien zur Bestimmung einerproblem-adäquaten Repräsentationsdimension q sind nichtbekannt. Man kann sich aber an den folgenden Regeln orientieren:
• Man wählt ein q aus, bei dem man bei weiterer Reduktion derFaktorenzahl einen verhältnismäßig hohen zusätzlichenInformationsverlust hätte (Ellenbogenkriterium).
• Man wählt ein minimales q > 1 mit b(q) < bmax, d.h. ein q mitmaximal zu akzeptierendem Informationsverlust , (mit z.B.:b0 = 10% oder b0 = 25%).
• Man wählt ein maximales q 6 m mit λq > (λ1 + . . . + λm)/m,d.h. man gibt vor, dass jeder Faktor mindestens diedurchschnittliche Merkmalsvarianz erklären soll(Kaiser-Kriterium).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 173|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Schlußbemerkungen zur Faktorenanalyse
Der Vorteil der Datenkomprimierung mittels der FA istoffensichtlich: Statt Untersuchungsobjekte durch kaumübersehbare und hochkorrelierte Merkmalsbatterien zubeschreiben, gelangt man zu wenigen wichtigen und weitgehendorthogonalen Dimensionen des Merkmalsraumes, in demUntersuchungsobjekte anhand ihrer Faktorwerte positioniert sind.
Allerdings muß auch vor einigen Fallstricken der Faktorenanalyse,insbesondere vor Fehlinterpretationsmöglichkeiten, gewarntwerden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 174|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Fehlinterpretationsmöglichkeiten I
Die HKA projiziert mit Hilfe einer linearer Abbildung
- die m-dimensionalen Untersuchungsobjekte (unterVerwendung der Matrix Xq) und
- die m Merkmale ak (unter Verwendung der Matrix Fq)
in einen gemeinsamen q-dimensionalen Teilraum.
Aufgrund dieser Tatsache dürfen sowohl die Objekte als auch dieMerkmalsvektoren nur relativ zueinander interpretiert werden.
Absolute Aussagen über die Lage der Objekte hinsichtlich dereinzelnen Merkmalsvektoren gelten nur approximativ.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 175|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Fehlinterpretationsmöglichkeiten II
Ganz wesentlich ist auch die Zahl und Art der Merkmale, die in dieFA eingehen. Aus den entsprechenden Gleichungen wird deutlich,daß auf einem Faktor jene Merkmale hoch laden, die auch hochkorreliert sind. Wenn ein Faktor durch sehr viele gleichartigeMerkmale vertreten ist, so laden diese auch hoch auf ihm.
Die Extraktion des ersten Faktors nach dem Kriterium deshöchsten Varianzbeitrages wird dann als bedeutendsten Faktorjenen präsentieren, der durch viele Merkmale vertreten ist.
Damit zeigt sich aber, daß die FA für sich allein genommen nicht inder Lage ist, die Wichtigkeit von Merkmalsbereichen zu ermitteln(→ Conjointanalyse, Datenanalyse II)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 176|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Fehlinterpretationsmöglichkeiten III
Werden zudem Merkmale aus unterschiedlichen Bereichen (z.B.soziodemographische und psychographische Merkmale) gewählt,so kommt es vor, dass die unterschiedlichen Merk-male auf ein unddenselben Faktor laden. Eine Interpretation des Faktors ist dannwenig sinnvoll bzw. schwierig.
Mitunter wird der Weg vorgeschlagen, einen Faktoren nach demam höchsten ladenden Merkmalen zu benennen(„Leitvariablenkonzept“). Dadurch kommt es jedoch unterUmständen zu einer Vernachlässigung relevanter Informationen fürdie Beschreibung der Untersuchungsobjekte.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 177|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Repräsentation
Kovarianz- oder Korrelationsmatrix?
• Die Hauptkomponentenanalyse kann statt mittels der Kovarianzmatrix von A auch auf Basis der
Korrelationsmatrix von A durchgeführt werden.
• Aber: die Eigenwerte und Eigenvektoren der Kovarianzmatrix können nicht in die der
Korrelationsmatrix überführt werden und geben deshalb unterschiedliche Informationen.
• Vorteile der Korrelationsmatrix:
- Die Ergebnisse zweier Analysen könenn direkt miteinander verglichen werden
- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der
Einheiten der Merkmale
• Vorteil der Kovarianzmatrix:
- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der
Einheiten der Merkmale (Manchmal möchte man diesen Umstand benutzen)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 178|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
6KlassifikationÜberblick über Verfahren, Multiple Regression, Varianzanalyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 179|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
6 Klassifikation
6.1 Einführende Bemerkungen
6.2 Multiple Regression
6.3 Varianzanalyse
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 180|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
6.1 Einführende Bemerkungen
Ziel der Identifikation
Ein „abhängiges“ Merkmal Y soll mit Hilfe der „unabhängigen“Merkmale X1, . . . ,Xm identifiziert, d.h. erklärt, werden. Y undX1, . . . ,Xm seien ausgewählte Spalten der Beobachtungsmatrix A.
Gesucht sind folglich:
• im nichtlinearen Falleine Funktion f und Merkmale X1,X2, . . . ,Xm mitY = f(X1,X2, . . . ,Xm)
• im linearen FallEine Konstante α0 ∈ R, Gewichte α1,α2, . . . ,αm ∈ R undMerkmale X1,X2, . . . ,Xm mitY = α0 + α1 · X1 + α2 · X2 + . . . + αm · Xm
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 181|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Beispiele zur Identifikation
Y nominal ( = qualitativ )- Kreditvergabe an Kunden: Das Merkmal Kredit ja/nein soll mit
Hilfe andere persönlicher und wirtschaftlicher Merkmale vorKreditvergabe bestimmt werden.
- Klassifikationsergebnis: Die Struktur einer Klassifikation sollmit Hilfe der betrachteten Merkmale erklärt werden.
Y ordinal- Objektbewertungen: Die Rangbewertungen von Objekten soll
mit Hilfe anderer Merkmale erklärt werden.
Y quantitativ- Marktanteile, Absatzzahlen etc. sollen mit Hilfe anderer
Merkmale (z.B. Werbeausgaben, Preise, ...) erklärt werden.
- Repräsentationsergebnisse: Die Lage der Objekte soll mit Hilfeder eingebetteten Merkmale erklärt werden
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 182|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Überblick über die wichtigsten Verfahren
unabhängige Variablen Xk quantitativ nominal
abhängige Variable Y
quantitativ multipleRegression Varianzanalyse
ordinal Conjointanalyse(Datenanalyse II)
nominalDiskriminanz-
analyse(Datenanalyse II)
Kontingenz-analyse
Y heißt auch endogene Variable, während X1, . . . ,Xm auchexogene Variablen genannt werden.
Zu beachten ist stets, dass auch eine kausale Abhängigkeitvorliegen muß (→ Dependenzanalyse).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 183|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
6.2 Multiple Regression
Untersuchung des funktionalen Zusammenhangs zwischen einemquantitativen Merkmal Y und den quantitativen MerkmalenX1, . . . ,Xm.
Die multiple Regression dient nur der deskriptiven Beschreibungeines beobachteten (funktionalen) Zusammenhangs.
Es ist auch zulässig, binäre exogene Variablen in das Modellaufzunehmen. Dabei ist allerdings zu beachten, dass beiausschließlicher Verwendung solcher Variablen die allgemeineTest-Theorie für die Modellparameter (streng genommen) nichtmehr korrekt ist. Dennoch sind tendenziell brauchbareErkenntnisse ableitbar.
( vergl. Bamberg/Baur Kap. 16 )
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 184|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Multiples RegressionsmodellKonstante Regressionskoeffizienten
Y = β0 + β1 · X1 + . . . + βm · Xm + U (Y,X1, . . . ,Xm quantitativ)
Regressand Regressoren Störvariable
Y =
y1
...
yn
=
1 x11 · · · x1m
......
. . ....
1 xn1 · · · xnm
×
β0
...
βm
+
u1
...
un
= X · β + u
Designmatrix
Die Störvariable U trägt der Tatsache Rechnung, dass• Variablen mit Meßfehlern behaftet sind und• Zusammenhänge zwischen ökonomischen Variablen i.A. nicht vollständig
modelliert und stochastisch sind.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 185|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Annahmen des Regressionsmodells
(1) Erwartungstreue: E(ui) = 0 für alle i = 1, . . . ,n
(2) Homoskedastizität: Var(ui) = σ2 für alle i = 1, . . . ,n
Cov(ui,uj) = 0 für i 6= j
(3) Verteilungsannahme: ui ∼ N(0,σ2)
(4) Non-Kollinearität: X besitzt den Rang m + 1
(5) Stichprobengröße: n > m + 1
Zur Durchführung deskriptiver Analysen werden ausschließlichAnnahmen (1) und (4) benötigt, die anderen Annahmen dienender weitergehendon Betrachtung von Regressionsmodellen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 186|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Schätzung der Modellparameter
mit Hilfe der Methoden der Kleinsten-Quadrate (KQ):
Gesucht sind Schätzwerte , β0, . . . , βm so dass mit Hilfe der ausdem Modell resultierenden Schätzwerte für y, den Werten
yi = β0 + β1x1i + . . . + βmxmi
die Quadrat-Summe der Residuen SSE minimal wird:
minimieren: SSE =
n∑
i=1
(yi − yi)2
In Matrixform ergibt sich folgendes Minimierungsproblem
(y − X · β)T (y − X · β) → min
Lösung siehe Vorlesung
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 187|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Schätzgleichung der Modellparameter
aus dem oben genannten Minimierungsproblem ergibt sich unterVerwendung der Annahmen (1) und (4) folgende Lösung für dieSchätzwerte der Regressionskoeffizienten:
β =
β...
βm
= (XTX)−1XTy
Die Invertierung der Matrix XTX ist aufgrund (4) stetsgewährleistet, da der volle Rang von X hinreichend für dieRegularität von XTX ist.
Als Schreibvereinfachung wird oft gesetzt:
(XTX)−1 = D = (dkl)m+1,m+1
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 188|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationGüte der Schätzung
Man kann zeigen, dass die Totalvarianz der zu erklärendenVariablen folgendermaßen zerlegt werden kann
n∑
i=1
(yi − y)2
︸ ︷︷ ︸SST
Totalvarianz
(Total sum of square)
=
n∑
i=1
(yi − yi)2
︸ ︷︷ ︸SSE
Fehlervarianz
+
n∑
i=1
(yi − ¯y)2
︸ ︷︷ ︸SSR
durch Regression
erklärte Varianz
Berücksichtigt man diese Varianzzerlegung, so wird deutlich, wiedie Anpassung eines Modells an die Daten beurteilt werden kann.
Da die Gesamtvarianz SST für einen Datensatz stets konstant ist,wird die Modellanpassung umso besser, je kleiner die FehlervarianzSSE ist (→ multiples Bestimmtheitsmaß).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 189|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Multiples Bestimmtheitsmaß
Man erhält die Kennzahl R2, die den durch die Regression erklärtenAnteil der Gesamtvarianz wiedergibt(vergl. Bamberg/Baur Kap. 4.3.1):
R2 =SSR
SST= 1 −
SSE
SST∈ [0; 1]
Spezialfälle:
R2 = 1 ⇒ Alle Residuen verschwinden.
R2 = 0 ⇒ X liefert keinen Beitrag zur Erklärung der Variabilität.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 190|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Korrigiertes Bestimmtheitsmaß
R2 wächst mit der Anzahl der Regressoren, da
• die Gesamtvarianz SST konstant bleibt und
• die Fehlervarianz SSE kleiner wird,
Deswegen ist eine Korrektur im Hinblick auf die Anzahl derRegressoren notwendig.
Man erhält so das korrigierte (multiple) Bestimmtheitsmaß
R2 = 1 −(n − 1) · SSE
(n − m − 1) · SST
das im allgemeinen kleiner als R2 ist.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 191|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub Regression: 4 eindimensionale Beispiele
x1 x2 x3 x4 y1 y2 y3 y4
1 10 10 10 8 8.04 9.14 7.46 6.58
2 8 8 8 8 6.95 8.14 6.77 5.76
3 13 13 13 8 7.58 8.74 12.74 7.71
4 9 9 9 8 8.81 8.77 7.11 8.84
5 11 11 11 8 8.33 9.26 7.81 8.47
6 14 14 14 8 9.96 8.10 8.84 7.04
7 6 6 6 8 7.24 6.13 6.08 5.25
8 4 4 4 19 4.26 3.10 5.39 12.50
9 12 12 12 8 10.84 9.13 8.15 5.56
10 7 7 7 8 4.82 7.26 6.42 7.91
11 5 5 5 8 5.68 4.74 5.73 6.89
(Quelle: Anscombe, Francis J. (1973) Graphs in statistical analysis.)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 192|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub Regression: 4 eindimensionale Beispiele
In der folgenden Tabelle sind jeweils die Ergebnisse derRegressionsanalyse von xi als unabhängiger Variablen mit yi alsabhängiger Variablen dargestellt:
i β0 β1 R2 korrigiertes R2
1 3.0001 0.5001 0.6665 0.6295
2 3.0010 0.5000 0.6662 0.6292
3 3.0025 0.4997 0.6663 0.6292
4 3.0017 0.4999 0.6667 0.6297
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 193|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationEinschub Regression: 4 eindimensionale Beispiele
5 10 15
46
810
12
x1
y1
5 10 15
46
810
12
x2
y2
5 10 15
46
810
12
x3
y3
5 10 15
46
810
12
x4
y4
(→ Zur Beurteilung der Güte des Modells mit Residuenplots: siehe Vorlesung)Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 194|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Beispiel - Multiple Regression
Für fünf Produkte P1, . . . ,P5 liegen sowohl der Marktanteil Y (inProzent) als auch der Preis X1 und die Werbeausgaben X2 vor. MitHilfe der Regressoren X1 und X2 soll nun der Marktanteil Y
identifiziert werden.
Produkt Y X1 X2
P1 40 1 3
P2 20 2 3
P3 20 2 2
P4 10 2 1
P5 10 3 1
(−→ Vorlesung)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 195|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Signifikanztests der ModellparameterDie klassischen Testverfahren erlauben es, Fragen von folgendemTyp zu beantworten:
• Welche Abschätzungen lassen sich bezüglich des marginalenEinflusses βk einer exogenen Variablen Xk bzw. deszugehörigen Beobachtungsvektors xk machen?
• Ist die Hypothese, dass der marginale Einfluß βk einer exogenenVariablen Xk den Wert d annimmt, korrekt?
• Ist die Hypothese, dass der marginale Einfluß βk einer exogenenVariablen Xk und βl einer exogenen Variablen Xl identisch sind,mit dem vorliegenden Datenmaterial verträglich?
• Ist eine Gruppe von exogenen Variablen X1, . . . ,Xm ohneEinfluß auf die endogene Variable Y bzw. denBeobachtungsvektor y?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 196|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Tests einzelner Modellparameter
Möchte man zunächst nur einzelne Modellparameter, d.h. dieRegressionskoeffizienten, statistisch-induktiv untersuchen, sobieten sich folgende Fragestellungen an:
• Intervallschätzung eines Regressionskoeffizienten βi
• Test der Hypothese H0 : βk = 0(Existiert ein „signifikanter“ Einfluß der Variablen Xk ?)
• Test der Hypothese H0 : βk = d
• Test der Hypothese H0 : cTβ = d
( = Test bzgl. einer Linearkombination)
• Test der HypotheseH0 : alle βk = 0
H1: mindestens ein βk 6= 0.( = Test des Gesamtmodells )
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 197|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Eigenschaften des Punktschätzers β
Um statistisch-induktive Untersuchungen derRegressionskoeffizienten zu ermöglichen, muß zunächst dieVerteilung der entsprechenden Punktschätzer geklärt werden.
Unter Zuhilfenahme der Annahmen (2) und (3) gilt dabei:
β ∼ N(β; σ2(XTX)−1
)
(→ Herleitung siehe Vorlesung)
bzw. komponentenweise: βk ∼ N(β; σ2(XTX)−1
kk
)
Anmerkung:
√σ2 · (XTX)−1
kk =√
σ2 · dkk , mit (XTX)−1 = D = (dij)m+1,m+1
wird auch Standardfehler des Regressionskoeffizienten βk genannt.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 198|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Punktschätzer für die Fehlervarianz σ2
Betrachtet man die Verteilung der Punktschätzer derModellparameter, so erkennt man, dass neben demErwartungswert β auch die Varianz der Normalverteilung benötigtwird.
Da die multiplikative Konstante σ2 der Varianz - und damit auchdie Varianz selbst - i.a. aber nicht bekannt ist, benötigt man einenerwartungstreuen Schätzer dieser Konstanten σ2, der sich wiefolgt errechnet:
σ2 =1
n − (m + 1)
n∑
i=1
(yi − yi)2
(→ Herleitung siehe Vorlesung)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 199|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationTest auf Signifikanz eines Koeffizienten
Die in der ökonometrischen Praxis mit Abstand wichtigste Hypothese H0
bezüglich eines einzelnen Regressionskoeffizienten βk lautet:
H0 : βk = 0
Die Ablehnung von H0 bedeutet, dass die exogene Variable Xk einen
signifikanten Einfluß auf die endogene Größe Y bzw. y hat.
Die Überprüfung der Hypothese erfolgt mit Hilfe der t-Statistik
t1 =βk√
Var(βk)
=βk
σ ·√
(XTX)−1kk
=βk
σ ·√
dkk
und den entsprechenden Fraktilen der t-Verteilung mit (n − m − 1)
Freiheitsgraden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 200|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Konfidenzintervall der Koeffizienten
Ein Konfidenzintervall für den Koeffizienten βk zum Konfidenzniveau 1 − α ist
ein Intervall mit zufallsabhängigen Intervallgrenzen, das den wahren Wert βk
mit der Wahrscheinlichkeit 1 − α enthält.
Unter Berücksichtigung der Verteilungseigenschaften des Punktschätzers β und
des Schätzwertes σ2 der multiplikativen Konstanten ergibt sich folgendes
Ergebnis:
KI =[βk − p; βk + p
]
mit p = t∗ · σ ·√
(XTX)−1kk ,
wobei t∗ das (1 − α/2)-Fraktil der t-Verteilung mit (n − m − 1)
Freiheitsgraden ist.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 201|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Test bzgl. eines Koeffizienten
Möchte man die in der Praxis seltener vorzufindende HypotheseH0 gemäß
H0 : βk = b
testen, d.h., möchte man feststellen, ob der marginale Einfluß einerexogenen Variable Xk einen bestimmten Wert b annimmt, soverwendet man zur Überprüfung der Hypothese eine modifiziertet-Statistik gemäß
t2 =βk − b
σ ·√
(XTX)−1kk
=βk − b
σ ·√
dkk
Der Testfunktionswert t2 ist wieder t-verteilt mit (n − m − 1)
Freiheitsgraden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 202|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Test einer Linearkombination der Koeffizienten
Sei cT = (c0, c1, . . . , cm) ein (m + 1)-dimensionaler Zeilenvektor und b eine
beliebige Zahl. Die damit gebildete Hypothese
H0 : cTβ = c0 + c1 · β1 + . . . + cm · βm = b
erfasst dann durch geeignete Wahl von c und b sowohl die bisher betrachteten
Hypothesen als auch eine Vielzahl weiterer Hypothesen, beispielsweise dass zwei
Koeffizienten gleich sind oder sich nur um einen bestimmten Faktor
unterscheiden.
Als Teststatistik findet die folgende Größe bei ansonsten identischen
Voraussetzungen Anwendung:
t3 =cT β − b
σ ·√
cT (XTX)−1 · c
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 203|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Test des Gesamtmodells
Die zuvor betrachtete Hypothese cTβ = d ist trotz ihrerAllgemeinheit nicht in der Lage, eine Hypothese wie beispielsweise
H0 : β1 = β2 = . . . = βm = 0
zu erfassen. Eine Annahme dieser Hypothese ist gleichbedeutendmit der Behauptung, dass die Regressoren keinenErklärungswert für das Zustandekommen der y-Werte besitzen.
Der zunächst naheliegende Gedanke, m Hypothesen der FormH0 : βk = 0 aufzustellen, mittels der t-Statistik zum Niveau α zuüberprüfen und die obige Hypothese genau dann abzulehnen,wenn alle Einzelhypothesen abgelehnt werden, ist nicht richtig.Man erhält keinen zum Niveau α, sondern einen konservativen Testzum Niveau α ′, mit α ′ << α.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 204|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
F-Test für das Gesamtmodell
Da das weiter oben definierte Bestimmtheitsmaß R2 den Anteil der durch das
Regressionsmodell erklärten Varianz beschreibt, liegt es nahe, diese Maßzahl
statistisch-induktiv zu verarbeiten. Werte von R2 in der Nähe von Null sprechen
gegen ein „angemessenes“ Modell, große Werte eher dafür.
Mit Hilfe der Teststatistik F, die gemäß
F =
R2
m1 − R2
n − m − 1
definiert ist und einer F-Verteilung mit m und (n − m − 1) Freiheitsgraden folgt,
kann somit eine Überprüfung des Gesamtmodells erfolgen.
(Beispiel siehe Vorlesung)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 205|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub: Lineare Regression mit R
Lineare Regression kann in R mittels der Funktion
lm(formula, data=<dataFrame>, ...) durchgeführt werden.
Schätzung des Modells (i = 1, . . . , n)
Yi = β0 + β1xi1 + β2xi2 + ǫi
Werden in R die y1, . . . , yn durch die Variable y,
x11, . . . , xn1 durch x1 und x12, . . . , xn2 durch x2 repräsentiert, kann die Formel
(formula) dann durch
y ~ x1 + x2
spezifiziert werden. Auf der linken Seite der Formel steht die zu erklärende
Variable. Das Tilde-Zeichen kann durch “wird modelliert durch” gelesen werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 206|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub: Lineare Regression mit R
(Beispiel Folie 192 fortgesetzt)
> Marktanteil = c(40,20,20,10,10); # spezifiziert y
> Preis = c(1,2,2,2,3); # x1
> Werbeausgaben = c(3,3,2,1,1); # x2
>
> Bsp192 = data.frame(Marktanteil,Preis,Werbeausgaben);
> lR = lm(Marktanteil ~ Preis + Werbeausgaben, data=Bsp192);
>
> summary(lR);
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 207|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub: Lineare Regression mit R
(Beispiel Folie 192 fortgesetzt)
Call:
lm(formula = Marktanteil ~ Preis + Werbeausgaben, data = Bsp192)
Residuals:
1 2 3 4 5
5.000e+00 -5.000e+00 -4.351e-16 -5.000e+00 5.000e+00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.000 22.583 1.328 0.315
Preis -10.000 7.071 -1.414 0.293
Werbeausgaben 5.000 5.000 1.000 0.423
Residual standard error: 7.071 on 2 degrees of freedom
Multiple R-Squared: 0.8333, Adjusted R-squared: 0.6667
F-statistic: 5 on 2 and 2 DF, p-value: 0.1667
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 208|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationEinschub: Lineare Regression mit R
(Beispiel Folie 192 fortgesetzt, Residuenplot)
5 10 15 20 25 30 35
−4
−2
02
4
yi
yi − yi
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 209|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub: Lineare Regression mit R
(Cereals from Kellog’s)
Kalorien = c(7,5,11,10,11,11,11,11,11,10,12,11,14,16,12,
14,9,10,12,9,11,11,11) * 10;
Protein = c(4,4,2,2,1,3,2,2,1,3,3,2,3,3,2,3,3,3,3,2,2,2,6);
Zucker = c(5,0,14,2,12,7,3,13,11,7,12,6,9,13,9,7,2,3,12,6,3,15,3);
X = matrix(c(rep(1,23),Protein,Zucker),23,3);
X;
# set up data frame
Kellogs = data.frame(Kalorien,Protein,Zucker);
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 210|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub: Lineare Regression mit R
(Cereals from Kellog’s)
> X;
[,1] [,2] [,3]
[1,] 1 4 5
[2,] 1 4 0
[3,] 1 2 14
[4,] 1 2 2
[5,] 1 1 12
[6,] 1 3 7
[7,] 1 2 3
[8,] 1 2 13
[9,] 1 1 11
[10,] 1 3 7
...
[21,] 1 2 3
[22,] 1 2 15
[23,] 1 6 3
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 211|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub: Lineare Regression mit R
(Cereals from Kellog’s)
> D = solve(t(X) %*% X);
[,1] [,2] [,3]
[1,] 0.7094439 -0.159353296 -0.032164699
[2,] -0.1593533 0.047240030 0.004502781
[3,] -0.0321647 0.004502781 0.002673094
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 212|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationEinschub: Lineare Regression mit R (Cereals from Kellog’s)> summary(lm(Kalorien ~ Protein + Zucker, data=Kellogs));
Call:
lm(formula = Kalorien ~ Protein + Zucker, data = Kellogs)
Residuals:
Min 1Q Median 3Q Max
-38.935 -11.268 -1.602 9.150 35.579
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 84.285 16.380 5.146 4.92e-05 ***Protein 1.163 4.227 0.275 0.7861
Zucker 2.819 1.005 2.804 0.0110 *---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 19.45 on 20 degrees of freedom
Multiple R-Squared: 0.3036, Adjusted R-squared: 0.234
F-statistic: 4.36 on 2 and 20 DF, p-value: 0.02683
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 213|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einschub: Lineare Regression mit R
(Cereals from Kellog’s)
# plot 2-dim lin. regression
plot(Protein,Kalorien);
regProtein = lm(Kalorien ~ Protein, data=Kellogs);
summary(regProtein);
abline(regProtein);
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 214|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationEinschub: Lineare Regression mit R
(Cereals from Kellog’s, Plot)
0 5 10 15
6080
100
120
140
160
Zucker
Kal
orie
n
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 215|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationEinschub: Lineare Regression mit R
(Cereals from Kellog’s)
Call:
lm(formula = Kalorien ~ Zucker, data = Kellogs)
Residuals:
Min 1Q Median 3Q Max
-38.2068 -12.0605 -0.7063 10.5434 36.5854
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 88.2068 7.8834 11.189 2.62e-10 ***Zucker 2.7083 0.9007 3.007 0.00671 **---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 19.01 on 21 degrees of freedom
Multiple R-Squared: 0.301, Adjusted R-squared: 0.2677
F-statistic: 9.042 on 1 and 21 DF, p-value: 0.006715
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 216|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationEinschub: Lineare Regression mit R
(Beispiel Kellog’s Cereals, Residuenplot)
90 100 110 120 130
−40
−20
020
lR
yi
yi − yi
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 217|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
6.3 Varianzanalyse
• Untersuchung des funktionalen Zusammenhangs zwischeneinem quantitativen Merkmal Y und i.a. mehreren nominalenMerkmalen X1, . . . ,Xm.Y und die X1, . . . ,Xm können wieder als einzelne Spalten derBeobachtungsmatrix A angesehen werden.
• Im Gegensatz zur multiplen, linearen Regression interessiert hieraber nicht nur der jeweilige Einfluss der einzelnenunabhängigen Variablen X1, . . . ,Xm auf die abhängige Größe Y,sondern auch der Einfluss oder die Wirkung einerKombination von exogenen Variablen.Somit sind hier nicht nur Einzeleffekte sondern auchWechselwirkungseffekte (Interaktionen/Interdependenzen)zwischen verschiedenen exogenen Variablen von Bedeutung.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 218|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Überblick über die wichtigsten Verfahren
Zahl der abhängigen
quantitativen Variablen
Zahl der unabhängigen
nominalen Variablen
Verfahrenstyp
q = 1 1 einfache Varianzanalyse
(ANOVA)
q = 1 m = 2, 3, . . . m-faktorielle Varianzanalyse
(ANOVA)
q > 2 m > 1 multivariate Varianzanalyse
(MANOVA)
Die unabhängigen exogenen Variablen X1, . . . ,Xm werden auchFaktoren genannt.
Im Rahmen der Vorlesung soll vor allem die zwei-faktorielleVarianzanalyse behandelt werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 219|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einfache Varianzanalyse: Beispiel
Ein Supermarkt untersucht die Wirkung von 3 Arten der Werbungauf den Absatz eines Produktes, wobei jede Werbeart fünf Tagedurchgeführt wird. Man erhält somit drei Teilstichproben mitjeweils fünf Beobachtungswerten.
Tag 1 Tag 2 Tag 3 Tag 4 Tag 5
Anzeige 47 39 40 46 45 yA = 43.4
Plakat 68 65 63 59 67 yP = 64.4
Lautsprecher 59 50 51 48 53 yL = 52.2
yGes = 53.3
Frage: Sind die unterschiedlichen Absatzergebnisse auf die Art derBewerbung zurückzuführen, d.h., existieren signifikanteAbsatzunterschiede zwischen den verschiedenenBewerbungsarten?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 220|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einfache Varianzanalyse: Interpretation des Beispiels
Unter der Annahme, dass alle absatzwirksamen Einflüsse von außen, d.h.
außerhalb der experimentellen Anordnung (z.B. Konkurrenz etc.), bis auf
zufällige Abweichungen bei allen Werbearten gleich sind, dürften keine
größeren Unterschiede zwischen den Mittelwerten der drei Werbearten
auftreten, wenn kein Einfluss der Art der Werbung auf den Absatz bestände.
Existieren hingegen Zusammenhänge, so hätte jedes Werbemittel k einen
spezifizierbaren Einfluss αk auf den Absatz Y.
Dies bedeutet auch, dass ein gewisser Grundabsatz (oder auch
Durchschnittsabsatz) µ aufgrund des Vorliegens einer Werbeart mit Hilfe der
Größe αk korrigiert wird.
Man erhält somit unter Berücksichtigung einer Fehlerkomponente das
(stochastische) Modell:
Yk,i = µ + αk + Uk,i
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 221|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Einfache Varianzanalyse: Modell
Ausgehend von einem Einflussfaktor (= Merkmal) mit K
Faktorstufen und einer Stichprobe vom Umfang nk pro
Faktorstufe k, alsoK∑
k=1
nk = n, sowie dem Modell
Yk,i = µ + αk + Uk,i (k = 1, . . . ,K und i = 1, . . . ,nk)
ergibt sich folgende Interpretation:
• Die Beobachtungswerte yi,k ergeben sich aus demGesamtmittelwert µ und dem Effekt αk , der die Abweichungzum Gesamtmittelwert angibt.
• Uk,i stellt den zufälligen Fehler dar.( Vergl. Bamberg/Baur Kap 14.7 )
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 222|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Zwei-fakt. Varianzanalyse: Beispiel (I)Der oben genannte Supermarkt untersucht simultan die Wirkung von drei Arten der Werbung (drei
Faktorstufen des Einflussfaktors Werbung) und zwei Bedienungsformen auf den Absatz eines
Produktes, wobei jede Kombination aus Werbeart und Bedienart fünf Tage durchgeführt wird. Man
erhält somit 3 · 2 = 6 Teilstichproben mit jeweils fünf Beobachtungswerten.
Persönliche Bedienung
Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5
Anzeige 47 39 40 46 45 yAP = 43.4Plakat 68 65 63 59 67 yPP = 64.4Lautsprecher 59 50 51 48 53 yLP = 52.2
yP = 53.3
Selbstbedienung
Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5
Anzeige 40 39 35 36 37 yAS = 37.4Plakat 59 57 54 56 53 yPS = 55.8Lautsprecher 53 47 48 50 51 yLS = 49.8
yS = 47.6
yGes = 50.5
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 223|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Zwei-faktorielle Varianzanalyse: Beispiel (II)
Bei Betrachtung der Tabellen kommen u.a. folgende Fragen auf:
• Werden durch das Untersuchungsdesign überhaupt signifikanteEinflüsse auf den Absatz erzielt (→ Signifikanz des Modells)
• Hat die Werbeart einen Einfluss auf den Absatz?
• Hat die Bedienart einen Einfluss auf den Absatz?
• Bestehen Wechselwirkungen zwischen Werbeart undBedienart?
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 224|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Zwei-fakt. Varianzanalyse: Interpretation des BeispielsUnter der Annahme, dass alle absatzwirksamen Einflüsse von außen bis auf
zufällige Abweichungen bei allen Kombinationen aus Werbeart und Bedienform
gleich sind, dürften keine größeren Unterschiede zwischen den Mittelwerten der
sechs Kombinationen auftreten, wenn kein Einfluss der Art der
Werbung/Bedienform auf den Absatz bestände.
Existieren hingegen entsprechende Zusammenhänge, so hätte jedes
Werbemittel k und jede Bedienform l einen spezifizierbaren Einfluß αk bzw.
βl auf den Absatz Y. Gleiches gilt auch für die Wechselwirkung (αβ)kl der
beiden Faktoren.
Dies bedeutet, dass ein gewisser Grundabsatz µ aufgrund des Vorliegens einer
Kombination aus Werbeart und Bedienform mit Hilfe der Größen αk , βl und
(αβ)kl korrigiert wird. Man erhält somit das (stochastische) Modell:
Ykl,i = µ + αk + βl + (αβ)kl + Ukl,i
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 225|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Zwei-faktorielle Varianzanalyse: ModellAusgehend von einem Faktor1 mit K Faktorstufen und einemFaktor2 mit L Faktorstufen, einem konstanten Stichprobenumfangn∗ pro Faktorstufenkombination kl sowie dem Modell
Ykl,i = µ + αk + βl + (αβ)kl + Ukl,i
(k = 1, . . . ,K und l = 1, . . . ,L
sowie i = 1, . . . ,n∗)
ergeben sich die Beobachtungswerte ykl,i aus
• dem Gesamtmittelwert µ ,
• einem Effekt αk des ersten Faktors,
• einem Effekt βl des zweiten Faktors,
• einem Effekt (αβ)kl, der die Wechselwirkung der beidenFaktoren berücksichtigt.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 226|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
ANOVA-Modell für m Faktoren k1, . . . ,km
Yk1,...,km,i = µ
+ αk1+ . . . + αkm
+ (α)k1,k2+ . . . + (α)km−1,km
+ . . .
+ (α)k1,...,km
+ Ui,k1,...,km
„Grundnutzen“
Haupteffekte
Wechselwirkungen
vom Grad 2
Wechselwirkung vom Grad m
Störvariable bei Beobachtung i
Die Störvariable U trägt wieder der Tatsache Rechnung, dass
• Variablen mit Meßfehlern behaftet sind und
• Zusammenhänge zwischen ökonomischen Variablen imallgemeinen stochastischer Natur sind
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 227|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Annahmen des ANOVA-Modells
(1) Die Stichproben der Faktorstufen-Kombinationen sindunabhängig.
(2) Die Stichprobengröße nk1,...,kmist in allen
Faktorstufen-Kombinationen gleich, n∗ = nk1= · · · = nkm
.Anmerkung 1: Diese Annahme kann aufgegeben werden;allerdings ist dann ein im Vergleich zur dargestelltenVorgehensweise modifizierter GLM-Ansatz zu wählen, der nichtbehandelt wird.Anmerkung 2: Bei der einfachen Varianzanalyse kann aufdiese Voraussetzung stets verzichtet werden.
(3) Verteilungsannahme: Yk1,...,km,i ∼ N (µk1,...,km,σ2)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 228|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Schätzung der Modellparameter
Die Schätzung der Parameter des allgemeinen ANOVA-Modellserfolgt mit Hilfe eines KQ-Ansatzes (unter Nebenbedingungen,Identifizierbarkeit der Modellparameter), bei dem folgendesOptimierungsproblem bezüglich θ zu lösen ist:
∑
k1
. . .∑
km
∑
i
(yk1,...,km,i − θk1,...,km)2 → min
Speziell gilt also für die
• einfache ANOVA:∑
k
∑
i
(yk,i − µ − αk)2 → min bzw.
• 2-fakt. ANOVA:∑
k
∑
l
∑
i
(yk,l,i − µ − αk − βl − (αβ)kl)2 → min
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 229|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Parameterschätzung der einfaktoriellen ANOVA
Als Lösung des oben genannten Optimierungsproblems ergebensich für die einfache ANOVA gemäß
Yk,i = µ + αk + Uk,i (k = 1, . . . ,K und i = 1, . . . ,nk)
folgende Parameterschätzungen:
• Die Schätzung von µ erfolgt mittels µ = yGes
• Die Schätzung von αk erfolgt mittels αk = yk − yGes
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 230|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Parameterschätzung der 2-faktoriellen ANOVA
Als Lösung des oben genannten Optimierungsproblems ergeben sich für die
zwei-faktorielle ANOVA gemäß
Ykl,i = µ + αk + βl + (αβ)kl + Ukl,i
(k = 1, . . . , K und l = 1, . . . , L
sowie i = 1, . . . , n∗)
folgende Parameterschätzungen:
• Die Schätzung von µ erfolgt mittels yGes
• Die Schätzung von αk erfolgt mit Hilfe von αk = yk − yGes
• Die Schätzung von βl erfolgt mit Hilfe von βl = yl − yGes
• Die Schätzung von (αβ)kl erfolgt mit Hilfe von
(αβ)kl = ykl − yGes − (yk − yGes) − (yl − yGes) =
= ykl − yk − yl + yGes
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 231|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Güte der Schätzung
Auch im Rahmen der ANOVA erfolgt die Beurteilung der Güte derSchätzung mit Hilfe der durch das Modell erklärten Varianz. Dabeigilt wieder:
• Je größer der durch das ANOVA-Modell erklärte VarianzanteilSSA (among-group sum of squares) an der GesamtvarianzSST (total sum of squares) ist, umso besser beschreibt dasModell die Daten.
• Umgekehrt bedeutet dies aber auch, dass der nicht-erklärteAnteil der Varianz, die Größe SSW (within-group sum ofsquares), möglichst klein sein soll.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 232|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Varianzzerlegung bei ANOVA Gesamtstreuung SST
Streuung zwischen
den Gruppen SSA
Haupteffekte
Streuung durch Faktor F1 (SSA-F1)...
Streuung durch Faktor Fm (SSA-Fm)
Interaktionen
Streuung durch Wechselwirkung
von F1 und F2 (SSA-F1 × F2)...
Streuung durch Wechselwirkung
von F1, F2 und F3 (SSA-F1 × F2 × F3)...
Streuung durch Wechselwirkung
von F1,F2, . . . ,Fm (SSA-F1 × F2 × . . .× Fm )
Streuung innerhalb
der Gruppen SSW
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 233|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Varianzzerlegung der einfachen ANOVA
Im Rahmen der einfachen ANOVA gilt auch im Fall desunbalancierten Designs folgende Varianz-Zerlegung:
K∑
k=1
nk∑
i=1
(yk,i − yGes)2
︸ ︷︷ ︸SST
=
K∑
k=1
nk∑
i=1
(yk,i − yk)2
︸ ︷︷ ︸SSW
+
K∑
k=1
nk(yk − yGes)2
︸ ︷︷ ︸SSA
Totalvarianz(Total sum of square)
Fehlervarianz durch ANOVAerklärte Varianz
Dabei gilt:
yk =1
nk
·nk∑
i=1
yk,i und yGes =1
n·
K∑
k=1
nk · yk
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 234|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Varianzzerlegung der 2-fakt.ANOVA (I)
Im Rahmen der 2-faktoriellen ANOVA gilt im Fall des balanciertenDesigns stets die folgende, sehr grobe Zerlegung:
K∑
k=1
L∑
l=1
n∗∑
i=1
(ykl,i − yGes)2
︸ ︷︷ ︸
SST
Totalvarianz
(Total sum of square)
=
K∑
k=1
L∑
l=1
n∗∑
i=1
(ykl,i − ykl)2
︸ ︷︷ ︸
SSW
Fehlervarianz
+ n∗ ·
K∑
k=1
L∑
l=1
(ykl − yGes)2
︸ ︷︷ ︸
SSA
durch ANOVA
erklärte Varianz
Dabei gelten analog folgende Konventionen:
ykl = 1n∗ ·
n∗∑
i=1
ykl,i und yGes = 1K·L
K∑
k=1
L∑
l=1
ykl = 1n
K∑
k=1
L∑
l=1
n∗∑
i=1
ykl,i
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 235|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Varianzzerlegung der 2-fakt.ANOVA (II)
Darüber hinaus kann der Varianzanteil SSA weiter sinnvoll zerlegtwerden. Für zwei Faktoren F1 und F2 gilt
SSA = SSAF1+ SSAF2
+ SSAF1×F2
gemäß
SSAF1= n∗ · L ·
K∑
k=1
(yk − yGes)2 SSAF2
= n∗ · K ·L∑
l=1
(yl − yGes)2
SSAF1×F2= n∗ ·
K∑
k=1
L∑
l=1
(ykl − yk − yl + yGes)2
wobei gilt:
yk =1
L · n∗·
L∑
l=1
n∗∑
i=1
ykl,i und yl =1
K · n∗·
K∑
k=1
n∗∑
i=1
ykl,i
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 236|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Hypothesen des ANOVA-Modells
Klassische Testverfahren erlauben es, Fragen von folgendem Typ zuentscheiden:
• Ist die Hypothese, dass der Einfluss eines exogenen Faktors aufdie endogene Größe signifikant vorhanden ist, mit demDatenmaterial verträglich?
• Existieren Wechselwirkungen zwischen bestimmten Faktoren,die einen wesentlichen Beitrag zur Erklärung der endogenenGröße aufweisen?
• Ist eine Gruppe von exogenen Faktoren ohne Einfluss auf dieendogene Größe?
Fragen bezüglich verschiedener Abschätzungen wie bei derRegression (Konfidenzintervalle) sind hingegen nicht üblich.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 237|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Signifikanztests der Modellparameter
Die Konstruktion der verschiedenen Signifikanztests folgt stetsdem gleichen Schema:
• Der mit Hilfe des ANOVA-Modells geschätzte VarianzanteilSSA (SSA,SSAF1
,SSAF2,SSAF1×F2
) wird dem durch dieANOVA nicht-erklärten Varianzanteil SSW gegenübergestellt.
• Da beide Größen aufgrund der Verteilungsannahmen derANOVA als Summe quadrierter normalverteilter Zufallsvariablenχ2 verteilt sind, ist die resultierende Test-Statistik als Quotientsolcher Zufallsvariablen F-verteilt.
• Ein Vergleich mit dem entsprechenden Fraktil der Verteilungermöglicht so die Beurteilung der formulierten Hypothese.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 238|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Test auf Signifikanz des ersten Faktors
Die in der ökonometrischen Praxis mit Abstand wichtigsteHypothese H0 bezüglich eines ersten Faktors F1 lautet:
H0 : α1 = α2 = . . . = αK = 0 gegen H1 :mind. einαk 6= 0
Die Ablehnung von H0 bedeutet, dass der exogene Faktor F1
einen signifikanten Einfluss auf die endogene Größe hat.Die Überprüfung der Hypothese erfolgt mit Hilfe der F-Statistik
vF1=
SSAF1
SSW· n − K · L
K − 1
und den entsprechenden Fraktilen der F-Verteilung mit (K − 1)
und (n − K · L) Freiheitsgraden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 239|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Test auf Signifikanz des zweiten Faktors
Analog dazu kann auch eine Hypothese H0 bezüglich des zweitenFaktors F2 formuliert werden.
H0 : β1 = β2 = . . . = βL = 0 gegen H1 :mind. einβk 6= 0
Die Ablehnung von H0 bedeutet, dass der exogene Faktor F2
einen signifikanten Einfluss auf die endogene Größe hat.Die Überprüfung der Hypothese erfolgt mit Hilfe der F-Statistik
vF2=
SSAF2
SSW· n − K · L
L − 1
und den entsprechenden Fraktilen der F-Verteilung mit (L − 1)
und (n − K · L) Freiheitsgraden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 240|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Test auf Signifikanz der Faktoren
Soll hingegen überprüft werden, ob der Faktor F1 oder der Faktor F2 einen
signifikanten Einfluß auf die endogene Variable besitzt, führt dies zu folgender
Hypothese
H0 : α1 = α2 = . . . = αK = β1 = β2 = . . . = βL = 0 gegen
H1 : mind. ein αk 6= 0 oder mind. ein βl 6= 0
Die Ablehnung von H0 bedeutet, dass entweder der Faktor F1 oder der Faktor
F2 einen signifikanten Einfluss hat.
Die Überprüfung der Hypothese erfolgt wiederum mit Hilfe einer F-Statistik
vF1oderF2=
SSAF1+ SSAF2
SSW· n − K · LK + L − 2
und den entsprechenden Fraktilen der F-Verteilung mit (K + L − 2) und
(n − K · L) Freiheitsgraden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 241|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Test auf WechselwirkungenMöchte man hingegen überprüfen, ob der Faktor F1 und der der Faktor F2
gleichzeitig einen signifikanten Einfluss auf die endogene Variable besitzen,
führt dies zur Hypothese
H0 : (αβ)11 = . . . = (αβ)KL = 0 gegenH1 : mind. ein (αβ)kl 6= 0
Die Ablehnung von H0 bedeutet, dass zwischen Faktor F1 und Faktor F2 eine
Wechselwirkung besteht, die einen signifi-kanten Einfluß auf die endogene
Größe hat.
Die Überprüfung der Hypothese erfolgt wiederum mit Hilfe einer F-Statistik
vF1×F2=
SSAF1×F2
SSW· n − K · L(K − 1) · (L − 1)
und den entsprechenden Fraktilen der F-Verteilung mit (K − 1) · (L − 1) und
(n − K · L) Freiheitsgraden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 242|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Test auf Signifikanz des Modells
Schlußendlich kann auch überprüft werden, ob überhaupt irgendein Parameter
des Modells einen signifikanten Einfluss auf die endogene Variable besitzt. Die
entsprechende Hypothese lautet also:
H0 : α1 = . . . = αK = β1 = . . . = βL = (αβ)11 = . . . = (αβ)KL = 0
Die Ablehnung von H0 bedeutet, dass das Modell die endogene Größe
signifikant identifiziert.
Die Überprüfung der Hypothese erfolgt auch hier mit Hilfe einer F-Statistik
vANOVA =SSA
SSW· n − K · L(K · L − 1)
und den entsprechenden Fraktilen der F-Verteilung mit (K · L − 1) und
(n − K · L) Freiheitsgraden.Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 243|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationBeispiel: Zwei-fakt. VarianzanalyseMit Hilfe der bereits bekannten Daten soll ermittelt werden,
• ob überhaupt signifikante Einflüsse existieren,• ob signifikante Einflüsse bei der Bedienart und der Werbeart, bzw.• ob signifikante Einflüsse von Wechselwirkungen
zu beobachten sind.
Persönliche Bedienung
Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5
Anzeige 47 39 40 46 45 yAP = 43.4Plakat 68 65 63 59 67 yPP = 64.4Lautsprecher 59 50 51 48 53 yLP = 52.2
yP = 53.3
Selbstbedienung
Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5
Anzeige 40 39 35 36 37 yAS = 37.4Plakat 59 57 54 56 53 yPS = 55.8Lautsprecher 53 47 48 50 51 yLS = 49.8
yS = 47.6
→ Lösung siehe Vorlesung
yGes = 50.5
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 244|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Beispiel Varianzanalyse: Lösung mit R
1 Absatz <- c(47,39,40,46,45,2 68,65,63,59,67,3 59,50,51,48,53,4 40,39,35,36,37,5 59,57,54,56,53,6 53,47,48,50,51);78 anz <- c(rep("Anzeige", 5));9 pla <- c(rep("Plakat", 5));
10 lau <- c(rep("Lautspr", 5));11 Werbung <- factor(rep(c(anz,pla,lau),2));12 Bedienung <- factor(c(rep("pers", 15), rep("selbst", 15)));13 Tag <- factor(rep(c(1,2,3,4,5), 6));1415 d6ANOVA <- data.frame(Werbung,Bedienung,Tag,Absatz);1617 interaction.plot(d6ANOVA$Werbung, d6ANOVA$Bedienung, d6ANOVA$Absatz,col="yellow");1819 ### Zweifaktorielle Varianzanalyse: Dabei wird durch die Addition von20 ### Werbung*Bedienung in der Modellgleichung angegeben, dass Wechselwirkungen21 ### zwischen den Faktoren Werbung und Bedienung im Modell angenommen werden.22
23 a <- aov(formula = Absatz ~ Werbung * Bedienung, data=d6ANOVA);24 a;25 summary(a);26 qqnorm(a$res);27 qqline(a$res);
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 245|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Beispiel Varianzanalyse: Lösung mit RNormalverteilungsannahme?
−2 −1 0 1 2
−4
−2
02
46
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 246|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
KlassifikationBeispiel Varianzanalyse: Lösung mit RSind Haupt-/Interaktionseffekte erkennbar?
4045
5055
6065
d6ANOVA$Werbung
mea
n of
d6A
NO
VA
$Abs
atz
Anzeige Lautspr Plakat
d6ANOVA$Bedienung
persselbst
Beispiel: Interactionplot (Werbung + Bedienung)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 247|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Beispiel Varianzanalyse: Lösung mit R
1 > a;23 Call:4 aov(formula = Absatz ~ Werbung + Bedienung + Werbung * Bedienung,5 data = d6ANOVA)6
7 Terms:8 Werbung Bedienung Werbung:Bedienung Residuals9 Sum of Squares 1944.2000 240.8333 48.4667 238.0000
10 Deg. of Freedom 2 1 2 2411
12 Residual standard error: 3.14907413 Estimated effects may be unbalanced1415 > summary(a);1617 Df Sum Sq Mean Sq F value Pr(>F)18 Werbung 2 1944.20 972.10 98.0269 2.833e-12 ***19 Bedienung 1 240.83 240.83 24.2857 4.989e-05 ***20 Werbung:Bedienung 2 48.47 24.23 2.4437 0.108221 Residuals 24 238.00 9.9222 ---23 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 248|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Klassifikation
Schlußbemerkungen
Sind keine Wechselwirkungen der beiden Faktoren vorhanden (SSAF1×F2= 0),
so kann der zweifaktorielle Versuchsplan durch zwei einfaktorielle Versuchspläne
ersetzt werden, wobei sich dieselben Resultate ergeben.
Liegt nur eine Beobachtung pro Zelle vor (d.h. n∗ = 1), dann ist eine Schätzung
der Residualstreuung SSW nicht mehr möglich. In diesem Fall werden die
Wechselwirkungen vernachlässigt, d.h., das Modell Yk = µ + αk + βk + Uk wird
verwendet (vgl. auch Fahrmeir/Hamerle 1984, S.179ff ).
Zu beachten ist dabei, dass sich die Freiheitsgrade der Residu-alstreuung
df(SSW) nun gemäß df(SSW) = n − K − L + 1 bestimmen.
Des Weiteren können im Rahmen einer erweiterten Varianzanalyse auch
quantitative exogene Faktoren berücksichtigt werden
(→ Kovarianzanalyse, Datenanalyse II)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 249|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
7SegmentierungMetrischer Daten, Segmentierungsarten, Heuristiken, Bewertungskriterien,
partitionierende- und hierarchische Segmentierungsverfahren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 250|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
7 Segmentierung (Clusteranalyse) metrischer Daten
7.1 Segmentierungstypen
7.2 Segmentierungsheuristiken
7.3 Bewertungskriterien
7.4 Partitionierende Verfahren
7.5 Hierarchische Verfahren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 251|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Ziele der Clusteranalyse
Die Segmentierung oder Clusteranalyse dient derZusammenfassung von Objekten und/oder Merkmalen zu Klassenoder Gruppen, bzw. eine Objektmenge N wird in TeilmengenK1,K2, . . . ,Ks unterteilt. Es gilt:
Kr ⊂ N , Kr 6= ∅ für alle k = 1, . . . , s ,
so dass
zwischen den Elementen xi,r , xj,r derselben Klassen Kr
größtmögliche Ähnlichkeit,
zwischen den Elementen unterschiedlicher Klassen Kr, Kt
größtmögliche Verschiedenheit
erreicht wird.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 252|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
7.1 Segmentierungstypen
Man unterscheidet i.a.:
Disjunkte und nicht-disjunkte Segmentierung, wobei im erstenFall ein bestimmtes Element nur einer einzigen Klasse, im zweitenFall auch mehreren Klassen zugewiesen werden darf.
Exhaustive Verfahren, bei denen jedes Element mindestens einerKlasse zugeordnet wird, und nicht-exhaustive Verfahren, dieunklassifizierte Elemente zulassen.
Beispiel: N = {1, 2, 3, 4, 5} disjunkt nicht-disjunkt
1 12 23
3
445
5
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 253|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Segmentierungstypen
Agglomerative Verfahren gehen von einelementigen Klassen ausund fassen schrittweise Elemente zu Klassen zusammen. DivisiveVerfahren starten dagegen mit einer Anfangszerlegung, dieschrittweise verfeinert (d.h. zerteilt) wird.
Bei einmodalen Verfahren werden nur Objekte oder nur Merkmalezu Klassen zusammengefasst, während zweimodale VerfahrenObjekte und Merkmale einer Datenmatrix simultan segmentieren.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 254|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Unterteilung von Clusteransätzen - Teil 3
Hierarchische Segmentierungsverfahren sind dadurchgekennzeichnet, dass ein auf höherer Fusionsebene liegendesCluster die entsprechenden, auf niedrigerer Ebene liegendenCluster vollständig enthält.
Nicht-hierarchische Verfahren basieren aufOptimierungsmethoden, mit deren Hilfe Klassenzugehörigkeitengeschätzt werden oder versucht wird, durch Elementtauschzwischen den Klassen die Segmentierungsgüte iterativ zuverbessern.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 255|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Unterteilung von Clusteransätzen - Teil 4
Des Weiteren unterscheidet man scharfe und unscharfeSegmentierung. Beim scharfen Ansatz ist jedes Objekt - falls eineZuordnung zu mindestens einer Klasse erfolgt der entsprechendenKlasse eindeutig zugeordnet. Dies bedeutet aber nicht, dass derDurchschnitt zweier Klassen leer sein muß.
Bei der unscharfen Vorgehensweise erfolgt keine eindeutigeZuordnung zu einer Klasse. Vielmehr werden Anteilswertevergeben, die den Grad der Zugehörigkeit eines Objektes zu einerKlasse bestimmen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 256|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Vorgehen bei der Auswahl der Segmentierungsverfahren
Bei der Auswahl des Segmentierungstyps resp. desSegmentierungsverfahrens wird überlegt,
ob alle Objekte/Merkmale segmentiert werden sollen
(exhaustiv oder nicht-exhaustiv)
bzw.
ob die Klassen paarweise disjunkt oder
nicht-disjunkt (überlappend) sein sollen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 257|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Definition einer Segmentierung
Eine Menge K = {K1,K2, . . .} heißt scharfe Segmentierung einerObjektmenge N, wenn gilt:
Kr 6= ∅Kr ⊂ N
für alle r.
Des Weiteren gilt:
K ⊂ P(N)
|N| = n → |K| < |P(N)| = 2n
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 258|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Definition: Exhaustive Segmentierung
Eine Segmentierung K = {K1,K2, . . .} heißt
− exhaustiv ⇔ ⋃K∈K
K = N
− nicht-exhaustiv ⇔ ⋃K∈K
K ⊂6=
N
Bemerkung:
Nicht-exhaustive Segmentierungen können sinnvoll sein, wennAusreißer nicht berücksichtigt werden sollen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 259|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Definition: Disjunkte Segmentierung
Eine Segmentierung K = {K1,K2, . . .} heißt
- disjunkt (Zerlegung, Partition)
⇔ K,L ∈ K,K 6= L
⇒ K ∩ L = ∅
- nicht-disjunkt (Überdeckung, Überlappung)
⇔ K,L ∈ K,K 6= L
⇒ K ∩ L /∈ {K,L}
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 260|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Bemerkung: Disjunkte Segmentierung
Zwei Klassen können gemeinsame Elemente enthalten, eineTeilmengenbeziehung wird jedoch ausgeschlossen.
Beispiel: N = {1, 2, 3, 4, 5}
disjunkt nicht-disjunkt nicht erlaubt
312
45
1 12 23
3
445
5
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 261|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Definition: (Quasi-)hierarchieEine Segmentierung K = {K1, K2, . . .} heißt
Quasihierarchie ⇔ K ∈ K, es existieren Kr ∈ K mit Kr ⊂6=
K
⇒ ⋃Kr⊂
6=K
Kr = K
Hierarchie ⇔ 1) K ist Quasihierarchie2) K, L ∈ K K ∩ L = ∅ oder
K ⊂ L oder L ⊂ K
Bemerkung: Es gilt: Die Vereinigung aller echten Teilmengen einer Klasse K ergibt gerade wieder K.
Beispiel: K = { {1}, . . . , {5}, {1, 2, 3} {2, 4, 5}, {1, 2, 3, 4, 5} }
{1, 2, 3, 4, 5}
{1, 2, 3}
{1} {2} {3}
{2, 4, 5}
{4} {5}
“Vereinigung von Überdeckungen”
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 262|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Bemerkung: Hierarchie
Es gilt: Eine Hierarchie ist eine spezielle Quasi-Hierarchie, bei derlediglich Überschneidungen von Klassen ausgeschlossen werden.
Beispiel: K = { {1}, ..., {5}, {1, 2, 3} {4, 5}, {1, 2, 3, 4, 5} }
{1, 2, 3, 4, 5}
{1, 2, 3}
{1} {2} {3}
{4, 5}
{4} {5}
“Vereinigung von Zerlegungen”
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 263|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Wahl des Segmentierungstyps
Weitere Forderungen an den Segmentierungstyp ergeben sich
• aus der Problemstellung,
• aus der geeigneten Wahl eines Verschiedenheitsindex, derinsbesondere auch vom Skalenniveau der Daten abhängt
• aus der geforderten Klassenzahl,
• aus der Ober- bzw. Untergrenzen für die Objektanzahl in denKlassen
• und aus anderen Rahmenbedingungen.
Aus dem gewünschten Segmentierungstyp leitet sich dann auchdas Segmentierungsverfahren ab.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 264|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Scharfe Segmentierungsverfahren
• Hierarchische Verfahren
- Divisive Verfahren
- Agglomerative Verfahren
◦ Single Linkage
◦ Average Linkage
◦ Complete Linkage
◦ Ward
◦ · · ·
• Partitionierende Verfahren
- Austauschverfahren (KMEANS,
CLUDIA)
- Iteriertes Minimaldistanzverfahren
(MDP)
- Partitioning Around Medoid (PAM)
- Clustering Large Data (CLARA)
- · · ·• Überlappende Verfahren
• Andere Verfahren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 265|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
7.2 Segmentierungsheuristiken
sind Segmentierungsverfahren, die
- mit Hilfe einfacher algorithmischer Ansätze,
- ohne den Anspruch auf Optimalität,
- ohne hohen (Rechen-) Aufwand und
- auf Basis eines (Un-)Ähnlichkeitsmaßes (für metrische Daten)
eine Objektmenge aufteilen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 266|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Ähnlichkeitsmaß für metrische Daten
Man benötigt dazu ein Maß, das die Ähnlichkeit zweier Objekte,die durch metrische Merkmale beschrieben werden, quantifiziert.
- Ähnlichkeitsmaß AM: Je größer ein Wert, desto ähnlicher sindsich zwei Objekte.
- Folge: Was bedeutet ein Wert AM = 0?bzw. Wie groß ist die Ähnlichkeit zweier identischer Objekte?
⇒ Übergang zu einem Verschiedenheitsmaß
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 267|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Unähnlichkeitsmaß für metrische DatenBerücksichtigt man nun, dass zwei Objekte i und j bezüglich einesMerkmals k umso unähnlicher sind, desto größer ihreMerkmalsausprägungen differieren - umso größer also
|aik − ajk| bzw. (aik − ajk)2
ist - und berücksichtigt des Weiteren, dass die Unähnlichkeitzwischen zwei Objekten von allen Merkmalen simultan undgleichmäßig getragen werden soll, so erhält man z.B. folgendeseinfache Unähnlichkeitsmaß für metrische Daten, das auf demEuklidschen Abstand basiert:
v(i, j) =
m∑
k=1
(aik − ajk)2
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 268|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Vorgehensweise der Heuristik
1) Zunächst werden s möglichst verschiedene Klassenzentrenbestimmt.
2) Danach werden die restlichen Elemente dem nächstähnlichenbzw. nächstgelegenen Klassenzentrum zugeordnet.
Anwendung von Heuristiken:
Bestimmung von Anfangsklassifikationen, die mit Hilfe andererVerfahren iterativ verbessert werden können.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 269|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Heuristik für eine ZerlegungObjektmenge N, Klassenzahl s
1) Wähle 1. Klassenzentrum (KlaZ) i1 ∈ N zufällig
2) Wähle 2. KlaZ i2 ∈ N mit v(i1, i2) = maxj6=i1
( v(i1, j))
3) Wähle für t = 3, . . . , s KlaZ it ∈ N mit
v(iτ, it) = maxj6=τ
(min
τ=1,...,t−1v(iτ, ij)
)
4) Bilde Klassen um die Zentren i1, . . . , is gemäß {K1, . . . ,Ks} mit
Kσ ={
j ∈ N : v(iσ, j) = minτ
v(iτ, j)}
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 270|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Beispiel
Gegeben sei die Datenmatrix A Alter Semester
1 22 5
2 25 10
3 21 4
4 28 13
5 24 8
Mit Hilfe des heuristischen Algorithmus erhält man folgende3-Klassen-Partition:
K1 = {1, 3} , K2 = {4} , K3 = {2, 5}
Berechnung: siehe Vorlesung
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 271|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
7.3 Bewertungskriterien
Hat man zwei verschiedene Segmentierungsvarianten K und L,stellt sich die Frage, welche geeigneter ist.
Kriterien zur Bewertung von Segmentierungen:
Dabei unterscheidet man Maße zur Bewertung der
• Heterogenität einer Klasse (Innerklassen-Verschiedenheit)
• Heterogenität zwischen 2 Klassen(Zwischenklassen-Verschiedenheit)
• Heterogenität einer Segmentierung (Güteindex)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 272|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Varianz als Bewertungskriterium
Bei quantitativen Daten mißt man die Verschiedenheit vonObjekten gerne mit Hilfe von Maßen, die auf dem (quadrierten)euklidischen Abstand der Objekte basieren (s. Folie 20).
Da aber zwischen dieser euklidischen Distanz und der Varianzgewisse Zusammenhänge existieren, bietet es sich an, diegeforderten Indizes auf Grundlage der sogenannten
- Innerklassen-Varianzen und- Zwischen-klassen-Varianzen
darzustellen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 273|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Bezeichnungen - Teil 1
Mittelwert des Merkmals k
(für alle Objekte)a•k = 1
n
n∑
i=1
aik
Mittelwert des Merkmals k
(in Klasse K)aKk = 1
|K|
∑
i∈K
aik
Kovarianz der Merkmale k, l
(für alle Objekte)Sk,l = 1
n
n∑
i=1
(aik − a•k)(ail − a•l)
Kovarianz der Merkmale k, l
(in Klasse K) VKk,l = 1
|K|
∑
i∈K
(aik − aKk)(ail − aKl)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 274|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Inner-/Zwischenklassenvarianz
Kovarianz der Merkmale k, l (zwischen den Klassen)
zk,l =1
n
∑
K∈K
|K| (aKk − a•k)(aKl − a•l)
Die Matrix VK = (vKk,l) bezeichnet man als
Innerklassen-Kovarianzmatrix der Klasse K, die Matrix Z = (zk,l)
entsprechend als Zwischenklassen-Kovarianzmatrix.
Somit gilt dann auch:
S =1
n
∑
K∈K
|K| · VK + Z
Beweisidee siehe Vorlesung
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 275|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Heterogenität einer Klasse
Definition : Die Abbildung h : P(N) → R+ heißtHeterogenitätsindex (Inner-Klassen-Verschiedenheit - IKV), fallsgilt:
a) h(K) = 0 falls K = {i}, i ∈ N
b) h(K) < h(L) falls L heterogener als K
Für metrische Daten ergibt sich auf Basis der Varianzüberlegungendamit folgender Index h(K):
h(K) = Spur (Vk) =
m∑
k=1
vKkk =
1
|K|
∑
i∈K
m∑
k=1
(aik − aKk)2
Beispiel siehe VorlesungDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 276|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Verschiedenheit zwischen Klassen
Definition : Die Abbildung v : P(N) × P(N) → R+ heißt
Verschiedenheitsindex (ZKV), falls gilt:
a) v(K, K) = 0
b) v(K, L) = v(L, K) > 0
c) v(K, K ′) < v(L, L ′) falls L und L ′ heterogener (schärfer oder
besser getrennt) als K und K ′
Für metrische Daten ergibt sich auf Basis der Varianzen z.B. folgender Index
v(K, L), der beim modifizierten WARD-Verfahren Anwendung findet:
vWard(K, L) = 2 · |K| · |L|
|K| + |L|·
m∑
k=1
(aKk − aLk)2
Hinweis: Die Definition v(K, L) ist mit der Definition von v(i, j)
(siehe Abschnitt Unähnlichkeitsmaße) verträglich.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 277|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Bewertung einer Segmentierung
Definition : Die Abbildung b : P(P(N)) → R+ heißtKlassifikationsindex (Güteindex), falls gilt:
b(K) < b(L) falls K besser als L
Bemerkung: Die Güte einer Segmentierung läßt sich
- mit Hilfe der Heterogenität der Klassen (IKV) und/oder- mit Hilfe der Verschiedenheit zwischen den Klassen (ZKV)
beschreiben. Für metrische Daten ergibt sich auf Basis der obigenVarianzüberlegungen folgender Index b(K)
b(K) =∑
K∈K
h(K) =∑
K∈K
SpurVK =∑
K∈K
1
|K|
∑
i∈K
m∑
k=1
(aik − aKk)2
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 278|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Anmerkungen
Der Heterogenitätsindex h orientiert sich an den quadriertenAbweichungen der Ausprägungen einer Klasse von denKlassenmittelwerten (→ Summe der Merkmalsvarianzen inKlasse K).
Der Verschiedenheitsindex v orientiert sich i.a. an den quadriertenAbweichungen der Klassenmittelwerte, bereinigt um dieHeterogenitätsindizes.
Der Güteindex ergibt sich als Summe aller klassenweisenMerkmalsvarianzen.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 279|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Problematik der Güteindizes
Im allgemeinen fällt der Güteindex b mit steigender Klassenanzahl. Es entsteht
somit ein Zielkonflikt zwischen
• möglichst geringer Klassenanzahl und
• möglichst kleinem Güteindex.
Entscheidungshilfe: Das Ellenbogenkriterium
Mit Hilfe des sogenannten Ellenbogenkriteriums kann die „optimale“ Wahl der
Klassenanzahl erfolgen. Dabei fällt die Entscheidung zugunsten der
Klassenanzahl s∗ mit der Güte b∗, der bei
• eine Verringerung der Klassenanzahl s zu einem starken Anstieg von b
• eine Erhöhung der Klassenanzahl s nur zu einer geringfügigen
Verbesserung von b führt.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 280|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Ellenbogenkriterium
1. 2 3 4 5 6 7 8
b(K)
Klassenanzahl s
b∗
s∗
Die Wahl der Klassenanzahl fälltzugunsten der Zahl s∗ = 4.
Auch die Wahl der Zwei-Klassenlösung ist vertretbar.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 281|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
7.4 Partitionierende Verfahren
sind Klassifikationsverfahren, die die Objektmenge N auf Basiseiner fest vorgegebenen Klassenzahl s so aufteilen, dass dieberechnete Klassifikation bzw. Partition K einen vorgegebenenGüteindex b(K) minimiert:
minK∈P(P(N))
{
b(K) : K = {K1, . . . , Ks},
s⋃
k=1
Kk = N, Kk ∩ Kl = ∅}
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 282|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Anzahl der Partitionen einer Menge
Die Anzahl der möglichen, unterschiedlichen Klassifikationen hängtvon der Anzahl s und von n = |N| ab und ist eine Stirling‘scheZahl 2. Art.
s 2 3 5 10
n
3 3 1 0 0
5 15 25 1 0
10 511 9330 42.525 1
20 524.287 ≈ 5, 8 · 1011 ≈ 7, 5 · 1011 ≈ 6 · 1012
50 ≈ 5, 6 · 1014 ≈ 1, 2 · 1025 ≈ 7, 4 · 1032 ≈ 2, 6 · 1043
100 ≈ 6, 3 · 1031 ≈ 8, 6 · 1046 ≈ 6, 6 · 1067 ≈ 2, 8 · 1093
Anzahl der Klassifikationen (in Abhängigkeit von s und n)
→ Heuristische Verfahren sind anzuwenden.
⇒ Enumerative Lösungs-
verfahren scheiden bei
nichttrivialen Problemen
aus.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 283|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Das Austauschprinzip
(1) Wähle Startpartition K0 = {K01, . . . ,K
0s} (Startheuristik)
(2) Bestimme b(K0 )
(3) Suche Objekt(e), so dass ein Transfer b reduziert
(4) Tausche Objekt(e) aus der aktuellen in die beste neue Klasse
(5) Wiederhole (3) und (4) bis kein Tausch mehr möglich(→ lokales Optimum gefunden)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 284|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Bemerkungen
(a) Die Verfahren brechen nach endlich vielen Schritten ab.
(b) Die Verfahren erreichen meist nur ein Suboptimum ( → globaleOptima werden eher erreicht, wenn unter Berücksichtigung allerTauschmöglichkeiten auch mehrere Objekte simultan getauschtwerden können).
(c) Das Ergebnis hängt i.a. von der gewählten Startpartition ab(→ mehrere Startpartitionen verwenden).
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 285|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Das Austauschverfahren KMeans
Start: Objektmenge N, Güteindex b, Kµ = {Kµ1 , . . . ,Kµ
s } (µ = 0)
Solange maxi∈N
maxK
µρ∈Kµ
[b(Kµ) − b(K)] = b(Kµ) − b(Kµ+1) > 0,
wobei Kσ =
Kµσ − {i} für i ∈ Kµ
σ, |Kµσ| > 1
Kµσ ∪ {i} für Kµ
σ = Kµρ (σ = 1, . . . , s)
Kµσ sonst
mit Lösung i∗,Kµ∗
Tausche i∗ ∈ N in Kµ∗
µ = µ + 1
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 286|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Bemerkungen
(a) Falls mehrere Tauschoperationen möglich sind(mehrdeutige Lösung) → beliebiger Transfer
(b) Ergebnis: K0 → K1 → K2 → K3 → . . . mitb(K0) > b(K1) > b(K2) > b(K2) > . . .
(c) Abbruch:
falls b(Kµ) = b(Kµ+1) mit lokalem Optimum
falls b(Kµ) − b(Kµ+1) 6 ǫ in der Nähe eines lok. Optimum,wobei die Schranke ǫ vorzugeben ist
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 287|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
SegmentierungBeispiel - KMeans
Alter Semester
1 22 5
2 25 10
3 21 4
4 28 13
5 24 8
Ausgangspunkt (beliebig): 3-Klassen-
Startpartition K0 mit
K01 = {1, 2}
K02 = {3, 4} ⇒ K2 = {{1, 3}, {4}, {2, 5}}
K03 = {5}
Der Güteindex b(K) ergibt
b(K0) =
Varianz der Klasse {1,2}︷ ︸︸ ︷1
2
((22 − 23.5)2 + (5 − 7.5)2 + (25 − 23.5)2 + (10 − 7.5)2
)
+
Varianz der Klasse{3,4}︷ ︸︸ ︷1
2
((21 − 24.5)2 + (10 − 7)2 + (28 − 24.5)2 + (4 − 7)2
)
+1
1
((24 − 24)2 + (8 − 8)2
)
︸ ︷︷ ︸
Varianz der Klasse{5}
= 41
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 288|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Lösung - Austauschschritt 1
Objekttausch (nicht i = 5)
i = 1 : K = {{2}, {1, 3, 4}, {5}} b(K) = 0 + 25.78 + 0 = 25.78
K = {{2}, {3, 4}, {1, 5}} b(K) = 0 + 32.5 + 3.25 = 35.75
i = 2 : K = {{1}, {2, 3, 4}, {5}} b(K) = 0 + 22.22 + 0 = 22.22
K = {{1}, {3, 4}, {2, 5}} b(K) = 0 + 32.5 + 1.25 = 33.75
i = 3 : K = {{1, 2, 3}, {4}, {5}} b(K) = 9.78 + 0 + 0 = 9.78
K = {{1, 2}, {4}, {3, 5}} b(K) = 8.5 + 0 + 6.25 = 14.75
i = 4 : K = {{1, 2, 4}, {3}, {5}} b(K) = 16.89 + 0 + 0 = 16.89
K = {{1, 2}, {3}, {4, 5}} b(K) = 8.5 + 0 + 10.75 = 18.75
⇒ K1 = {{1, 2, 3}, {4}, {5}}
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 289|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Lösung - Austauschschritt 2
Objekttausch (nicht i = 5)
i = 1 : K = {{2, 3}, {1, 4}, {5}} b(K) = 13 + 25 + 0 = 38
K = {{2, 3}, {4}, {1, 5}} b(K) = 13 + 0 + 3.25 = 16.75
i = 2 : K = {{1, 3}, {2, 4}, {5}} b(K) = 0.5 + 4.5 + 0 = 5
K = {{1, 3}, {4}, {2, 5}} b(K) = 0.5 + 0 + 1.25 = 1.75
i = 3 : siehe oben, Rücktausch, keine Verbesserung
⇒ K2 = {{1, 3}, {4}, {2, 5}}
Nächste Interation bringt keine Verbesserung, d.h. K2 ist lokaloptimal
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 290|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Modifiziertes KMeans-VerfahrenStart: Objektmenge N, Güteindex b, Kµ = {K
µ1 , . . . ,K
µs } (µ = 0, i = 0, t = 0)
Star
t
max
Kµ ρ∈
Kµ
[b(K
µ)
−b
(K
)]=
b(K
µ)
−b
(K
µ+
1)
>0
,wo
bei
Kσ
=
Kµ σ
−{i
}fü
ri∈
Kµ σ,
|Kµ σ|>
1
Kµ σ∪
{i}
fürK
µ σ=
Kµ ρ
Kµ σ
son
st
(mit
σ=
1,.
..,s
) ∃Lö
sun
g
Kµ ∗
?
Tau
sch
ei
inK
µ ∗,
setz
eµ
=µ
+1
,
t=
0
ja
t=
t+
1
nei
n
i=
i+
1
i=
n+
1?
i=
1
ja
t=
n?
nei
n
End
e
ja
nei
n
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 291|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Bemerkungen
• Während ein Objekt beim einfachen Austauschverfahren erstnach einem vollständigen Durchlauf der Objektmengegetauscht wurde, erfolgt hier ein sofortiger Tausch desObjektes bei Verbesserung der Güte b.
• Ergebnisse hängen von der Reihenfolge ab, in der die Objektebearbeitet werden.
• Modifiziertes Austauschverfahren ist im allgemeinen schnellerals das einfache Austauschverfahren.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 292|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Beispiel - Modifiziertes KMeans
Alter Semester
1 22 5
2 25 10
3 21 4
4 28 13
5 24 8
Ausgangspunkt (beliebig):
3-Klassen-Startpartition K0 mit
K01 = {1, 2}
K02 = {3, 4}
K03 = {5}
Da nur der Algorithmus verändert ist, nicht aber der Güteindexb(K), ergibt sich für die Startlösung der zum Kmeans-Verfahrenidentische Wert b(K0) = 41.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 293|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
KMeans with R# KMEANS Alter/Semester von Studentenx = matrix(c(22,25,,21,28,,24,5,10,4,13,8),5,2);cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)
# KMEANS mit Ringstrukturenx = matrix(c(1,0),1,2)for (r in c(.2,.9)) {for (i in 1:100) {phi = rnorm(1,sd=pi);point = matrix(c(r*cos(phi+rnorm(1,sd=.1/r)),
r*sin(phi+rnorm(1,sd=.1/r))),1,2);x = rbind(x,point);
}}cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)
# KMEANS mit zwei Zentrenx <- rbind(matrix(rnorm(100, sd = .3), ncol = 2),
matrix(rnorm(100, mean = 1, sd = .3), ncol = 2));cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 294|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Beispiel KMEANS mit R
21 22 23 24 25 26 27 28
46
810
12
x[,1]
x[,2
]
Beispiel: KMEANS Alter/Semester von Studenten
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 295|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Beispiel KMEANS mit R
−0.5 0.0 0.5 1.0 1.5
−1.
0−
0.5
0.0
0.5
1.0
1.5
2.0
x[,1]
x[,2
]
Beispiel: KMEANS mit zwei Zentren
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 296|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Beispiel KMEANS mit R
−0.5 0.0 0.5 1.0
−0.
50.
00.
5
x[,1]
x[,2
]
Beispiel: KMEANS mit Ringstruktur
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 297|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Vorgehensweise - Partitionierung
(1) Startpartition mit Hilfe einer Startheuristik
(2) Bestimmung eines lokalen Optimums mit Hilfe von KMEANS
(3) Wiederholung der Schritte (1) + (2) auf Basis mehrererzufälliger Startpartitionen
(→ Erhöht die Stabilität der Lösung und vergrößert dieWahrscheinlichkeit für das Erreichen eines globalen Optimums)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 298|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
7.5 Hierarchische Verfahren
sind Segmentierungsverfahren, die auf der Basis einerObjektmenge N eine Folge von Partitionen konstruieren. Dabeiunterscheidet man
• Verfahren, die in jedem Schritt die erhaltene Segmentierungverfeinern (divisive Verfahren) und
• Verfahren, die in jedem Iterationsschritt die Segmentierungvergröbern (agglomerative Verfahren)
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 299|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Divisive Verfahren
• Ausgangspunkt ist die Klasse aller Objekte.
• Sukzessiver Übergang zu feineren Zerlegungen
• Abbruch, sobald vorgegebenes Kriterium erfüllt ist
12345
123
12
1
2
3
45
4
5
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 300|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Agglomerative Verfahren
• Ausgangspunkt sind n = |N| einelementige Klassen.
• Sukzessiver Übergang zu gröberen Zerlegungen
• Abbruch, sobald vorgegebenes Kriterium erfüllt ist
• Niedrige Rechenzeiten, gute praktische Eignung
1
2
3
4
5
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 301|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Das Ward-Verfahren
Start: Objektmenge N, Varianz-ZKV vWARD, Kµ = {Kµ1 , . . . , K
µn−µ} (µ = 0)
1. Suche Klassen mit minimaler Verschiedenheit
minK
µi , K
µj ∈Kµ
Kµi
6=Kµj
v(Kµi , K
µj ) = v(K
µi0
, Kµj0
)
2. Fusion:
Kµ+1
i =
Kµi0∪ K
µj0
für i = min{i0, j0}
Kµi+1 für i > max{i0, j0}
Kµi sonst
⇒ Kµ+1 ={
Kµ+11 , . . . , K
µ+1n−µ+1
}
3. µ = µ + 1
Wiederhole 1. - 3. bis |Kµ| = 1Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 302|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Das Resultat: eine Hierarchie K
• Auf Basis der Verfahren erhält man eine Klassifikation K mitmaximal 1
2· n · (n − 1) Klassen:
K =
n−1⋃
µ=0
Kµ ={K0
1, . . . ,K0n,K1
1, . . . ,K1n−1, . . . ,K
n−11
}
• Dabei gilt für Klassen
- einer Hierarchie-Ebene: K ∩ L = ∅- eines Hierarchie-Astes: K ⊂ L oder L ⊂ K
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 303|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Bemerkungen zum Ward-Verfahren
Das Ward-Verfahren kann als sehr guter Clusteralgorithmus angesehen werden,
wenn
- die metrischen Variablen unkorreliert und vergleichbar (ähnliche
Skalierung, d.h. Größenordnung der Merkmale) sind,
- keine Ausreißer in der Objektmenge enthalten sind, bzw. diese vorab
eliminiert werden,
- zu erwarten ist, dass die Elementzahl in jeder Klasse ungefähr gleich groß
ist (allgemeine Tendenz des Verfahrens)
- die Klassen in etwa gleiche Ausdehnung (also etwa gleiche
Innergruppenvarianz) besitzen.
Es versagt i.a., wenn im Datensatz „langgestreckte“ Klassen (im Rm ) existieren
und/oder Klassen mit stark unterschiedlicher Elementzahl zu erkennen sind.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 304|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Beispiel: Ward-Verfahren
Alter Semester
1 22 5
2 25 10
3 21 4
4 28 13
5 24 8
Lösung siehe Vorlesung
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 305|306
EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung
Segmentierung
Interpretation eines Dendrogramms
Sprunghafte Veränderungen im Wert des Gütekriteriumsgestatten Rückschlüsse auf die geeignete Klassenzahl (EB).Ähnliche Objekte werden früh fusioniert, unähnliche Objektespäter; Ausreißer erst am Ende einem großen Cluster zugeordnet.Die Klassenstruktur ist
- stabil, wenn unterschiedliche Verfahren (siehe auchDatenanalyse II) zu ähnlichen Ergebnissen führen,
- intensiv,wenn sukzessiv Klassen vergleichbarenUmfangs fusioniert werden und
- schwach,wenn sukzessiv nur benachbarterEinzelobjekte hinzugefügt werden.
Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 306|306
top related