institut für statistik und mathematische ... · institut für statistik und mathematische...

Institut für Statistik und Mathematische Wirtschaftstheorie

Universität Augsburg

Datenanalyse I

Stefan Etschberger

Wintersemester 2004/2005

EinleitungDatenFehlende DatenDeskriptive AnalyseRepräsentationKlassifikationSegmentierung

Einleitung

Organisatorisches

• Vorlesung Montag, 8.30 - 10.15 Uhr

• Vorlesungsmaterialien sind wöchentlich unterhttp://www.wiwi.Uni-Augsburg.de/ibo -> Downloadsabrufbar

• 60-minütige Klausur, vier Leistungspunkte

• Wünschenswerte Vorkenntnisse: Statistik I, II

• Sprechstunde: Während des SemestersMontags, 13.00 - 14.00 Uhr WIWI, Raum 2325

• email: Etschberger@WIWI.Uni-Augsburg.de

Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 1|306

Einleitung

Inhalt

• Einleitung: Fragestellungen,

Überblick, Anwendungsbeispiele

• Daten: Objekte, Merkmale, Skalen

• Fehlende Daten: Ursachen,

Ausfallmechanismen,

Strukturanalyse, Behandlung

• Deskriptive Analyse: Univariate

deskriptive Statistiken,

Kreuztabellen, graphische

Darstellung

• Repräsentation: Ziele, Varianten,

Faktorenanalyse

• Klassifikation: Überblick über

Verfahren, Multiple Regression,

Varianzanalyse

• Segmentierung metrischer Daten:

Segmentierungsarten, Heuristiken,

Bewertungskriterien,

partitionierende- und hierarchische

Segmentierungsverfahren

1EinleitungFragestellungen, Überblick, Anwendungsbeispiele

Einleitung

Problemstellung

• Die Datenanalyse (Numerische Taxonomie,Multivariatenanalyse) stellt sich die Aufgabe,Ähnlichkeitsbeziehungen zwischen Elementen einerbestimmten Menge zu analysieren.

• Die Datenanalyse ist ein Teilgebiet der Statistik und kommt inder Regel dann zum Einsatz, wenn große Datenmengen durchmehrere Merkmale charakterisiert werden.

• Ausgangspunkt der Datenanalyse ist stets eine Datenmatrixoder eine Distanzmatrix.

Einleitung

Die Datenmatrix

• enthält zeilenweise Objekte (Merkmalsträger, cases)

• enthält spaltenweise Merkmale (variables, items)

BeispielMerkmale

ObjektePreis PS Verbrauch Land Wertverlust ABS

Tipo 1600 I.E. 20.800 90 8.5 I hoch nein

Honda Civic 1.3 20.400 75 7.8 JAP mittel nein

Mitsubishi Colt 1.5 19.700 84 7.8 JAP niedrig nein

Kadett LS 1.6i 19.400 75 7.5 D mittel ja

Renault 19 GTS 19.000 73 7.8 F mittel ja

VW Golf CL 20.500 70 8.1 D niedrig ja

Einleitung

Die Distanzmatrix

• enthält zeilen- und spaltenweise Objekte.

• Die Einträge der Matrix sind Werte für die Verschiedenheit(Distanzen) zweier Objekte.

Objekte

ObjekteTipo

1600 I.E.

Civic 1.3

Mitsub.

Colt 1.5

Kadett

LS 1.6i

Renault

19 GTS

VW Golf

Tipo 1600 I.E. 0.00 9.09 4.11 10.50 10.55 4.16

Honda Civic 1.3 9.09 0.00 7.05 2.41 2.45 7.65

Mitsubishi Colt 1.5 4.11 7.05 0.00 8.19 8.24 3.50

Kadett LS 1.6i 10.50 2.41 8.19 0.00 2.05 8.05

Renault 19 GTS 10.55 2.45 8.24 2.05 0.00 8.74

VW Golf CL 4.16 7.65 3.50 8.05 8.74 0.00

Einleitung

Teilbereiche der Datenanalyse

Es lassen sich nach dem Zweck der Anwendung drei Teilbereiche

unterscheiden:

DatenverdichtendeVerfahren(deskriptiv)

• Kennzahlen

• Indizes

• Faktorenanalyse

StrukturaufdeckendeVerfahren(explorativ)

• Kreuztabellen

• Faktorenanalyse

• Clusteranalyse

• MDS

• Korrespondenzanalyse

StrukturprüfendeVerfahren(induktiv)

• Varianzanalyse

• Regressionsanalyse

• logistische Regression

• Diskriminanzanalyse

• Conjoint-Analyse

• Kausalanalyse

Einleitung

Datenanalyse in der Forschung

Beliebige DatenExplorative Datenanalyse

• Klassifikation

• Repräsentation

• Identifikation

Theorie(n)

Inspiration

Intuition

Wissenstransfer,

allgemeine

Überlegungen

Repräsentative Daten

• empirische

Sozialforischung

• StichprobentheorieInduktive Methoden der

Statistik

Wissenschaftliche

Erkenntnisse

Einleitung

Klassische Anwendungsbereiche der Datenanalyse

Marketing/Marktforschung

• Marktsegmentierung

• Kundentypisierung

• Aufdecken von

Marktnischen

• Ermittlung von Marktre-

aktionen

Sozialwissenschaften

• Einstellungsanalysen

• Qualifikationsprofile

Biologie

• Zuordnung von Pflanzen

oder Tieren zu Gattun-

Medizin

• Diagnose

• Überprüfung von Thera-

pieerfolgen

Volkswirtschaft

• Input-Output-Analysen

zur Abgrenzung und

Aggregation von Wirt-

schaftssektoren

Bibliothekswesen

• Katalogisierung von Bü-

Einleitung

Nutzung von Methoden der Datenanalyse in derMarktforschung

nach Gaul, Förster, Schiller (1986)

Einleitung

Die klassische 3-Teilung der DA

• Segmentierung (Clusteranalyse): Zusammenfassung vonObjekten zu homogenen Klassen aufgrund von Ähnlichkeiten inwichtigen Merkmalsbereichen

• Repräsentation: Darstellung von Objekten durch Punkte im2- oder 3-dimensionalen Raum, wobei Ähnlichkeitsbeziehungendurch räumliche Nähe zum Ausdruck kommen sollen

• Identifikation: Reproduktion einer gegebenen Segmentierungoder Repräsentation mit Hilfe weniger aussagekräftigerMerkmale (Ziel: Prognose, Klassifikation)

Einleitung

Datenanalyse

Segmentierung

Clusteranalyse

Repräsentation Identifikation

MDSKorrespondenz-

analyseFaktorenanalyse

Klassifika-

tioneiner

Repräsen-

tation

Diskriminanz-

analyse

Conjoint-

analyse

Regressions-

analyse

Varianz-

analyse

Einleitung

Segmentierung

• Eine meist unübersichtliche Menge vonUntersuchungsobjekten (z.B. Kunden, Produkte) ist inGruppen, Typen oder Klassen so aufzuteilen, dass die Objekteeiner Klasse möglichst ähnlich, die Objekte je zweier Klassenmöglichst verschieden sind.

Anwendung: Kundentypologien, Produktkategorien,Marktsegmente

Einleitung

Beispiel einer Segmentierung

Einleitung

Typische Fragestellungen der Segmentierung in derMarktforschung

• Lassen sich die Kunden eines Kaufhauses entsprechend ihrerBedürfnisse in Gruppen einteilen?

• Gibt es bei Zeitschriften verschiedene Lesertypen?

• Wie kann man die Käuferschaft eines Produktes entsprechendihrer Mediengewohnheiten aufteilen?

• Welche Produkte sind einander besonders ähnlich (werden alsbesonders ähnlich empfunden)?

• Wie sollte ein neues Produkt aussehen (empfunden werden)?

Einleitung

Repräsentation

• Eine gegebene Menge von Untersuchungsobjekten (Produkte,Konkurrenten) ist in einem möglichst niedrig dimensioniertenRaum graphisch so anzuordnen, dass die Ähnlichkeit vonObjektpaaren durch ihre räumliche Distanz gutwiedergegeben wird.

Anwendung: Marktnischen, -verdichtungen, Konkurrenzanalysen

Einleitung

Beispiel Repräsentation:Multidimensionale Skalierung (MDS)

Einleitung

Typische Fragestellungen der MDSin der Marktforschung:

• Inwieweit entspricht das eigene Produkt denIdealvorstellungen der Konsumenten?

• Welches Image besitzt die Marke XY?

• Hat sich die Einstellung der Konsumenten zu einer Marke inden letzten Jahren verändert?

Einleitung

Beispiel Repräsentation:Faktorenanalyse

Einleitung

Typische Fragestellungen der Faktorenanalyse in derMarktforschung

• Lässt sich die Vielzahl der Eigenschaften, die die Käufer einerMarke als wichtig empfinden, auf wenige komplexe Faktorenreduzieren?

• Wie lassen sich darauf aufbauend die verschiedenen Markenanhand dieser Faktoren beschreiben?

Einleitung

Identifikation

• Die erhobenen Merkmale sind auf Zusammenhänge hin zuüberprüfen (Korrelation). Ferner ist aufzuzeigen, ob undgegebenenfalls wie bestimmte Merkmale durch andereMerkmale erklärt werden können.

M1,M2, . . .

Regressionsanalyse

M1,M2, . . .

Varianzanalyse

• Erklärung von Marktvariablen (Marktanteil, etc.) durchUnternehmensvariablen

• Analyse von Gruppenunterschieden

Einleitung

Beispiel Identifikation: Varianzanalyse

Source

DF Sum of

Squares

Square

F-Ratio Prob.

A (Land) 3 9,691936E+08 3,230645E+08 2,97 0,050882 *

S 25 2,715837E+09 1,086335E+08

Total (Adj.) 28 3,685031E+09

Total 29

*) Eine Abhängigkeit des Prei-

ses vom Herstellerland kann zur

Irrtumswahrscheinlichkeit von 5

Prozent nicht bestätigt werden.

(H0 : alle Mittelwerte gleich, H1 :

MW ungleich

hier: H0 nicht ablehnen)

Einleitung

Typische Fragestellungen der Identifikation in derMarktforschung

Varianzanalyse

• Hat die Art der Verpackung einen Einfluss auf die Höhe derAbsatzmenge?

• Hat die Farbe einer Anzeige einen Einfluss auf die Zahl derPersonen, die sich an die Werbung erinnern?

• Hat die Wahl des Absatzweges einen Einfluss auf dieAbsatzmenge?

Einleitung

Regressionsanalyse

• Wie verändert sich die Absatzmenge eines Produktes, wenn dieWerbeausgaben um x% gekürzt werden?

• Wie läßt sich der Preis für ein Produkt in den kommendenMonaten schätzen?

• Hat die Qualität einer Werbeanzeige einen signifikanten Einflussauf das Kaufverhalten der Adressaten?

Einleitung

Diskriminanzanalyse

• In welcher Hinsicht unterscheiden sich Käufer vonNicht-Käufern?

• Welche Merkmale einer Anzeige tragen am meisten zu ihrerErinnerung bei?

• Lassen sich bestimmte Kreditkunden anhand der MerkmaleEinkommen, Schulbildung, Alter etc. als kreditwürdig einstufen?

Einleitung

Gliederung der Vorlesung

In Datenanalyse I bzw. Datenanalyse II behandelte Themen:

Beschreibungder Daten

• Objekte und Merkmale

• Distanzen

• Fehlende Daten

StrukturaufdeckendeVerfahren

• Clusteranalyse

• Faktorenanalyse

• MDS

• Korrespondenzanalyse

StrukturprüfendeVerfahren

• Regressionsanalyse

• Varianzanalyse

• Kovarianzanalyse

• Conjoint-Analyse

• Diskriminanzanalyse

Einleitung

Literatur - Teil 1

• Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (2000): Multivariate Analysemethoden, 9. Auflage,

Springer, Berlin

• Bamberg, G.; Baur, F. (2002): Statistik, 12. Auflage, Oldenbourg, München

• Bankhofer, U. (1995): Unvollständige Daten- und Distanzmatrizen in der Multivariaten

Datenanalyse, Bergisch Gladbach

• Eckes, T.; Roßbach, H. (1980): Clusteranalysen, Kohlhammer, Stuttgart

• Everitt, B.; Dunn, G. (1991): Applied Multivariate Data Analysis, Arnold, London

• Fahrmeir, L.; Hamerle, A. (1996): Multivariate statistische Verfahren, 2. Auflage, de Gruyter, Berlin

• Hartung, J.; Elpelt, B.; Klösener, K.-H. (1995): Statistik, 10. Auflage, Oldenbourg, München

• Hartung, J.; Elpelt, B. (1999): Multivariate Statistik, 6. Auflage, Oldenbourg, München

• Hilbert, A. (1998): Zur Theorie der Korrelationsmaße, Eul, Bergisch Gladbach

Einleitung

Literatur - Teil 2

• Jobson, J.D. (1991): Applied Multivariate Data Analysis, Volume I: Regression and Experimental

Design, Springer, New York

• Jobson, J.D. (1992): Applied Multivariate Data Analysis, Volume II: Categorical and Multivariate

Methods, Springer, New York

• Opitz, O. (1980): Numerische Taxonomie, UTB, Fischer, Stuttgart

• Schwaiger, M. (1997): Multivariate Werbewirkungskontrolle: Konzepte zur Auswertung von

Werbetests, Gabler, Wiesbaden

• Steinhausen, D.; Langer, K. (1977): Clusteranalyse: Einführung in Methoden und Verfahren der

automatischen Klassifikation, de Gruyter, Berlin

• Weber, E. (1974): Einführung in die Faktorenanalyse, Fischer, Stuttgart

• Tatsuoka, M (1988): Multivariate Analysis, Second Edition, Macmillan Publishing Company, New

Einleitung

Ablauf einer datenanalytischen Untersuchung

a) Präzisierung des Untersuchungsziels

b) Diskussion der Datenbasis

c) Datenerhebung und -erfassung

d) Datenanalyse

e) Interpretation der Ergebnisse

Einleitung

• Formulierung der Zielsetzung

• Abgrenzung der Untersuchungsobjekte

• Ableitung der taxonomischen Aufgabenstellung

- Segmentierung

- Repräsentation

- Identifikation

Einleitung

• Auswahl der Merkmale

• Festlegung des Skalenniveaus oder

• Charakterisierung der Objekte durch direkte Vergleiche

Einleitung

• Primär- oder Sekundärerhebung

• Vollerhebung oder Teilerhebung (Stichprobenauswahl!)

• Datencodierung und ggf. Dateneingabe in DV-Systeme

Einleitung

d) Datenanalyse

• Univariate Datenanalyse (Screening,

erster Einblick in die Merkmalsstruktur,

Plausibilitätsprüfung)

Deskriptive Verfahren

• Multivariate Datenanalyse (nicht

’statistics all’, sondern Verfahrenseinsatz

nach Aufgabenstellung und Zielsetzung)

Explorative und

induktive Verfahren

Einleitung

• Klassenstatistiken und Bezeichnungen bei Clusteranalysen

• Benennung der Achsen bei Repräsentationsverfahren

• Zusammenfassung signifikanter Einflussgrößen beiIdentifikationsverfahren

2DatenObjekte, Merkmale, Skalen

Gliederung Kapitel 2: Daten

2.1 Objekte und Merkmale

2.2 Merkmalstypen und Skalenarten• Nominale Merkmale• Ordinale Merkmale• Quantitative Merkmale

2.1 Objekte und Merkmale

Einige grundlegende Definitionen:

• G = {1, 2, 3, . . .} Grundgesamtheit von Objekten

• N = {1, . . . ,n} Objektmenge

• Falls G = N Vollerhebung

• Falls N ⊂ G Stichprobe aus der Grundgesamtheit

• M = {1, . . . ,m} Merkmalsmenge

Die Datenmatrix

A = (aik)n×m =

a11 . . . a1m

.... . .

an1 . . . anm

Datenmatrix

mit aik als Ausprägung des Merkmals k bei Objekt i

• Zeilen von A (Objektvektoren): aTi = (ai1, . . . ,aim), i ∈ N

• Spalten von A (Merkmalsvektoren): ak =

, k ∈ M

• Ak Menge der möglichen Ausprägungen

bei Merkmal k

Beispiel: Hörer einer VorlesungMerkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 22 männlich Augsburg 5 BWL mit VD

2 25 männlich Karlsruhe 10 Mathe mit HD

3 21 weiblich München 4 VWL mit VD

5 24 männlich Augsburg 8 BWL ohne VD

Merkmal k Ausprägungsmenge Ak

Alter Menge der natürlichen Zahlen

Geschlecht {männlich, weiblich}

Wohnort Menge aller Orte

Semester Menge der natürlichen Zahlen

Studiengang {BWL, VWL, Mathematik, Informatik, ...}

Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom}

2.2 Merkmalstypen und Skalenarten

Grundsätzlich lassen sich folgende Merkmalstypen unterscheiden:

• Quantitative Merkmale:

Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen

benannt.

• Qualitative Merkmale:

Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe,

nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale).

Da es häufig von Vorteil ist, daß die Ausprägungen eines Merkmals durch Zahlen

wiedergegeben werden, quantifiziert man i.d.R. die qualitativen Merkmale.

Dies geschieht mit Hilfe einer Abbildung, die man Skala nennt.

Definition: Skala

Sei k ein Merkmal mit der Ausprägungsmenge Ak.Dann heißt die Abbildung f : Ak → R eine Skala.

Bemerkung:

Die Abbildung f sollte so gewählt werden, dass die Informationenund Relationen, die für bzw. zwischen den einzelnen Merkmals-ausprägungen aik gelten, auch für die Bildwerte f(aik) korrektsind.

Nominale Merkmale

Definition:

Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die

Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( 6=)

unterschieden werden kann.

Bezüglich der Äquivalenz (≈) zweier Objekte gilt:

i ≈k

j ⇔ aik = ajk bzw. i 6≈k

j ⇔ aik 6= ajk

Die Abbildung f : Ak → R mit

aik 6= ajk ⇒ f(aik) 6= f(ajk)

heißt Nominalskala.

Unterscheidung nominaler Merkmale

• Ein Merkmal heißt dichotom (zweiwertig, binär), wenn es genauzwei Ausprägungen besitzt. Beispiel: Geschlecht

• Ein Merkmal heißt polytom oder mehrwertig, wenn es mehr alszwei Ausprägungen besitzt. Beispiel: Wohnort

Bemerkung: Jedes mehrwertige Merkmal mit r Ausprägungenkann durch r dichotome Merkmale ersetzt werden, wobei jedeAusprägung ein Merkmal darstellt.

Beispiel: Nominale Merkmale

Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 22 1 1 5 1 mit VD

2 25 1 2 10 2 mit HD

3 21 0 3 4 3 mit VD

4 28 1 1 13 1 mit VD

5 24 1 1 8 1 ohne VD

Dabei wird folgende

Skalierung verwendet:

Geschlecht: fGeschlecht(weiblich) = 0

fGeschlecht(männlich) = 1

Wohnort: fWohnort(Augsburg) = 1

fWohnort(Karlsruhe) = 2

fWohnort(München) = 3

Studiengang: fStudiengang(BWL) = 1

fStudiengang(Mathe) = 2

fStudiengang(VWL) = 3

Ordinale Merkmale

Definition:

Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig

geordnet werden können.

Bezüglich der Ordnung zweier Objekte gilt:

i ≺k

j ⇔ aik < ajk → niedrigerer Rang

i ≈k

j ⇔ aik = ajk → gleicher Rang

i ≻k

j ⇔ aik > ajk → höherer Rang

Die Abbildung f : Ak → R mit

aik < ajk ⇒ f(aik) < f(ajk)

heißt Ordinalskala.

Beispiel: ordinale Merkmale: Prüfungen der Hörer

Objekte

1 22 1 1 5 1 2

2 25 1 2 10 2 3

3 21 0 3 4 3 2

4 28 1 1 13 1 2

5 24 1 1 8 1 1

Dabei wird folgende Skalierung verwendet:

Prüfungen: f(ohne VD) = 1, f(mit VD) = 2, f(mit HD) = 3

Quantitative Merkmale

Definition:

Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn esordinal ist und die Differenzen von Ausprägungspaaren vollständiggeordnet werden können.

Dies bedeutet insbesondere, dass das Ausmaß derUnterschiedlichkeit zweier Ausprägungen bestimmt werden kannund aussagekräftig ist. Je nachdem, welche Aussagen bzgl. diesesAusmaßes getroffen werden können, unterscheidet man dabei dieTypen Intervallskala, Verhältnisskala und Absolutskala.

Definition: Intervallskala

• Die Abbildung f : Ak → R mit

f(aik) = α · aik + β (α > 0, β ∈ R)

heißt Intervallskala.

• Nur der Abstand zwischen zwei Ausprägungen kann verglichenwerden:

- Kein natürlicher Nullpunkt

- z.B. Temperatur (Celsius, Fahrenheit)

Definition: Verhältnisskala

• Die Abbildung f : Ak → R mit

f(aik) = α · aik (α > 0)

heißt Verhältnisskala.

• Das Verhältnis zwischen zwei Ausprägungen kann sinnvollerWeise verglichen werden:

- Existenz eines natürlichen Nullpunktes

- z.B. Längen, Preise, Zeiten

Definition: Absolutskala

• Die Abbildung f : Ak → IN0 mit

f(aik) = aik

heißt Absolutskala.

• Es existiert eine natürliche Maßeinheit:

- z.B. Stückzahlen

Skalendegression und Skalenprogression

Ziel der Skalierung ist es, die durch die Datenmatrix gegebene Information angemessen abzubilden,

ohne Über- bzw. Unterschätzungen zu riskieren.

Es gilt:

• Grundsätzlich können alle Merkmale nominal skaliert werden.

• Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden.

Diese Änderungen der Skalenniveaus nennt man Skalendegression. Dabei ist ein

Informationsverlust in Kauf zu nehmen.

Aber es gilt auch:

• Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden.

• Ordinale Merkmale dürfen nicht metrisch skaliert werden.

Dieses Vorgehen nennt man Skalenprogression, bei der mehr Informationen in die Merkmale

interpretiert würde, als inhaltlich vertretbar ist (Gefahr der Fehlinterpretation)

Klassische Informationsniveaus

Informationsniveau

tskala

Verhältnisskala

Intervallskala

MetrischOrdinalNominal

Erweiterungen der klassischen Skalentypen

Es gibt Merkmale, bei denen eine Nominalskala die vorhandenen Informationen

nicht voll nutzt, eine Ordinalskala jedoch nicht vertretbar erscheint.

• Hierarchische Merkmale zeichnen sich durch Ausprägungspaare aus, die

ähnlicher sind als andere, wenn sie zu einem Oberbegriff zusammengefasst

werden können. Je abstrakter der Oberbegriff ist, unter dem sie

zusammengefasst werden können, desto unähnlicher sind sie.

• Bei verbandsgeordneten Merkmalen kann eine Merkmalsausprägung in

mehrere Komponenten zerlegt werden. Die Ähnlichkeit zweier

Ausprägungen solcher Merkmale misst man dann durch den Grad der

Übereinstimmung in den Komponenten. In einer graphischen Repräsentation

solcher Merkmale werden zwei Ausprägungen aik und ajk z.B. durch eine

Kante verbunden (sind also maximal ähnlich), wenn aik maximal echte

Teilmenge von ajk ist.

Beispiel: Hierarchisches MerkmalAlle Hörer

ordentliche

Studierende

Wirtschaftswiss.

BWL VWL

Sozialwiss.

Sozio Psycho

Naturwiss.

Mathe Informatik

Gasthörer

Beispiel: Verbandsgeordnetes Merkmal

PKW-Beurteilung bzgl. mehrerer Eigenschaften

Informationsniveaus

Informationsniveau

Verbandsgeordnet

Hierarchisch

MetrischOrdinalNominal

3Fehlende DatenUrsachen, Ausfallmechanismen, Strukturanalyse, Behandlung

Fehlende Daten

3 Fehlende Daten (Missing Values, Missing Data, MD)

3.1 Ursachen fehlender Daten

3.2 Ausfallmechanismen

3.3 Strukturanalyse

3.4 Behandlung fehlender Daten

Fehlende Daten

3.1 Ursachen fehlender Daten

Ablauf einer datenanalytischen Untersuchung

Merkmalsauswahl, Skalenniveau

Datenaufbereitung (PC-gestützt)

d) Datenanalyse

Ursachen für das Fehlen von Daten sind in den der eigentlichen Datenanalyse

vorgelagerten Stufen b) und c) zu suchen.

Fehlende Daten

Allgemeine Ausfallursachen

Diskussion der Datenbasis

• Fehlerhaftes Untersuchungs-

design, z.B. ’Alter der Kinder’

• Mangelhaftes Untersuchungs-

design, z.B. durch miss-

verständliche Fragen,

unübersichtliche oder zu

lange Fragebögen

Datenerhebung aus

Sekundärquellen

• Unvollständigkeit der

Sekundärquellen

• Verwendung mehrerer

Sekundärquellen

• Akualitätsprobleme

Fehlende Daten

Allgemeine Ausfallursachen

Datenerhebung aus Primärquellen

• Unangenehme oder persönliche

Fragen

• Übersehen von Fragen

• Mangelndes Wissen der Befragten

• Antwortverweigerung

• Motivationsprobleme bei der

Befragung

• Verständnisprobleme

• Meinungslosigkeit

• Zeitknappheit

Datenaufbereitung bzw. -erfassung

• Codierfehler

• Übertragungsfehler

• Löschung unmöglicher Daten

• Löschung fehlerhafter Daten

Fehlende Daten

3.2 Ausfallmechanismen

Bei der Existenz von fehlenden Daten sind nicht dieAusfallursachen an sich, sondern lediglich die Auswirkungen aufdas Datenmaterial von Bedeutung. Die Ausfallursachen habenaber Auswirkungen auf das vorliegende Datenmaterial.

Das führt zur Frage nach dem Mechanismus, der zum Fehlen derDaten führt.

Man unterscheidet dabei zwei Arten von MD:

• Unsystematisch bzw. zufällig fehlende Daten

• Systematisch bzw. nicht-zufällig fehlende Daten

Fehlende Daten

Systematisch fehlende Daten

Die Ursache des Fehlens ist hierbei in den Merkmals-ausprägungen der fehlenden Daten selbst zu suchen.

Das bedeutet, eine Charakterisierung der entsprechendenObjekte anhand der fehlenden Ausprägungen ist möglich.

Wirkung:

Unter Umständen erhebliche Verzerrungen der Ergebnisse, wennbei der Auswertung nur die vorhandenen Daten betrachtetwerden.

Fehlende Daten

Beispiel für systematisch fehlende Daten

Im Rahmen einer Befragung werden ausschließlich die MerkmaleEinkommen und Alter erhoben.

Eine Verfälschung wäre dann gegeben, wenn beim MerkmalEinkommen lediglich Personen mit einem niedrigen Einkommenverweigern würden.

Eine Schätzung des mittleren Einkommens auf Basis dervorhandenen Daten überschätzt dann den wahren Wert.

Objektabhängiges Fehlen von Daten wegenAuskunftsunfähigkeit oder Unwilligkeit eines Befragten

Fehlende Daten

Unsystematisch fehlende Daten

werden durch Einflußfaktoren auf die Untersuchungssituationhervorgerufen, die sich nicht eindeutig auf bestimmte Objekteoder Merkmale konzentrieren.

Ursachen sind z.B. Unaufmerksamkeiten bei der Datenerhebungund/oder -aufbereitung

Verzerrungen der Ergebnisse sind nicht zu erwarten, wenn bei derAuswertung nur die vorhandenen Daten betrachtet werden.

Fehlende Daten

Grundlegende, verbale Definitionen

Daten werden als zufällig fehlend bezeichnet, wenn

• die fehlenden Daten gleichmäßig über die Matrix gestreut sind(keine Konzentration),

• für ein Objekt ein fehlende Merkmalsausprägung unabhängigvon jeder anderen Merkmalsausprägung ist,

• für ein gegebenes Merkmal die fehlenden Ausprägungendieselbe Verteilung besitzen wie der ganze Merkmalsvektor,d.h. kein Zusammenhang zwischen dem Ausfallmechanismusund dem Wertebereich eines Merkmals existiert,

• zwischen den fehlenden Daten zweier Merkmale keinZusammenhang besteht.

Fehlende Daten

Ausfallmechanismen: MAR und MCAR

Daten sind missing at random (MAR), wenn

• das Fehlen der Daten unabhängig von den fehlenden Wertenselbst ist,

• aber von anderen Merkmalen abhängen kann.

Daten sind missing completely at random (MCAR),

• wenn das Fehlen der Daten in keinerlei Beziehung zu denfehlenden und den vorhandenen Werten oder anderenMerkmalen und ihren Ausprägungen bei den Objekten mitfehlenden Werten steht.

Fehlende Daten

Beispiel unsystematisch fehlender Daten

Im Rahmen einer Befragung werden ausschließlich die MerkmaleEinkommen und Alter erhoben, wobei einige Personen dieAngabe des Einkommens verweigern.

• Die Daten sind MAR, wenn das Fehlen derEinkommensangaben nicht von der Höhe des Einkommensselbst abhängt, es aber möglich ist, daß z.B ältere Personen dieAntwort tendenziell öfter verweigern.

• Ist das Fehlen der Einkommensangabe unabhängig von derHöhe des Einkommens und des Alters, dann sind die Datensogar MCAR.

Fehlende Daten

Konsequenzen für die Datenauswertung

Fehlende Daten

3.3 Strukturanalyse

Bemerkung:

Im Rahmen einer Strukturanalyse können im allgemeinen nurbestimmte Beziehungen, die fehlende Daten verursachenuntersucht werden. Die Untersuchung aller Einflussfaktoren ist i.a.nicht möglich.

Die Ergebnisse der Strukturanalysekönnen somit zwarhinreichend für eine Verwerfung,aber nurnotwendig für eine Akzeptierungeines bestimmten unsystematischenAusfallmechanismus sein.

!Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 70|306

Fehlende Daten

Die Indikatormatrix

Ausgangspunkt jeder Strukturanalyse fehlender Daten ist i.a. diesogenannte Indikatormatrix

V = (vik)n×m =

v11 . . . v1m

.... . .

vn1 . . . vnm

Indikatormatrix

mit vik als Indikator für das Fehlen der Ausprägungdes Merkmals k bei Objekt i

Es gilt dabei: vik =

{1 falls aik vorhanden

0 sonst

Fehlende Daten

Beispiel: Hörer einer Vorlesung

Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen

Objekte

1 männlich 5 BWL mit VD

2 25 männlich Karlsruhe 10

3 21 München 4 VWL mit VD

5 24 männlich 8 BWL ohne VD

=⇒ V =

A G W Se St P

1 0 1 0 1 1 1

2 1 1 1 1 0 03 1 0 1 1 1 1

4 1 1 1 1 1 1

5 1 1 0 1 1 1

Fehlende Daten

Möglichkeiten der Strukturanalyse

Die Strukturanalyse läßt sich grundsätzlich in folgende Bereicheuntergliedern:

• Deskriptive Analyse

• Explorative Analyse

• Induktive Analyse

Fehlende Daten

Deskriptive Analyse

Zur rein deskriptiven Analyse der Datenmatrix hinsichtlich desAuftretens fehlender Daten bieten sich

• Kennzahlen (Missing-Data-Maße) oder

• graphische Verfahren an,

die erste Anhaltspunkte bezüglich des vorliegendenAusfallmechanismus ergeben (können).

Fehlende Daten

Missing-Data-Maße - Teil I

Missing-Data-Maße (MD-Maße) verdichten die in denIndikatormatrizen enthaltenen Information und geben sie mit Hilfeeiner Kennzahl wieder.

Es existieren u.a. folgende Maße:

MD-Indikator für Objekt i vindi• =

1 fallsm∑

vik = m

0 sonst

MD-Indikator für Merkmal k vind•k =

1 fallsn∑

vik = n

0 sonst

Fehlende DatenMissing-Data-Maße - Teil II

Anzahl der fehlenden Daten und

der vorhandenen bei Objekt i

vmisi• = m − vobs

i• = m −m∑

Anzahl der fehlenden Daten und

der vorhandenen bei Merkmal k

vmis•k = n − vobs

•k = n −n∑

Anzahl der vorhandenen Daten in

der Datenmatrix i

vobs =n∑

vobsi• =

vobs•k =

Anzahl der vorhandenen Daten in

der Datenmatrix i

vmis = m · n − vobs

Des weiteren sind alle dargestellten Kennzahlen auch noch alsrelative Kennzahlen denkbar.

Fehlende DatenBeispiel: Hörer einer Vorlesung, Missing-Data-Maße

A G W Se St P

1 0 1 0 1 1 1

2 1 1 1 1 0 03 1 0 1 1 1 1

4 1 1 1 1 1 1

5 1 1 0 1 1 1

Objekt 1 2 3 4 5

vindi• 0 0 0 1 0

vmisi• 2 2 1 0 1

vobsi• 4 4 5 6 5

Merkmal A G W Se St P

vind•k 0 0 0 1 0 0

vmis•k 1 1 2 0 1 1

vobs•k 4 4 3 5 4 4

Des Weiteren gilt:

n = 5, m = 6, n · m = 30,

vmis = 6, vobs = 24

Fehlende Daten

Graphische Verfahren

• Bei einer graphischen Darstellung der Indikatormatrix V könnensowohl das Ausmaß wie auch Konzentrationstendenzen derfehlenden Daten untersucht werden.

• Sind die fehlenden Werte jeweils regellos über die gesamteMatrix verteilt, dann wird man einen unsystematischenAusfallmechanismus vermuten.

• (Im nächsten, induktiven Schritt, entsteht dann das Problem, einobjektives Maß für systematischen Ausfall zu finden.)

Fehlende Daten

Objekte

Fehlende Ausprägun-

gen werden durch das

Symbol • dargestellt=⇒

A G W Se St P

1 • •2 • •3 •4

5 •Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 79|306

Fehlende Daten

Graphische Verfahren mit Sortierreihenfolge

• Gerade bei größeren Datenmatrizen kann eine übersichtlichereDarstellung der MD-Muster erreicht werden, wenn dieIndikatormatrix bezüglich der Objekte sortiert wurde.

• Dabei kann der Sortieralgorithmus die Objekte mit denwenigsten MD zu Beginn stellen, solche mit vielen MD eher amEnde.

• Alternativ kann nach der Anzahl der MD innerhalb einesObjektes und der Spaltenposition einer fehlendenMerkmalsausprägung in der Datenmatrix geordnet werden

⇒ Ausfallmechanismen sind nach dem Sortiervorgang oft besserzu erkennen.

Fehlende Daten

Ein Sortieralgorithmus

Sortierrangfolge mittels der sogenannten Objekt-Pattern-Variablen PV , die gemäß

PVi = 2m − 1 −

vik · 2k−1

berechnet werden kann. Aufsteigende bzw absteigende Sortierungder Objekte wird dann nach der Regel

Objekt i vor Objekt j ⇐⇒ PVi 6 PVj

vorgenommen.

Analog kann die transponierte Indikatomatrix VT durch diegeeignete Konstruktion einer Merkmals-Pattern-Variable sortiertwerden.

Fehlende Daten

Objekte

Sortierung mittels PV

PVi = 2m − 1 −

vik · 2k−1

i PVi A G W Se St P

3 2 •

5 4 •

1 5 • •

2 48 • •

Fehlende Daten

Explorative Analyse• Im Rahmen einer explorativen Analyse soll nach Zusammenhängen innerhalb einer

unvollständigen Datenmatrix gesucht werden, um dadurch die vorliegenden

Abhängigkeitsbeziehungen der fehlenden Werte aufzudecken.

• Den Ausgangspunkt der Betrachtung stellt damit, neben der Datenmatrix, in erster Linie die

jeweilige Indikatormatrix dar.

• Um die Eigenschaft MAR in der Datenmatrix zu untersuchen, können korrelationsanalytische,

faktoren-analytische, clusteranalytische sowie dependenz-analytische Ansätze zu Einsatz

kommen, um die Eigenschaft MAR in der Datenmatrix zu untersuchen.

• Eine Untersuchung der Abhängigkeit der MD von den Realisierungen der Daten selbst ist nicht

möglich, da zusätzliche (externe) Informationen, wie zum Beispiel die Verteilung der

Grundgesamtheit i.a. nicht genutzt werden können.

• Mittels explorativer Methoden können lediglich Abhängigkeitsbeziehungen der fehlenden Werte

innerhalb der Datenmatrix aufgezeigt, aber nicht statistisch überprüft werden.

Fehlende Daten

Korrelationsanalytische Ansätze

• dienen der Untersuchung der Abhängigkeit der fehlendenAusprägungen vom Fehlen der Daten bei anderen Merkmalen.

• Eine Berechnung kann mit Hilfe aller gängigenKorrelationskoeffizienten, angewandt auf die Spalten derIndikatormatrix V , erfolgen.

• Besonders geeignet ist der Phi-Koeffizient Φ, der demBravais-Pearson-Koeffizient r für binäre Variablen entspricht.

Fehlende Daten

Phi-Koeffizient: Definition

Φ ist ein Zusammenhangsmaß, das für Kontingenztabellenentwickelt wurde und speziell für 2 × 2 Tabellen der Form

0 αkl βkl

1 γkl δkl

αkl = |{i : vik = 0, vil = 0}|

und βkl, γkl, δkl analog

wie folgt definiert ist:

Φkl =αklδkl − βklγkl√

(αkl + βkl) (γkl + δkl) (αkl + γkl) (βkl + δkl)

Fehlende Daten

Phi-Koeffizient Φ - Eigenschaften

Φ kann dabei Werte zwischen

-1 Es existieren nur (0,1)/(1,0)-Paare und

+1 Es existieren nur (0,0)/(1,1)-Paare

annehmen.

Werte in der Nähe von Null weisen daraufhin, dass zwischen demFehlen der Werte beim ersten Merkmal und dem Fehlen der Wertebeim zweiten Merkmal kein Zusammenhang besteht.

Fehlende Daten

Objekte

Korrelationsmatrix der Φ Koeffizienten

(Homogenes Merkmal Semester

weggelassen)=⇒

A G W St P

A 1 -0.25 0.61 -0.25 -0.25

G 1 -0.41 -0.25 -0.25

W 1 -0.41 -0.41

St 1 1

Fehlende Daten

Weitere explorative Ansätze

Die Faktorenanalytische Untersuchung dient ebenfalls derUntersuchung der Abhängigkeit der fehlenden Ausprägungen vomFehlen der Daten bei anderen Merkmalen und basiert auf der obenbeschriebenen Korrelationsmatrix.

Die Clusteranalyse untersucht die Ähnlichkeit derMissing-Data-Muster der Merkmale/Objekte und verwendet dieIndikatormatrix selbst als Ausgangspunkt. Die Zielrichtung ist aberdieselbe wie oben.

Fehlende Daten

Induktive Analyse

Im Rahmen einer induktiven Analyse der MD-Struktur unvollständiger

Datenmatrizen sollen zuvor formulierte Hypothesen bezüglich der fehlenden

Werte mittels statistischer Testverfahren überprüft werden.

Dabei betreffen die in diesem Zusammenhang relevanten Hypothesen das

Vorliegen von unsystematischen Ausfallmechanismen.

Die Hypothesen lassen sich in der folgenden allgemeinen Form formulieren:

H0: Die Daten fehlen zufällig.

H1: Die Daten fehlen systematisch.

Bemerkung:

Alle Tests zur Überprüfung dieser Hypothesen bestätigen nie das zufällige

Fehlen von Daten, sondern können lediglich bestimmte Formen eines

zufälligen Fehlens mit der Irrtumswahrscheinlichkeit α ausschließen.

Fehlende Daten

Typen von Testverfahren

Typ 1: Untersuchung der Abhängigkeit der MD von den an sichunbekannten Realisierungen dieser Werte (MAR): (Anpassungstest,parametrische Einstichproben-Tests)

Typ 2: Untersuchung der Abhängigkeit der MD vom Fehlen derDaten bei anderen Merkmalen (MAR): (Test derKorrelationskoeffizienten bzw. -matrix)

Typ 3: Untersuchung der Abhängigkeit der MD von denvorhandenen Ausprägungen bei anderen Merkmalen; Testen aufMCAR , wenn MAR vorliegt: (Test auf Lokalisationsunterschiedebzw. Unabhängigkeit)

Fehlende Daten

Testverfahren - Typ 1

Untersuchung der Abhängigkeit der MD von den unbekanntenRealisierungen dieser Werte (MAR)

• Überprüfung, inwieweit die für ein Merkmal vorliegenden Dateneiner hypothetischen Verteilung genügen

• damit Berücksichtigung externer Informationen notwendig,wie z.B. Verteilungsannahmen bezüglich der Grundgesamtheit

• praktische Anwendung stark eingeschränkt!

Fehlende Daten

Der χ2-Anpassungstest

• Überprüft für ein nominales oder ordinales Merkmal, ob dievorliegenden Daten einer hypothetischen Verteilung genügen(H0).

• Kann sinnvoll angewandt werden, wenn nur wenigeverschiedene Merkmalsausprägungen vorliegen

• benötigt eine Stichprobengröße, die garantiert, dass jedeMerkmalsausprägung mindestens fünf Beobachtungenaufweist; ansonsten müssen Merkmalsklassen gebildet werden;sinnvollerweise aus benachbarten Werten.

Fehlende Daten

Der χ2-Anpassungstest: Definition

Die Wahrscheinlichkeit einer Merkmalsausprägung at sei pt, diebeobachtete Häufigkeit sei ht. Insgesamt können k verschiedeneAusprägungen bei n Objekten beobachtet werden. DerTestfunktionswert T des χ2-Anpassungstests ist dann wie folgtdefiniert:

(ht − n · pt)2

n · pt

T folgt näherungsweise einer χ2(k − 1)-Verteilung.

Fehlende Daten

Beispiel: χ2-Anpassungstest für MD

Im Rahmen einer Analyse werden 100 Personen befragt, von denen 35 beim

Merkmal Geschlecht keine Antwort gegeben haben. Unter den Verbleibenden

waren 30 Männer und 35 Frauen. Von der zugrunde gelegten Grundgesamtheit

weiß man, dass die beiden Geschlechter im Verhältnis 2 : 3 verteilt sind.

Für den Testfunktionswert T ergibt sich

(ht − n · pt)2

n · pt

(30 − 65 · 2

65 · 25

(35 − 65 · 3

65 · 35

= 1.025

Das 95%-Fraktil der χ2(1)-Verteilung ist 3.84, der Testfunktionswert ist in diesem

Fall kleiner, die Nullhypothese kann also nicht verworfen werden.

Fehlende Daten

Der Einstichenproben-Gaußtest

überprüft, inwieweit die für ein kardinales Merkmal vorliegendenDaten aus einer Grundgesamtheit mit dem Erwartungswert µ

stammen können.

kann sinnvoll angewandt werden, wenn viele verschiedeneMerkmalsausprägungen vorliegen

ist i.A. nur ein approximativer Test

benötigt daher eine Stichprobe, die mindestens 30Beobachtungen enthält. Liegen weniger als 30 Beobachtungen vor,kann im Fall einer N(µ,σ)-Verteilung der Einstichproben-T-Testangewandt werden ( Bamberg/Baur Kap. 14.4 )

Fehlende Daten

Testverfahren - Typ 2

Untersuchung der Abhängigkeit der MD vom Fehlen der Daten beianderen Merkmalen (MAR)

- Überprüfung, inwieweit das Fehlen der Daten bei einemMerkmal vom Fehlen der Daten bei einem anderen Merkmalabhängt

- Berechnung der Korrelationskoeffizienten Φ bzw. derKorrelationsmatrix R

- Berücksichtigung zusätzlicher, also externer Informationennicht notwendig und damit sehr praxisnah

Fehlende Daten

Globaltest der Korrelationsmatrix R

Sei R = (Φkl) = (rkl) die nicht-singuläre Korrelationsmatrix derDimension q × q, die auf Basis der Indikatormatrix V dieAbhängigkeit zwischen dem Fehlen der Daten innerhalb derDatenmatrix beschreibt mit: 2 6 q 6 m. Der Testfunktionswert Wdes Globalen Korrelationstests ist dann wie folgt definiert

3q − n +

)· ln(det R)

und folgt approximativ einer χ2-Verteilung. Die Anzahl derFreiheitsgrade df bestimmt sich gemäß

2· q · (q − 1)

Fehlende Daten

Um zu analysieren, ob das Feh-len der Daten in den ersten dreiMerkmalen des Beispiels zufälligoder systematisch ist, überprüftman die Korrelationsmatrix R derersten drei Merkmale mit Hilfe desGlobaltests.

R A G W

A 1 -0.25 0.61

G 1 -0.41

Als Determinante von R ergibt sich zunächst 0.5224.

Da die Teststatistik W, gemäß

3· 3 − 5 +

)· ln(0.5224) = 0.1082

kleiner ist als das 95%-Fraktil der χ2(3)-Verteilung (7.81), kann dieNullhypothese nicht verworfen werden.

Fehlende Daten

Testverfahren - Typ 3: auf MCAR

Untersuchung der Abhängigkeit der MD von den vorhandenenAusprägungen bei anderen Merkmalen: MCAR. Voraussetzung:MAR ist schon gezeigt oder kann angenommen werden.

- Überprüfung, inwieweit das Fehlen der Daten bei Merkmal k aufbestimmte Ausprägungen eines Merkmals l 6= k zurückzuführensind

- Berechnung skalenniveau-adäquater Lageparameter fürsinnvolle Merkmale l, möglichst ohne MD in l, wobei eineGruppierung in Merkmal k fehlt bzw. Merkmal k fehlt nicht erfolgt

- anschließend Test der Lageparameter auf Gleichheit

- Berücksichtigung externer Informationen nicht notwendigund damit sehr praxisnah

Fehlende Daten

Approximativer Zweistichenproben-Gaußtest

überprüft, inwieweit die für ein kardinales Merkmal in zweiGruppen vorliegenden Daten parametrischen, hypothetischenVerteilungen genügen, die durch die Erwartungswerte µ1 und µ2

charakterisiert sind (H0 : µ1 = µ2).

benötigt zwei Stichproben, die je mindestens 30 Beobachtungenenthalten. Liegen weniger als 30 Beobachtungen vor, könnenalternative Zweistichproben-Test angewandt werden (z.B. einexakter 2-Stip-B(n,p)-Test, falls Anzahl der Beobachtungen nichtzu groß, siehe Bamberg, Baur, S. 193f ).

Fehlende Daten

Approximativer Zweistichenproben-Gaußtest:Definition

Sei X bzw. Y der Mittelwert der n1 bzw. n2 vorhandenenAusprägungen bei Merkmal l für die Objekte, für die bei Merkmal k

fehlende bzw. vorhandene Daten vorliegen. Des Weiteren seien S1

und S2 die zugehörigen empirischen Standardabweichungen.Dann ist der Testfunktionswert T des approximativenZweistichproben-Gaußtest wie folgt definiert

T =X − Y√S2

und folgt approximativ einer N(0, 1)-Verteilung.

Fehlende Daten

Beispiel für app. 2-Stip-Gauß-Test

Bei der Befragung von 100 Personen haben 35 beim MerkmalGeschlecht keine Antwort gegeben. Beim Merkmal Alter hingegenantworteten alle Personen, wobei festzustellen ist, dass dasDurchschnittsalter unter den Verweigerern 28.4 Jahre ist, bei denAntwortenden aber 30.2. Die separate Berechnung der empirischenStandardabweichung ergibt die Werte 2 bzw. 3 Jahre. Da derTestfunktionswert T gemäß

T =28.4 − 30.2√

= −3.58

im Verwerfungsbereich (−∞,−1.96) ∪ (1.96,∞) derN(0, 1)-Verteilung zur Irrtumswahrscheinlichkeit von 5% liegt,muss die Nullhypothese verworfen werden.

Fehlende Daten

3.4 Behandlung fehlender Daten

Auf Basis der Ergebnisse der Strukturanalyse können eventuellgeeignete Verfahren zur Behandlung der fehlenden Daten,sogenannte MD-Verfahren, angewandt werden.

Man unterscheidet dabei folgende Verfahrenskategorien

- Eliminierungsverfahren

- Imputationsverfahren

- Sonstige Verfahren

Fehlende Daten

Eliminierungsverfahren (EV)

Unter dem Begriff der EV sind Methoden zur Behandlung desunvollständigen Datenmaterials zusammengefasst, die Objektebzw. Merkmale mit fehlenden Werten aus der Untersuchungausschließen.

Das Eliminieren von Objekten ist nur unter der sehr restriktivenAnnahme, dass die Daten der Bedingung MCAR genügen,uneingeschränkt anwendbar.

Die anschließende Auswertung kann auf Basis eines reduzierten,aber vollständigen Datenmaterials erfolgen.

Fehlende Daten

Complete-Case Analysis

Im Rahmen einer Auswertung der vollständig erhobenenObjekte werden nur die Objekte in einer Analyse verwendet,deren Merkmalsausprägungen bezüglich aller Merkmale vorliegen.

Gleiches gilt auch für die Auswertung vollständig erhobenerMerkmale.

Falls die Datenmatrix einen geringen Prozentsatz fehlenderWerte aufweist (< 5%), wird die Durchführung einerObjekt-eliminierung als akzeptabel bezeichnet. Fehlen mehr Daten,so kann dieses Verfahren zu erheblichen Verzerrungen führen,wenn die Voraussetzung MCAR nicht gesichert ist.

Fehlende Daten

Available-Case Analysis

Werden nur univariate oder bivariate Kennzahlen bzw. Verfahrenauf Basis der unvollständigen Datenmatrix angewandt, so ist esnicht sinnvoll, alle Objekte zu eliminieren, die überhaupt ein MDvorweisen. Sinnvoller erscheint hier nur, die Objekte zu eliminieren,die bei dem bzw. den betrachteten Merkmal(en) fehlende Werteaufweisen.

Man erhält so bei der Auswertung die available-case analysisbzw. die pairwise available-case analysis.

Fehlende Daten

Beispiele

Für: Available-case analysis:Berechnung aller univariaten Kennzahlen, z.B.

• Lageparameter oder

• Streuungsparameter

auf Basis der vorhandenen Daten des Merkmals

Für Pairwise available-case analysis:

Berechnung der Korrelation zwischen zwei Merkmalen auf Basisder Objekte, für die bei beiden Merkmalen Werte vorliegen.

Fehlende Daten

Eigenschaften der Eliminierungsverfahren

+ Vorteil: Einfache Anwendbarkeit

Resultat: Vollständige Datenmatrix

- Nachteil: Informationsverlust durch die

Eliminierung vorhandener Daten

Bemerkung:

Viele Statistiksoftwarepakete bieten Eliminierungsverfahren an.

Fehlende Daten

Imputationsverfahren (IV)

Unter dem Begriff der IV sind Methoden zur Behandlung desunvollständigen Datenmaterials zusammengefasst, die diefehlenden Werte in der Datenmatrix mit Hilfe von Schätzungenersetzen, die auf den vorhandenen Werten basieren.

In Abhängigkeit von der Imputationstechnik müssen die DatenMAR oder MCAR sein.

Die anschließende Auswertung kann auf Basis des vollständigenDatenmaterials erfolgen, unterliegt aber gewissen Verzerrungen,die aber i.a. auf ein akzeptables Maß reduziert werden können.

Fehlende Daten

Einfache Imputationstechniken

• Die hier vorgestellten IV liefern ohne großen AufwandSchätzungen für die fehlenden Daten

• setzen aber voraus, dass das Fehlen einzelner Werteunabhängig von den fehlenden sowie den vorhandenen Werteder Datenmatrix ist (MCAR)

Man unterscheidet dabei vor allem

• Imputation des Lageparameters

• Imputation mittels Verhältnisschätzer

• Imputation mittels Zufallsauswahl

• Imputation auf Basis von Expertenratings

Fehlende Daten

Imputation des Lageparameters

Ausgehend von einer Datenmatrix kann als Imputationswert z.B. ein Lageparameter herangezogen

werden. In Abhängigkeit vom jeweiligen Skalenniveau der Merkmale verwendet man dann z.B. als

Schätzwert für die fehlenden Parameter

• für metrisch skalierte Merkmale einer Datenmatrix das arithmetische Mittel

aik = ak =1

j∈Nk

ajk ∀i,k : vik = 0 ,

• für ordinal skalierte den Median

aik = aMedk ∀i,k : vik = 0 und

• für nominal skalierte den Modus

aik = aModk ∀i,k : vik = 0.

Dabei bezeichnet Nk = {i : vik = 1}.

Fehlende Daten

Imputation mittels Verhältnisschätzer• Voraussetzungen:

1. Merkmal Mk mit MD hat metrisches Datennvieau und es existiert ein weiteres, zu Mk

hoch korreliertes Merkmal Ml, das ebenfalls metrisches Datenniveau besitzt.

2. Beim Hilfsmerkmal Ml müssen mindestens für die Objekte, bei denen beim zu

ersetzenden Merkmal Mk Daten zu schätzen sind, Werte vorhanden sein.

• Dabei werden die fehlenden Daten von Mk durch die Verwendung des Hilfsmerkmals Ml

geeignet ersetzt:

aik = aRatiok =

j∈Nl

|Nl|·

j∈Nk

∀i,k : vik = 0(k, l ∈ M,Nk ⊆ Nl

Bemerkungen:

• Nk = Nl ⇒ aRatiok = ak

• Für sinnvolle Verhältnisschätzungen sollte deswegen Nk ⊂ Nl gelten

• Ideal wäre Nl = {1, . . . ,n}

Fehlende Daten

Imputation mittels Zufallszahlen

Die Imputation durch Zufallszahlen ist ebenfalls an die BedingungMCAR gebunden.

Dabei werden die fehlenden Daten

• durch einen von einem Zufallszahlengenerator erzeugtenWert oder

• durch eine Zufallsauswahl aus den vorhandenen Daten

ersetzt.

Fehlende Daten

Sonstige Verfahren

Parameterschätzverfahren

• Schätzung von Erwartungswert, Varianz und Kovarianz aufBasis der nicht vervollständigten Daten

• Techniken: Auf Basis der Maximum-Likelihood-Theorie

EM-Algorithmus (Expectation Maximization)

Multivariate Analyseverfahren: Entwicklung spezieller Verfahren,die das Fehlen von Daten explizit berücksichtigen, z.B. bei der

• Clusteranalyse mit Missing value linkage oder der

• Multidimensionale Skalierung mit ALSCAL

Einschub: Datenanalyse mit RR ist eine open-source Umgebung für Statistik und Datenanalyse. Die meisten Beispiele

der Vorlesung wurden mit R berechnet oder zumindest überprüft.

Vorteile von R (aus: simpleR Using R for Introductory Statistics, John Verzani)

• R is free. R is open-source and runs on UNIX, Windows and Macintosh.

• R has an excellent built-in help system.

• R has excellent graphing capabilities.

• Students can easily migrate to the commercially supported S-Plus program if commercial

software is desired.

• R’s language has a powerful, easy to learn syntax with many built-in statistical functions.

• The language is easy to extend with user-written functions.

• R is a computer programming language. For programmers it will feel more familiar than others

and for new computer users, the next leap to programming will not be so large.

R History The S language was developed in the late 1980s at AT&T labs. The R project was started by

Robert Gentleman and Ross Ihaka of the Statistics Department of the University of Auckland in 1995.

It has quickly gained a widespread audience. It is currently maintained by the R core-development

team, a hard-working, international team of volunteer developers. The R project web page

http://www.r-project.org is the main site for information on R. At this site are directions for

obtaining the software, accompanying packages and other sources of documentation.

4Deskriptive AnalyseUnivariate deskriptive Statistiken, Kreuztabellen, Graphische

Darstellungsverfahren

Deskriptive Analyse

4 Deskriptive Analyse

4.1 Univariate deskriptive Statistiken

4.2 Häufigkeitsauszählungen, Kreuztabellen

4.3 Graphische Darstellungsverfahren

- Boxplots

- Sterndiagramme

Deskriptive Analyse

Ziele der deskriptiven Analyse

Die deskriptive Analyse dient einer möglichst einfachenCharakterisierung der Daten und soll

• eine einfache Beschreibung der Merkmals- und/oderObjektstruktur und

• Hinweise für eine geeignete Gewichtung der Merkmale beider Aggregation von Distanzen

liefern.

Deskriptive Analyse

4.1 Univariate deskriptive Statistiken

dienen einem ersten Einblick in die Struktur einzelner Merkmale,oft auch einer Ausreißererkennung.

Wichtige skalenniveau-adäquate Kennzahlen sind:

• die Lageparameter

- Modus, Minimum, Maximum

- Quartile, Median, Mittelwert

• die Streuungsparameter

- mittlere quadratische Abweichung, Standardabweichung,Spannweite

- Modalabweichung, QuartilsabstandDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 119|306

Deskriptive Analyse

Lageparameter: Definition α-Quantil ( α-Fraktil)

An n Objekten 1, . . . ,n werden die Ausprägungen eines metrischoder ordinal skalierten Merkmals Mj beobachtet und aij

bezeichnet den Beobachtungswert am i-ten Objekt. Ordnet manaj aufsteigend gemäß ai1j 6 ai2j 6 . . . 6 ainj, so berechnet sichdas α-Quantil ajα

wie folgt:

aikj , falls nα keine ganze Zahl ist (mit k als die auf

nα folgende ganze Zahl)

(aikj + aik+1j) , falls nα eine ganze Zahl ist (mit k = nα)

Der Median ist definiert als das 12

-Quantil.

Deskriptive Analyse

Objekte

Bemerkung: Das ordinale Merkmal Prüfungen wird mit Hilfe derWerte 1, 2 bzw. 3 skaliert.

Eine Skalierung der nominalen Merkmale ist (hier) nichtnotwendig.

Deskriptive Analyse

Lageparameter der Merkmale

Merkmale Alter Geschlecht Wohnort Semester Studieng. Prüfungen

Objekte

1 22 männlich Augsburg 5 BWL 2

2 25 männlich Karlsruhe 10 Mathe 3

3 21 weiblich München 4 VWL 2

Modus - männlich Augsburg - BWL 2

Minimum 21 - - 4 - 1

25% - Quartil 22 - - 5 - 2

Median 24 - - 8 - 2

75% - Quartil 25 - - 10 - 2

Maximum 28 - - 13 - 3

Mittelwert 24 - - 8 - 2

unzulässig

Deskriptive Analyse

Streuungsparameter der Merkmale

Merkmale Alter Geschlecht Wohnort Semester Studieng. Prüfungen

Objekte

Modalabweich. - 1 2 - 2 2

Quartilsabst. 3 - - 5 - 0

Spannweite 7 - - 9 - 2

Mittl. qdr. Abw. 6 - - 10.8 - 0.4

Standardabw. 2.45 - - 3.29 - 0.63

unzulässig

��

Deskriptive Analyse

4.2 Häufigkeitsauszählungen, Kreuztabellen

dienen vor allem der Aufdeckung der Merkmalsstruktur beinominalen Merkmalen

Geeignete Kenngrößen sind absolute und relative Häufigkeitender Merkmalsausprägungen

• eines Merkmals ⇒ Häufigkeitsauszählung

• zweier Merkmale ⇒ Kreuztabellen

Kaum für Merkmale mit vielen verschiedenen Ausprägungengeeignet (kardinale Merkmale)

Deskriptive Analyse

Berechnung der Häufigkeiten für die nominalen MerkmaleGeschlecht, Wohnort, Studiengang sowie das ordinale MerkmalPrüfungen

Deskriptive Analyse

Augsburg Karlsruhe München

Wohnort

BWL Mathe VWL

Studiengang

mit HD mit VD ohne VD

Pruefungen

Deskriptive Analyse

4.3 Graphische Darstellungsverfahren

dienen sowohl der Darstellung

• der Merkmalsstruktur ⇒ Boxplot

als auch der Darstellung

• der Objektstruktur ⇒ Sterndiagramme

und sind generell für nominal binäre Merkmale (im Sinne von„Eigenschaft vorhanden: ja/nein“), ordinale und kardinaleMerkmale geeignet.

Deskriptive Analyse

Boxplots

• dienen der Darstellung der Merkmalsstruktur eines nicht

nominal-polytomen Merkmals

• und bereiten ausgewählte Quantile des Merkmals graphisch auf.

Der Aufbau:

potentielle Ausreißer

Minimum

10%-Quantil

25%-Quantil

Median

75%-Quantil

90%-Quantil

Maximum

Deskriptive AnalyseBeispiel: The Effect of Vitamin C on Tooth Growth in Guinea Pi gs

Description: The response is the length of odontoblasts (teeth) in each of 10 guinea

pigs at each of three dose levels of Vitamin C (0.5, 1, and 2 mg) with each of two delivery methods

(orange juice or ascorbic acid). (Src.: C. I. Bliss (1952) The Statistics of Bioassay. Academic Press.)

0.5 1 2

Guinea Pigs’ Tooth Growth

Vitamin C dose mg

0.5 1 2

Ascorbic acidOrange juice

Deskriptive Analyse

Beispiel Hörer einer Vorlesung

Boxplots zu den Merkmalen Alter, Semester und Prüfungen?

Deskriptive AnalyseSterndiagrammedienen der Darstellung der Objektstruktur ausgewählter Objekte bei Betrachtung

mehrerer nicht nominal-polytomer Merkmale

und stellen für jedes Objekt die jeweilige Merkmalsausprägung mit Hilfe eines Sternzackens dar, der

eine der relativen Größe der Ausprägung entsprechend Länge besitzt.

Aufbau der Sterndiagramme

Gemäß der Definition gilt für die Länge eines Zackens (als Anteil vom Kreisradius):

• größte Merkmalsausprägung: Zackenlänge = 100 %

• kleinste Merkmalsausprägung: Zackenlänge = 0 %

(der Zacken verschwindet im Mittelpunkt)

Beliebige Ausprägung bei Objekt i bzgl. Merkmal k: Die Zackenlänge selbst berechnet sich dabei

gemäß

Zackenlänge =

aik − minj

ajk − minj

∈ [0%, 100%]

Deskriptive AnalyseBeispiel: Motor Trend Car Road Tests

Description: The data was extracted from the 1974 Motor Trend US

magazine, and comprises fuel consumption and 10 aspects of automobile

design and performance for 32 automobiles (1973-74 models).

Format: A data frame with 32 observations on 11 variables.

1 mpg Miles/(US) gallon

2 cyl Number of cylinders

4 hp Gross horsepower

6 wt Weight (lb/1000)

7 qsec 1/4 mile time

10 gear Number of forward gears

11 carb Number of carburettors

Source: Henderson and Velleman (1981), Building multiple regression models

interactively. Biometrics, *37*, 391-411.Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 132|306

Deskriptive AnalyseBeispiel: Motor Trend Car Road Tests

Mazda RX4Mazda RX4 Wag

Datsun 710Hornet 4 Drive

Hornet SportaboutValiant

Duster 360Merc 240D

Merc 230Merc 280

Merc 280CMerc 450SE

Merc 450SLMerc 450SLC

Cadillac FleetwoodLincoln Continental

Chrysler ImperialFiat 128

Honda CivicToyota Corolla

Toyota CoronaDodge Challenger

AMC JavelinCamaro Z28

Pontiac FirebirdFiat X1−9

Porsche 914−2Lotus Europa

Ford Pantera LFerrari Dino

Maserati BoraVolvo 142E

gearcarb

Deskriptive Analyse

Interpretation der Sterndiagramme

Anhand der Sterndiagramme lassen sich ähnliche und unähnlicheObjekte (bzgl. der ausgewählten Merkmale) erkennen.

Somit sollten gerade die Objekte mit Hilfe der Sterndiagramme alsähnlich erkannt werden, die bei einer Distanzaggregation(siehe Datenanalyse II) den kleinsten Distanzindex erhaltenhaben.

5RepräsentationZiele, Varianten, Faktorenanalyse

Repräsentation

5 Repräsentation

5.1 Einführung

5.2 Faktorenanalyse

Repräsentation

5.1 Einführung

Ziel der Repräsentation

Anordnung der Objekte in einem möglichst niedrigdimensionierten Raum, so dass die relative Lage der sichergebenden Punkte (Objekte) die Ähnlichkeit der Objekteangemessen beschreibt.

• Aufdeckung von

Gruppierungen leichter

(Kontrolle einer Klassifikation)

• Durch Interpretation der

Achsen evtl. Aufschluss über

den Grund der Lage

bestimmter Objekte

••

Dimension 2

Dimension 1

Repräsentation

Varianten der Repräsentation (I)

Mehrdimensionale Skalierung (Datenanalyse II)

Die beliebig skalierte, i.a. nicht notwendigerweise metrischeDatenmatrix A wird nicht direkt verarbeitet.

Vielmehr wird zunächst unter Zuhilfenahme von Distanzindizeseine ordinale Distanzmatrix D berechnet, die anschließend in einemetrische Repräsentation X umgewandelt wird.

A = (aik)n×m → D = (dij)n×nMDS−→ X = (xik)n×q, q ∈ {1, 2, 3}

Repräsentation

Beispiel: Multidimensionale Skalierung

Lawyers’ Ratings of State Judges in the US Superior Court

Description: Lawyers’ ratings of state judges in the US Superior Court. A data

frame containing 43 observations on the following 12 numeric variables.

CONT Number of contacts of lawyer with judge. INTG Judicial integrity.

DMNR Demeanor. DILG Diligence.

CFMG Case flow managing. DECI Prompt decisions.

PREP Preparation for trial. FAMI Familiarity with law.

ORAL Sound oral rulings. WRIT Sound written rulings.

PHYS Physical ability. RTEN Worthy of retention.

Source: New Haven Register, 14 January, 1977 (from John Hartigan).

Repräsentation

Beispiel: Multidimensionale Skalierung : (Lawyers’ Ratings of

State Judges in the US Superior Court)

−0.05 0.00 0.05 0.10

−0.0

MDS axis 1

AARONSON,L.H.

ALEXANDER,J.M.ARMENTANO,A.J.

BERDON,R.I.

BRACKEN,J.J.

BURNS,E.B.CALLAHAN,R.J.

COHEN,S.S.

DALY,J.J.

DANNEHY,J.F.

DEAN,H.H.

DEVITA,H.J.

DRISCOLL,P.J.

GRILLO,A.E.

HADDEN,W.L.JR.

HAMILL,E.C.

HEALEY.A.H.

HULL,T.C.

LEVINE,I.

LEVISTER,R.L.

MARTIN,L.F.MCGRATH,J.F.

MIGNONE,A.F.

MISSAL,H.M.

MULVEY,H.M.NARUK,H.J.

O’BRIEN,F.J.O’SULLIVAN,T.J.

PASKEY,L.RUBINOW,J.E.

SADEN.G.A.

SATANIELLO,A.G.

SHEA,D.M.

SHEA,J.F.JR.

SIDOR,W.J.

SPEZIALE,J.A.

SPONZO,M.J.

STAPLETON,J.F.

TESTO,R.J.

TIERNEY,W.L.JR.WALL,R.A.

WRIGHT,D.B.ZARRILLI,K.J.

Repräsentation

Typische Fragestellungen der MDS in derMarktforschung

• Welche Produkte einer Gruppe sind sich ähnlich/unähnlich?

• Inwieweit entspricht das eigene Produkt den Idealvorstellungender Konsumenten?

• Welches Image besitzt eine bestimmte Marke?

• Hat sich die Einstellung der Konsumenten zu einer Marke in denletzten Jahren verändert

Repräsentation

Varianten der Repräsentation (II)

Faktorenanalyse

Die quantitative, d.h. metrische Datenmatrix A wird direktverarbeitet.

Hierzu wird unter Zuhilfenahme von Varianz-Kovarianz-Strukturenaus der metrischen Datenmatrix A direkt eine metrischeRepräsentation X berechnet.

A = (aik)n×m

Faktorenanalyse−→ X = (xik)n×q

Problem: Lassen sich die m quantitativen Merkmale sinnvolldurch q (meist 2 oder 3) sogenannte Faktoren ersetzen?

Repräsentation

Beispiel: Faktorenanalyse

Violent Crime Rates by US State

Description: This data set contains statistics, in arrests per 100,000 residents for

assault, murder, and rape in each of the 50 US states in 1973. Also given is the

percent of the population living in urban areas. A data frame with 50

observations on 4 variables.

Murder numeric Murder arrests (per 100,000)

Assault numeric Assault arrests (per 100,000)

UrbanPop numeric Percent urban population

Rape numeric Rape arrests (per 100,000)

Source: World Almanac and Book of facts 1975. (Crime rates).

Repräsentation

Beispiel Faktorenanalyse : Violent Crime Rates by US State

−0.2 −0.1 0.0 0.1 0.2 0.3

−0.2

−0.1

0.00.1

0.20.3

Comp.1

AlabamaAlaska

Arizona

Arkansas

California

ColoradoConnecticut

Delaware

Florida

Georgia

Hawaii

Illinois

Indiana IowaKansas

KentuckyLouisiana

MaineMaryland

Massachusetts

Michigan

Minnesota

Mississippi

Missouri

Montana

Nebraska

Nevada

New Hampshire

New Jersey

New Mexico

New York

North Carolina

North Dakota

Oklahoma

OregonPennsylvania

Rhode Island

South Carolina

South DakotaTennessee

Vermont

Virginia

Washington

West Virginia

Wisconsin

Wyoming

−5 0 5

Murder

Assault

UrbanPop

Repräsentation

Typische Fragestellungen der Faktorenanalyse

• Läßt sich die Vielzahl der Eigenschaften, die die Käufer einerMarke als wichtig empfinden, auf wenige komplexe Faktorenreduzieren

• Wie lassen sich darauf aufbauend die verschiedenen Markenanhand dieser Faktoren beschreiben?

Repräsentation

5.2 Faktorenanalyse

Neben Methoden der multidimensionalen Skalierung, die auf(Unähnlichkeits-) Daten basiert, können bei der Auswertung vonkardinalen Datenmatrizen auch die Methoden derFaktorenanalyse zur Repräsentation von Objekten eingesetztwerden.

Im Unterschied zur MDS erfolgt in diesem Falle eine direkteAuswertung der Merkmalsausprägungen bzgl. der interessierendenMerkmalsmenge ohne den Zwischenschritt einer Berechnung vonDistanzindizes.

Dabei wurden die Methoden der Faktorenanalyse in dem Bestrebenentwickelt, “etwas über die Struktur des Zusammenhangs einerMenge von meßbaren Variablen zu erfahren.” (Überla, 1971)

Repräsentation

Grundlagen und Begriffe

Problem: Welche Aussagen lassen sich über die Struktur desZusammenhangs von Merkmalsvariablen treffen, wenn mMerkmalsvariablen gemessen werden und damit m · (m − 1)/2

Korrelationen zwischen den Merkmalen gebildet werden können?

• Sobald m groß wird, wird die Analyse des gesamtenVariablenkomplexes oft schwierig.

• Andererseits vernachlässigt die bivariate Analyse, d.h. dieisolierte Betrachtung nur je zweier Variablen, die vielschichtigenBeziehungen zwischen mehreren Variablen.

Repräsentation

Hauptaufgaben der Faktorenanalyse

• Die Faktorenanalyse erlaubt es, aus den zwischen m Variablen beobachteten Beziehungen

(Korrelationen) hypothetische Größen (Faktoren) zu extrahieren, welche die in der

Korrelationsmatrix enthaltenen Zusammenhänge beschreiben und „erklären“.

• Mit anderen Worten bedeutet dies, daß korrelierende Variablen zu Merkmalskomplexen

zusammengefaßt werden, es erfolgt somit eine Faktorenextraktion.

• Die Faktorenextraktion führt zu einer Reduktion der Ausgangsdaten: Anstelle der m

Variablen stehen (i.a.) wenige Faktoren, wobei der Anteil der verlorengegangenen Information

möglichst gering sein sollte.

• Diese Datenkompression erlaubt eine leichtere Interpretation als die Fülle der Ausgangsdaten.

• Zudem können die Faktoren als unkorrelierte Variablen bei anderen Problemstellungen

verwendet werden.

Repräsentation

Hauptkomponentenanalyse

Bevorzugte Anwendung findet in der FA bei metrischenDatenmatrizen die Hauptkomponentenanalyse.

Sie unterstellt eine lineare Beziehung zwischen den ursprünglicherhobenen und den neu zu bestimmenden hypothetischen Größen(Faktoren).

Somit lassen sich die Merkmalsvektoren ak (Spaltenvektor) alsLinearkombination von q Faktoren x1, ..., xq (Spaltenvektoren )darstellen.

Im Falle q = m ist dies gemäß folgender Gleichung stets möglich:

fkixi (k = 1, . . . ,m)

Repräsentation

Faktoren und Ladungsvektoren der HKA

Matriziell ergibt sich somit:

A = X × FT

a11 · · · a1m

......

ai1 · · · aim

......

an1 · · · anm

x11 · · · x1q

......

... xik

......

xn1 · · · xnq

f11 · · · fk1 · · · fm1

.... . .

f1q · · · fkq · · · fmq

Dabei bezeichnet man

xip als Faktorwert fkp als Faktorladung

xp als Faktor fk als Ladungsvektoren

X als Faktorwertematrix F als FaktorladungsmatrixDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 150|306

Repräsentation

Bemerkungen

Anhand der matriziellen Schreibweise wird deutlich, dass einObjekt i, dargestellt durch die Zeile i der Datenmatrix A, nun mitHilfe der Zeile i der Faktorwertematrix X repräsentiert werdenkann.

Die Frage, die sich dabei allerdings stellt, kann wie folgtbeschrieben werden: Ist diese Darstellung aller Objekte mitHilfe von X ohne zu großen Informationsverlust möglich?

Um dies beantworten zu können, benötigt man ein Maß für denInformationsgehalt einer Daten- bzw. Faktorwertematrix(→ Varianzkriterium).

Repräsentation

Informationsgehalt von A und X

Mit Hilfe der Kovarianzmatrizen S (von A) bzw. C (von X) lassensich die Informationsgehalte der Daten- bzw. Faktorwertematrixgeeignet messen.

Dabei wird - wie häufig - unterstellt, dass der Informationsgehaltvon Merkmalen/Faktoren umso größer ist, je größer die Varianzdieser Merkmale/Faktoren ist.

Um nun ein geeignetes Maß für die Gesamtvariabilität allerMerkmale/Faktoren zu erhalten, addiert man die Varianzen allerbetrachteten Merkmale bzw. Faktoren.

Die Summe der Varianzen entspricht der Spur von S bzw. C.Spur(S) bzw. Spur(C) ermöglicht so einen Vergleich desInformationsgehaltes der beiden Matrizen.

Repräsentation

Berechnung des Informationsgehaltes

Für die Datenmatrix A berechnet sich die Kovarianzmatrix S = (skl)m×m gemäß

skl =1

(aik − a·k)(ail − a·l) mit a·k =1

Als Maß für die Gesamtinformation von A ergibt sich dann

Spur S =

skk =1

(aik − a·k)2

Für die Faktorwertematrix X ergibt sich analog die Kovarianzmatrix C

= (ckl)q×q und die Spur C gemäß

Spur C =

ckk =1

(xik − x·k)2

Repräsentation

Beispiel - Informationsgehalt

Gegeben sei eine metrischeDatenmatrix A, die mit Hil-fe zweier unterschiedlicherFaktorkombinationen reprä-sentiert werden soll.

Faktorkombination 1 bzw. 2 ist dabei gegeben durch dieFaktorladungsmatrizen F ′ bzw. F ′′ gemäß

F ′ =

(0.6 0.8

0.8 −0.6

)bzw. F ′′ =

(0.9 0.2

0.8 −0.5

Frage: Wie gut sind die beiden daraus resultierendenRepräsentationen?

Repräsentation

Beispiel - Berechnung Kombination 1

Berechnet man für die Matrix A die Kovarianzmatrix S und die SpurS, so ergeben sich folgende Werte:

8 10.8

)⇒ Spur(S) = 6 + 10.8 = 16.8

Mit Hilfe der Faktorladungsmatrix F ′ und X = A · (F ′T )−1 ergibtsich für X ′ folgendes (Berechnung s. Vorlesung):

X ′ =

17.2 14.6

15.8 14.4

27.2 14.6

20.8 14.4

sowie C =

(16.752 −0.064

−0.064 0.048

⇒ Spur(C) = 16.752 + 0.048 = 16.8

Repräsentation

Beispiel - Interpretation Kombination 1

Mit Hilfe der neuen Repräsentation kann die Objektmenge ohneInformationsverlust dargestellt werden.(Spur S = SpurC = 16.8)

Die neue Darstellung hat darüber hinaus den Vorteil, dass dieentstandenen Faktoren (nahezu) unkorreliert sind, während dieursprünglichen Merkmale eine hohe Korrelation aufweisen. Es giltnämlich:

→ Korrelation (a1,a2) = 0.9938

→ Korrelation (x1, x2) = −0.0714

Beschränkt man sich auf eine Darstellung der Objekte mit Hilfe desersten Faktors, so können immerhin noch 99.71% derInformationen dargestellt werden.

Repräsentation

Beispiel - Graphik zur Kombination 1

21 23 25 270

Merkmal 1

Faktor 1 ( f ′11, f

′21)

Faktor 2 ( f ′21, f

′22)

Repräsentation

14 16 18 20 22 24 2611

Faktor 1

Repräsentation

Beispiel - Berechnung Kombination 2

Wie oben bereits erwähnt ergibt sich für die Matrix A dieKovarianzmatrix S und die Spur(S) wie folgt:

8 10.8

)⇒ Spur(S) = 6 + 10.8 = 16.8

Mit Hilfe der Faktorladungsmatrix F ′′ und X = A · (FT )−1 ergibtsich für X ′′ folgendes (Berechnung s. Vorlesung):

X ′′ =

19.67 21.47

23.77 18.03

18.52 21.63

27.21 17.54

22.29 19.67

sowie C =

(9.49 −5.01

−5.01 2.87

⇒ Spur(C) = 9.49 + 2.87 = 12.36

Repräsentation

Beispiel - Interpretation Kombination 2

Mit Hilfe dieser zweiten Repräsentation kann die Objektmengenicht ohne Informationsverlust dargestellt werden. (SpurS = 16.8 und Spur(C) = 12.36)

Die neue Darstellung hat darüber hinaus den Nachteil, dass dieentstandenen Faktoren fast genauso hoch (absolut) korreliert sindwie die ursprünglichen Merkmale. Es gilt nämlich:

• Korrelation (a1,a2) = −0.9938

• Korrelation (x1, x2) = −0.9597

Somit stellt sich also die Frage, wie die Repräsentation und damitdie Faktorladungsmatrix F optimal gewählt werden soll.

Repräsentation

21 23 25 270

Merkmal 1

Faktor 1 ( f ′′11, f

′′21)

Faktor 2 ( f ′′21, f

′′22)

Repräsentation

17 19 21 23 25 2717

Faktor 1

Repräsentation

Satz 1 der Hauptkomponentenanalyse

Sei A = X · FT und F orthogonal (d.h. FT · F = F · FT = E), dann gilt:

Spur S = Spur C

C = FT · S · F

Bemerkungen:

Spur S = Spur C ↔ Information bleibt erhalten

F orthogonal → A = X · FT ↔ A · F = X · FT · F = X

ckk = fkT · S · fk , d.h. der durch den Faktor xk erklärte Anteilder Varianz hängt nur von fk ab.

Repräsentation

Problem der Faktorenwahl der HKA

Ziel der HKA ist u.a. die Merkmalsreduktion, d.h., man möchte mitwenigen, unkorrelierten Faktoren auskommen und trotzdem einenGroßteil der Information darstellen.

→ Die durch die Faktoren erklärten Varianzanteile sollen mitwachsendem Index abnehmen, d.h., Faktor x1 soll dengrößtmöglichen Varianzanteil erklären, Faktor x2 denzweitgrößten Anteil ...

→ c11 > c22 > c33 > . . . > cqq für q 6 m

Repräsentation

Optimierungsproblem der HKA

Aus den oben genannten Forderungen ergibt sich folgendes:

1. max c11 = max f1T · S · f1 mit f1T · f1 = 1

2. max c22 = max f2T · S · f2 mit f2T · f2 = 1 und f2T · f1 = 0

d.h. das allgemeine Optimierungsproblem (∗)

max ckk = max fkT · S · fk mit fkT · fk = 1

und fkT · fl = 0 für l = 1, ...,k − 1

Repräsentation

Satz 2 der Hauptkomponentenanalyse

Die Lösung der Optimierungsprobleme (∗) impliziert folgendesEigenwertproblem von S:

(S − λ · E) · f = 0

c11, c22, c33, . . . , cmm > 0 sind Eigenwerte von S

f1, f2, . . . , fq mit fkT · fk = 1, fkT · fl = 0(l 6= k) sindEigenvektoren von S

Für die Matrix C gilt: C =

c11 0. . .

Repräsentation

Konsequenzen aus Satz 2 der HKA

A = X · FT ↔ X = A · F→ Faktoren x1 = A · f1, . . . , xm = A · fm

C ist Diagonalmatrix→ Faktoren sind paarweise unkorreliert.

Numerierung der Faktoren x1, . . . , xm derart, dassλ1 = c11 > λ2 = c22 > . . . > λm = cmm > 0

→ x1 erklärt mit λ1/∑

λk den größten Anteil der Varianz→ x2 erklärt mit λ2/

∑λk den zweitgrößten Anteil ...

Bewertung des Informationsverlustes einer Merkmalsreduktionauf q < m Faktoren

b(q) = 1 −λ1+...+λq

λ1+...λm=[1 −

c11+...+cqq

c11+...+cmm

]∈ [0, 1] und b(m) = 0

Repräsentation

Vorgehensweise der HKA

Datenmatrix A, maximaler Informationsverlust b0

Berechne Kovarianzmatrix S

Löse Eigenwertproblem (S − λ · E) · f = 0

λ1 = c11 > λ2 = c22 > . . . > λm = cmm > 0

(f1, f2, . . . , fm) = F

Bestimme q minimal, so dass b(q) = 1 −λ1+...+λq

λ1+...+λm6 b0

Ladungsmatrix Fq = (f1, f2, . . . , fq)

Faktorwertematrix Xq = A · Fq = (x1, x2, . . . , xq)

Repräsentation

Beispiel 1 - Hauptkomponentenanalyse

Für die Produkte P1,P2,P3 und P4 konnten bezüglich der MerkmaleM1,M2 und M3 folgende Werte erhoben werden:

• Berechnen Sie die Kovarianzmatrix derMerkmale und interpretieren Sie diese.

• Lösen Sie das zugehörigeEigenwertproblem und interpretierenSie die Ergebnisse.

• Bestimmen Sie die Faktorwertematrixund stellen Sie diese zweidimensionaldar.

• Betten Sie die ursprünglichen Merk-malsvektoren in den Faktorwerteplotein.

Repräsentation

Interpretationshilfen

Eine Aussage über den Zusammenhang rkp zwischen denursprünglichen Merkmalen ak und den Hauptkomponenten(Faktoren) xp kann wie folgt berechnet werden:

(aik − a·k)(xip − x·p)

√skk

√cpp

,k = 1, . . . ,m

p = 1, . . . ,q

Dieser Korrelationskoeffizient kann als zusätzlicher Anhaltspunktbei der Interpretation der Analyseergebnisse herangezogenwerden.

Repräsentation

Kommunalitäten - Teil 1

Auf Grundlage der Korrelationskoeffizienten rkp läßt sich derAnteil der auf die ersten q Faktoren (p = 1, ...,q) übertrageneInformation des k-ten Merkmals ak mit Hilfe der Kommunalität kk

wie folgt berechnen:

r2kp ∈ [0, 1] für k = 1, . . . ,m

Diese Kommunalität gibt an, wieviel Prozent der Informationendes (standardisierten) Merkmals ak noch in den Faktoren x1 . . . xq

enthalten sind. Bei nicht-standardisierten Merkmalen giltVergleichbares.

Repräsentation

Kommunalitäten - Teil 2Des Weiteren kann die Berechnung der Kommunalität kk im Falleeiner standardisierten Datenmatrix A auch auf Basis derFaktorladungsmatrix F und der dazugehörigen (normierten)Eigenwerte erfolgen. Hierzu benötigt man zunächst das normiertePendant von F:

f11˜f1m

. . .˜fm1

= F ·

√λ1 0

Mit Hilfe dieser Matrix können die Kommunalitäten dann wie folgtberechnet werden:

f2kp ∈ [0, 1] für k = 1, . . . ,m

Repräsentation

Wahl der Repräsentationsdimension

Allgemeingültige Kriterien zur Bestimmung einerproblem-adäquaten Repräsentationsdimension q sind nichtbekannt. Man kann sich aber an den folgenden Regeln orientieren:

• Man wählt ein q aus, bei dem man bei weiterer Reduktion derFaktorenzahl einen verhältnismäßig hohen zusätzlichenInformationsverlust hätte (Ellenbogenkriterium).

• Man wählt ein minimales q > 1 mit b(q) < bmax, d.h. ein q mitmaximal zu akzeptierendem Informationsverlust , (mit z.B.:b0 = 10% oder b0 = 25%).

• Man wählt ein maximales q 6 m mit λq > (λ1 + . . . + λm)/m,d.h. man gibt vor, dass jeder Faktor mindestens diedurchschnittliche Merkmalsvarianz erklären soll(Kaiser-Kriterium).

Repräsentation

Schlußbemerkungen zur Faktorenanalyse

Der Vorteil der Datenkomprimierung mittels der FA istoffensichtlich: Statt Untersuchungsobjekte durch kaumübersehbare und hochkorrelierte Merkmalsbatterien zubeschreiben, gelangt man zu wenigen wichtigen und weitgehendorthogonalen Dimensionen des Merkmalsraumes, in demUntersuchungsobjekte anhand ihrer Faktorwerte positioniert sind.

Allerdings muß auch vor einigen Fallstricken der Faktorenanalyse,insbesondere vor Fehlinterpretationsmöglichkeiten, gewarntwerden.

Repräsentation

Fehlinterpretationsmöglichkeiten I

Die HKA projiziert mit Hilfe einer linearer Abbildung

- die m-dimensionalen Untersuchungsobjekte (unterVerwendung der Matrix Xq) und

- die m Merkmale ak (unter Verwendung der Matrix Fq)

in einen gemeinsamen q-dimensionalen Teilraum.

Aufgrund dieser Tatsache dürfen sowohl die Objekte als auch dieMerkmalsvektoren nur relativ zueinander interpretiert werden.

Absolute Aussagen über die Lage der Objekte hinsichtlich dereinzelnen Merkmalsvektoren gelten nur approximativ.

Repräsentation

Fehlinterpretationsmöglichkeiten II

Ganz wesentlich ist auch die Zahl und Art der Merkmale, die in dieFA eingehen. Aus den entsprechenden Gleichungen wird deutlich,daß auf einem Faktor jene Merkmale hoch laden, die auch hochkorreliert sind. Wenn ein Faktor durch sehr viele gleichartigeMerkmale vertreten ist, so laden diese auch hoch auf ihm.

Die Extraktion des ersten Faktors nach dem Kriterium deshöchsten Varianzbeitrages wird dann als bedeutendsten Faktorjenen präsentieren, der durch viele Merkmale vertreten ist.

Damit zeigt sich aber, daß die FA für sich allein genommen nicht inder Lage ist, die Wichtigkeit von Merkmalsbereichen zu ermitteln(→ Conjointanalyse, Datenanalyse II)

Repräsentation

Fehlinterpretationsmöglichkeiten III

Werden zudem Merkmale aus unterschiedlichen Bereichen (z.B.soziodemographische und psychographische Merkmale) gewählt,so kommt es vor, dass die unterschiedlichen Merk-male auf ein unddenselben Faktor laden. Eine Interpretation des Faktors ist dannwenig sinnvoll bzw. schwierig.

Mitunter wird der Weg vorgeschlagen, einen Faktoren nach demam höchsten ladenden Merkmalen zu benennen(„Leitvariablenkonzept“). Dadurch kommt es jedoch unterUmständen zu einer Vernachlässigung relevanter Informationen fürdie Beschreibung der Untersuchungsobjekte.

Repräsentation

Kovarianz- oder Korrelationsmatrix?

• Die Hauptkomponentenanalyse kann statt mittels der Kovarianzmatrix von A auch auf Basis der

Korrelationsmatrix von A durchgeführt werden.

• Aber: die Eigenwerte und Eigenvektoren der Kovarianzmatrix können nicht in die der

Korrelationsmatrix überführt werden und geben deshalb unterschiedliche Informationen.

• Vorteile der Korrelationsmatrix:

- Die Ergebnisse zweier Analysen könenn direkt miteinander verglichen werden

- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der

Einheiten der Merkmale

• Vorteil der Kovarianzmatrix:

- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der

Einheiten der Merkmale (Manchmal möchte man diesen Umstand benutzen)

6KlassifikationÜberblick über Verfahren, Multiple Regression, Varianzanalyse

Klassifikation

6 Klassifikation

6.1 Einführende Bemerkungen

6.2 Multiple Regression

6.3 Varianzanalyse

Klassifikation

6.1 Einführende Bemerkungen

Ziel der Identifikation

Ein „abhängiges“ Merkmal Y soll mit Hilfe der „unabhängigen“Merkmale X1, . . . ,Xm identifiziert, d.h. erklärt, werden. Y undX1, . . . ,Xm seien ausgewählte Spalten der Beobachtungsmatrix A.

Gesucht sind folglich:

• im nichtlinearen Falleine Funktion f und Merkmale X1,X2, . . . ,Xm mitY = f(X1,X2, . . . ,Xm)

• im linearen FallEine Konstante α0 ∈ R, Gewichte α1,α2, . . . ,αm ∈ R undMerkmale X1,X2, . . . ,Xm mitY = α0 + α1 · X1 + α2 · X2 + . . . + αm · Xm

Klassifikation

Beispiele zur Identifikation

Y nominal ( = qualitativ )- Kreditvergabe an Kunden: Das Merkmal Kredit ja/nein soll mit

Hilfe andere persönlicher und wirtschaftlicher Merkmale vorKreditvergabe bestimmt werden.

- Klassifikationsergebnis: Die Struktur einer Klassifikation sollmit Hilfe der betrachteten Merkmale erklärt werden.

Y ordinal- Objektbewertungen: Die Rangbewertungen von Objekten soll

mit Hilfe anderer Merkmale erklärt werden.

Y quantitativ- Marktanteile, Absatzzahlen etc. sollen mit Hilfe anderer

Merkmale (z.B. Werbeausgaben, Preise, ...) erklärt werden.

- Repräsentationsergebnisse: Die Lage der Objekte soll mit Hilfeder eingebetteten Merkmale erklärt werden

Klassifikation

Überblick über die wichtigsten Verfahren

unabhängige Variablen Xk quantitativ nominal

abhängige Variable Y

quantitativ multipleRegression Varianzanalyse

ordinal Conjointanalyse(Datenanalyse II)

nominalDiskriminanz-

analyse(Datenanalyse II)

Kontingenz-analyse

Y heißt auch endogene Variable, während X1, . . . ,Xm auchexogene Variablen genannt werden.

Zu beachten ist stets, dass auch eine kausale Abhängigkeitvorliegen muß (→ Dependenzanalyse).

Klassifikation

6.2 Multiple Regression

Untersuchung des funktionalen Zusammenhangs zwischen einemquantitativen Merkmal Y und den quantitativen MerkmalenX1, . . . ,Xm.

Die multiple Regression dient nur der deskriptiven Beschreibungeines beobachteten (funktionalen) Zusammenhangs.

Es ist auch zulässig, binäre exogene Variablen in das Modellaufzunehmen. Dabei ist allerdings zu beachten, dass beiausschließlicher Verwendung solcher Variablen die allgemeineTest-Theorie für die Modellparameter (streng genommen) nichtmehr korrekt ist. Dennoch sind tendenziell brauchbareErkenntnisse ableitbar.

( vergl. Bamberg/Baur Kap. 16 )

Klassifikation

Multiples RegressionsmodellKonstante Regressionskoeffizienten

Y = β0 + β1 · X1 + . . . + βm · Xm + U (Y,X1, . . . ,Xm quantitativ)

Regressand Regressoren Störvariable

1 x11 · · · x1m

......

. . ....

1 xn1 · · · xnm

= X · β + u

Designmatrix

Die Störvariable U trägt der Tatsache Rechnung, dass• Variablen mit Meßfehlern behaftet sind und• Zusammenhänge zwischen ökonomischen Variablen i.A. nicht vollständig

modelliert und stochastisch sind.

Klassifikation

Annahmen des Regressionsmodells

(1) Erwartungstreue: E(ui) = 0 für alle i = 1, . . . ,n

(2) Homoskedastizität: Var(ui) = σ2 für alle i = 1, . . . ,n

Cov(ui,uj) = 0 für i 6= j

(3) Verteilungsannahme: ui ∼ N(0,σ2)

(4) Non-Kollinearität: X besitzt den Rang m + 1

(5) Stichprobengröße: n > m + 1

Zur Durchführung deskriptiver Analysen werden ausschließlichAnnahmen (1) und (4) benötigt, die anderen Annahmen dienender weitergehendon Betrachtung von Regressionsmodellen.

Klassifikation

Schätzung der Modellparameter

mit Hilfe der Methoden der Kleinsten-Quadrate (KQ):

Gesucht sind Schätzwerte , β0, . . . , βm so dass mit Hilfe der ausdem Modell resultierenden Schätzwerte für y, den Werten

yi = β0 + β1x1i + . . . + βmxmi

die Quadrat-Summe der Residuen SSE minimal wird:

minimieren: SSE =

(yi − yi)2

In Matrixform ergibt sich folgendes Minimierungsproblem

(y − X · β)T (y − X · β) → min

Lösung siehe Vorlesung

Klassifikation

Schätzgleichung der Modellparameter

aus dem oben genannten Minimierungsproblem ergibt sich unterVerwendung der Annahmen (1) und (4) folgende Lösung für dieSchätzwerte der Regressionskoeffizienten:

= (XTX)−1XTy

Die Invertierung der Matrix XTX ist aufgrund (4) stetsgewährleistet, da der volle Rang von X hinreichend für dieRegularität von XTX ist.

Als Schreibvereinfachung wird oft gesetzt:

(XTX)−1 = D = (dkl)m+1,m+1

KlassifikationGüte der Schätzung

Man kann zeigen, dass die Totalvarianz der zu erklärendenVariablen folgendermaßen zerlegt werden kann

(yi − y)2

︸︷︷︸SST

Totalvarianz

(Total sum of square)

(yi − yi)2

︸︷︷︸SSE

Fehlervarianz

(yi − ¯y)2

︸︷︷︸SSR

durch Regression

erklärte Varianz

Berücksichtigt man diese Varianzzerlegung, so wird deutlich, wiedie Anpassung eines Modells an die Daten beurteilt werden kann.

Da die Gesamtvarianz SST für einen Datensatz stets konstant ist,wird die Modellanpassung umso besser, je kleiner die FehlervarianzSSE ist (→ multiples Bestimmtheitsmaß).

Klassifikation

Multiples Bestimmtheitsmaß

Man erhält die Kennzahl R2, die den durch die Regression erklärtenAnteil der Gesamtvarianz wiedergibt(vergl. Bamberg/Baur Kap. 4.3.1):

R2 =SSR

SST= 1 −

SST∈ [0; 1]

Spezialfälle:

R2 = 1 ⇒ Alle Residuen verschwinden.

R2 = 0 ⇒ X liefert keinen Beitrag zur Erklärung der Variabilität.

Klassifikation

Korrigiertes Bestimmtheitsmaß

R2 wächst mit der Anzahl der Regressoren, da

• die Gesamtvarianz SST konstant bleibt und

• die Fehlervarianz SSE kleiner wird,

Deswegen ist eine Korrektur im Hinblick auf die Anzahl derRegressoren notwendig.

Man erhält so das korrigierte (multiple) Bestimmtheitsmaß

R2 = 1 −(n − 1) · SSE

(n − m − 1) · SST

das im allgemeinen kleiner als R2 ist.

Klassifikation

Einschub Regression: 4 eindimensionale Beispiele

x1 x2 x3 x4 y1 y2 y3 y4

1 10 10 10 8 8.04 9.14 7.46 6.58

2 8 8 8 8 6.95 8.14 6.77 5.76

3 13 13 13 8 7.58 8.74 12.74 7.71

4 9 9 9 8 8.81 8.77 7.11 8.84

5 11 11 11 8 8.33 9.26 7.81 8.47

6 14 14 14 8 9.96 8.10 8.84 7.04

7 6 6 6 8 7.24 6.13 6.08 5.25

8 4 4 4 19 4.26 3.10 5.39 12.50

9 12 12 12 8 10.84 9.13 8.15 5.56

10 7 7 7 8 4.82 7.26 6.42 7.91

11 5 5 5 8 5.68 4.74 5.73 6.89

(Quelle: Anscombe, Francis J. (1973) Graphs in statistical analysis.)

Klassifikation

Einschub Regression: 4 eindimensionale Beispiele

In der folgenden Tabelle sind jeweils die Ergebnisse derRegressionsanalyse von xi als unabhängiger Variablen mit yi alsabhängiger Variablen dargestellt:

i β0 β1 R2 korrigiertes R2

1 3.0001 0.5001 0.6665 0.6295

2 3.0010 0.5000 0.6662 0.6292

3 3.0025 0.4997 0.6663 0.6292

4 3.0017 0.4999 0.6667 0.6297

KlassifikationEinschub Regression: 4 eindimensionale Beispiele

5 10 15

(→ Zur Beurteilung der Güte des Modells mit Residuenplots: siehe Vorlesung)Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 194|306

Klassifikation

Beispiel - Multiple Regression

Für fünf Produkte P1, . . . ,P5 liegen sowohl der Marktanteil Y (inProzent) als auch der Preis X1 und die Werbeausgaben X2 vor. MitHilfe der Regressoren X1 und X2 soll nun der Marktanteil Y

identifiziert werden.

Produkt Y X1 X2

P1 40 1 3

P2 20 2 3

P3 20 2 2

P4 10 2 1

P5 10 3 1

(−→ Vorlesung)

Klassifikation

Signifikanztests der ModellparameterDie klassischen Testverfahren erlauben es, Fragen von folgendemTyp zu beantworten:

• Welche Abschätzungen lassen sich bezüglich des marginalenEinflusses βk einer exogenen Variablen Xk bzw. deszugehörigen Beobachtungsvektors xk machen?

• Ist die Hypothese, dass der marginale Einfluß βk einer exogenenVariablen Xk den Wert d annimmt, korrekt?

• Ist die Hypothese, dass der marginale Einfluß βk einer exogenenVariablen Xk und βl einer exogenen Variablen Xl identisch sind,mit dem vorliegenden Datenmaterial verträglich?

• Ist eine Gruppe von exogenen Variablen X1, . . . ,Xm ohneEinfluß auf die endogene Variable Y bzw. denBeobachtungsvektor y?

Klassifikation

Tests einzelner Modellparameter

Möchte man zunächst nur einzelne Modellparameter, d.h. dieRegressionskoeffizienten, statistisch-induktiv untersuchen, sobieten sich folgende Fragestellungen an:

• Intervallschätzung eines Regressionskoeffizienten βi

• Test der Hypothese H0 : βk = 0(Existiert ein „signifikanter“ Einfluß der Variablen Xk ?)

• Test der Hypothese H0 : βk = d

• Test der Hypothese H0 : cTβ = d

( = Test bzgl. einer Linearkombination)

• Test der HypotheseH0 : alle βk = 0

H1: mindestens ein βk 6= 0.( = Test des Gesamtmodells )

Klassifikation

Eigenschaften des Punktschätzers β

Um statistisch-induktive Untersuchungen derRegressionskoeffizienten zu ermöglichen, muß zunächst dieVerteilung der entsprechenden Punktschätzer geklärt werden.

Unter Zuhilfenahme der Annahmen (2) und (3) gilt dabei:

β ∼ N(β; σ2(XTX)−1

(→ Herleitung siehe Vorlesung)

bzw. komponentenweise: βk ∼ N(β; σ2(XTX)−1

Anmerkung:

√σ2 · (XTX)−1

kk =√

σ2 · dkk , mit (XTX)−1 = D = (dij)m+1,m+1

wird auch Standardfehler des Regressionskoeffizienten βk genannt.

Klassifikation

Punktschätzer für die Fehlervarianz σ2

Betrachtet man die Verteilung der Punktschätzer derModellparameter, so erkennt man, dass neben demErwartungswert β auch die Varianz der Normalverteilung benötigtwird.

Da die multiplikative Konstante σ2 der Varianz - und damit auchdie Varianz selbst - i.a. aber nicht bekannt ist, benötigt man einenerwartungstreuen Schätzer dieser Konstanten σ2, der sich wiefolgt errechnet:

σ2 =1

n − (m + 1)

(yi − yi)2

(→ Herleitung siehe Vorlesung)

KlassifikationTest auf Signifikanz eines Koeffizienten

Die in der ökonometrischen Praxis mit Abstand wichtigste Hypothese H0

bezüglich eines einzelnen Regressionskoeffizienten βk lautet:

H0 : βk = 0

Die Ablehnung von H0 bedeutet, dass die exogene Variable Xk einen

signifikanten Einfluß auf die endogene Größe Y bzw. y hat.

Die Überprüfung der Hypothese erfolgt mit Hilfe der t-Statistik

t1 =βk√

Var(βk)

σ ·√

(XTX)−1kk

σ ·√

und den entsprechenden Fraktilen der t-Verteilung mit (n − m − 1)

Freiheitsgraden.

Klassifikation

Konfidenzintervall der Koeffizienten

Ein Konfidenzintervall für den Koeffizienten βk zum Konfidenzniveau 1 − α ist

ein Intervall mit zufallsabhängigen Intervallgrenzen, das den wahren Wert βk

mit der Wahrscheinlichkeit 1 − α enthält.

Unter Berücksichtigung der Verteilungseigenschaften des Punktschätzers β und

des Schätzwertes σ2 der multiplikativen Konstanten ergibt sich folgendes

Ergebnis:

KI =[βk − p; βk + p

mit p = t∗ · σ ·√

(XTX)−1kk ,

wobei t∗ das (1 − α/2)-Fraktil der t-Verteilung mit (n − m − 1)

Freiheitsgraden ist.

Klassifikation

Test bzgl. eines Koeffizienten

Möchte man die in der Praxis seltener vorzufindende HypotheseH0 gemäß

H0 : βk = b

testen, d.h., möchte man feststellen, ob der marginale Einfluß einerexogenen Variable Xk einen bestimmten Wert b annimmt, soverwendet man zur Überprüfung der Hypothese eine modifiziertet-Statistik gemäß

t2 =βk − b

σ ·√

(XTX)−1kk

=βk − b

σ ·√

Der Testfunktionswert t2 ist wieder t-verteilt mit (n − m − 1)

Freiheitsgraden.

Klassifikation

Test einer Linearkombination der Koeffizienten

Sei cT = (c0, c1, . . . , cm) ein (m + 1)-dimensionaler Zeilenvektor und b eine

beliebige Zahl. Die damit gebildete Hypothese

H0 : cTβ = c0 + c1 · β1 + . . . + cm · βm = b

erfasst dann durch geeignete Wahl von c und b sowohl die bisher betrachteten

Hypothesen als auch eine Vielzahl weiterer Hypothesen, beispielsweise dass zwei

Koeffizienten gleich sind oder sich nur um einen bestimmten Faktor

unterscheiden.

Als Teststatistik findet die folgende Größe bei ansonsten identischen

Voraussetzungen Anwendung:

t3 =cT β − b

σ ·√

cT (XTX)−1 · c

Klassifikation

Test des Gesamtmodells

Die zuvor betrachtete Hypothese cTβ = d ist trotz ihrerAllgemeinheit nicht in der Lage, eine Hypothese wie beispielsweise

H0 : β1 = β2 = . . . = βm = 0

zu erfassen. Eine Annahme dieser Hypothese ist gleichbedeutendmit der Behauptung, dass die Regressoren keinenErklärungswert für das Zustandekommen der y-Werte besitzen.

Der zunächst naheliegende Gedanke, m Hypothesen der FormH0 : βk = 0 aufzustellen, mittels der t-Statistik zum Niveau α zuüberprüfen und die obige Hypothese genau dann abzulehnen,wenn alle Einzelhypothesen abgelehnt werden, ist nicht richtig.Man erhält keinen zum Niveau α, sondern einen konservativen Testzum Niveau α ′, mit α ′ << α.

Klassifikation

F-Test für das Gesamtmodell

Da das weiter oben definierte Bestimmtheitsmaß R2 den Anteil der durch das

Regressionsmodell erklärten Varianz beschreibt, liegt es nahe, diese Maßzahl

statistisch-induktiv zu verarbeiten. Werte von R2 in der Nähe von Null sprechen

gegen ein „angemessenes“ Modell, große Werte eher dafür.

Mit Hilfe der Teststatistik F, die gemäß

m1 − R2

n − m − 1

definiert ist und einer F-Verteilung mit m und (n − m − 1) Freiheitsgraden folgt,

kann somit eine Überprüfung des Gesamtmodells erfolgen.

(Beispiel siehe Vorlesung)

Klassifikation

Einschub: Lineare Regression mit R

Lineare Regression kann in R mittels der Funktion

lm(formula, data=<dataFrame>, ...) durchgeführt werden.

Schätzung des Modells (i = 1, . . . , n)

Yi = β0 + β1xi1 + β2xi2 + ǫi

Werden in R die y1, . . . , yn durch die Variable y,

x11, . . . , xn1 durch x1 und x12, . . . , xn2 durch x2 repräsentiert, kann die Formel

(formula) dann durch

y ~ x1 + x2

spezifiziert werden. Auf der linken Seite der Formel steht die zu erklärende

Variable. Das Tilde-Zeichen kann durch “wird modelliert durch” gelesen werden.

Klassifikation

(Beispiel Folie 192 fortgesetzt)

> Marktanteil = c(40,20,20,10,10); # spezifiziert y

> Preis = c(1,2,2,2,3); # x1

> Werbeausgaben = c(3,3,2,1,1); # x2

> Bsp192 = data.frame(Marktanteil,Preis,Werbeausgaben);

> lR = lm(Marktanteil ~ Preis + Werbeausgaben, data=Bsp192);

> summary(lR);

Klassifikation

(Beispiel Folie 192 fortgesetzt)

lm(formula = Marktanteil ~ Preis + Werbeausgaben, data = Bsp192)

Residuals:

1 2 3 4 5

5.000e+00 -5.000e+00 -4.351e-16 -5.000e+00 5.000e+00

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 30.000 22.583 1.328 0.315

Preis -10.000 7.071 -1.414 0.293

Werbeausgaben 5.000 5.000 1.000 0.423

Residual standard error: 7.071 on 2 degrees of freedom

Multiple R-Squared: 0.8333, Adjusted R-squared: 0.6667

F-statistic: 5 on 2 and 2 DF, p-value: 0.1667

KlassifikationEinschub: Lineare Regression mit R

(Beispiel Folie 192 fortgesetzt, Residuenplot)

5 10 15 20 25 30 35

yi − yi

Klassifikation

(Cereals from Kellog’s)

Kalorien = c(7,5,11,10,11,11,11,11,11,10,12,11,14,16,12,

14,9,10,12,9,11,11,11) * 10;

Protein = c(4,4,2,2,1,3,2,2,1,3,3,2,3,3,2,3,3,3,3,2,2,2,6);

Zucker = c(5,0,14,2,12,7,3,13,11,7,12,6,9,13,9,7,2,3,12,6,3,15,3);

X = matrix(c(rep(1,23),Protein,Zucker),23,3);

# set up data frame

Kellogs = data.frame(Kalorien,Protein,Zucker);

Klassifikation

[,1] [,2] [,3]

[1,] 1 4 5

[2,] 1 4 0

[3,] 1 2 14

[4,] 1 2 2

[5,] 1 1 12

[6,] 1 3 7

[7,] 1 2 3

[8,] 1 2 13

[9,] 1 1 11

[10,] 1 3 7

[21,] 1 2 3

[22,] 1 2 15

[23,] 1 6 3

Klassifikation

> D = solve(t(X) %*% X);

[,1] [,2] [,3]

[1,] 0.7094439 -0.159353296 -0.032164699

[2,] -0.1593533 0.047240030 0.004502781

[3,] -0.0321647 0.004502781 0.002673094

KlassifikationEinschub: Lineare Regression mit R (Cereals from Kellog’s)> summary(lm(Kalorien ~ Protein + Zucker, data=Kellogs));

lm(formula = Kalorien ~ Protein + Zucker, data = Kellogs)

Residuals:

Min 1Q Median 3Q Max

-38.935 -11.268 -1.602 9.150 35.579

Coefficients:

(Intercept) 84.285 16.380 5.146 4.92e-05 ***Protein 1.163 4.227 0.275 0.7861

Zucker 2.819 1.005 2.804 0.0110 *---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 4.36 on 2 and 20 DF, p-value: 0.02683

Klassifikation

# plot 2-dim lin. regression

plot(Protein,Kalorien);

regProtein = lm(Kalorien ~ Protein, data=Kellogs);

summary(regProtein);

abline(regProtein);

(Cereals from Kellog’s, Plot)

0 5 10 15

Zucker

lm(formula = Kalorien ~ Zucker, data = Kellogs)

Residuals:

Min 1Q Median 3Q Max

-38.2068 -12.0605 -0.7063 10.5434 36.5854

Coefficients:

(Intercept) 88.2068 7.8834 11.189 2.62e-10 ***Zucker 2.7083 0.9007 3.007 0.00671 **---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 9.042 on 1 and 21 DF, p-value: 0.006715

(Beispiel Kellog’s Cereals, Residuenplot)

90 100 110 120 130

yi − yi

Klassifikation

6.3 Varianzanalyse

• Untersuchung des funktionalen Zusammenhangs zwischeneinem quantitativen Merkmal Y und i.a. mehreren nominalenMerkmalen X1, . . . ,Xm.Y und die X1, . . . ,Xm können wieder als einzelne Spalten derBeobachtungsmatrix A angesehen werden.

• Im Gegensatz zur multiplen, linearen Regression interessiert hieraber nicht nur der jeweilige Einfluss der einzelnenunabhängigen Variablen X1, . . . ,Xm auf die abhängige Größe Y,sondern auch der Einfluss oder die Wirkung einerKombination von exogenen Variablen.Somit sind hier nicht nur Einzeleffekte sondern auchWechselwirkungseffekte (Interaktionen/Interdependenzen)zwischen verschiedenen exogenen Variablen von Bedeutung.

Klassifikation

Überblick über die wichtigsten Verfahren

Zahl der abhängigen

quantitativen Variablen

Zahl der unabhängigen

nominalen Variablen

Verfahrenstyp

q = 1 1 einfache Varianzanalyse

(ANOVA)

q = 1 m = 2, 3, . . . m-faktorielle Varianzanalyse

(ANOVA)

q > 2 m > 1 multivariate Varianzanalyse

(MANOVA)

Die unabhängigen exogenen Variablen X1, . . . ,Xm werden auchFaktoren genannt.

Im Rahmen der Vorlesung soll vor allem die zwei-faktorielleVarianzanalyse behandelt werden.

Klassifikation

Einfache Varianzanalyse: Beispiel

Ein Supermarkt untersucht die Wirkung von 3 Arten der Werbungauf den Absatz eines Produktes, wobei jede Werbeart fünf Tagedurchgeführt wird. Man erhält somit drei Teilstichproben mitjeweils fünf Beobachtungswerten.

Tag 1 Tag 2 Tag 3 Tag 4 Tag 5

Anzeige 47 39 40 46 45 yA = 43.4

Plakat 68 65 63 59 67 yP = 64.4

Lautsprecher 59 50 51 48 53 yL = 52.2

yGes = 53.3

Frage: Sind die unterschiedlichen Absatzergebnisse auf die Art derBewerbung zurückzuführen, d.h., existieren signifikanteAbsatzunterschiede zwischen den verschiedenenBewerbungsarten?

Klassifikation

Einfache Varianzanalyse: Interpretation des Beispiels

Unter der Annahme, dass alle absatzwirksamen Einflüsse von außen, d.h.

außerhalb der experimentellen Anordnung (z.B. Konkurrenz etc.), bis auf

zufällige Abweichungen bei allen Werbearten gleich sind, dürften keine

größeren Unterschiede zwischen den Mittelwerten der drei Werbearten

auftreten, wenn kein Einfluss der Art der Werbung auf den Absatz bestände.

Existieren hingegen Zusammenhänge, so hätte jedes Werbemittel k einen

spezifizierbaren Einfluss αk auf den Absatz Y.

Dies bedeutet auch, dass ein gewisser Grundabsatz (oder auch

Durchschnittsabsatz) µ aufgrund des Vorliegens einer Werbeart mit Hilfe der

Größe αk korrigiert wird.

Man erhält somit unter Berücksichtigung einer Fehlerkomponente das

(stochastische) Modell:

Yk,i = µ + αk + Uk,i

Klassifikation

Einfache Varianzanalyse: Modell

Ausgehend von einem Einflussfaktor (= Merkmal) mit K

Faktorstufen und einer Stichprobe vom Umfang nk pro

Faktorstufe k, alsoK∑

nk = n, sowie dem Modell

Yk,i = µ + αk + Uk,i (k = 1, . . . ,K und i = 1, . . . ,nk)

ergibt sich folgende Interpretation:

• Die Beobachtungswerte yi,k ergeben sich aus demGesamtmittelwert µ und dem Effekt αk , der die Abweichungzum Gesamtmittelwert angibt.

• Uk,i stellt den zufälligen Fehler dar.( Vergl. Bamberg/Baur Kap 14.7 )

Klassifikation

Zwei-fakt. Varianzanalyse: Beispiel (I)Der oben genannte Supermarkt untersucht simultan die Wirkung von drei Arten der Werbung (drei

Faktorstufen des Einflussfaktors Werbung) und zwei Bedienungsformen auf den Absatz eines

Produktes, wobei jede Kombination aus Werbeart und Bedienart fünf Tage durchgeführt wird. Man

erhält somit 3 · 2 = 6 Teilstichproben mit jeweils fünf Beobachtungswerten.

Persönliche Bedienung

Absatz Tag 1 Tag 2 Tag 3 Tag 4 Tag 5

Anzeige 47 39 40 46 45 yAP = 43.4Plakat 68 65 63 59 67 yPP = 64.4Lautsprecher 59 50 51 48 53 yLP = 52.2

yP = 53.3

Selbstbedienung

Anzeige 40 39 35 36 37 yAS = 37.4Plakat 59 57 54 56 53 yPS = 55.8Lautsprecher 53 47 48 50 51 yLS = 49.8

yS = 47.6

yGes = 50.5

Klassifikation

Zwei-faktorielle Varianzanalyse: Beispiel (II)

Bei Betrachtung der Tabellen kommen u.a. folgende Fragen auf:

• Werden durch das Untersuchungsdesign überhaupt signifikanteEinflüsse auf den Absatz erzielt (→ Signifikanz des Modells)

• Hat die Werbeart einen Einfluss auf den Absatz?

• Hat die Bedienart einen Einfluss auf den Absatz?

• Bestehen Wechselwirkungen zwischen Werbeart undBedienart?

Klassifikation

Zwei-fakt. Varianzanalyse: Interpretation des BeispielsUnter der Annahme, dass alle absatzwirksamen Einflüsse von außen bis auf

zufällige Abweichungen bei allen Kombinationen aus Werbeart und Bedienform

gleich sind, dürften keine größeren Unterschiede zwischen den Mittelwerten der

sechs Kombinationen auftreten, wenn kein Einfluss der Art der

Werbung/Bedienform auf den Absatz bestände.

Existieren hingegen entsprechende Zusammenhänge, so hätte jedes

Werbemittel k und jede Bedienform l einen spezifizierbaren Einfluß αk bzw.

βl auf den Absatz Y. Gleiches gilt auch für die Wechselwirkung (αβ)kl der

beiden Faktoren.

Dies bedeutet, dass ein gewisser Grundabsatz µ aufgrund des Vorliegens einer

Kombination aus Werbeart und Bedienform mit Hilfe der Größen αk , βl und

(αβ)kl korrigiert wird. Man erhält somit das (stochastische) Modell:

Ykl,i = µ + αk + βl + (αβ)kl + Ukl,i

Klassifikation

Zwei-faktorielle Varianzanalyse: ModellAusgehend von einem Faktor1 mit K Faktorstufen und einemFaktor2 mit L Faktorstufen, einem konstanten Stichprobenumfangn∗ pro Faktorstufenkombination kl sowie dem Modell

(k = 1, . . . ,K und l = 1, . . . ,L

sowie i = 1, . . . ,n∗)

ergeben sich die Beobachtungswerte ykl,i aus

• dem Gesamtmittelwert µ ,

• einem Effekt αk des ersten Faktors,

• einem Effekt βl des zweiten Faktors,

• einem Effekt (αβ)kl, der die Wechselwirkung der beidenFaktoren berücksichtigt.

Klassifikation

ANOVA-Modell für m Faktoren k1, . . . ,km

Yk1,...,km,i = µ

+ αk1+ . . . + αkm

+ (α)k1,k2+ . . . + (α)km−1,km

+ . . .

+ (α)k1,...,km

+ Ui,k1,...,km

„Grundnutzen“

Haupteffekte

Wechselwirkungen

vom Grad 2

Wechselwirkung vom Grad m

Störvariable bei Beobachtung i

Die Störvariable U trägt wieder der Tatsache Rechnung, dass

• Variablen mit Meßfehlern behaftet sind und

• Zusammenhänge zwischen ökonomischen Variablen imallgemeinen stochastischer Natur sind

Klassifikation

Annahmen des ANOVA-Modells

(1) Die Stichproben der Faktorstufen-Kombinationen sindunabhängig.

(2) Die Stichprobengröße nk1,...,kmist in allen

Faktorstufen-Kombinationen gleich, n∗ = nk1= · · · = nkm

.Anmerkung 1: Diese Annahme kann aufgegeben werden;allerdings ist dann ein im Vergleich zur dargestelltenVorgehensweise modifizierter GLM-Ansatz zu wählen, der nichtbehandelt wird.Anmerkung 2: Bei der einfachen Varianzanalyse kann aufdiese Voraussetzung stets verzichtet werden.

(3) Verteilungsannahme: Yk1,...,km,i ∼ N (µk1,...,km,σ2)

Klassifikation

Schätzung der Modellparameter

Die Schätzung der Parameter des allgemeinen ANOVA-Modellserfolgt mit Hilfe eines KQ-Ansatzes (unter Nebenbedingungen,Identifizierbarkeit der Modellparameter), bei dem folgendesOptimierungsproblem bezüglich θ zu lösen ist:

. . .∑

(yk1,...,km,i − θk1,...,km)2 → min

Speziell gilt also für die

• einfache ANOVA:∑

(yk,i − µ − αk)2 → min bzw.

• 2-fakt. ANOVA:∑

(yk,l,i − µ − αk − βl − (αβ)kl)2 → min

Klassifikation

Parameterschätzung der einfaktoriellen ANOVA

Als Lösung des oben genannten Optimierungsproblems ergebensich für die einfache ANOVA gemäß

Yk,i = µ + αk + Uk,i (k = 1, . . . ,K und i = 1, . . . ,nk)

folgende Parameterschätzungen:

• Die Schätzung von µ erfolgt mittels µ = yGes

• Die Schätzung von αk erfolgt mittels αk = yk − yGes

Klassifikation

Parameterschätzung der 2-faktoriellen ANOVA

Als Lösung des oben genannten Optimierungsproblems ergeben sich für die

zwei-faktorielle ANOVA gemäß

(k = 1, . . . , K und l = 1, . . . , L

sowie i = 1, . . . , n∗)

folgende Parameterschätzungen:

• Die Schätzung von µ erfolgt mittels yGes

• Die Schätzung von αk erfolgt mit Hilfe von αk = yk − yGes

• Die Schätzung von βl erfolgt mit Hilfe von βl = yl − yGes

• Die Schätzung von (αβ)kl erfolgt mit Hilfe von

(αβ)kl = ykl − yGes − (yk − yGes) − (yl − yGes) =

= ykl − yk − yl + yGes

Klassifikation

Güte der Schätzung

Auch im Rahmen der ANOVA erfolgt die Beurteilung der Güte derSchätzung mit Hilfe der durch das Modell erklärten Varianz. Dabeigilt wieder:

• Je größer der durch das ANOVA-Modell erklärte VarianzanteilSSA (among-group sum of squares) an der GesamtvarianzSST (total sum of squares) ist, umso besser beschreibt dasModell die Daten.

• Umgekehrt bedeutet dies aber auch, dass der nicht-erklärteAnteil der Varianz, die Größe SSW (within-group sum ofsquares), möglichst klein sein soll.

Klassifikation

Varianzzerlegung bei ANOVA Gesamtstreuung SST

Streuung zwischen

den Gruppen SSA

Haupteffekte

Streuung durch Faktor F1 (SSA-F1)...

Streuung durch Faktor Fm (SSA-Fm)

Interaktionen

Streuung durch Wechselwirkung

von F1 und F2 (SSA-F1 × F2)...

von F1, F2 und F3 (SSA-F1 × F2 × F3)...

von F1,F2, . . . ,Fm (SSA-F1 × F2 × . . .× Fm )

Streuung innerhalb

der Gruppen SSW

Klassifikation

Varianzzerlegung der einfachen ANOVA

Im Rahmen der einfachen ANOVA gilt auch im Fall desunbalancierten Designs folgende Varianz-Zerlegung:

(yk,i − yGes)2

︸︷︷︸SST

(yk,i − yk)2

︸︷︷︸SSW

nk(yk − yGes)2

︸︷︷︸SSA

Totalvarianz(Total sum of square)

Fehlervarianz durch ANOVAerklärte Varianz

Dabei gilt:

·nk∑

yk,i und yGes =1

nk · yk

Klassifikation

Varianzzerlegung der 2-fakt.ANOVA (I)

Im Rahmen der 2-faktoriellen ANOVA gilt im Fall des balanciertenDesigns stets die folgende, sehr grobe Zerlegung:

n∗∑

(ykl,i − yGes)2

︸︷︷︸

Totalvarianz

(Total sum of square)

n∗∑

(ykl,i − ykl)2

︸︷︷︸

Fehlervarianz

+ n∗ ·

(ykl − yGes)2

︸︷︷︸

durch ANOVA

erklärte Varianz

Dabei gelten analog folgende Konventionen:

ykl = 1n∗ ·

n∗∑

ykl,i und yGes = 1K·L

ykl = 1n

n∗∑

Klassifikation

Varianzzerlegung der 2-fakt.ANOVA (II)

Darüber hinaus kann der Varianzanteil SSA weiter sinnvoll zerlegtwerden. Für zwei Faktoren F1 und F2 gilt

SSA = SSAF1+ SSAF2

+ SSAF1×F2

gemäß

SSAF1= n∗ · L ·

(yk − yGes)2 SSAF2

= n∗ · K ·L∑

(yl − yGes)2

SSAF1×F2= n∗ ·

(ykl − yk − yl + yGes)2

wobei gilt:

L · n∗·

n∗∑

ykl,i und yl =1

K · n∗·

n∗∑

Klassifikation

Hypothesen des ANOVA-Modells

Klassische Testverfahren erlauben es, Fragen von folgendem Typ zuentscheiden:

• Ist die Hypothese, dass der Einfluss eines exogenen Faktors aufdie endogene Größe signifikant vorhanden ist, mit demDatenmaterial verträglich?

• Existieren Wechselwirkungen zwischen bestimmten Faktoren,die einen wesentlichen Beitrag zur Erklärung der endogenenGröße aufweisen?

• Ist eine Gruppe von exogenen Faktoren ohne Einfluss auf dieendogene Größe?

Fragen bezüglich verschiedener Abschätzungen wie bei derRegression (Konfidenzintervalle) sind hingegen nicht üblich.

Klassifikation

Signifikanztests der Modellparameter

Die Konstruktion der verschiedenen Signifikanztests folgt stetsdem gleichen Schema:

• Der mit Hilfe des ANOVA-Modells geschätzte VarianzanteilSSA (SSA,SSAF1

,SSAF2,SSAF1×F2

) wird dem durch dieANOVA nicht-erklärten Varianzanteil SSW gegenübergestellt.

• Da beide Größen aufgrund der Verteilungsannahmen derANOVA als Summe quadrierter normalverteilter Zufallsvariablenχ2 verteilt sind, ist die resultierende Test-Statistik als Quotientsolcher Zufallsvariablen F-verteilt.

• Ein Vergleich mit dem entsprechenden Fraktil der Verteilungermöglicht so die Beurteilung der formulierten Hypothese.

Klassifikation

Test auf Signifikanz des ersten Faktors

Die in der ökonometrischen Praxis mit Abstand wichtigsteHypothese H0 bezüglich eines ersten Faktors F1 lautet:

H0 : α1 = α2 = . . . = αK = 0 gegen H1 :mind. einαk 6= 0

Die Ablehnung von H0 bedeutet, dass der exogene Faktor F1

einen signifikanten Einfluss auf die endogene Größe hat.Die Überprüfung der Hypothese erfolgt mit Hilfe der F-Statistik

SSW· n − K · L

K − 1

und den entsprechenden Fraktilen der F-Verteilung mit (K − 1)

und (n − K · L) Freiheitsgraden.

Klassifikation

Test auf Signifikanz des zweiten Faktors

Analog dazu kann auch eine Hypothese H0 bezüglich des zweitenFaktors F2 formuliert werden.

H0 : β1 = β2 = . . . = βL = 0 gegen H1 :mind. einβk 6= 0

Die Ablehnung von H0 bedeutet, dass der exogene Faktor F2

einen signifikanten Einfluss auf die endogene Größe hat.Die Überprüfung der Hypothese erfolgt mit Hilfe der F-Statistik

SSW· n − K · L

L − 1

und den entsprechenden Fraktilen der F-Verteilung mit (L − 1)

und (n − K · L) Freiheitsgraden.

Klassifikation

Test auf Signifikanz der Faktoren

Soll hingegen überprüft werden, ob der Faktor F1 oder der Faktor F2 einen

signifikanten Einfluß auf die endogene Variable besitzt, führt dies zu folgender

Hypothese

H0 : α1 = α2 = . . . = αK = β1 = β2 = . . . = βL = 0 gegen

H1 : mind. ein αk 6= 0 oder mind. ein βl 6= 0

Die Ablehnung von H0 bedeutet, dass entweder der Faktor F1 oder der Faktor

F2 einen signifikanten Einfluss hat.

Die Überprüfung der Hypothese erfolgt wiederum mit Hilfe einer F-Statistik

vF1oderF2=

SSAF1+ SSAF2

SSW· n − K · LK + L − 2

und den entsprechenden Fraktilen der F-Verteilung mit (K + L − 2) und

(n − K · L) Freiheitsgraden.

Klassifikation

Test auf WechselwirkungenMöchte man hingegen überprüfen, ob der Faktor F1 und der der Faktor F2

gleichzeitig einen signifikanten Einfluss auf die endogene Variable besitzen,

führt dies zur Hypothese

H0 : (αβ)11 = . . . = (αβ)KL = 0 gegenH1 : mind. ein (αβ)kl 6= 0

Die Ablehnung von H0 bedeutet, dass zwischen Faktor F1 und Faktor F2 eine

Wechselwirkung besteht, die einen signifi-kanten Einfluß auf die endogene

Größe hat.

Die Überprüfung der Hypothese erfolgt wiederum mit Hilfe einer F-Statistik

vF1×F2=

SSAF1×F2

SSW· n − K · L(K − 1) · (L − 1)

und den entsprechenden Fraktilen der F-Verteilung mit (K − 1) · (L − 1) und

(n − K · L) Freiheitsgraden.

Klassifikation

Test auf Signifikanz des Modells

Schlußendlich kann auch überprüft werden, ob überhaupt irgendein Parameter

des Modells einen signifikanten Einfluss auf die endogene Variable besitzt. Die

entsprechende Hypothese lautet also:

H0 : α1 = . . . = αK = β1 = . . . = βL = (αβ)11 = . . . = (αβ)KL = 0

Die Ablehnung von H0 bedeutet, dass das Modell die endogene Größe

signifikant identifiziert.

Die Überprüfung der Hypothese erfolgt auch hier mit Hilfe einer F-Statistik

vANOVA =SSA

SSW· n − K · L(K · L − 1)

und den entsprechenden Fraktilen der F-Verteilung mit (K · L − 1) und

(n − K · L) Freiheitsgraden.Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 243|306

KlassifikationBeispiel: Zwei-fakt. VarianzanalyseMit Hilfe der bereits bekannten Daten soll ermittelt werden,

• ob überhaupt signifikante Einflüsse existieren,• ob signifikante Einflüsse bei der Bedienart und der Werbeart, bzw.• ob signifikante Einflüsse von Wechselwirkungen

zu beobachten sind.

Persönliche Bedienung

Anzeige 47 39 40 46 45 yAP = 43.4Plakat 68 65 63 59 67 yPP = 64.4Lautsprecher 59 50 51 48 53 yLP = 52.2

yP = 53.3

Selbstbedienung

Anzeige 40 39 35 36 37 yAS = 37.4Plakat 59 57 54 56 53 yPS = 55.8Lautsprecher 53 47 48 50 51 yLS = 49.8

yS = 47.6

→ Lösung siehe Vorlesung

yGes = 50.5

Klassifikation

Beispiel Varianzanalyse: Lösung mit R

1 Absatz <- c(47,39,40,46,45,2 68,65,63,59,67,3 59,50,51,48,53,4 40,39,35,36,37,5 59,57,54,56,53,6 53,47,48,50,51);78 anz <- c(rep("Anzeige", 5));9 pla <- c(rep("Plakat", 5));

10 lau <- c(rep("Lautspr", 5));11 Werbung <- factor(rep(c(anz,pla,lau),2));12 Bedienung <- factor(c(rep("pers", 15), rep("selbst", 15)));13 Tag <- factor(rep(c(1,2,3,4,5), 6));1415 d6ANOVA <- data.frame(Werbung,Bedienung,Tag,Absatz);1617 interaction.plot(d6ANOVA$Werbung, d6ANOVA$Bedienung, d6ANOVA$Absatz,col="yellow");1819 ### Zweifaktorielle Varianzanalyse: Dabei wird durch die Addition von20 ### Werbung*Bedienung in der Modellgleichung angegeben, dass Wechselwirkungen21 ### zwischen den Faktoren Werbung und Bedienung im Modell angenommen werden.22

23 a <- aov(formula = Absatz ~ Werbung * Bedienung, data=d6ANOVA);24 a;25 summary(a);26 qqnorm(a$res);27 qqline(a$res);

Klassifikation

Beispiel Varianzanalyse: Lösung mit RNormalverteilungsannahme?

−2 −1 0 1 2

Normal Q−Q Plot

Theoretical Quantiles

KlassifikationBeispiel Varianzanalyse: Lösung mit RSind Haupt-/Interaktionseffekte erkennbar?

d6ANOVA$Werbung

Anzeige Lautspr Plakat

d6ANOVA$Bedienung

persselbst

Beispiel: Interactionplot (Werbung + Bedienung)

Klassifikation

Beispiel Varianzanalyse: Lösung mit R

1 > a;23 Call:4 aov(formula = Absatz ~ Werbung + Bedienung + Werbung * Bedienung,5 data = d6ANOVA)6

7 Terms:8 Werbung Bedienung Werbung:Bedienung Residuals9 Sum of Squares 1944.2000 240.8333 48.4667 238.0000

10 Deg. of Freedom 2 1 2 2411

12 Residual standard error: 3.14907413 Estimated effects may be unbalanced1415 > summary(a);1617 Df Sum Sq Mean Sq F value Pr(>F)18 Werbung 2 1944.20 972.10 98.0269 2.833e-12 ***19 Bedienung 1 240.83 240.83 24.2857 4.989e-05 ***20 Werbung:Bedienung 2 48.47 24.23 2.4437 0.108221 Residuals 24 238.00 9.9222 ---23 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Klassifikation

Schlußbemerkungen

Sind keine Wechselwirkungen der beiden Faktoren vorhanden (SSAF1×F2= 0),

so kann der zweifaktorielle Versuchsplan durch zwei einfaktorielle Versuchspläne

ersetzt werden, wobei sich dieselben Resultate ergeben.

Liegt nur eine Beobachtung pro Zelle vor (d.h. n∗ = 1), dann ist eine Schätzung

der Residualstreuung SSW nicht mehr möglich. In diesem Fall werden die

Wechselwirkungen vernachlässigt, d.h., das Modell Yk = µ + αk + βk + Uk wird

verwendet (vgl. auch Fahrmeir/Hamerle 1984, S.179ff ).

Zu beachten ist dabei, dass sich die Freiheitsgrade der Residu-alstreuung

df(SSW) nun gemäß df(SSW) = n − K − L + 1 bestimmen.

Des Weiteren können im Rahmen einer erweiterten Varianzanalyse auch

quantitative exogene Faktoren berücksichtigt werden

(→ Kovarianzanalyse, Datenanalyse II)

7SegmentierungMetrischer Daten, Segmentierungsarten, Heuristiken, Bewertungskriterien,

partitionierende- und hierarchische Segmentierungsverfahren

Segmentierung

7 Segmentierung (Clusteranalyse) metrischer Daten

7.1 Segmentierungstypen

7.2 Segmentierungsheuristiken

7.3 Bewertungskriterien

7.4 Partitionierende Verfahren

7.5 Hierarchische Verfahren

Segmentierung

Ziele der Clusteranalyse

Die Segmentierung oder Clusteranalyse dient derZusammenfassung von Objekten und/oder Merkmalen zu Klassenoder Gruppen, bzw. eine Objektmenge N wird in TeilmengenK1,K2, . . . ,Ks unterteilt. Es gilt:

Kr ⊂ N , Kr 6= ∅ für alle k = 1, . . . , s ,

so dass

zwischen den Elementen xi,r , xj,r derselben Klassen Kr

größtmögliche Ähnlichkeit,

zwischen den Elementen unterschiedlicher Klassen Kr, Kt

größtmögliche Verschiedenheit

erreicht wird.

Segmentierung

7.1 Segmentierungstypen

Man unterscheidet i.a.:

Disjunkte und nicht-disjunkte Segmentierung, wobei im erstenFall ein bestimmtes Element nur einer einzigen Klasse, im zweitenFall auch mehreren Klassen zugewiesen werden darf.

Exhaustive Verfahren, bei denen jedes Element mindestens einerKlasse zugeordnet wird, und nicht-exhaustive Verfahren, dieunklassifizierte Elemente zulassen.

Beispiel: N = {1, 2, 3, 4, 5} disjunkt nicht-disjunkt

1 12 23

Segmentierung

Segmentierungstypen

Agglomerative Verfahren gehen von einelementigen Klassen ausund fassen schrittweise Elemente zu Klassen zusammen. DivisiveVerfahren starten dagegen mit einer Anfangszerlegung, dieschrittweise verfeinert (d.h. zerteilt) wird.

Bei einmodalen Verfahren werden nur Objekte oder nur Merkmalezu Klassen zusammengefasst, während zweimodale VerfahrenObjekte und Merkmale einer Datenmatrix simultan segmentieren.

Segmentierung

Unterteilung von Clusteransätzen - Teil 3

Hierarchische Segmentierungsverfahren sind dadurchgekennzeichnet, dass ein auf höherer Fusionsebene liegendesCluster die entsprechenden, auf niedrigerer Ebene liegendenCluster vollständig enthält.

Nicht-hierarchische Verfahren basieren aufOptimierungsmethoden, mit deren Hilfe Klassenzugehörigkeitengeschätzt werden oder versucht wird, durch Elementtauschzwischen den Klassen die Segmentierungsgüte iterativ zuverbessern.

Segmentierung

Unterteilung von Clusteransätzen - Teil 4

Des Weiteren unterscheidet man scharfe und unscharfeSegmentierung. Beim scharfen Ansatz ist jedes Objekt - falls eineZuordnung zu mindestens einer Klasse erfolgt der entsprechendenKlasse eindeutig zugeordnet. Dies bedeutet aber nicht, dass derDurchschnitt zweier Klassen leer sein muß.

Bei der unscharfen Vorgehensweise erfolgt keine eindeutigeZuordnung zu einer Klasse. Vielmehr werden Anteilswertevergeben, die den Grad der Zugehörigkeit eines Objektes zu einerKlasse bestimmen.

Segmentierung

Vorgehen bei der Auswahl der Segmentierungsverfahren

Bei der Auswahl des Segmentierungstyps resp. desSegmentierungsverfahrens wird überlegt,

ob alle Objekte/Merkmale segmentiert werden sollen

(exhaustiv oder nicht-exhaustiv)

ob die Klassen paarweise disjunkt oder

nicht-disjunkt (überlappend) sein sollen.

Segmentierung

Definition einer Segmentierung

Eine Menge K = {K1,K2, . . .} heißt scharfe Segmentierung einerObjektmenge N, wenn gilt:

Kr 6= ∅Kr ⊂ N

für alle r.

Des Weiteren gilt:

K ⊂ P(N)

|N| = n → |K| < |P(N)| = 2n

Segmentierung

Definition: Exhaustive Segmentierung

Eine Segmentierung K = {K1,K2, . . .} heißt

− exhaustiv ⇔ ⋃K∈K

− nicht-exhaustiv ⇔ ⋃K∈K

K ⊂6=

Bemerkung:

Nicht-exhaustive Segmentierungen können sinnvoll sein, wennAusreißer nicht berücksichtigt werden sollen.

Segmentierung

Definition: Disjunkte Segmentierung

Eine Segmentierung K = {K1,K2, . . .} heißt

- disjunkt (Zerlegung, Partition)

⇔ K,L ∈ K,K 6= L

⇒ K ∩ L = ∅

- nicht-disjunkt (Überdeckung, Überlappung)

⇔ K,L ∈ K,K 6= L

⇒ K ∩ L /∈ {K,L}

Segmentierung

Bemerkung: Disjunkte Segmentierung

Zwei Klassen können gemeinsame Elemente enthalten, eineTeilmengenbeziehung wird jedoch ausgeschlossen.

Beispiel: N = {1, 2, 3, 4, 5}

disjunkt nicht-disjunkt nicht erlaubt

1 12 23

Segmentierung

Definition: (Quasi-)hierarchieEine Segmentierung K = {K1, K2, . . .} heißt

Quasihierarchie ⇔ K ∈ K, es existieren Kr ∈ K mit Kr ⊂6=

⇒ ⋃Kr⊂

Kr = K

Hierarchie ⇔ 1) K ist Quasihierarchie2) K, L ∈ K K ∩ L = ∅ oder

K ⊂ L oder L ⊂ K

Bemerkung: Es gilt: Die Vereinigung aller echten Teilmengen einer Klasse K ergibt gerade wieder K.

Beispiel: K = { {1}, . . . , {5}, {1, 2, 3} {2, 4, 5}, {1, 2, 3, 4, 5} }

{1, 2, 3, 4, 5}

{1, 2, 3}

{1} {2} {3}

{2, 4, 5}

{4} {5}

“Vereinigung von Überdeckungen”

Segmentierung

Bemerkung: Hierarchie

Es gilt: Eine Hierarchie ist eine spezielle Quasi-Hierarchie, bei derlediglich Überschneidungen von Klassen ausgeschlossen werden.

Beispiel: K = { {1}, ..., {5}, {1, 2, 3} {4, 5}, {1, 2, 3, 4, 5} }

{1, 2, 3, 4, 5}

{1, 2, 3}

{1} {2} {3}

{4, 5}

{4} {5}

“Vereinigung von Zerlegungen”

Segmentierung

Wahl des Segmentierungstyps

Weitere Forderungen an den Segmentierungstyp ergeben sich

• aus der Problemstellung,

• aus der geeigneten Wahl eines Verschiedenheitsindex, derinsbesondere auch vom Skalenniveau der Daten abhängt

• aus der geforderten Klassenzahl,

• aus der Ober- bzw. Untergrenzen für die Objektanzahl in denKlassen

• und aus anderen Rahmenbedingungen.

Aus dem gewünschten Segmentierungstyp leitet sich dann auchdas Segmentierungsverfahren ab.

Segmentierung

Scharfe Segmentierungsverfahren

• Hierarchische Verfahren

- Divisive Verfahren

- Agglomerative Verfahren

◦ Single Linkage

◦ Average Linkage

◦ Complete Linkage

◦ Ward

◦ · · ·

• Partitionierende Verfahren

- Austauschverfahren (KMEANS,

CLUDIA)

- Iteriertes Minimaldistanzverfahren

- Partitioning Around Medoid (PAM)

- Clustering Large Data (CLARA)

- · · ·• Überlappende Verfahren

• Andere Verfahren

Segmentierung

7.2 Segmentierungsheuristiken

sind Segmentierungsverfahren, die

- mit Hilfe einfacher algorithmischer Ansätze,

- ohne den Anspruch auf Optimalität,

- ohne hohen (Rechen-) Aufwand und

- auf Basis eines (Un-)Ähnlichkeitsmaßes (für metrische Daten)

eine Objektmenge aufteilen.

Segmentierung

Ähnlichkeitsmaß für metrische Daten

Man benötigt dazu ein Maß, das die Ähnlichkeit zweier Objekte,die durch metrische Merkmale beschrieben werden, quantifiziert.

- Ähnlichkeitsmaß AM: Je größer ein Wert, desto ähnlicher sindsich zwei Objekte.

- Folge: Was bedeutet ein Wert AM = 0?bzw. Wie groß ist die Ähnlichkeit zweier identischer Objekte?

⇒ Übergang zu einem Verschiedenheitsmaß

Segmentierung

Unähnlichkeitsmaß für metrische DatenBerücksichtigt man nun, dass zwei Objekte i und j bezüglich einesMerkmals k umso unähnlicher sind, desto größer ihreMerkmalsausprägungen differieren - umso größer also

|aik − ajk| bzw. (aik − ajk)2

ist - und berücksichtigt des Weiteren, dass die Unähnlichkeitzwischen zwei Objekten von allen Merkmalen simultan undgleichmäßig getragen werden soll, so erhält man z.B. folgendeseinfache Unähnlichkeitsmaß für metrische Daten, das auf demEuklidschen Abstand basiert:

v(i, j) =

(aik − ajk)2

Segmentierung

Vorgehensweise der Heuristik

1) Zunächst werden s möglichst verschiedene Klassenzentrenbestimmt.

2) Danach werden die restlichen Elemente dem nächstähnlichenbzw. nächstgelegenen Klassenzentrum zugeordnet.

Anwendung von Heuristiken:

Bestimmung von Anfangsklassifikationen, die mit Hilfe andererVerfahren iterativ verbessert werden können.

Segmentierung

Heuristik für eine ZerlegungObjektmenge N, Klassenzahl s

1) Wähle 1. Klassenzentrum (KlaZ) i1 ∈ N zufällig

2) Wähle 2. KlaZ i2 ∈ N mit v(i1, i2) = maxj6=i1

( v(i1, j))

3) Wähle für t = 3, . . . , s KlaZ it ∈ N mit

v(iτ, it) = maxj6=τ

τ=1,...,t−1v(iτ, ij)

4) Bilde Klassen um die Zentren i1, . . . , is gemäß {K1, . . . ,Ks} mit

Kσ ={

j ∈ N : v(iσ, j) = minτ

v(iτ, j)}

Segmentierung

Beispiel

Gegeben sei die Datenmatrix A Alter Semester

1 22 5

2 25 10

3 21 4

4 28 13

5 24 8

Mit Hilfe des heuristischen Algorithmus erhält man folgende3-Klassen-Partition:

K1 = {1, 3} , K2 = {4} , K3 = {2, 5}

Berechnung: siehe Vorlesung

Segmentierung

7.3 Bewertungskriterien

Hat man zwei verschiedene Segmentierungsvarianten K und L,stellt sich die Frage, welche geeigneter ist.

Kriterien zur Bewertung von Segmentierungen:

Dabei unterscheidet man Maße zur Bewertung der

• Heterogenität einer Klasse (Innerklassen-Verschiedenheit)

• Heterogenität zwischen 2 Klassen(Zwischenklassen-Verschiedenheit)

• Heterogenität einer Segmentierung (Güteindex)

Segmentierung

Varianz als Bewertungskriterium

Bei quantitativen Daten mißt man die Verschiedenheit vonObjekten gerne mit Hilfe von Maßen, die auf dem (quadrierten)euklidischen Abstand der Objekte basieren (s. Folie 20).

Da aber zwischen dieser euklidischen Distanz und der Varianzgewisse Zusammenhänge existieren, bietet es sich an, diegeforderten Indizes auf Grundlage der sogenannten

- Innerklassen-Varianzen und- Zwischen-klassen-Varianzen

darzustellen.

Segmentierung

Bezeichnungen - Teil 1

Mittelwert des Merkmals k

(für alle Objekte)a•k = 1

Mittelwert des Merkmals k

(in Klasse K)aKk = 1

Kovarianz der Merkmale k, l

(für alle Objekte)Sk,l = 1

(aik − a•k)(ail − a•l)

Kovarianz der Merkmale k, l

(in Klasse K) VKk,l = 1

(aik − aKk)(ail − aKl)

Segmentierung

Inner-/Zwischenklassenvarianz

Kovarianz der Merkmale k, l (zwischen den Klassen)

zk,l =1

|K| (aKk − a•k)(aKl − a•l)

Die Matrix VK = (vKk,l) bezeichnet man als

Innerklassen-Kovarianzmatrix der Klasse K, die Matrix Z = (zk,l)

entsprechend als Zwischenklassen-Kovarianzmatrix.

Somit gilt dann auch:

|K| · VK + Z

Beweisidee siehe Vorlesung

Segmentierung

Heterogenität einer Klasse

Definition : Die Abbildung h : P(N) → R+ heißtHeterogenitätsindex (Inner-Klassen-Verschiedenheit - IKV), fallsgilt:

a) h(K) = 0 falls K = {i}, i ∈ N

b) h(K) < h(L) falls L heterogener als K

Für metrische Daten ergibt sich auf Basis der Varianzüberlegungendamit folgender Index h(K):

h(K) = Spur (Vk) =

vKkk =

(aik − aKk)2

Beispiel siehe VorlesungDatenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 276|306

Segmentierung

Verschiedenheit zwischen Klassen

Definition : Die Abbildung v : P(N) × P(N) → R+ heißt

Verschiedenheitsindex (ZKV), falls gilt:

a) v(K, K) = 0

b) v(K, L) = v(L, K) > 0

c) v(K, K ′) < v(L, L ′) falls L und L ′ heterogener (schärfer oder

besser getrennt) als K und K ′

Für metrische Daten ergibt sich auf Basis der Varianzen z.B. folgender Index

v(K, L), der beim modifizierten WARD-Verfahren Anwendung findet:

vWard(K, L) = 2 · |K| · |L|

|K| + |L|·

(aKk − aLk)2

Hinweis: Die Definition v(K, L) ist mit der Definition von v(i, j)

(siehe Abschnitt Unähnlichkeitsmaße) verträglich.

Segmentierung

Bewertung einer Segmentierung

Definition : Die Abbildung b : P(P(N)) → R+ heißtKlassifikationsindex (Güteindex), falls gilt:

b(K) < b(L) falls K besser als L

Bemerkung: Die Güte einer Segmentierung läßt sich

- mit Hilfe der Heterogenität der Klassen (IKV) und/oder- mit Hilfe der Verschiedenheit zwischen den Klassen (ZKV)

beschreiben. Für metrische Daten ergibt sich auf Basis der obigenVarianzüberlegungen folgender Index b(K)

b(K) =∑

h(K) =∑

SpurVK =∑

(aik − aKk)2

Segmentierung

Anmerkungen

Der Heterogenitätsindex h orientiert sich an den quadriertenAbweichungen der Ausprägungen einer Klasse von denKlassenmittelwerten (→ Summe der Merkmalsvarianzen inKlasse K).

Der Verschiedenheitsindex v orientiert sich i.a. an den quadriertenAbweichungen der Klassenmittelwerte, bereinigt um dieHeterogenitätsindizes.

Der Güteindex ergibt sich als Summe aller klassenweisenMerkmalsvarianzen.

Segmentierung

Problematik der Güteindizes

Im allgemeinen fällt der Güteindex b mit steigender Klassenanzahl. Es entsteht

somit ein Zielkonflikt zwischen

• möglichst geringer Klassenanzahl und

• möglichst kleinem Güteindex.

Entscheidungshilfe: Das Ellenbogenkriterium

Mit Hilfe des sogenannten Ellenbogenkriteriums kann die „optimale“ Wahl der

Klassenanzahl erfolgen. Dabei fällt die Entscheidung zugunsten der

Klassenanzahl s∗ mit der Güte b∗, der bei

• eine Verringerung der Klassenanzahl s zu einem starken Anstieg von b

• eine Erhöhung der Klassenanzahl s nur zu einer geringfügigen

Verbesserung von b führt.

Segmentierung

Ellenbogenkriterium

1. 2 3 4 5 6 7 8

Klassenanzahl s

Die Wahl der Klassenanzahl fälltzugunsten der Zahl s∗ = 4.

Auch die Wahl der Zwei-Klassenlösung ist vertretbar.

Segmentierung

7.4 Partitionierende Verfahren

sind Klassifikationsverfahren, die die Objektmenge N auf Basiseiner fest vorgegebenen Klassenzahl s so aufteilen, dass dieberechnete Klassifikation bzw. Partition K einen vorgegebenenGüteindex b(K) minimiert:

minK∈P(P(N))

b(K) : K = {K1, . . . , Ks},

Kk = N, Kk ∩ Kl = ∅}

Segmentierung

Anzahl der Partitionen einer Menge

Die Anzahl der möglichen, unterschiedlichen Klassifikationen hängtvon der Anzahl s und von n = |N| ab und ist eine Stirling‘scheZahl 2. Art.

s 2 3 5 10

3 3 1 0 0

5 15 25 1 0

10 511 9330 42.525 1

20 524.287 ≈ 5, 8 · 1011 ≈ 7, 5 · 1011 ≈ 6 · 1012

50 ≈ 5, 6 · 1014 ≈ 1, 2 · 1025 ≈ 7, 4 · 1032 ≈ 2, 6 · 1043

100 ≈ 6, 3 · 1031 ≈ 8, 6 · 1046 ≈ 6, 6 · 1067 ≈ 2, 8 · 1093

Anzahl der Klassifikationen (in Abhängigkeit von s und n)

→ Heuristische Verfahren sind anzuwenden.

⇒ Enumerative Lösungs-

verfahren scheiden bei

nichttrivialen Problemen

Segmentierung

Das Austauschprinzip

(1) Wähle Startpartition K0 = {K01, . . . ,K

0s} (Startheuristik)

(2) Bestimme b(K0 )

(3) Suche Objekt(e), so dass ein Transfer b reduziert

(4) Tausche Objekt(e) aus der aktuellen in die beste neue Klasse

(5) Wiederhole (3) und (4) bis kein Tausch mehr möglich(→ lokales Optimum gefunden)

Segmentierung

Bemerkungen

(a) Die Verfahren brechen nach endlich vielen Schritten ab.

(b) Die Verfahren erreichen meist nur ein Suboptimum ( → globaleOptima werden eher erreicht, wenn unter Berücksichtigung allerTauschmöglichkeiten auch mehrere Objekte simultan getauschtwerden können).

(c) Das Ergebnis hängt i.a. von der gewählten Startpartition ab(→ mehrere Startpartitionen verwenden).

Segmentierung

Das Austauschverfahren KMeans

Start: Objektmenge N, Güteindex b, Kµ = {Kµ1 , . . . ,Kµ

s } (µ = 0)

Solange maxi∈N

µρ∈Kµ

[b(Kµ) − b(K)] = b(Kµ) − b(Kµ+1) > 0,

wobei Kσ =

Kµσ − {i} für i ∈ Kµ

σ, |Kµσ| > 1

Kµσ ∪ {i} für Kµ

σ = Kµρ (σ = 1, . . . , s)

Kµσ sonst

mit Lösung i∗,Kµ∗

Tausche i∗ ∈ N in Kµ∗

µ = µ + 1

Segmentierung

Bemerkungen

(a) Falls mehrere Tauschoperationen möglich sind(mehrdeutige Lösung) → beliebiger Transfer

(b) Ergebnis: K0 → K1 → K2 → K3 → . . . mitb(K0) > b(K1) > b(K2) > b(K2) > . . .

(c) Abbruch:

falls b(Kµ) = b(Kµ+1) mit lokalem Optimum

falls b(Kµ) − b(Kµ+1) 6 ǫ in der Nähe eines lok. Optimum,wobei die Schranke ǫ vorzugeben ist

SegmentierungBeispiel - KMeans

Alter Semester

1 22 5

2 25 10

3 21 4

4 28 13

5 24 8

Ausgangspunkt (beliebig): 3-Klassen-

Startpartition K0 mit

K01 = {1, 2}

K02 = {3, 4} ⇒ K2 = {{1, 3}, {4}, {2, 5}}

K03 = {5}

Der Güteindex b(K) ergibt

b(K0) =

Varianz der Klasse {1,2}︷︸︸︷1

((22 − 23.5)2 + (5 − 7.5)2 + (25 − 23.5)2 + (10 − 7.5)2

Varianz der Klasse{3,4}︷︸︸︷1

((21 − 24.5)2 + (10 − 7)2 + (28 − 24.5)2 + (4 − 7)2

((24 − 24)2 + (8 − 8)2

︸︷︷︸

Varianz der Klasse{5}

Segmentierung

Lösung - Austauschschritt 1

Objekttausch (nicht i = 5)

i = 1 : K = {{2}, {1, 3, 4}, {5}} b(K) = 0 + 25.78 + 0 = 25.78

K = {{2}, {3, 4}, {1, 5}} b(K) = 0 + 32.5 + 3.25 = 35.75

i = 2 : K = {{1}, {2, 3, 4}, {5}} b(K) = 0 + 22.22 + 0 = 22.22

K = {{1}, {3, 4}, {2, 5}} b(K) = 0 + 32.5 + 1.25 = 33.75

i = 3 : K = {{1, 2, 3}, {4}, {5}} b(K) = 9.78 + 0 + 0 = 9.78

K = {{1, 2}, {4}, {3, 5}} b(K) = 8.5 + 0 + 6.25 = 14.75

i = 4 : K = {{1, 2, 4}, {3}, {5}} b(K) = 16.89 + 0 + 0 = 16.89

K = {{1, 2}, {3}, {4, 5}} b(K) = 8.5 + 0 + 10.75 = 18.75

⇒ K1 = {{1, 2, 3}, {4}, {5}}

Segmentierung

Lösung - Austauschschritt 2

Objekttausch (nicht i = 5)

i = 1 : K = {{2, 3}, {1, 4}, {5}} b(K) = 13 + 25 + 0 = 38

K = {{2, 3}, {4}, {1, 5}} b(K) = 13 + 0 + 3.25 = 16.75

i = 2 : K = {{1, 3}, {2, 4}, {5}} b(K) = 0.5 + 4.5 + 0 = 5

K = {{1, 3}, {4}, {2, 5}} b(K) = 0.5 + 0 + 1.25 = 1.75

i = 3 : siehe oben, Rücktausch, keine Verbesserung

⇒ K2 = {{1, 3}, {4}, {2, 5}}

Nächste Interation bringt keine Verbesserung, d.h. K2 ist lokaloptimal

Segmentierung

Modifiziertes KMeans-VerfahrenStart: Objektmenge N, Güteindex b, Kµ = {K

µ1 , . . . ,K

µs } (µ = 0, i = 0, t = 0)

Kµ ρ∈

Kµ σ

Kµ σ,

|Kµ σ|>

Kµ σ∪

µ σ=

Kµ ρ

Kµ σ

) ∃Lö

Kµ ∗

µ ∗,

Segmentierung

Bemerkungen

• Während ein Objekt beim einfachen Austauschverfahren erstnach einem vollständigen Durchlauf der Objektmengegetauscht wurde, erfolgt hier ein sofortiger Tausch desObjektes bei Verbesserung der Güte b.

• Ergebnisse hängen von der Reihenfolge ab, in der die Objektebearbeitet werden.

• Modifiziertes Austauschverfahren ist im allgemeinen schnellerals das einfache Austauschverfahren.

Segmentierung

Beispiel - Modifiziertes KMeans

Alter Semester

1 22 5

2 25 10

3 21 4

4 28 13

5 24 8

Ausgangspunkt (beliebig):

3-Klassen-Startpartition K0 mit

K01 = {1, 2}

K02 = {3, 4}

K03 = {5}

Da nur der Algorithmus verändert ist, nicht aber der Güteindexb(K), ergibt sich für die Startlösung der zum Kmeans-Verfahrenidentische Wert b(K0) = 41.

Segmentierung

KMeans with R# KMEANS Alter/Semester von Studentenx = matrix(c(22,25,,21,28,,24,5,10,4,13,8),5,2);cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)

# KMEANS mit Ringstrukturenx = matrix(c(1,0),1,2)for (r in c(.2,.9)) {for (i in 1:100) {phi = rnorm(1,sd=pi);point = matrix(c(r*cos(phi+rnorm(1,sd=.1/r)),

r*sin(phi+rnorm(1,sd=.1/r))),1,2);x = rbind(x,point);

}}cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)

# KMEANS mit zwei Zentrenx <- rbind(matrix(rnorm(100, sd = .3), ncol = 2),

matrix(rnorm(100, mean = 1, sd = .3), ncol = 2));cl = kmeans(x, 2, iter.max = 20)plot(x, col = cl$cluster, bg = cl$cluster, pch=cl$cluster);points(cl$centers, col = 1:2, pch = 10, cex=5,bg=1:2)

Segmentierung

Beispiel KMEANS mit R

21 22 23 24 25 26 27 28

Beispiel: KMEANS Alter/Semester von Studenten

Segmentierung

−0.5 0.0 0.5 1.0 1.5

Beispiel: KMEANS mit zwei Zentren

Segmentierung

−0.5 0.0 0.5 1.0

Beispiel: KMEANS mit Ringstruktur

Segmentierung

Vorgehensweise - Partitionierung

(1) Startpartition mit Hilfe einer Startheuristik

(2) Bestimmung eines lokalen Optimums mit Hilfe von KMEANS

(3) Wiederholung der Schritte (1) + (2) auf Basis mehrererzufälliger Startpartitionen

(→ Erhöht die Stabilität der Lösung und vergrößert dieWahrscheinlichkeit für das Erreichen eines globalen Optimums)

Segmentierung

7.5 Hierarchische Verfahren

sind Segmentierungsverfahren, die auf der Basis einerObjektmenge N eine Folge von Partitionen konstruieren. Dabeiunterscheidet man

• Verfahren, die in jedem Schritt die erhaltene Segmentierungverfeinern (divisive Verfahren) und

• Verfahren, die in jedem Iterationsschritt die Segmentierungvergröbern (agglomerative Verfahren)

Segmentierung

Divisive Verfahren

• Ausgangspunkt ist die Klasse aller Objekte.

• Sukzessiver Übergang zu feineren Zerlegungen

• Abbruch, sobald vorgegebenes Kriterium erfüllt ist

Segmentierung

Agglomerative Verfahren

• Ausgangspunkt sind n = |N| einelementige Klassen.

• Sukzessiver Übergang zu gröberen Zerlegungen

• Abbruch, sobald vorgegebenes Kriterium erfüllt ist

• Niedrige Rechenzeiten, gute praktische Eignung

Segmentierung

Das Ward-Verfahren

Start: Objektmenge N, Varianz-ZKV vWARD, Kµ = {Kµ1 , . . . , K

µn−µ} (µ = 0)

1. Suche Klassen mit minimaler Verschiedenheit

µi , K

µj ∈Kµ

6=Kµj

v(Kµi , K

µj ) = v(K

, Kµj0

2. Fusion:

Kµi0∪ K

für i = min{i0, j0}

Kµi+1 für i > max{i0, j0}

Kµi sonst

⇒ Kµ+1 ={

Kµ+11 , . . . , K

µ+1n−µ+1

3. µ = µ + 1

Wiederhole 1. - 3. bis |Kµ| = 1Datenanalyse I - Stefan Etschberger - Universität Augsburg - WS 2004/2005 302|306

Segmentierung

Das Resultat: eine Hierarchie K

• Auf Basis der Verfahren erhält man eine Klassifikation K mitmaximal 1

2· n · (n − 1) Klassen:

n−1⋃

Kµ ={K0

1, . . . ,K0n,K1

1, . . . ,K1n−1, . . . ,K

n−11

• Dabei gilt für Klassen

- einer Hierarchie-Ebene: K ∩ L = ∅- eines Hierarchie-Astes: K ⊂ L oder L ⊂ K

Segmentierung

Bemerkungen zum Ward-Verfahren

Das Ward-Verfahren kann als sehr guter Clusteralgorithmus angesehen werden,

- die metrischen Variablen unkorreliert und vergleichbar (ähnliche

Skalierung, d.h. Größenordnung der Merkmale) sind,

- keine Ausreißer in der Objektmenge enthalten sind, bzw. diese vorab

eliminiert werden,

- zu erwarten ist, dass die Elementzahl in jeder Klasse ungefähr gleich groß

ist (allgemeine Tendenz des Verfahrens)

- die Klassen in etwa gleiche Ausdehnung (also etwa gleiche

Innergruppenvarianz) besitzen.

Es versagt i.a., wenn im Datensatz „langgestreckte“ Klassen (im Rm ) existieren

und/oder Klassen mit stark unterschiedlicher Elementzahl zu erkennen sind.

Segmentierung

Beispiel: Ward-Verfahren

Alter Semester

1 22 5

2 25 10

3 21 4

4 28 13

5 24 8

Lösung siehe Vorlesung

Segmentierung

Interpretation eines Dendrogramms

Sprunghafte Veränderungen im Wert des Gütekriteriumsgestatten Rückschlüsse auf die geeignete Klassenzahl (EB).Ähnliche Objekte werden früh fusioniert, unähnliche Objektespäter; Ausreißer erst am Ende einem großen Cluster zugeordnet.Die Klassenstruktur ist

- stabil, wenn unterschiedliche Verfahren (siehe auchDatenanalyse II) zu ähnlichen Ergebnissen führen,

- intensiv,wenn sukzessiv Klassen vergleichbarenUmfangs fusioniert werden und

- schwach,wenn sukzessiv nur benachbarterEinzelobjekte hinzugefügt werden.

institut für statistik und mathematische ... · institut für statistik und mathematische...

Documents

blockpraktikum [0.7ex] zur statistik mit r ·...

sommersemester 2009 - uni-leipzig.de...mathematische...

2. mathematische grundlagen - uni-muenster.de · 2....

einführung in die wissenschaftliche datenanalyse ·...

department mathematik schwerpunkt mathematische statistik...

mathematische und statistische methoden...

statistical inference for the optimal approximating model...

prof.dr.stefan etschberger – hochschule augsburg...on 104)...

vorlesung einführung in die mathematische statistik

mathematische statistik i - uni-muenster.de · 1 einleitung...

teil ii: mathematische statistik 1 einfuhrung · teil ii:...

mathematische statistik eilt iii estent · likelihood-ratio...

datenbanken - swisseduc · stochastik für ingenieure :...

mathematische statistik ii - stubber.math-inf.uni

modulhandbuch master elektrotechnik und … ·...

mathematische und statistische methoden...

stefan etschberger hochschule...

institut für physik physikalisches grundpraktikum ... und...

empirical examination of operational loss distribu-...

nachholklausur statistik lösungshinweise · 2020-06-09 ·...