exkurs: datenein- und ausgabe mit rsteuer/downloads/wt2012/da-7.pdf · exkurs: datenein- und...

24

Upload: others

Post on 27-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Exkurs: Datenein- und Ausgabe mit R

I In der Regel ist Datenaustausch mit anderen Programmen imRahmen des Datenanalyseprozesses notwendig.

I R hat viele Möglichkeiten der Datenein- und -ausgabeimplementiert. Manche davon allerdings in externen Paketen.

I Über das Paket foreign können beispielsweise SPSS-, SAS-oder auch Stata-Files gelesen werden.

I Excel-Files sind sicher die häu�gste Datenquelle. Man kanndirekt mit ihnen arbeiten, aber es gibt immer Schwierigkeiten.

I Es gibt das Paket xlsReadWrite. Dieses ist aber nur unterWindows verfügbar und kein Opensource!

I Das Excel-Datenformat ist nicht klar de�niert!

Page 2: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

I Wenn es unbedingt sein muss, kann man auf ein Excel-Formatvor Excel 2007 gehen, um die Interoperabilität mit anderenProgrammen zu verbessern.

I Zugri� über RODBC ist eine sichere Variante. Dabei wirdjedes Arbeitsblatt als Tabelle einer Datenbank betrachtet.

I Dasselbe Paket bietet zusammen mit DBI einen sehrkomfortablen Zugang zu fast allen aktuellenDatenbanksystemen. Es wird ein Interface zurDatenbanksprache SQL (structured query language)implementiert.

I Entweder Datenbanken oder CSV (comma separated values,Text�les(!)).

I Für unstrukturierte Dateneingaben gibt es scan() oderreadline().

Page 3: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Einlesen von CSV Dateien

I Ganz allgemein lassen sich Dateien, die eine Datenmatrixenthalten, mit dem Kommando read.table() einlesen. DasErgebnis ist jeweils ein Dataframe.

I Es verbirgt sich eine ganze Familie von Funktionen hinterread.table().

I read.table(file, header = FALSE, sep = "", quote = "\"'",

dec = ".", row.names, col.names, as.is = FALSE,

na.strings = "NA", colClasses = NA, nrows = -1,

skip = 0, check.names = TRUE, fill = !blank.lines.skip,

strip.white = FALSE, blank.lines.skip = TRUE,

comment.char = "\#", allowEscapes = FALSE)

Page 4: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Komfortfunktionen für CSV Dateien

I read.csv() bzw. read.csv2() haben die Defaultparameterso voreingestellt, dass z.B. mit read.csv2() Dateien aus demdeutschsprachigen Raum korrekt eingelesen werden.

I Es handelt sich lediglich um Aliasse von read.table()!

I Trick: read.table(file=file.choose(), ....)

I Aufgabe 9: Lesen Sie die Datei sturmfluten.csv von derHomepage der Veranstaltung mit read.table() ein!

Page 5: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Datenausgabe in CSV Dateien

I Wie bei der Eingabe beherrscht R auch bei der Ausgabe vieleexterne Dateiformate.

I Aus Gründen der Portabilität bevorzuge ich jedoch auch fürdie Ausgabe CSV Dateien! Alle Tabellenkalkulationen könnendiese lesen!

I Wenig überraschend lautet das Kommando zum sichern einesDataframe in eine Datei write.table() (oder write.csv()bzw. write.csv2()).

I write.table(x, file = "", append = FALSE, quote = TRUE,

sep = " ", eol = "\n", na = "NA", dec = ".",

row.names = TRUE, col.names = TRUE,

qmethod = c("escape", "double"))

Page 6: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Einfaktorielle Varianzanalyse (ANOVA)

I ANOVA: Analysis of Variance

I In der Regression wurde der Zusammenhang zwischen eineroder mehreren metrischen Ein�uÿgröÿen und einer ebenfallsmetrischen Zielgröÿe modelliert.

I In der einfaktoriellen ANOVA wird untersuchte, ob es einenEin�uÿ der Ausprägung einer kategoriellen Ein�uÿgröÿe aufeine metrische Zielgröÿe gibt.

I Kategoriell bedeutet in diesem Zusammenhang dieZugehörigkeit zu einer Gruppe innerhalb einer Ein�uÿgröÿe.Beispielsweise die Ein�uÿgröÿe �Geschlecht� und die GruppenMänner und Frauen.

Page 7: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Einfaktorielle Varianzanalyse (ANOVA)

I Die Ein�uÿgröÿen in der Varianzanalyse heiÿen auchEin�uÿfaktoren oder kurz Faktoren. Die Ausprägungen derFaktoren heiÿen Faktorstufen. (factor und factor level)

I Erinnerung: Eine solche Variable kam bereits impima-Datensatz vor, nämlich dort die Variable, ob bereitsSymptome der Diabetes erkennbar sind.

I Da keine stetige x-Achse vorliegt, muss man sich auf denEin�uÿ der Gruppenzugehörigkeit auf denStichprobenmittelwert beschränken.

I Ein Beispiel ist bereits bekannt aus Statistik II: Vergleichzweier Mittelwerte auf Gleichheit.

Page 8: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Einführendes Beispiel zur ANOVA

I Ein typisches Problem in der chemischen undpharmakologischen Industrie ist die Sicherstellung derVergleichbarkeit von Analyseergebnissen vonUntersuchungslabors. (ISO Zerti�zierung!)

I Angenommen Sie haben zu beurteilen, ob drei Labore imMittel identische Analyseergebnisse liefern.

I Jede präparierte Probe enthalte genau 4 mg eines Wirksto�es.

I Die Labore erhalten die Aufgabe, den Wirksto�gehalt zumessen.

Page 9: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Einführendes Beispiel zur ANOVA

I Es ergeben sich folgende Messreihen

Faktorstufe MessungenLabor 1 4.13 4.07 4.04 4.07 4.05 4.04Labor 2 3.86 3.85 4.08 4.11 3.83 4.01Labor 3 4.00 4.02 4.01 4.01 4.04 3.99

I Eine solche Messreihe liefert Informationen überI die Schwankungen der Messungen innerhalb eines Labors undI die Konsistenz der Analysen der Labore.

I O�ensichtlich sind in den Niveaus Unterschiede, aber sinddiese statistisch signi�kant?

Page 10: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Modell der Varianzanalyse I

I Um diese Frage zu beantworten benötigen wir ein statistischesModell der zugrunde liegenden Datengenerierung.

I Schematisch lassen sich die Daten, die einer Varianzanalysezugrunde liegen wie folgt darstellen:

Zielgröÿe Y StichprobenumfangFaktorstufe 1 (X1) y11 . . . y1n1 n1Faktorstufe 2 (X2) y21 . . . y2n2 n2

... . . . . . . . . ....

Faktorstufe k (Xk) yk1 . . . yknknk

I Notation: yij ist die Beobachtung Nummer j bei der

Faktorstufe i , N =Pk

1ni bezeichnet den

Gesamtstichprobenumfang.

Page 11: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Modell der Varianzanalyse II

I Grundannahme: Die Varianz der Daten ist auf jederFaktorstufe gleich.

I Verbal besagt das Modell der Varianzanalyse , dass sich derWert der Zielgröÿe jeweils aus einem Mittelwert abhängig vonder Faktorstufe und einem Fehler zusammensetzt.

I In Formeln

Yij = �i + "ij ; i = 1; : : : ; k ; j = 1; : : : ; ni und "ij � N(0; �2)

I Besonders hervorzuheben ist hierbei, dass die Varianz derStörgröÿe "ij für alle Beobachtungen gleich sind.

Page 12: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Modell der Varianzanalyse III

I Eine sinnvolle Frage, die beantwortet werden soll, ist z.B. �Hatdie Faktorausprägung einen Ein�uÿ auf die Zielgröÿe?�

I Als statistische Test-Hypothese, die überprüft werden soll, wirddas mit unserer Notation übersetzt in

H0 : �1 = �2 = : : : = �k vs. H1 : �i 6= �j für ein Indexpaar (i ; j):

I Die Nullhypothese besagt, dass es keine Mittelwertunterschiedezwischen den Faktorstufen gibt, die Alternative, dass sichzumindest zwei Mittelwerte unterscheiden.

Page 13: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Modell der Varianzanalyse IV

I Es existiert ein äquivalentes Modell, bei dem jedoch eineandere Modellidee formuliert wird.

I Jeder Faktorstufe wird ein E�ekt als Abweichung von einemallgemeinen Mittel zugeordnet. In unserer Notation

Yij = �+ �i + "ij i = 1; : : : ; k j = 1; : : : ; ni "ij � N(0; �2)

I Diese Darstellung heiÿt E�ektdarstellung desVarianzanalysemodells.

I Hierbei heiÿt �i mit � = 1

N

Pki ni�i (dem allgemeinen Mittel)

und �i = �i � � der E�ekt der Faktorstufe i .

Page 14: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Modell der Varianzanalyse V

I Die Äquvalenz der beiden Modellformulierungen sieht manleicht:

Yij = �i + "ij = �� (�i � �) + "ij = �� �i + "ij

I Ebenso sieht man leichtPk

1ni�i = 0. Inhaltlich bedeutet dies,

dass Abweichungen vom allgemeinen Mittel sich aufhebensollen. Ohne diese Bedingung wären die Parameter nichteindeutig schätzbar.

I Die (äquivalente) Hypothese lautet dann

H0 : �1 = �2 = : : : = �k = 0 vs: H1 : mindestens zwei �i 6= 0

Page 15: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Schätzung im Modell der ANOVA

I Zu schätzen sind �; �i ; i = 1; : : : ; k und die Fehlervarianz �2

innerhalb der Gruppen und für die Gesamtstichprobe.

I Ein geeigneter Schätzer �̂ für das allgemeine Mittel � ist

�̂ =1

N

kX

i=1

niX

j=1

yij =: �Y:: :

I Ein geeigneter Schätzer �̂i für den E�ekt der Faktorstufe i aufdas allgemeine Mittel � ist

�̂i = �Yi : � �Y:: =1

ni

niX

j=1

yij �1

N

kX

i=1

niX

j=1

yij :

Page 16: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Idee und Konstruktion der Testgröÿe I

I Die nahe liegende Idee zur Überprüfung der Hypothese H0 istdie Ausnutzung der Wert �Y: � �Y::, also der Abweichungen derGruppenmittelwerte vom allgemeinen Mittel.

I Nach dem KQ Prinzip und um gleichzeitig unterschiedlicheStichprobenumfänge in den Gruppen auszugleichen ist einemögliche Teststatistik, analog zur Regression

1

k � 1

kX

i=1

ni ( �Yi : � �Y::)2

:

I Nun ist noch die Standardisierung mit einem Schätzer für dieStandardabweichung nötig.

Page 17: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Idee und Konstruktion der Testgröÿe II

I Für jede Gruppe i gilt, dass

�̂2

i =1

ni � 1

niX

j=1

(yij � �Yi :)2

ein erwartungstreuer Schätzer für die Fehlervarianz �2 ist.

I Ebenso ist die Kombination dieser Gruppenschätzer zu einemGesamtschätzer

�̂2 =

1

N � k

kX

i=1

(ni � 1)�̂2

i

ein erwartungstreuer Schätzer für �2.

Page 18: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Testgröÿe der Varianzanalyse

I In der Situation der E�ektdarstellung der Varianzanalyse ist dieTestgröÿe

F =1

k�1

Pki=1

ni ( �Yi : � �Y::)2

1

N�k

Pki=1

Pni

j=1(yij � �Yi :)2

unter H0 F-verteilt mit k-1 und N-k Freiheitsgraden.

I Der kritische Wert zum Niveau � dieses Testes istF�1k�1;N�k;1��

:

Page 19: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Aufgaben

I Zeigen Sie Erwartungstreue der angeführten Schätzer für �, �iund �

2!

Page 20: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Woher kommt der Name Varianzanalyse?

I Man kann zeigen, dass die Zerlegung giltGesamtvarianz = Varianz zwischen den Gruppen + Varianz innerhalb der Gruppen

I Die F-Statistik setzt nun im Wesentlichen diese beidenKomponenten in Beziehung. Unter H0 sollten dieVarianzenkomponenten sich nicht unterscheiden und dieTestgröÿe deshalb bei Eins liegen.

Page 21: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Die Varianzanalysetafel

I Die auftretenden Werte der Varianzanalyse werden gern in derVarianzanalysetafel zusammengefasst.

I Das Schema dieser Tafel ist wie folgt:

Streuungsursache df Quadratsumme Mittlere Quadratsumme

Faktor 1 k-1 SS(A) =Pk

i=1(�Yi: �

�Y::

)2 MS(A) = SS(A)k�1

zufälliger Fehler N-k SS(E ) =Pk

i=1

Pni

j=1(yij ��Yi:)

2 MS(E ) = SS(E)N�k

Gesamt N-1 SS(E ) =Pk

i=1

Pni

j=1(yij ��Y

::

)2

I Die F-Statistik ergibt sich dann als MS(A)MS(E) .

Page 22: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Fortführung des einführenden Beispiels

I Aber nicht von Hand, sondern in R!

lab1 <- c(4.13, 4.07, 4.04, 4.07, 4.05, 4.04)

lab2 <- c(3.86, 3.85, 4.08, 4.11, 3.83, 4.01)

lab3 <- c(4.00, 4.02, 4.01, 4.01, 4.04, 3.99)

ydata<-c(lab1, lab2, lab3)

xdata <- as.factor(c(rep("lab1", 6),rep("lab2", 6),

rep("lab3", 6)))

?anova

aov1 <- lm(ydata ~ xdata)

anova(aov1)

Df Sum Sq Mean Sq F value Pr(>F)

xdata 2 0.036300 0.018150 3.1823 0.07046

Residuals 15 0.085550 0.005703

Page 23: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Weiterführende Bemerkungen zur einfaktoriellenVarianzanalyse

I Die kritischen Annahmen der Varianzanalyse sind dieUnabhängigkeit der Beobachtungen und die identischeNormalverteilung der Fehler.

I Die Unabhängigkeit kann insbesondere bei Meÿwiederholungenverletzt sein. Bei Vorliegen von Meÿwiederholungen ist deshalbdiese Eigenschaft besonders zu betrachten. (Varianz innerhalbder Gruppe) Die Annahme der Varianzgleichheit innerhalb derGruppen sollte auch durch Kenntnisse der Fachwissenschaftlerim jeweiligen Anwendungsgebiet unterfüttert werden.

I Wenn die Normalverteilungsannahme verletzt ist, kann manauf verteilungsfreie Tests ausweichen. Stichworte sind hier derKruskal-Wallis-Test und der Wilcoxon-Rangsummen-Test.

Page 24: Exkurs: Datenein- und Ausgabe mit Rsteuer/downloads/WT2012/da-7.pdf · Exkurs: Datenein- und Ausgabe mit R I In der Regel ist Datenaustausch mit anderen Programmen im Rahmen des Datenanalyseprozesses

Weiterführende Bemerkungen zur einfaktoriellenVarianzanalyse

I Bei unbalancierten Versuchsplänen, d.h. unterschiedlichen niist die Voraussetzung der gleichen Varianzen in den Gruppenessentiell. Der E�ekt ungleicher Varianzen bei unbalanciertenDesigns ist nicht kontrollierbar. (s. Schlittgen , Statistik ,Oldenbourg, p. 350f)