3 varianzanalyse:anova - eth zhomepage.usys.ethz.ch/eugsterw/lectures/ethz/beilagen-ws2004.pdf ·...
TRANSCRIPT
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 19. November 2004 1
3 Varianzanalyse: ANOVA
Unterlagen: Kapitel 7 aus Skript von Prof. N. Buchmann
3.1 Arten von Variablen
• metrische Variablen: kontinuierliche Zahlen, Abstände und Verhältnisse zwischen Zahlenhaben eine Bedeutung. Beispiele: Temperatur, Längenmessungen, Gewichte.
• ordinale Variablen: diskrete Abfolge von Werten, aber derart, dass eine Rangfolge ermit-telt werden kann. Das heisst, die Werte sagen etwas darüber aus, ob sie grösser oderkleiner als ein Vergleichswert sind, aber Verhältnisse zwischen Werten sind sinnlos. Bei-spiele: Ränge an einemWettkampf (Rang 10 ist nicht doppelt so schlechtwie Rang 5! AberRang 10 war nach Rang 5 im Ziel).
• kardinale Variablen: Werte aus Mengen, die untereinander keiner derartigen Beziehungunterworfen werden können. Beispiele: Ackerfrüchte (Weizen, Gerste, Kartoffeln, ...); Far-ben (rot, blau, grün, ...); Kantone (ZH, BE, AG, ...). Hier kann weder eine Aussage über dieAbstände noch über die Verhältnisse gemacht werden.
3.2 Begriffe
Zusammengestellt aus Easton VJ &McColl JH: Statistics Glossary Version 1.1,http://www.cas.lancs.ac.uk/glossary_v1.1/dexanova.html
Experimental Design
We are concerned with the analysis of data generated from an experiment. It is wise to ta-ke time and effort to organise the experiment properly to ensure that the right type of data,and enough of it, is available to answer the questions of interest as clearly and efficiently aspossible. This process is called experimental design.The specific questions that the experiment is intended to answer must be clearly identified beforecarrying out the experiment. We should also attempt to identify known or expected sources ofvariability in the experimental units since one of the main aims of a designed experiment is toreduce the effect of these sources of variability on the answers to questions of interest. That is, wedesign the experiment in order to improve the precision of our answers.
Treatment
In experiments, a treatment is something that researchers administer to experimantal units.For example, a corn field is divided into four, each part is ‘treated’ with a different fertiliser tosee which produces themost corn; a teacher practices different teachingmethods on differentgroups in her class to see which yields the best results; a doctor treats a patient with a skincondition with different creams to see which is most effective.Treatments are administered to experimental units by ‘level’, where level implies amount or ma-gnitude. For example, if the experimental units were given 5mg, 10mg, 15mg of a medication,those amounts would be three levels of the treatment. ‘Level’ is also used for categorical varia-bles, such as Drugs A, B, and C, where the three are different kinds of drug, not different amountsof the same thing.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 19. November 2004 2
Factor
A factor of an experiment is a controlled independent variable; a variable whose levels are setby the experimenter.A factor is a general type or category of treatments. Different treatments constitute different le-vels of a factor. For example, three different groups of runners are subjected to different trainingmethods. The runners are the experimental units, the training methods, the treatments, wherethe three types of training methods constitute three levels of the factor ‘type of training’.
OneWay Analysis of Variance
The one way analysis of variance allows us to compare several groups of observations, all ofwhich are independent but possibly with a different mean for each group. A test of great im-portance is whether or not all the means are equal.The observations all arise from one of several different groups (or have been exposed to one of se-veral different treatments in an experiment). We are classifying ‘one-way’ according to the groupor treatment.
TwoWay Analysis of Variance
Two Way Analysis of Variance is a way of studying the effects of two factors separately (theirmain effects) and (sometimes) together (their interaction effect).
Completely Randomised Design
The structure of the experiment in a completely randomised design is assumed to be such thatthe treatments are allocated to the experimental units completely at random.
Randomised Complete Block Design
The randomised complete block design is a design in which the subjects are matched accor-ding to a variable which the experimenter wishes to control. The subjects are put into groups(blocks) of the same size as the number of treatments. The members of each block are thenrandomly assigned to different treatment groups.Example: A researcher is carrying out a study of the effectiveness of four different skin creamsfor the treatment of a certain skin disease. He has eighty subjects and plans to divide them into4 treatment groups of twenty subjects each. Using a randomised blocks design, the subjects areassessed and put in blocks of four according to how severe their skin condition is; the four mostsevere cases are the first block, the next four most severe cases are the second block, and so on tothe twentieth block. The four members of each block are then randomly assigned, one to each ofthe four treatment groups.
Factorial Design
A factorial design is used to evaluate two or more factors simultaneously. The treatments arecombinations of levels of the factors. The advantages of factorial designs over one-factor-at-a-time experiments is that they are more efficient and they allow interactions to be detected.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 19. November 2004 3
Main Effect
This is the simple effect of a factor on a dependent variable. It is the effect of the factor aloneaveraged across the levels of other factors.Example: A cholesterol reduction clinic has two diets and one exercise regime. It was found thatexercise alone was effective, and diet alone was effective in reducing cholesterol levels (main ef-fect of exercise and main effect of diet). Also, for those patients who didn’t exercise, the two dietsworked equally well (main effect of diet); those who followed diet A and exercised got the bene-fits of both (main effect of diet A and main effect of exercise). However, it was found that thosepatients who followed diet B and exercised got the benefits of both plus a bonus, an interactioneffect (main effect of diet B, main effect of exercise plus an interaction effect).
Interaction
An interaction is the variation among the differences betweenmeans for different levels of onefactor over different levels of the other factor.Example: see ‘main effect’).
Randomisation
Randomisation is the process by which experimental units (the basic objects upon which thestudy or experiment is carried out) are allocated to treatments; that is, by a randomprocess andnot by any subjective and hence possibly biased approach. The treatments should be allocatedto units in such a way that each treatment is equally likely to be applied to each unit.Randomisation is preferred since alternatives may lead to biased results.The main point is that randomisation tends to produce groups for study that are comparable inunknown as well as known factors likely to influence the outcome, apart from the actual treat-ment under study. The analysis of variance F tests assume that treatments have been appliedrandomly.
Blinding
In a medical experiment, the comparison of treatments may be distorted if the patient, theperson administering the treatment and those evaluating it know which treatment is beingallocated. It is therefore necessary to ensure that the patient and/or the person administeringthe treatment and/or the trial evaluators are ‘blind to’ (don’t know) which treatment is alloca-ted to whom.Sometimes the experimental set-up of a clinical trial is referred to as double-blind, that is, neitherthe patient nor those treating and evaluating their condition are aware (they are ‘blind’ as to)which treatment a particular patient is allocated. A double-blind study is the most scientificallyacceptable option.Sometimes however, a double-blind study is impossible, for example in surgery. It might still beimportant though to have a single-blind trial in which the patient only is unaware of the treat-ment received, or in other instances, it may be important to have blinded evaluation.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 19. November 2004 4
Placebo
A placebo is an inactive treatment or procedure. It literally means ‘I do nothing’. The ‘placeboeffect’ (usually a positive or beneficial response) is attributable to the patient’s expectationthat the treatment will have an effect.
Blocking
This is the procedure by which experimental units are grouped into homogeneous clusters inan attempt to improve the comparison of treatments by randomly allocating the treatmentswithin each cluster or ‘block’.
3.3 Was ist ein lineares Modell?
Generelle Form:
y = ξ0 + ξ1 · x + ξ2 · x2 + ... + ξn · xn
3.4 Was ist ein nicht-lineares Modell?
Beispiele:
y = ξ0 + ξ1 · ex
y = ξ0 + ξ1 ·√
(x)
y = ξ0 + ξ1 · sin(x) + ξ2 · cos(x2)
3.5 Was macht die ANOVA?
3.6 Wie interpretiere ich eine ANOVA-Tabelle?
3.7 Umkehr: Power of ANOVA, oder:
Durch die Umkehrung der ANOVA-Berechnung kannman einen aus 6 Parametern bestimmen,wennman Informationen über die andern 5 Parameter aus folgender Liste hat:
1. Anzahl der Gruppen (oder Behandlungen)2. Anzahl der Messungen oder Beobachtungen pro Gruppe (oder pro Behandlung)3. Varianz zwischen den Gruppen bzw. Behandlung4. Varianz innerhalb der Gruppen bzw. Behandlung5. Signifikanzniveauα (Fehlerwahrscheinlichkeit vom Typ I); hiermöchteman typischerwei-
se ein α von 0.05 (d.h. 95% Sicherheit) haben, ev. reicht auch ein α von 0.10 aus6. Power of test 1 − β (1 minus die Fehlerwahrscheinlichkeit vom Typ II); hier möchte man
β unter 0.2 (das heisst mehr als 80% Sicherheit) bekommen. Die benötigte Anzahl Mes-sungen steigt aber stark an, wennman nicht nur α, sondern auch β klein habenmöchte!
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 19. November 2004 5
Das heisst, ich kann zum Beispiel die Anzahl der nötigen Messungen pro Gruppe (oder proBlock) für 2 oder mehr Gruppen ermitteln.In „R“ heisst die Funktion hierzu power.anova.test() .
Tabelle 1: Aus der Umkehrung der ANOVA-Berechnung abgeleitete Stichprobenumfänge für Versuche mit 2 (links)oder 3 (rechts) Gruppen (oder Behandlungen). Die Zahlen sind gerundet und zeigen an, wieviele Proben pro Gruppe(also nicht insgesamt!) genommenwerdenmüssen um die gewünschte Sicherheit der Fehler des Typs I (α) und desTyps II (1−β) zu erreichen. Annahme: die Varianz innerhalb der Gruppen sei das dreifache der Varianz zwischen denGruppen.
2 Gruppen oder Behandlungenα
1−β 0.2 0.1 0.05 0.025 0.01 0.0010.800 14 20 26 32 39 580.900 19 26 33 40 48 680.950 25 33 40 47 56 770.975 30 39 47 54 64 870.990 37 46 55 63 74 980.999 54 65 76 85 97 125
3 Gruppen oder Behandlungenα
1−β 0.2 0.1 0.05 0.025 0.01 0.0010.800 9 13 16 20 24 340.900 12 16 20 24 29 400.950 15 20 24 28 33 450.975 19 23 28 32 37 500.990 22 28 33 37 43 560.999 32 38 44 49 55 70
36
7. Varianzanalyse Die Varianzanalyse (analysis of variance = anova) wird vor allem dazu benutzt, Mittelwerte von zwei und mehr Stichprobengruppen miteinander zu vergleichen. Sie wird aber auch verwendet, um den Anteil an der Gesamtvarianz zu ermit-teln, der von einem Faktor oder mehreren unabhängigen Faktoren (z.B. Behandlungsstufen, Standorte) erklärt wird. Generell: Es wird getestet, ob die Gesamtvariation durch diesen Faktor erklärt werden kann. Das Prinzip der Varianzanalyse beruht auf der Streuungszerlegung der Ge-samtvarianz aller Meßwerte in • die Varianz der Gruppenmittelwerte um das Gesamtmittel szwischen
2 (Varianz zwischen den Gruppen, Stichprobenfehler; between groups) und
• die Varianz der Meßwerte um ihren “Gruppenmittelwert“ sinnerhalb2 (Varianz in-
nerhalb der Gruppen, Versuchsfehler; within groups). Es gilt: Varianzgesamt = Varianzzwischen + Varianzinnerhalb
Varianzzwischen : Dieser Teil der Varianz wird durch den Einfluß des unabhängigen Faktors erklärt.
Varianzinnerhalb : Dieser Teil der Varianz kann nicht durch den Faktor
erklärt werden (Restvariation). Größe unabhängig davon, ob Stich-proben aus gleicher Grundgesamtheit stammen oder nicht.
Während beim Mittelwertsvergleich von 2 Stichprobengruppen der t-Test be-nutzt wird, muß beim Vergleich von 3 und mehr Gruppen die Varianzanalyse angewendet werden. Es ist nicht zulässig, unzählige t-Tests durchzuführen, um z.B. 5 Behandlungsmittelwerte miteinander zu vergleichen!! Warum? Bei mehrfachen Mittelwertvergleichen steigt die Irrtumswahrscheinlichkeit, daß Nullhypothesen verworfen werden, obwohl sie zutrafen (Fehler 1. Art). Mit Hilfe der Varianzanalyse wird dies vermieden. Voraussetzungen:
• voneinander unabhängige, normalverteilte, metrische Meßwerte • zufällige Stichproben • homogene Varianzen der Stichprobengruppen (vorher in jedem Fall testen) • mindestens eine Variable, die die Meßwerte in Gruppen einteilt (=
Hauptfaktor)
37
7.1 Einfache Varianzanalyse Bei der einfachen Varianzanalyse (oneway) wird die Variation der Meßwerte durch einen Gruppeneffekt (unabhängigen Faktor; main effect; z.B. verschie-dene Stufen einer Behandlung oder unterschiedliche Standorte) und durch den Versuchsfehler bestimmt. Es wird jedoch nicht getestet, welche Grup-pen/Behandlungsstufen sich voneinander unterscheiden. Eine typische Frage-stellung könnte lauten: Unterscheiden sich die Stickstoff-Konzentrationen von 0-, 1-, 2- und 6-jährigen Nadeln? Bei der einfachen Anova (fixed model) gilt das folgende mathematische Modell, sowohl für gleich als auch für ungleichbesetzte Gruppen: xij = µ + αi + εij mit: xij = beobachteter Meßwert µ = Mittelwert aller Gruppen αi = einzelne Stufen des Behandlungseffektes/unabhängigen Faktors εij = Versuchsfehler (zufällig) Berechnungsgrundlagen für eine Varianzanalyse Gruppen/Behandlungen 1 2 3 ... k 1 x11 x21 x31 ... xk1 2 x12 x22 x32 ... xk2 Wdh. ... .. n x1n x2n x3n ... xkn
Gr.summen T1 T2 T3 ... Tk Gr.mittel x1 x2 x3 ... xk
38
Gesamtsumme (Grand total) GT Tki
k
= ∑
Gesamtmittel (Grand mean) X X k
k
= ∑1
/ N
Nullhypothese H0: µ1 = µ2 = ... = µk
Die Alternativhypothese lautet: Nicht alle Mittelwerte sind gleich. Anders ausgedrückt: Mindestens ein Mittelwert muß sich von den anderen un-terscheiden. Es ist aber nicht bekannt, wieviele oder welche! Streuungszerlegung Die Summe der Abweichungsquadrate (Q) der Stichprobenwerte vom Ge-samtmittel wird in 2 Anteile zerlegt: Qgesamt = Qzwischen + Qinnerhalb
mit d.f.: (N - 1) = (k - 1) + (N - k)
Qzwischen = between-samples sums of squares = SSB = ( )n x Xk −∑ 2
Qinnerhalb = within-samples sums of squares = SSW = dk∑
N = Anzahl aller Meßwerte k = Anzahl der Stichproben n = Anzahl der Meßwerte in einer Stichprobe X = Mittelwert aller Meßwerte x k = Mittelwert der Stichprobe k x = Meßwert
dk = ( )x x k−∑ 2
Prüfgröße TR
Die zu berechnende Prüfgröße TR lautet ss
zwischen
innerhalb
2
2 = MSBMSW
MSB = mean square between samples) = MSBSSBk
=− 1
MSW = mean square within samples = MSWSSWN k
=−
39
Wenn alle Stichproben aus der gleichen Grundgesamtheit stammen, dann sollten die mittleren Quadrate zwischen und innerhalb der Stichproben ungefähr gleich groß sein. Sind sie es nicht, dann gibt es mindestens eine Stichpro-bengruppe, deren Mittelwert sich von den anderen unterscheidet. Der kritische Wert wird wie folgt angegeben: F(k-1; N-k; α). Wenn TR > F, dann wird H0 abgelehnt. Der F-Wert wird aus den entsprechenden Tabellenwerken abgelesen (z.B. Appendix 5 aus Sanders (1995): numerator = k - 1; denumera-tor = N - k). Wenn α = 0.05, dann wird die entsprechende F-Tabelle für α = 0.05 ausgewählt, d.h., es wird einseitig getestet.
Wichtig: Der kritische Wert F ist nicht gleichzusetzen mit dem F-Ratio (= TR), das oft von Computerprogrammen angegeben wird!
Tabelle zur einfachen Varianzanalyse
Source of variation Sum of Squares d.f. Mean Squares F-ratio
between groups (Beh.) SSB k - 1 MSB MSBMSW
within groups SSW N - k MSW
total SST N - 1
Test auf Homogenität der Varianzen - Cochran: wenn eine Gruppenvarianz wesentlich größer ist als die übrigen;
empfindlicher Test. - Bartlett: wenn Grundgesamtheit normalverteilt und ≥ 10 Stichprobengruppen.
Dieser Test überprüft nicht nur die Gleichheit der Varianzen, sondern prüft gleichzeitig auf Normalverteilung. n = 5 ist minimale Anforderung an Stichprobengruppen. Beruht auf χ2-Verteilung.
- Levene: wenn höher oder flacher als Normalverteilung und ≥ 10 Stichpro-bengruppen; robuster Test (verzichtet auf Normalverteilung, transformiert die Daten, benutzt Rangzahlen für Kruskal und Wallis-Test)
40
7.2 Transformationen Sind die Varianzen der verschiedenen Stichproben nicht homogen oder sind die Meßwerte nicht normalverteilt, dann müssen die Daten vor der weiteren statistischen Auswertung transformiert werden. Verschiedene Optionen stehen hier offen: • Wurzeltransformationen: bei kleinen absoluten Häufigkeiten • Logarithmen (Basis 10 oder natürlich): z.B. bei Längen, Flächen, Volumina,
Gewichte. Natürlicher Logarithmus ln, wenn nur Werte zwischen 0 und 1 vorliegen.
• Kehrwerte: z.B. bei Verweildauern, Alter, Entwicklungsdauer • Kehrwerte der Wurzel (1/√x): sehr effektiv • Hier darf/soll/muß gespielt werden! Wenn eine gute Transformation gefunden ist, werden alle weiteren Tests mit den transformierten Daten gerechnet. Wenn transformiert wird, dann nicht nur einzelne Stichprobengruppen, sondern alle Gruppen! P-Werte werden dann für die transformierten Daten angegeben. Werden Mittelwerte oder Konfidenzintervalle benötigt, muß rücktransformiert werden. Keine S.E. der transformierten Daten angeben! 7.3 Post Hoc Mittelwertvergleiche Häufig will man in der ökologischen Forschung nicht nur einen Effekt überprü-fen, sondern auch wissen, welche Behandlungsstufen sich signifikant vonein-ander unterscheiden. Da vom F-Test der Varianzanalyse nicht getestet wird, welche Gruppenmittelwerte sich voneinander unterscheiden, müssen zur Klärung nachfolgende Mittelwertsvergleiche herangezogen werden (z.B. LSD, Tukey, etc.). • Bonferroni: modifizierter LSD-Test, aber bei ungleichen Stichprobengruppen • Duncans: Hier wird der kritische t-Wert korrigiert, je nachdem, wie weit die
Mittelwerte der zu testenden Gruppen auseinanderliegen. • Scheffé: bei (un)gleichem Stichprobenumfang, lineare Kontraste • Student-Newman-Keuls-Test: Er kann auch berechnet werden, wenn die
Nullhypothese angenommen wurde. • Test der geringsten signifikanten Differenz (LSD = least significant difference
-Test): Er entspricht einem modifiziertem t-Test zwischen allen Paaren von
41
Gruppen. Dieser Test sollte nur bei gleichem Stichprobenumfang aller Grup-pen verwendet werden.
• Tukey ehrlich signifikante Differenz (HSD = Tukey honestly significant diffe-rence -Test): nur bei gleichem Stichprobenumfang der Gruppen
• Tukey-Kramer: bei ungleichem Stichprobenumfang Diese Tests geben häufig eine Kreuztabelle aus, um darzustellen, welche Stichprobenmittel sind voneinander unterscheiden (Kreuz = signifikanter Un-terschied). Diese Kreuze werden für eine Publikation in Buchstaben “übersetzt“, wenn z.B. Mittelwerte in einer Tabelle oder in Diagrammen dargestellt werden. Bsp.: 1 2 3 Mittelwertunterschiede: 1 1 a 2 x 2 b 3 x 3 b 1 2 3 4 Mittelwertunterschiede: 1 1 a 2 2 a 3 x x 3 b 4 x x x 4 c 1 2 3 4 Mittelwertunterschiede: 1 1 a 2 x 2 b 3 x 3 b 4 x 4 b 1 2 3 4 Mittelwertunterschiede: 1 1 abc 2 2 a 3 x 3 b 4 x x 4 c 1 2 3 4 Mittelwertunterschiede: 1 1 a 2 x 2 b 3 x 3 a 4 x 4 a
42
7.4 Zweifache Varianzanalyse Die mehrfaktorielle Anova testet Gruppenmittelwerte, die von mehreren Fakto-ren beeinflußt werden, z.B. durch die verschiedenen Stufen zweier verschiede-ner Behandlungen. Eine typische Fragestellung könnte lauten: Unterscheiden sich die Stickstoff-Konzentrationen von 0-, 1-, 2- und 6-jährigen Nadeln, die in drei verschiedenen Kronenpositionen wachsen? Bei der zweifachen Anova (Modell I, fixed model) werden die beiden Hauptfak-toren A und B (main effects) und die Wechselwirkung dieser beiden Faktoren A x B (inter-action) getestet. Es gilt das folgende mathematische Modell: ohne Wechselwirkungen: xijk = µ + αi + βj + εijk mit Wechselwirkungen: xijk = µ + αi + βj + αβij + εijk mit: xijk = beobachtete Meßwerte µ = Mittelwert aller Gruppen αi = einzelne Stufen des Behandlungseffektes/unabh. Faktors A βj = einzelne Stufen des Behandlungseffektes/unabh. Faktors B αβij = Interaktionen der beiden Behandlungseffekte A und B εij = Versuchsfehler (zufällig) Streuungszerlegung ohne Wechselwirkungen: SST = SSA + SSB + SSR mit Wechselwirkungen: SST = SSA + SSB + SSI + SSR mit: SSA = Quadratsumme bedingt durch Hauptfaktor A SSB = Quadratsumme bedingt durch Hauptfaktor B SSR = Versuchsfehler (residual, error) SSI = Quadratsumme bedingt durch Interaktionen A x B SST = Gesamtvarianz Wechselwirkungen (interactions) Zwei voneinander unabhängige Faktoren, z.B. Licht und N-Ernährung, beein-flussen die Photosyntheseraten von Bäumen. Die relativen Effekte der beiden Faktoren Licht und N können gleichgerichtet, aber unterschiedlich groß sein
43
(Abb. 14). Faktoren könnten auch entgegengesetzt wirken, wie z.B. Licht und Länge der Trockenzeit auf das Pflanzenwachstum (Abb. 15). In beiden Fällen sind die Summen der einzelnen Wirkungen nicht gleich dem kombinierten Effekt, d.h., es treten signifikante Interaktionen auf. Wenn dies der Fall ist, dann sind die Ergebnisse der Varianzanalyse für die einzelnen Hauptfaktoren zu ignorieren, und die Daten können in Hinblick auf einzelne Faktoren nicht vereinfacht werden, sondern müssen als Behandlungskombinationen diskutiert werden! Um mit Post hoc-Tests herauszufinden, ob sich verschiedene Be-handlungskombinationen unterscheiden, können nur Indexzahlen eingesetzt werden. Werden die Daten für die einzelnen Hauptfaktoren graphisch dargestellt, kön-nen Interaktionen leicht erkannt werden: Steigungen sind unterschiedlich (Abb. 14) oder entgegengesetzt oder Geraden kreuzen sich (Abb. 15). Abb. 14: Wechselwirkung Abb. 15: Wechselwirkung Tabelle zur zweifachen Varianzanalyse (bei gleicher Gruppenbesetzung)
Source of variation Sum of Squares d.f. Mean Squares F-ratio
factor A (Beh. A) SSA a - 1 MSA MSAMSR
factor B (Beh. B) SSB b - 1 MSB MSBMSR
interaction (A X B) SSI (a - 1) (b - 1) MSI MSIMSR
error SSR a b (n -1) MSR
total SST a b n -1
Bestimmung der kritischen Werte: F(a-1; a b (n-1); α); F(b-1; a b (n-1); α); F((a-1) (b-1); a b (n-1); α)
N-Zugabe
PS-Rate
S
L
Licht
RGR
-H2O
+H2O
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 2. Dezember 2004 1
5 Univariate und Bivariate Analysen
Das allerwichtigste bei der Analyse von Daten ist die grafische Darstellung der Daten in einergeeigneten Form. Man darf sich von der Statistik keine Zauberei erwarten, alles was die statis-tische Analyse bringen kann, sieht man mindestens qualitativ auch von blossem Auge, wenndie Daten entsprechend grafisch dargestellt werden. Hier einigewichtige Arten, univariate undbivariate Analysen durchzuführen.
5.1 P–P Plots (Probability Plots) und Q–Q Plots (Quantile–Quantile Plots)
Konzeptionell sind P–P Plots und Q–Q Plots verwandt: das eine ist die Umkehrung des anderen.Entsprechend verwirrlich ist dann die Benutzung in Statistikprogrammen.Bei den P–P Plots trägt man die gemessenen Daten als empirische Wahrscheinlichkeiten aufder y-Achse auf, während auf der x-Achse die theoretischenWahrscheinlichkeiten einer Vertei-lung aufgetragen werden. Typischerweise ist das die Normalverteilung, kann aber jede andereVerteilung sein, gegen die man die eigenen Daten testen möchte. Hier liegen aber wichtigeUnterschiede in den Statistikprogrammen: R geht davon aus, dass man sich eine theoretischeVerteilung selber generiert (es gibt dazu Funktionen), während SPSS eine Auswahl von theore-tischen Funktionen als Option verwendet.
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●●
●
●
●●●
● ●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
1020
3040
5060
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Abbildung 1: Beispiel eines Q–Q Plots mit Niederschlagsdaten.
R: qqnorm() trägt die Datenpunkt gegen die theoretische Normaverteilung auf, qqline()zeichnet eine Gerade, die durch das 1. und 3. Quantil führt.
SPSS: PPLOT, wobeimit /DISTRIBUTION= eine Verteilung gewählt werden kann (NORMAL,EXPONENTIAL,WEIBUL, PARETO, LNORMAL, BETA, GAMMA, LOGISTIC, LAPLACE, UNIFORM,HNOR-MAL, CHI, STUDENT), wobei je nach Verteilung zusätzlich die Parameter der Verteilung spezi-fizert werden können oder müssen. Standardmässig wird ein Q–Q Plot erzeugt, für einen P–PPlot muss man /TYPE=P-P angeben.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 2. Dezember 2004 2
6 Multivariate Verfahren
Visuell kann man zweidimensionale Grafiken am besten erfassen, deshalb verwendet manauch beimultivariater Analyse sehr häufig paarweise Vergleiche vonVariablen. Einige nützlicheHilfsmittel, um rasch einen Überblick über die Daten zu gewinnen, sind die Scatterplot-Matrixund die Coplots.
6.1 Scatterplot-Matrix
Eigentlich könnte man sich auch eine Korrelationsmatrix zwischen allen Variabeln rechnen.Wennman gleiche grafisch versucht, siehtman nicht nur die Stärke des Zusammenhangs (Kor-relationskoeffizient), sondern auch die Art. Sehr nützlich ist dies, wenn man noch nicht weiss,ob die Beziehung zwischen den Variabeln überhaupt linear ist oder nicht.
Girth
65 70 75 80 85
●●●
● ● ●● ● ●● ●●●● ●
● ●●
●● ● ●●
● ●
● ●●●●
●
810
1214
1618
20
●●●
● ●●● ● ●● ●●●●●
● ●●
●● ●● ●
● ●
●●●●●
●
6570
7580
85
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●●
●●●
●
Height●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●●
●●●
●
8 10 12 14 16 18 20
●●●
●●●
●●
●●
●●●●
●●
●
●●●
●●
●●
●
●●●
●●
●
●●●
●● ●
●●
●●
●●●●
●●
●
●●●
●●
●●
●
● ●●
●●
●
10 20 30 40 50 60 70
1030
5070
Volume
Abbildung 2: Beispiel einer Scatterplot-Matrix mit Messungen des Umfangs, der Höhe und des Holzvolumens von31 Bäumen.
R: pairs()
SPSS: GRAPH, mit der Option /SCATTERPLOT(MATRIX)
Um eine Korrelationstabelle mit den Korrelationskoeffizienten zu erzeugen:
R: cor() erzeugt die Matrix mit Zahlen, symnum(cor()) erzeugt eine Matrix mit Zeichen,die die Signifikanzniveaus anzeigen.
SPSS: CORRELATIONSproduziert eine etwas reichhaltigere Matrix mit Korrelationskoeffizi-enten, Signifikanzniveau (zweiseitig) und Signifikanzsymbolen.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 2. Dezember 2004 3
6.2 Coplots
Dabei handelt es sich um eine Menge von gleichartigen bivariaten Darstellung, für welche diebeiden Variablen anhand einer dritten oder einer dritten und vierten Variable in gleichgrosseGruppen aufgeteilt werden. Dies ist sehr nützlich, da in vielen Fragestellungen die Hauptbe-ziehungen zwischen abhängiger Variable und einer unabhängigen recht klar sind, aber es istunklar, wie weitere Variablen diese Beziehung beeinflussen.
●●
● ●●
●●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●●
● ●
●●
●
●
●
●
●
●● ●
●●
●●
●●
●●
●
●● ●
● ●●
●
●
●
●
●
● ●
● ●
●●
●
●
●
●
●●
● ● ● ●
●●
●●
●
●
●
●
●
●
●
●
●●
●●
●●
●●
●●
●
●●
●●
●●
● ● ●● ● ●
● ●●
●●
●●
● ●●
● ●
●●
●
●
●
●
●● ● ● ●
●
●●
●●
●
●
●
●
●
●●
●
●● ●
● ● ● ● ● ●●
● ●
●●
●
●
●
●
●
●
●
●●
●
●●
●● ● ● ● ●
● ● ● ●●
● ●●
●●
●●
●● ●
●●
●●
● ●● ●
●● ●
●●
●
●●
●●
●●
● ●●
● ●●
●●
● ●
5015
025
035
0
●●
●
●
●
●
●
●
●
●●
●
●●
●●
● ●● ●
●
●
● ●
●●
●●
●●
●●
●
●● ●
●●
●
●● ● ● ● ● ● ● ●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●
●●
●●
●
●
●
●
●●
●
● ●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
●●
●●
●●
0 5 10 15 20
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
● ●●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
● ● ●
●●
●●
● ●
●●
●
●●
●
●●
●●
●●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
0 5 10 15 20
●●
●
●
●
●
● ●
●●
● ●
●●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●
● ●● ● ● ●
●●
●
●
●
●●
●● ●
●●
●
●
●
●
●●
●
●
● ●
●●
●
●
●
●
●●
●
●
●●
●●
●●
●
●
●●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
● ●
●●
●
●
●
●
●
●
●
●
● ●
5015
025
035
0
Time
wei
ght
1
2
3
4
Given : Diet
Abbildung 3: Beispiel eines Coplots mit Messungen, die an 50 Hühnern durchgeführt wurden (Variablen: Zeit, Ge-wicht, Fütterungsart). Die einzelnen Grafiken sind zeilenweise von unten links nach oben rechts angeordnet.
R: coplot() . Es können eine (siehe Beispiel in Abb. 3) oder zwei zusätzliche Variable füreinen Coplot verwendet werden.
SPSS: diese Darstellungsart scheint nicht vorgesehen zu sein.Manmüsste also die Datenma-nuell gruppieren und einzelne Scatterplots erstellen.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 2. Dezember 2004 4
6.3 Hauptkomponentenanalyse: PCA, EOF
Begriffe: PCA = Principal Component Analysis; EOF = empirical orthogonal functionDiese Begriffe bezeichnen dasselbe. Das Ziel einer Hauptkomponentenanalyse ist es, einen Da-tensatz mit einer Vielzahl von Variabeln durch (hoffentlich viel weniger) neue Variabeln zu be-schreiben, die einen möglichst grossen Anteil der vorhandenen Varianz erklären.
R: princomp() , mit der Angabe cor=FALSE wird eine Kovarianz-Matrix ausgegeben (d.h.nicht standardisierte Resultate), mit der Angabe cor=TRUE wird eine Korrelations-Matrix aus-gegeben (d.h. standardisierte Resultate). Default ist Kovarianz-Matrix.
SPSS: FACTOR, mit der Angabe /METHOD = COVARIANCEwird eine Kovarianz-Matrix aus-gegeben (d.h. nicht standardisierte Resultate), mit der Angabe /METHOD=CORRELATIONwirdeine Korrelations-Matrix ausgegeben (d.h. standardisierte Resultate). Default ist Korrelations-Matrix.
Tabelle 1: Beispiel: PCA mit täglichen Messungen von Niederschlag (ppt), Maximum (Tmax) und Minimum-Temperatur (Tmin) an zwei Standorten (Ithaca und Canandaigua).
PCA1 PCA2 PCA3 PCA4 PCA5 PCA6a. Kovarianz-Matrix
Ithaca.ppt 0.818 0.575Ithaca.Tmax 0.359 –0.628 0.182 –0.665Ithaca.Tmin 0.717 0.527 0.456Canandaigua.ppt 0.574 –0.818Canandaigua.Tmax 0.381 –0.557 0.737Canandaigua.Tmin 0.459 0.131 –0.871 –0.115
Kumulative Varianz, % 87.8 97.4 99.4 99.9 100.0 100.0
b. Korrelations-MatrixIthaca.ppt –0.142 0.677 –0.149 –0.219 0.668Ithaca.Tmax –0.475 –0.203 –0.557 0.587 0.265Ithaca.Tmin –0.495 0.526 0.688Canandaigua.ppt –0.144 0.670 –0.245 0.164 –0.658Canandaigua.Tmax –0.486 –0.220 –0.374 –0.737 –0.171Canandaigua.Tmin –0.502 0.458 –0.695 0.192 –0.135
Kumulative Varianz, % 58.9 92.0 97.7 98.9 99.5 100.0
−4 −2 0 2 4
−1
01
23
4
Comp.1
Com
p.2
1
2
3
456
7
89
10
11
1213
14
1516
17
1819
20
2122
23
24
25
2627
28293031
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
Ithaca.ppt
Ithaca.Tmax
Ithaca.Tmin
Canandaigua.ppt
Canandaigua.Tmax
Canandaigua.Tmin
−4 −2 0 2 4
−1.
5−
1.0
−0.
50.
00.
51.
01.
5
Comp.2
Com
p.3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1516
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
−1.0 −0.5 0.0 0.5 1.0
−0.
4−
0.2
0.0
0.2
0.4
Ithaca.ppt
Ithaca.Tmax
Ithaca.Tmin
Canandaigua.ppt
Canandaigua.Tmax
Canandaigua.Tmin
Abbildung 4: Grafische Darstellung der standardisierten PCA 1 und 2 (links) und PCA 2 und 3 (rechts).
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 2. Dezember 2004 5
6.4 Clusterverfahren
Mit einer Clusteranalyse versucht man, aufgrund objektiver, statistischer Kriterien die Beob-achtungen einesDatensatzes inGruppen zu klassieren, von denenman keine vorgängige Kennt-nis hat, wie sie sich zusammensetzen. Genau genommen ist auch unbekannt, wieviele Grup-pen überhaupt existieren.Um dies zu erreichen, muss man ein Distanzmass bestimmen, das verwendet werden soll, umGruppen zu bilden.
R: hclust() , hierarchical cluster analysis. Verfügbar nach library(mva) .
SPSS: CLUSTER
Rum
ex a
lpes
tris
Jac
q.E
pilo
bium
pal
ustr
e L.
Car
ex v
esic
aria
L.
Gal
ium
alb
um M
ill.
Med
icag
o lu
pulin
a L.
Leuc
anth
emum
vul
gare
Lam
.B
rom
us in
erm
is L
eyss
.U
rtic
a di
oica
L.
Ver
onic
a fil
iform
is S
m.
Mat
ricar
ia d
isco
idea
DC
.F
estu
ca a
rund
inac
ea S
chre
b.C
ardu
us d
eflo
ratu
s L.
Agr
opyr
on r
epen
s (L
.) P
. Bea
uv.
Car
dam
ine
udic
ola
Jord
.C
arex
hos
tiana
DC
.G
lyce
ria n
otat
a C
heva
ll.B
arba
rea
inte
rmed
ia B
orea
uJu
ncus
alp
inoa
rtic
ulat
us C
haix
Car
ex e
lata
All.
Sal
ix a
ppen
dicu
lata
Vill
.O
rchi
s m
ascu
la (
L.)
L.C
apse
lla b
ursa
−pa
stor
is (
L.)
Med
ik.
Equ
iset
um a
rven
se L
.V
eron
ica
becc
abun
ga L
.P
oa a
lpin
a L.
Her
acle
um s
phon
dyliu
m L
.P
rune
lla v
ulga
ris L
.C
rocu
s al
biflo
rus
Kit.
Ver
onic
a pe
rsic
a P
oir.
Gle
chom
a he
dera
cea
L.R
hina
nthu
s al
ecto
rolo
phus
(S
cop.
) P
ollic
hC
enta
urea
jace
a L.
Pla
ntag
o m
edia
L.
Tra
gopo
gon
orie
ntal
is L
.P
rimul
a el
atio
r (L
.) L
.C
olch
icum
aut
umna
le L
.Li
num
cat
hart
icum
L.
Cre
pis
bien
nis
L.Li
ster
a ov
ata
(L.)
R. B
r.G
ymna
deni
a co
nope
a (L
.) R
. Br.
Tro
llius
eur
opae
us L
.C
arex
pal
lesc
ens
L.D
acty
lorh
iza
maj
alis
(R
chb.
) P
. F. H
unt &
Sum
mer
h.E
quis
etum
fluv
iatil
e L.
Val
eria
na r
epen
s H
ost
Men
tha
aqua
tica
L.E
pipa
ctis
pal
ustr
is (
L.)
Cra
ntz
Briz
a m
edia
L.
Ran
uncu
lus
acon
itifo
lius
L.C
repi
s pa
ludo
sa (
L.)
Moe
nch
Nas
turt
ium
offi
cina
le R
. Br.
Val
eria
na d
ioic
a L.
Erio
phor
um a
ngus
tifol
ium
Hon
ck.
Lath
yrus
pra
tens
is L
.E
quis
etum
pal
ustr
e L.
Ped
icul
aris
pal
ustr
is L
.D
acty
lorh
iza
inca
rnat
a (L
.) S
oóA
ngel
ica
silv
estr
is L
.T
arax
acum
pal
ustr
e (L
yons
) S
ymon
sE
uphr
asia
mon
tana
Jor
d.C
arex
lepo
rina
L.P
oa p
alus
tris
L.
Car
ex fl
ava
L.T
rifol
ium
hyb
ridum
L.
Car
ex p
anic
ea L
.A
rrhe
nath
erum
ela
tius
(L.)
J. &
C. P
resl
Car
um c
arvi
L.
Des
cham
psia
cae
spito
sa (
L.)
P. B
eauv
.Lo
tus
corn
icul
atus
L.
Hel
icto
tric
hon
pube
scen
s (H
uds.
) P
ilg.
Car
dam
ine
prat
ensi
s L.
Bel
lis p
eren
nis
L.D
aucu
s ca
rota
L.
Pla
ntag
o la
nceo
lata
L.
Ach
illea
mill
efol
ium
L.
Fes
tuca
pra
tens
is H
uds.
Leon
todo
n au
tum
nalis
L.
Ver
onic
a ch
amae
drys
L.
Ver
onic
a se
rpyl
lifol
ia L
.C
eras
tium
hol
oste
oide
s F
r.V
eron
ica
arve
nsis
L.
Epi
lobi
um p
arvi
floru
m S
chre
b.S
tella
ria g
ram
inea
L.
Alc
hem
illa
xant
hoch
lora
Rot
hm.
Poa
ann
ua L
.Lo
lium
mul
tiflo
rum
Lam
.M
yoso
tis s
corp
ioid
es L
.R
umex
ace
tosa
L.
Cirs
ium
pal
ustr
e (L
.) S
cop.
Aju
ga r
epta
ns L
.Lu
zula
sud
etic
a (W
illd.
) S
chul
t.A
gros
tis g
igan
tea
Rot
hP
lant
ago
maj
or L
.M
enth
a lo
ngifo
lia (
L.)
Hud
s.Ju
ncus
infle
xus
L.C
arex
hirt
a L.
Loliu
m p
eren
ne L
.R
umex
obt
usifo
lius
L.T
rifol
ium
rep
ens
L.P
hleu
m p
rate
nse
L.P
oa tr
ivia
lis L
.R
anun
culu
s ac
ris L
. sub
sp. f
riesi
anus
(Jo
rd.)
Sym
eP
oa p
rate
nsis
L.
Cyn
osur
us c
rista
tus
L.F
estu
ca r
ubra
L.
Dac
tylis
glo
mer
ata
L.A
gros
tis s
tolo
nife
ra L
.B
rom
us h
orde
aceu
s L.
Tar
axac
um o
ffici
nale
agg
r.R
anun
culu
s fic
aria
L.
Ste
llaria
med
ia (
L.)
Vill
.C
arex
can
esce
ns L
.S
ilene
flos
−cu
culi
(L.)
Cla
irv.
Trif
oliu
m p
rate
nse
L.F
ilipe
ndul
a ul
mar
ia (
L.)
Max
im.
Rhi
nant
hus
min
or L
.C
irsiu
m o
lera
ceum
(L.
) S
cop.
Cha
erop
hyllu
m h
irsut
um L
.G
eum
riv
ale
L.G
aliu
m p
alus
tre
L.C
arex
dav
allia
na S
m.
Mol
inia
coe
rule
a (L
.) M
oenc
hH
olcu
s la
natu
s L.
Car
ex r
ostr
ata
Sto
kes
Pot
entil
la e
rect
a (L
.) R
aeus
ch.
Lotu
s pe
dunc
ulat
us C
av.
Car
ex e
chin
ata
Mur
ray
Pol
ygon
um b
isto
rta
L.Ju
ncus
effu
sus
L.A
gros
tis c
apill
aris
L.
Sci
rpus
silv
atic
us L
.C
alth
a pa
lust
ris L
.C
arex
app
ropi
nqua
ta S
chum
ach.
Car
ex n
igra
(L.
) R
eich
ard
Ant
hoxa
nthu
m o
dora
tum
L.
010
020
030
040
050
0
Pflanzenarten Seebodenalp
hclust (*, "ward")dist(sba[, 4:74])
Hei
ght
Abbildung 5: Beispiel der Clusterbildung der Vegetationsaufnahmen von Fabian Reutlinger auf der Seebodenalp.Abundanzschätzwerte 0wurdenmit 0.5 ersetzt, leere Zellenmit 0, damit eine Clusteranalyse durchgeführt werdenkonnte.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 2. Dezember 2004 6
7 Zeitreihenstatistik
Die Zeit ist eine spezielle Variable in der Statistik und in der reellen Welt generell. Die Zeit istnicht umkehrbar, sie ist nicht zufällig, und sie ist nicht kontrollierbar.Aus diesen Gründen sind viele Methoden, die aus der univariaten und bivariaten Statistik be-kannt sind und sich mit zufälligen Stichproben befassen nicht ohne weiteres übertragbar aufPhänomene, in denen die Zeit eine Rolle spielt.
36.5
37.0
37.5
38.0
Hour of Day
Bod
y T
empe
ratu
re [d
egC
]
9:00 12:00 15:00 18:00 21:00 00:00 03:00
●
●
●
●
● ● ●
●
●
●
●
●
●
● ●●
● ●
●
●
●●
● ●
● ● ● ●●
● ●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
● ● ●
●● ●
● ●
●
●
●
●
●
● ●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
● ●
● ●●
●
●●
●
●
Beaver #1Beaver #2
Abbildung 6: Beispiel einer Zeitreihe der gemessenen Körpertemperatur (alsMass für die Aktivität) von zwei Bibern.Die Messungen wurden regelmässig in 10-Minuten-Abständen vorgenommen.
Am häufigsten beobachtet man in Zeitreihen das Phänomen der Autokorrelation oder Auto-regression. Das hiesst: ein Messpunkt, der zur Zeit t + ∆t erfasst wurde, ist nicht völlig un-abhängig vom Messpunkt der kurz vorher, nämlich zur Zeit t, gemessen wurde. Beispiel: dieTemperatur um 11:00 Uhr ist nicht zufällig verschieden von der Temperatur um 10:00 Uhr. Manspricht hier von einem AR(1)-Prozess (auto-regressiver Prozess erster Ordnung). Die Autokorre-lationsfunktion (ACF) zeigt an, wie gross dieser Zusammenhang bei welchem Zeitunterschied(engl. „lag“) ist. Siehe Abb. 7.Die Autokorrelationsfunktion einer Zeitreihe ist also nichts anderes als die Korrelation mit sichselber bei zunehmendem (oder abnehmendem) Lag. Der Zusammenhang zwischen zwei Zeitrei-hen nennt sich Kreuzkorrelationsfunktion (CCF). Siehe Abb. 8.
R: acf() (auto-correlation function) bzw. ccf() (cross-correlation function). Mit ts() wirdein Zeitreihenobjekt erzeugt.
SPSS: ACFauto-correlation function) bzw. CCF(cross-correlation function). Beide Befehle er-zeugen auch eine Grafik. Die Funktion AREGerzeugt hingegen nur Text-Output.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 2. Dezember 2004 7
0 5 10 15 20
−0.
20.
00.
20.
40.
60.
81.
0
Lag in 10−minute steps
AC
F
Beaver Body Temperature
●
●
●
●
●
●
●●
●●
●● ●
●
●
●
●
●
●
●
●
●
Beaver #1Beaver #2
Abbildung 7: Die Autokorrelationsfunktionen beider Zeitreihen aus Abb. 6. Die horizontalen gestrichelten Linienzeigen das Konfidenzintervall für weisses Rauschen.
−15 −10 −5 0 5 10 15
−0.
20.
00.
20.
40.
60.
81.
0
Lag in 10−minute steps
AC
F
Lag in Activity of Beaver #1
Beaver #1 later than Beaver #2Beaver #1 earlier than Beaver #2
Abbildung 8: Kreuzkorrelationsfunktion der Zeitreihen aus Abb. 6. Hier musste ein Zeitfenster gewählt werden, wovon beiden Bibern Messungen vorliegen.
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 28. Januar 2005 1
8 Grafiken in R fertigstellen
8.1 Grafik in druckfähigem Format produzieren
Druckfähige Grafiken sind entweder im PostScript (eine Variante davon ist das EncapsulatedPostScript oder EPS) oder als PDF (Portable Document Format) zu erstellen. Andere Formate(z.B. JPEG, TIFF, GIF) sind Raster-Daten-Formate, die nur eine beschränkte Qualität erlauben unddeshalb meist nicht Druckqualität aufweisen.Grafiken von R sind nicht „WYSIWYG“. Das heisst, zuerst erzeugt man am Bildschirm eine Gra-fik, die alle Komponenten (Objekte) enthält, die drauf sein müssen. Erst dann beginnt manmitder Kosmetik beim Erstellen einer druckfähigen Grafikdatei.
PDF-Datei erzeugen
Hatman alle Befehle für die Grafik beisammen (d.h., am Bildschirm erscheinen alle Komponen-ten bzw. Objekte), wechselt man von der Bildschirmdarstellung in eine PDF-Datei. Diese öffnetmanmit dem Befehlpdf("dateiname.pdf")
Dann führt man alle Grafikbefehle aus und schliesst die Datei mit dem Befehldev.off()
Mit dem Acrobat Reader kannman sich diese Datei nun ansehen und entscheiden, was verbes-sert werden muss.Ein Beispiel: die PDF-Datei soll einem A4-Blatt im Hochformat entsprechen und als Schrift sollHelvetica mit der Schriftgrösse 20 Punkt verwendet werden. Dies erreicht manmit der Angabezusätzlicher Optionen beim Öffnen der PDF-Datei:pdf("dateiname.pdf", width=8.27, height=11.65, family="Helvetica", pointsize=20)
PostScript bzw. EPS erzeugen
Hier gibt es zwei Varianten: (1) hat man eine brauchbare Grafik am Bildschirm kann man diesemit dem Befehl dev.copy2eps() als EPS abspeichern; (2) man benützt zu Beginn den Be-fehl postscript() , führt dann alle Grafikbefehle aus, und schliesst die Datei mit dem Befehldev.off() (analog zu PDF, siehe oben).Ein Beispiel: Die PostScript-Datei soll einem A4-Querformat-Papier entsprechen, einen orange-farbenen Hintergrund haben, die Schrift Palatino verwenden und blaue statt schwarze Stan-dardfarbe verwenden:postscript("dateiname.ps", paper="a4", horizontal=TRUE,
family="Palatino", bg="orange", fg="blue")
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 28. Januar 2005 2
Grafik verbessern
Der häufigsten Befehl zum Darstellen von Daten sind: plot() , hist() (für Histogramm),coplot() , boxplot() . Am Beispiel von plot() wird klar, wie man in die Darstellung derDaten eingreifen kann.Es gibt zwei Sachen zu beachten: (1)mögliche Argumente vonplot() findetman viahelp(plot)heraus; (2) weitere Einstellungen werden als Grafikparameter mit dem Befehl par() gesetzt.Der Grafiktyp wird in plot() mit dem Argument ty= angegeben: ty="l" für Liniengrafik,ty="p" für Punktgrafik, ty="b" oder ty="o" für kombinierte Punkt-/Liniengrafik, ty="s"bzw. ty="S" für Treppenstufen-Grafik, ty="h" für histogramm-artige Darstellung (bei Nie-derschlagsdaten üblich).Die Linienart und -stärkewird in plot() mit lty= (line type) bzw. mit lwd= (line width). Mangibt Zahlen, wobei Typ 1 einer ausgezogenen Linie entspricht und die Stärke 1 einer dünnenLinie.Die Farbe gibt man in plot() mit col= an, wobei entweder Farbnamen in Gänsefüsschen,oder ganze Zahlen von 1 bis n verwendet werden können. Einen Überblick über die gültigenFarbnamen erhält man mit example(colors) ; nach diesem Aufruf enthält das Objekt clalle vordefinierten 657 Farbnamen.Die Symbolewerden in plot() durch das Argument pch= bestimmt. Die brauchbaren Zahlenund Zeichen dafür erfährt manmit example(points) .Zwei Grafiken überlagern kann man mit dem Befehl par(new=TRUE) , den man zwischenzwei Grafikbefehlen einfügt.Mehrere Grafiken auf einer Seite: hier gibt es drei Varianten, die aber untereinander nicht kom-binierbar sind. (1)mit demBefehl par(mfrow=c(3,2)) definiertman drei Zeilenmit zwei Ko-lonnen, so dass die nächsten 6Grafiken auf einer Seite angeordnetwerden. (2) split.screen()bietet die Möglichkeit, gezielt eine Teilgrafik anzusteuern. (3) layout() bietet die meistenMöglichkeiten, auch unterschiedliche Grössen der Teilgrafiken, ist aber auch die kompliziertes-te Art der Darstellung.
Beschriften der Achsen
Innerhalb des Befehls plot() kannman den Titel der x- und y-Achsen durch die Option xlab=bzw. ylab= (oder beides) angeben.Beispiel:plot(x, y, xlab="x-Achse") .
Titel über die Grafik setzen
Dies geschiehtmit derOptionmain="Grafiktitel" innerhalb des Zeichenbefehls (z.B.plot() .Schauen Sie aber auch die Hilfe zum vielseitigeren Befehl title() an!
Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 28. Januar 2005 3
Legenden
Legenden sind sehr vielseitig, leider gibt es aber keine schnell-und-hässlich Variante in R. Hierein Beispiel, wie man in einen existierenden Plot eine Legende hineinzeichnet:legend(0, 0, legend=c("erste Kurve", "zweite Kurve"),
col=c("red", "blue"), lty=c(1,2), pch=c(20,2))
wobei die ersten beiden Zahlen die x- und y-Koordinaten der aktuellen Grafik sind. Eine Legen-de, die ausserhalb des Grafikbereichs gezeichnet wird, ist nicht sichtbar.
Weitere Texte einfügen
Ähnlich wie bei der Legende kannmit dem Befehl text() ein beliebiger Text irgendwo auf derGrafik platziert werden.Beispiel:text(0, 0, labels="(c) 2005 by ETHZ")
8.2 Mathematisch formatierter Text und griechische Symbole
Mathematische Sonderzeichenund Symbole stehen zur Verfügung,wennman eineexpression()verwendet.Beispiel:xlab=expression("Ertrag kg m"^{-2})
Wenns komplizierter wird, muss man die Elemente entweder mit * verknüpfen innerhalb vonexpression() , oder mit dem Befehl paste() zusammenhängen.Beispiele:xlab=expression("Ertrag kg m"^{-2}*" pro Jahr")ylab=expression(paste(alpha, " und ", mu[infinity])))
Schauen Sie sich folgendes an:demo(plotmath)
8.3 Mehrere Grafiken auf einer Seite platzieren
Zwischen verschiedenen Grafikbefehlen kann man den Befehlpar(new=TRUE)
einfügen, um das Löschen der bisherigen Grafik zu verhindern. Dies ist allerdings nicht nötigbei Befehlenwie abline() , lines , points , title , legend usw., die gar keine eigeneGrafikerzeugen wollen.In den meisten Fällen muss man selber sicherstellen, dass der dargestellte Bereich der sichüberlappenden Grafiken übereinstimmt (also keine automatische Skalierung vorgenommenwird). Das geschiehtmit der Option xlim=range() , wobei innerhalb von range() entwedereine Variable angegeben wird oder ein fixer Minimum- undMaximum-Wert.Bespiel für eine x-Achse von 0 bis 360:xlim=range(0,360)
Entsprechend verwendet man ylim= für die y-Achse. Natürlich müssen dann diese Optionenin allen Grafiken mit angegeben werden.