3 varianzanalyse:anova - eth zhomepage.usys.ethz.ch/eugsterw/lectures/ethz/beilagen-ws2004.pdf ·...

Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 19. November 2004 1

3 Varianzanalyse: ANOVA

Unterlagen: Kapitel 7 aus Skript von Prof. N. Buchmann

3.1 Arten von Variablen

• metrische Variablen: kontinuierliche Zahlen, Abstände und Verhältnisse zwischen Zahlenhaben eine Bedeutung. Beispiele: Temperatur, Längenmessungen, Gewichte.

• ordinale Variablen: diskrete Abfolge von Werten, aber derart, dass eine Rangfolge ermit-telt werden kann. Das heisst, die Werte sagen etwas darüber aus, ob sie grösser oderkleiner als ein Vergleichswert sind, aber Verhältnisse zwischen Werten sind sinnlos. Bei-spiele: Ränge an einemWettkampf (Rang 10 ist nicht doppelt so schlechtwie Rang 5! AberRang 10 war nach Rang 5 im Ziel).

• kardinale Variablen: Werte aus Mengen, die untereinander keiner derartigen Beziehungunterworfen werden können. Beispiele: Ackerfrüchte (Weizen, Gerste, Kartoffeln, ...); Far-ben (rot, blau, grün, ...); Kantone (ZH, BE, AG, ...). Hier kann weder eine Aussage über dieAbstände noch über die Verhältnisse gemacht werden.

3.2 Begriffe

Zusammengestellt aus Easton VJ &McColl JH: Statistics Glossary Version 1.1,http://www.cas.lancs.ac.uk/glossary_v1.1/dexanova.html

Experimental Design

We are concerned with the analysis of data generated from an experiment. It is wise to ta-ke time and effort to organise the experiment properly to ensure that the right type of data,and enough of it, is available to answer the questions of interest as clearly and efficiently aspossible. This process is called experimental design.The specific questions that the experiment is intended to answer must be clearly identified beforecarrying out the experiment. We should also attempt to identify known or expected sources ofvariability in the experimental units since one of the main aims of a designed experiment is toreduce the effect of these sources of variability on the answers to questions of interest. That is, wedesign the experiment in order to improve the precision of our answers.

Treatment

In experiments, a treatment is something that researchers administer to experimantal units.For example, a corn field is divided into four, each part is ‘treated’ with a different fertiliser tosee which produces themost corn; a teacher practices different teachingmethods on differentgroups in her class to see which yields the best results; a doctor treats a patient with a skincondition with different creams to see which is most effective.Treatments are administered to experimental units by ‘level’, where level implies amount or ma-gnitude. For example, if the experimental units were given 5mg, 10mg, 15mg of a medication,those amounts would be three levels of the treatment. ‘Level’ is also used for categorical varia-bles, such as Drugs A, B, and C, where the three are different kinds of drug, not different amountsof the same thing.


Factor

A factor of an experiment is a controlled independent variable; a variable whose levels are setby the experimenter.A factor is a general type or category of treatments. Different treatments constitute different le-vels of a factor. For example, three different groups of runners are subjected to different trainingmethods. The runners are the experimental units, the training methods, the treatments, wherethe three types of training methods constitute three levels of the factor ‘type of training’.

OneWay Analysis of Variance

The one way analysis of variance allows us to compare several groups of observations, all ofwhich are independent but possibly with a different mean for each group. A test of great im-portance is whether or not all the means are equal.The observations all arise from one of several different groups (or have been exposed to one of se-veral different treatments in an experiment). We are classifying ‘one-way’ according to the groupor treatment.

TwoWay Analysis of Variance

Two Way Analysis of Variance is a way of studying the effects of two factors separately (theirmain effects) and (sometimes) together (their interaction effect).

Completely Randomised Design

The structure of the experiment in a completely randomised design is assumed to be such thatthe treatments are allocated to the experimental units completely at random.

Randomised Complete Block Design

The randomised complete block design is a design in which the subjects are matched accor-ding to a variable which the experimenter wishes to control. The subjects are put into groups(blocks) of the same size as the number of treatments. The members of each block are thenrandomly assigned to different treatment groups.Example: A researcher is carrying out a study of the effectiveness of four different skin creamsfor the treatment of a certain skin disease. He has eighty subjects and plans to divide them into4 treatment groups of twenty subjects each. Using a randomised blocks design, the subjects areassessed and put in blocks of four according to how severe their skin condition is; the four mostsevere cases are the first block, the next four most severe cases are the second block, and so on tothe twentieth block. The four members of each block are then randomly assigned, one to each ofthe four treatment groups.

Factorial Design

A factorial design is used to evaluate two or more factors simultaneously. The treatments arecombinations of levels of the factors. The advantages of factorial designs over one-factor-at-a-time experiments is that they are more efficient and they allow interactions to be detected.


Main Effect

This is the simple effect of a factor on a dependent variable. It is the effect of the factor aloneaveraged across the levels of other factors.Example: A cholesterol reduction clinic has two diets and one exercise regime. It was found thatexercise alone was effective, and diet alone was effective in reducing cholesterol levels (main ef-fect of exercise and main effect of diet). Also, for those patients who didn’t exercise, the two dietsworked equally well (main effect of diet); those who followed diet A and exercised got the bene-fits of both (main effect of diet A and main effect of exercise). However, it was found that thosepatients who followed diet B and exercised got the benefits of both plus a bonus, an interactioneffect (main effect of diet B, main effect of exercise plus an interaction effect).

Interaction

An interaction is the variation among the differences betweenmeans for different levels of onefactor over different levels of the other factor.Example: see ‘main effect’).

Randomisation

Randomisation is the process by which experimental units (the basic objects upon which thestudy or experiment is carried out) are allocated to treatments; that is, by a randomprocess andnot by any subjective and hence possibly biased approach. The treatments should be allocatedto units in such a way that each treatment is equally likely to be applied to each unit.Randomisation is preferred since alternatives may lead to biased results.The main point is that randomisation tends to produce groups for study that are comparable inunknown as well as known factors likely to influence the outcome, apart from the actual treat-ment under study. The analysis of variance F tests assume that treatments have been appliedrandomly.

Blinding

In a medical experiment, the comparison of treatments may be distorted if the patient, theperson administering the treatment and those evaluating it know which treatment is beingallocated. It is therefore necessary to ensure that the patient and/or the person administeringthe treatment and/or the trial evaluators are ‘blind to’ (don’t know) which treatment is alloca-ted to whom.Sometimes the experimental set-up of a clinical trial is referred to as double-blind, that is, neitherthe patient nor those treating and evaluating their condition are aware (they are ‘blind’ as to)which treatment a particular patient is allocated. A double-blind study is the most scientificallyacceptable option.Sometimes however, a double-blind study is impossible, for example in surgery. It might still beimportant though to have a single-blind trial in which the patient only is unaware of the treat-ment received, or in other instances, it may be important to have blinded evaluation.


Placebo

A placebo is an inactive treatment or procedure. It literally means ‘I do nothing’. The ‘placeboeffect’ (usually a positive or beneficial response) is attributable to the patient’s expectationthat the treatment will have an effect.

Blocking

This is the procedure by which experimental units are grouped into homogeneous clusters inan attempt to improve the comparison of treatments by randomly allocating the treatmentswithin each cluster or ‘block’.

3.3 Was ist ein lineares Modell?

Generelle Form:

y = ξ0 + ξ1 · x + ξ2 · x2 + ... + ξn · xn

3.4 Was ist ein nicht-lineares Modell?

Beispiele:

y = ξ0 + ξ1 · ex

y = ξ0 + ξ1 ·√

(x)

y = ξ0 + ξ1 · sin(x) + ξ2 · cos(x2)

3.5 Was macht die ANOVA?

3.6 Wie interpretiere ich eine ANOVA-Tabelle?

3.7 Umkehr: Power of ANOVA, oder:

Durch die Umkehrung der ANOVA-Berechnung kannman einen aus 6 Parametern bestimmen,wennman Informationen über die andern 5 Parameter aus folgender Liste hat:

1. Anzahl der Gruppen (oder Behandlungen)2. Anzahl der Messungen oder Beobachtungen pro Gruppe (oder pro Behandlung)3. Varianz zwischen den Gruppen bzw. Behandlung4. Varianz innerhalb der Gruppen bzw. Behandlung5. Signifikanzniveauα (Fehlerwahrscheinlichkeit vom Typ I); hiermöchteman typischerwei-

se ein α von 0.05 (d.h. 95% Sicherheit) haben, ev. reicht auch ein α von 0.10 aus6. Power of test 1 − β (1 minus die Fehlerwahrscheinlichkeit vom Typ II); hier möchte man

β unter 0.2 (das heisst mehr als 80% Sicherheit) bekommen. Die benötigte Anzahl Mes-sungen steigt aber stark an, wennman nicht nur α, sondern auch β klein habenmöchte!


Das heisst, ich kann zum Beispiel die Anzahl der nötigen Messungen pro Gruppe (oder proBlock) für 2 oder mehr Gruppen ermitteln.In „R“ heisst die Funktion hierzu power.anova.test() .

Tabelle 1: Aus der Umkehrung der ANOVA-Berechnung abgeleitete Stichprobenumfänge für Versuche mit 2 (links)oder 3 (rechts) Gruppen (oder Behandlungen). Die Zahlen sind gerundet und zeigen an, wieviele Proben pro Gruppe(also nicht insgesamt!) genommenwerdenmüssen um die gewünschte Sicherheit der Fehler des Typs I (α) und desTyps II (1−β) zu erreichen. Annahme: die Varianz innerhalb der Gruppen sei das dreifache der Varianz zwischen denGruppen.

2 Gruppen oder Behandlungenα

1−β 0.2 0.1 0.05 0.025 0.01 0.0010.800 14 20 26 32 39 580.900 19 26 33 40 48 680.950 25 33 40 47 56 770.975 30 39 47 54 64 870.990 37 46 55 63 74 980.999 54 65 76 85 97 125

3 Gruppen oder Behandlungenα

1−β 0.2 0.1 0.05 0.025 0.01 0.0010.800 9 13 16 20 24 340.900 12 16 20 24 29 400.950 15 20 24 28 33 450.975 19 23 28 32 37 500.990 22 28 33 37 43 560.999 32 38 44 49 55 70

36

7. Varianzanalyse Die Varianzanalyse (analysis of variance = anova) wird vor allem dazu benutzt, Mittelwerte von zwei und mehr Stichprobengruppen miteinander zu vergleichen. Sie wird aber auch verwendet, um den Anteil an der Gesamtvarianz zu ermit-teln, der von einem Faktor oder mehreren unabhängigen Faktoren (z.B. Behandlungsstufen, Standorte) erklärt wird. Generell: Es wird getestet, ob die Gesamtvariation durch diesen Faktor erklärt werden kann. Das Prinzip der Varianzanalyse beruht auf der Streuungszerlegung der Ge-samtvarianz aller Meßwerte in • die Varianz der Gruppenmittelwerte um das Gesamtmittel szwischen

2 (Varianz zwischen den Gruppen, Stichprobenfehler; between groups) und

• die Varianz der Meßwerte um ihren “Gruppenmittelwert“ sinnerhalb2 (Varianz in-

nerhalb der Gruppen, Versuchsfehler; within groups). Es gilt: Varianzgesamt = Varianzzwischen + Varianzinnerhalb

Varianzzwischen : Dieser Teil der Varianz wird durch den Einfluß des unabhängigen Faktors erklärt.

Varianzinnerhalb : Dieser Teil der Varianz kann nicht durch den Faktor

erklärt werden (Restvariation). Größe unabhängig davon, ob Stich-proben aus gleicher Grundgesamtheit stammen oder nicht.

Während beim Mittelwertsvergleich von 2 Stichprobengruppen der t-Test be-nutzt wird, muß beim Vergleich von 3 und mehr Gruppen die Varianzanalyse angewendet werden. Es ist nicht zulässig, unzählige t-Tests durchzuführen, um z.B. 5 Behandlungsmittelwerte miteinander zu vergleichen!! Warum? Bei mehrfachen Mittelwertvergleichen steigt die Irrtumswahrscheinlichkeit, daß Nullhypothesen verworfen werden, obwohl sie zutrafen (Fehler 1. Art). Mit Hilfe der Varianzanalyse wird dies vermieden. Voraussetzungen:

• voneinander unabhängige, normalverteilte, metrische Meßwerte • zufällige Stichproben • homogene Varianzen der Stichprobengruppen (vorher in jedem Fall testen) • mindestens eine Variable, die die Meßwerte in Gruppen einteilt (=

Hauptfaktor)

37

7.1 Einfache Varianzanalyse Bei der einfachen Varianzanalyse (oneway) wird die Variation der Meßwerte durch einen Gruppeneffekt (unabhängigen Faktor; main effect; z.B. verschie-dene Stufen einer Behandlung oder unterschiedliche Standorte) und durch den Versuchsfehler bestimmt. Es wird jedoch nicht getestet, welche Grup-pen/Behandlungsstufen sich voneinander unterscheiden. Eine typische Frage-stellung könnte lauten: Unterscheiden sich die Stickstoff-Konzentrationen von 0-, 1-, 2- und 6-jährigen Nadeln? Bei der einfachen Anova (fixed model) gilt das folgende mathematische Modell, sowohl für gleich als auch für ungleichbesetzte Gruppen: xij = µ + αi + εij mit: xij = beobachteter Meßwert µ = Mittelwert aller Gruppen αi = einzelne Stufen des Behandlungseffektes/unabhängigen Faktors εij = Versuchsfehler (zufällig) Berechnungsgrundlagen für eine Varianzanalyse Gruppen/Behandlungen 1 2 3 ... k 1 x11 x21 x31 ... xk1 2 x12 x22 x32 ... xk2 Wdh. ... .. n x1n x2n x3n ... xkn

Gr.summen T1 T2 T3 ... Tk Gr.mittel x1 x2 x3 ... xk

38

Gesamtsumme (Grand total) GT Tki

k

= ∑

Gesamtmittel (Grand mean) X X k

k

= ∑1

/ N

Nullhypothese H0: µ1 = µ2 = ... = µk

Die Alternativhypothese lautet: Nicht alle Mittelwerte sind gleich. Anders ausgedrückt: Mindestens ein Mittelwert muß sich von den anderen un-terscheiden. Es ist aber nicht bekannt, wieviele oder welche! Streuungszerlegung Die Summe der Abweichungsquadrate (Q) der Stichprobenwerte vom Ge-samtmittel wird in 2 Anteile zerlegt: Qgesamt = Qzwischen + Qinnerhalb

mit d.f.: (N - 1) = (k - 1) + (N - k)

Qzwischen = between-samples sums of squares = SSB = ( )n x Xk −∑ 2

Qinnerhalb = within-samples sums of squares = SSW = dk∑

N = Anzahl aller Meßwerte k = Anzahl der Stichproben n = Anzahl der Meßwerte in einer Stichprobe X = Mittelwert aller Meßwerte x k = Mittelwert der Stichprobe k x = Meßwert

dk = ( )x x k−∑ 2

Prüfgröße TR

Die zu berechnende Prüfgröße TR lautet ss

zwischen

innerhalb

2

2 = MSBMSW

MSB = mean square between samples) = MSBSSBk

=− 1

MSW = mean square within samples = MSWSSWN k

=−

39

Wenn alle Stichproben aus der gleichen Grundgesamtheit stammen, dann sollten die mittleren Quadrate zwischen und innerhalb der Stichproben ungefähr gleich groß sein. Sind sie es nicht, dann gibt es mindestens eine Stichpro-bengruppe, deren Mittelwert sich von den anderen unterscheidet. Der kritische Wert wird wie folgt angegeben: F(k-1; N-k; α). Wenn TR > F, dann wird H0 abgelehnt. Der F-Wert wird aus den entsprechenden Tabellenwerken abgelesen (z.B. Appendix 5 aus Sanders (1995): numerator = k - 1; denumera-tor = N - k). Wenn α = 0.05, dann wird die entsprechende F-Tabelle für α = 0.05 ausgewählt, d.h., es wird einseitig getestet.

Wichtig: Der kritische Wert F ist nicht gleichzusetzen mit dem F-Ratio (= TR), das oft von Computerprogrammen angegeben wird!

Tabelle zur einfachen Varianzanalyse

Source of variation Sum of Squares d.f. Mean Squares F-ratio

between groups (Beh.) SSB k - 1 MSB MSBMSW

within groups SSW N - k MSW

total SST N - 1

Test auf Homogenität der Varianzen - Cochran: wenn eine Gruppenvarianz wesentlich größer ist als die übrigen;

empfindlicher Test. - Bartlett: wenn Grundgesamtheit normalverteilt und ≥ 10 Stichprobengruppen.

Dieser Test überprüft nicht nur die Gleichheit der Varianzen, sondern prüft gleichzeitig auf Normalverteilung. n = 5 ist minimale Anforderung an Stichprobengruppen. Beruht auf χ2-Verteilung.

- Levene: wenn höher oder flacher als Normalverteilung und ≥ 10 Stichpro-bengruppen; robuster Test (verzichtet auf Normalverteilung, transformiert die Daten, benutzt Rangzahlen für Kruskal und Wallis-Test)

40

7.2 Transformationen Sind die Varianzen der verschiedenen Stichproben nicht homogen oder sind die Meßwerte nicht normalverteilt, dann müssen die Daten vor der weiteren statistischen Auswertung transformiert werden. Verschiedene Optionen stehen hier offen: • Wurzeltransformationen: bei kleinen absoluten Häufigkeiten • Logarithmen (Basis 10 oder natürlich): z.B. bei Längen, Flächen, Volumina,

Gewichte. Natürlicher Logarithmus ln, wenn nur Werte zwischen 0 und 1 vorliegen.

• Kehrwerte: z.B. bei Verweildauern, Alter, Entwicklungsdauer • Kehrwerte der Wurzel (1/√x): sehr effektiv • Hier darf/soll/muß gespielt werden! Wenn eine gute Transformation gefunden ist, werden alle weiteren Tests mit den transformierten Daten gerechnet. Wenn transformiert wird, dann nicht nur einzelne Stichprobengruppen, sondern alle Gruppen! P-Werte werden dann für die transformierten Daten angegeben. Werden Mittelwerte oder Konfidenzintervalle benötigt, muß rücktransformiert werden. Keine S.E. der transformierten Daten angeben! 7.3 Post Hoc Mittelwertvergleiche Häufig will man in der ökologischen Forschung nicht nur einen Effekt überprü-fen, sondern auch wissen, welche Behandlungsstufen sich signifikant vonein-ander unterscheiden. Da vom F-Test der Varianzanalyse nicht getestet wird, welche Gruppenmittelwerte sich voneinander unterscheiden, müssen zur Klärung nachfolgende Mittelwertsvergleiche herangezogen werden (z.B. LSD, Tukey, etc.). • Bonferroni: modifizierter LSD-Test, aber bei ungleichen Stichprobengruppen • Duncans: Hier wird der kritische t-Wert korrigiert, je nachdem, wie weit die

Mittelwerte der zu testenden Gruppen auseinanderliegen. • Scheffé: bei (un)gleichem Stichprobenumfang, lineare Kontraste • Student-Newman-Keuls-Test: Er kann auch berechnet werden, wenn die

Nullhypothese angenommen wurde. • Test der geringsten signifikanten Differenz (LSD = least significant difference

-Test): Er entspricht einem modifiziertem t-Test zwischen allen Paaren von

41

Gruppen. Dieser Test sollte nur bei gleichem Stichprobenumfang aller Grup-pen verwendet werden.

• Tukey ehrlich signifikante Differenz (HSD = Tukey honestly significant diffe-rence -Test): nur bei gleichem Stichprobenumfang der Gruppen

• Tukey-Kramer: bei ungleichem Stichprobenumfang Diese Tests geben häufig eine Kreuztabelle aus, um darzustellen, welche Stichprobenmittel sind voneinander unterscheiden (Kreuz = signifikanter Un-terschied). Diese Kreuze werden für eine Publikation in Buchstaben “übersetzt“, wenn z.B. Mittelwerte in einer Tabelle oder in Diagrammen dargestellt werden. Bsp.: 1 2 3 Mittelwertunterschiede: 1 1 a 2 x 2 b 3 x 3 b 1 2 3 4 Mittelwertunterschiede: 1 1 a 2 2 a 3 x x 3 b 4 x x x 4 c 1 2 3 4 Mittelwertunterschiede: 1 1 a 2 x 2 b 3 x 3 b 4 x 4 b 1 2 3 4 Mittelwertunterschiede: 1 1 abc 2 2 a 3 x 3 b 4 x x 4 c 1 2 3 4 Mittelwertunterschiede: 1 1 a 2 x 2 b 3 x 3 a 4 x 4 a

42

7.4 Zweifache Varianzanalyse Die mehrfaktorielle Anova testet Gruppenmittelwerte, die von mehreren Fakto-ren beeinflußt werden, z.B. durch die verschiedenen Stufen zweier verschiede-ner Behandlungen. Eine typische Fragestellung könnte lauten: Unterscheiden sich die Stickstoff-Konzentrationen von 0-, 1-, 2- und 6-jährigen Nadeln, die in drei verschiedenen Kronenpositionen wachsen? Bei der zweifachen Anova (Modell I, fixed model) werden die beiden Hauptfak-toren A und B (main effects) und die Wechselwirkung dieser beiden Faktoren A x B (inter-action) getestet. Es gilt das folgende mathematische Modell: ohne Wechselwirkungen: xijk = µ + αi + βj + εijk mit Wechselwirkungen: xijk = µ + αi + βj + αβij + εijk mit: xijk = beobachtete Meßwerte µ = Mittelwert aller Gruppen αi = einzelne Stufen des Behandlungseffektes/unabh. Faktors A βj = einzelne Stufen des Behandlungseffektes/unabh. Faktors B αβij = Interaktionen der beiden Behandlungseffekte A und B εij = Versuchsfehler (zufällig) Streuungszerlegung ohne Wechselwirkungen: SST = SSA + SSB + SSR mit Wechselwirkungen: SST = SSA + SSB + SSI + SSR mit: SSA = Quadratsumme bedingt durch Hauptfaktor A SSB = Quadratsumme bedingt durch Hauptfaktor B SSR = Versuchsfehler (residual, error) SSI = Quadratsumme bedingt durch Interaktionen A x B SST = Gesamtvarianz Wechselwirkungen (interactions) Zwei voneinander unabhängige Faktoren, z.B. Licht und N-Ernährung, beein-flussen die Photosyntheseraten von Bäumen. Die relativen Effekte der beiden Faktoren Licht und N können gleichgerichtet, aber unterschiedlich groß sein

43

(Abb. 14). Faktoren könnten auch entgegengesetzt wirken, wie z.B. Licht und Länge der Trockenzeit auf das Pflanzenwachstum (Abb. 15). In beiden Fällen sind die Summen der einzelnen Wirkungen nicht gleich dem kombinierten Effekt, d.h., es treten signifikante Interaktionen auf. Wenn dies der Fall ist, dann sind die Ergebnisse der Varianzanalyse für die einzelnen Hauptfaktoren zu ignorieren, und die Daten können in Hinblick auf einzelne Faktoren nicht vereinfacht werden, sondern müssen als Behandlungskombinationen diskutiert werden! Um mit Post hoc-Tests herauszufinden, ob sich verschiedene Be-handlungskombinationen unterscheiden, können nur Indexzahlen eingesetzt werden. Werden die Daten für die einzelnen Hauptfaktoren graphisch dargestellt, kön-nen Interaktionen leicht erkannt werden: Steigungen sind unterschiedlich (Abb. 14) oder entgegengesetzt oder Geraden kreuzen sich (Abb. 15). Abb. 14: Wechselwirkung Abb. 15: Wechselwirkung Tabelle zur zweifachen Varianzanalyse (bei gleicher Gruppenbesetzung)

Source of variation Sum of Squares d.f. Mean Squares F-ratio

factor A (Beh. A) SSA a - 1 MSA MSAMSR

factor B (Beh. B) SSB b - 1 MSB MSBMSR

interaction (A X B) SSI (a - 1) (b - 1) MSI MSIMSR

error SSR a b (n -1) MSR

total SST a b n -1

Bestimmung der kritischen Werte: F(a-1; a b (n-1); α); F(b-1; a b (n-1); α); F((a-1) (b-1); a b (n-1); α)

N-Zugabe

PS-Rate

S

L

Licht

RGR

-H2O

+H2O

Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 2. Dezember 2004 1

5 Univariate und Bivariate Analysen

Das allerwichtigste bei der Analyse von Daten ist die grafische Darstellung der Daten in einergeeigneten Form. Man darf sich von der Statistik keine Zauberei erwarten, alles was die statis-tische Analyse bringen kann, sieht man mindestens qualitativ auch von blossem Auge, wenndie Daten entsprechend grafisch dargestellt werden. Hier einigewichtige Arten, univariate undbivariate Analysen durchzuführen.

5.1 P–P Plots (Probability Plots) und Q–Q Plots (Quantile–Quantile Plots)

Konzeptionell sind P–P Plots und Q–Q Plots verwandt: das eine ist die Umkehrung des anderen.Entsprechend verwirrlich ist dann die Benutzung in Statistikprogrammen.Bei den P–P Plots trägt man die gemessenen Daten als empirische Wahrscheinlichkeiten aufder y-Achse auf, während auf der x-Achse die theoretischenWahrscheinlichkeiten einer Vertei-lung aufgetragen werden. Typischerweise ist das die Normalverteilung, kann aber jede andereVerteilung sein, gegen die man die eigenen Daten testen möchte. Hier liegen aber wichtigeUnterschiede in den Statistikprogrammen: R geht davon aus, dass man sich eine theoretischeVerteilung selber generiert (es gibt dazu Funktionen), während SPSS eine Auswahl von theore-tischen Funktionen als Option verwendet.

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

● ●

●

●●

●

●

●●●

● ●●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−2 −1 0 1 2

1020

3040

5060

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Abbildung 1: Beispiel eines Q–Q Plots mit Niederschlagsdaten.

R: qqnorm() trägt die Datenpunkt gegen die theoretische Normaverteilung auf, qqline()zeichnet eine Gerade, die durch das 1. und 3. Quantil führt.

SPSS: PPLOT, wobeimit /DISTRIBUTION= eine Verteilung gewählt werden kann (NORMAL,EXPONENTIAL,WEIBUL, PARETO, LNORMAL, BETA, GAMMA, LOGISTIC, LAPLACE, UNIFORM,HNOR-MAL, CHI, STUDENT), wobei je nach Verteilung zusätzlich die Parameter der Verteilung spezi-fizert werden können oder müssen. Standardmässig wird ein Q–Q Plot erzeugt, für einen P–PPlot muss man /TYPE=P-P angeben.


6 Multivariate Verfahren

Visuell kann man zweidimensionale Grafiken am besten erfassen, deshalb verwendet manauch beimultivariater Analyse sehr häufig paarweise Vergleiche vonVariablen. Einige nützlicheHilfsmittel, um rasch einen Überblick über die Daten zu gewinnen, sind die Scatterplot-Matrixund die Coplots.

6.1 Scatterplot-Matrix

Eigentlich könnte man sich auch eine Korrelationsmatrix zwischen allen Variabeln rechnen.Wennman gleiche grafisch versucht, siehtman nicht nur die Stärke des Zusammenhangs (Kor-relationskoeffizient), sondern auch die Art. Sehr nützlich ist dies, wenn man noch nicht weiss,ob die Beziehung zwischen den Variabeln überhaupt linear ist oder nicht.

Girth

65 70 75 80 85

●●●

● ● ●● ● ●● ●●●● ●

● ●●

●● ● ●●

● ●

● ●●●●

●

810

1214

1618

20

●●●

● ●●● ● ●● ●●●●●

● ●●

●● ●● ●

● ●

●●●●●

●

6570

7580

85

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●●

●●●

●

Height●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●●

●●●

●

8 10 12 14 16 18 20

●●●

●●●

●●

●●

●●●●

●●

●

●●●

●●

●●

●

●●●

●●

●

●●●

●● ●

●●

●●

●●●●

●●

●

●●●

●●

●●

●

● ●●

●●

●

10 20 30 40 50 60 70

1030

5070

Volume

Abbildung 2: Beispiel einer Scatterplot-Matrix mit Messungen des Umfangs, der Höhe und des Holzvolumens von31 Bäumen.

R: pairs()

SPSS: GRAPH, mit der Option /SCATTERPLOT(MATRIX)

Um eine Korrelationstabelle mit den Korrelationskoeffizienten zu erzeugen:

R: cor() erzeugt die Matrix mit Zahlen, symnum(cor()) erzeugt eine Matrix mit Zeichen,die die Signifikanzniveaus anzeigen.

SPSS: CORRELATIONSproduziert eine etwas reichhaltigere Matrix mit Korrelationskoeffizi-enten, Signifikanzniveau (zweiseitig) und Signifikanzsymbolen.


6.2 Coplots

Dabei handelt es sich um eine Menge von gleichartigen bivariaten Darstellung, für welche diebeiden Variablen anhand einer dritten oder einer dritten und vierten Variable in gleichgrosseGruppen aufgeteilt werden. Dies ist sehr nützlich, da in vielen Fragestellungen die Hauptbe-ziehungen zwischen abhängiger Variable und einer unabhängigen recht klar sind, aber es istunklar, wie weitere Variablen diese Beziehung beeinflussen.

●●

● ●●

●●

●

●

●

●●

●●

●●

●

●

●

●

●

●

●●

● ●

●●

●

●

●

●

●

●● ●

●●

●●

●●

●●

●

●● ●

● ●●

●

●

●

●

●

● ●

● ●

●●

●

●

●

●

●●

● ● ● ●

●●

●●

●

●

●

●

●

●

●

●

●●

●●

●●

●●

●●

●

●●

●●

●●

● ● ●● ● ●

● ●●

●●

●●

● ●●

● ●

●●

●

●

●

●

●● ● ● ●

●

●●

●●

●

●

●

●

●

●●

●

●● ●

● ● ● ● ● ●●

● ●

●●

●

●

●

●

●

●

●

●●

●

●●

●● ● ● ● ●

● ● ● ●●

● ●●

●●

●●

●● ●

●●

●●

● ●● ●

●● ●

●●

●

●●

●●

●●

● ●●

● ●●

●●

● ●

5015

025

035

0

●●

●

●

●

●

●

●

●

●●

●

●●

●●

● ●● ●

●

●

● ●

●●

●●

●●

●●

●

●● ●

●●

●

●● ● ● ● ● ● ● ●

●●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●●

●

●●

●

●●

●

●

●●

●●

●

●

●

●

●●

●

● ●

●

●●

●

●●

●

●

●

●

●

●

●

●●

●●

●●

●●

●●

●●

0 5 10 15 20

●●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●●

●●

●

●

●●

● ●●

●

●●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

● ● ●

●●

●●

● ●

●●

●

●●

●

●●

●●

●●

●

●

●

●

●●

●●

●

●●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

0 5 10 15 20

●●

●

●

●

●

● ●

●●

● ●

●●

●

●

●

●

●●

●

●

●●

●●

●

●

●

●

● ●● ● ● ●

●●

●

●

●

●●

●● ●

●●

●

●

●

●

●●

●

●

● ●

●●

●

●

●

●

●●

●

●

●●

●●

●●

●

●

●●

●

●

● ●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

● ●

●●

●

●

●

●

●

●

●

●

● ●

5015

025

035

0

Time

wei

ght

1

2

3

4

Given : Diet

Abbildung 3: Beispiel eines Coplots mit Messungen, die an 50 Hühnern durchgeführt wurden (Variablen: Zeit, Ge-wicht, Fütterungsart). Die einzelnen Grafiken sind zeilenweise von unten links nach oben rechts angeordnet.

R: coplot() . Es können eine (siehe Beispiel in Abb. 3) oder zwei zusätzliche Variable füreinen Coplot verwendet werden.

SPSS: diese Darstellungsart scheint nicht vorgesehen zu sein.Manmüsste also die Datenma-nuell gruppieren und einzelne Scatterplots erstellen.


6.3 Hauptkomponentenanalyse: PCA, EOF

Begriffe: PCA = Principal Component Analysis; EOF = empirical orthogonal functionDiese Begriffe bezeichnen dasselbe. Das Ziel einer Hauptkomponentenanalyse ist es, einen Da-tensatz mit einer Vielzahl von Variabeln durch (hoffentlich viel weniger) neue Variabeln zu be-schreiben, die einen möglichst grossen Anteil der vorhandenen Varianz erklären.

R: princomp() , mit der Angabe cor=FALSE wird eine Kovarianz-Matrix ausgegeben (d.h.nicht standardisierte Resultate), mit der Angabe cor=TRUE wird eine Korrelations-Matrix aus-gegeben (d.h. standardisierte Resultate). Default ist Kovarianz-Matrix.

SPSS: FACTOR, mit der Angabe /METHOD = COVARIANCEwird eine Kovarianz-Matrix aus-gegeben (d.h. nicht standardisierte Resultate), mit der Angabe /METHOD=CORRELATIONwirdeine Korrelations-Matrix ausgegeben (d.h. standardisierte Resultate). Default ist Korrelations-Matrix.

Tabelle 1: Beispiel: PCA mit täglichen Messungen von Niederschlag (ppt), Maximum (Tmax) und Minimum-Temperatur (Tmin) an zwei Standorten (Ithaca und Canandaigua).

PCA1 PCA2 PCA3 PCA4 PCA5 PCA6a. Kovarianz-Matrix

Ithaca.ppt 0.818 0.575Ithaca.Tmax 0.359 –0.628 0.182 –0.665Ithaca.Tmin 0.717 0.527 0.456Canandaigua.ppt 0.574 –0.818Canandaigua.Tmax 0.381 –0.557 0.737Canandaigua.Tmin 0.459 0.131 –0.871 –0.115

Kumulative Varianz, % 87.8 97.4 99.4 99.9 100.0 100.0

b. Korrelations-MatrixIthaca.ppt –0.142 0.677 –0.149 –0.219 0.668Ithaca.Tmax –0.475 –0.203 –0.557 0.587 0.265Ithaca.Tmin –0.495 0.526 0.688Canandaigua.ppt –0.144 0.670 –0.245 0.164 –0.658Canandaigua.Tmax –0.486 –0.220 –0.374 –0.737 –0.171Canandaigua.Tmin –0.502 0.458 –0.695 0.192 –0.135

Kumulative Varianz, % 58.9 92.0 97.7 98.9 99.5 100.0

−4 −2 0 2 4

−1

01

23

4

Comp.1

Com

p.2

1

2

3

456

7

89

10

11

1213

14

1516

17

1819

20

2122

23

24

25

2627

28293031

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

Ithaca.ppt

Ithaca.Tmax

Ithaca.Tmin

Canandaigua.ppt

Canandaigua.Tmax

Canandaigua.Tmin

−4 −2 0 2 4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

Comp.2

Com

p.3

1

2

3

4

5

6

7

8

9

10

11

12

13

14

1516

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

−1.0 −0.5 0.0 0.5 1.0

−0.

4−

0.2

0.0

0.2

0.4

Ithaca.ppt

Ithaca.Tmax

Ithaca.Tmin

Canandaigua.ppt

Canandaigua.Tmax

Canandaigua.Tmin

Abbildung 4: Grafische Darstellung der standardisierten PCA 1 und 2 (links) und PCA 2 und 3 (rechts).


6.4 Clusterverfahren

Mit einer Clusteranalyse versucht man, aufgrund objektiver, statistischer Kriterien die Beob-achtungen einesDatensatzes inGruppen zu klassieren, von denenman keine vorgängige Kennt-nis hat, wie sie sich zusammensetzen. Genau genommen ist auch unbekannt, wieviele Grup-pen überhaupt existieren.Um dies zu erreichen, muss man ein Distanzmass bestimmen, das verwendet werden soll, umGruppen zu bilden.

R: hclust() , hierarchical cluster analysis. Verfügbar nach library(mva) .

SPSS: CLUSTER

Rum

ex a

lpes

tris

Jac

q.E

pilo

bium

pal

ustr

e L.

Car

ex v

esic

aria

L.

Gal

ium

alb

um M

ill.

Med

icag

o lu

pulin

a L.

Leuc

anth

emum

vul

gare

Lam

.B

rom

us in

erm

is L

eyss

.U

rtic

a di

oica

L.

Ver

onic

a fil

iform

is S

m.

Mat

ricar

ia d

isco

idea

DC

.F

estu

ca a

rund

inac

ea S

chre

b.C

ardu

us d

eflo

ratu

s L.

Agr

opyr

on r

epen

s (L

.) P

. Bea

uv.

Car

dam

ine

udic

ola

Jord

.C

arex

hos

tiana

DC

.G

lyce

ria n

otat

a C

heva

ll.B

arba

rea

inte

rmed

ia B

orea

uJu

ncus

alp

inoa

rtic

ulat

us C

haix

Car

ex e

lata

All.

Sal

ix a

ppen

dicu

lata

Vill

.O

rchi

s m

ascu

la (

L.)

L.C

apse

lla b

ursa

−pa

stor

is (

L.)

Med

ik.

Equ

iset

um a

rven

se L

.V

eron

ica

becc

abun

ga L

.P

oa a

lpin

a L.

Her

acle

um s

phon

dyliu

m L

.P

rune

lla v

ulga

ris L

.C

rocu

s al

biflo

rus

Kit.

Ver

onic

a pe

rsic

a P

oir.

Gle

chom

a he

dera

cea

L.R

hina

nthu

s al

ecto

rolo

phus

(S

cop.

) P

ollic

hC

enta

urea

jace

a L.

Pla

ntag

o m

edia

L.

Tra

gopo

gon

orie

ntal

is L

.P

rimul

a el

atio

r (L

.) L

.C

olch

icum

aut

umna

le L

.Li

num

cat

hart

icum

L.

Cre

pis

bien

nis

L.Li

ster

a ov

ata

(L.)

R. B

r.G

ymna

deni

a co

nope

a (L

.) R

. Br.

Tro

llius

eur

opae

us L

.C

arex

pal

lesc

ens

L.D

acty

lorh

iza

maj

alis

(R

chb.

) P

. F. H

unt &

Sum

mer

h.E

quis

etum

fluv

iatil

e L.

Val

eria

na r

epen

s H

ost

Men

tha

aqua

tica

L.E

pipa

ctis

pal

ustr

is (

L.)

Cra

ntz

Briz

a m

edia

L.

Ran

uncu

lus

acon

itifo

lius

L.C

repi

s pa

ludo

sa (

L.)

Moe

nch

Nas

turt

ium

offi

cina

le R

. Br.

Val

eria

na d

ioic

a L.

Erio

phor

um a

ngus

tifol

ium

Hon

ck.

Lath

yrus

pra

tens

is L

.E

quis

etum

pal

ustr

e L.

Ped

icul

aris

pal

ustr

is L

.D

acty

lorh

iza

inca

rnat

a (L

.) S

oóA

ngel

ica

silv

estr

is L

.T

arax

acum

pal

ustr

e (L

yons

) S

ymon

sE

uphr

asia

mon

tana

Jor

d.C

arex

lepo

rina

L.P

oa p

alus

tris

L.

Car

ex fl

ava

L.T

rifol

ium

hyb

ridum

L.

Car

ex p

anic

ea L

.A

rrhe

nath

erum

ela

tius

(L.)

J. &

C. P

resl

Car

um c

arvi

L.

Des

cham

psia

cae

spito

sa (

L.)

P. B

eauv

.Lo

tus

corn

icul

atus

L.

Hel

icto

tric

hon

pube

scen

s (H

uds.

) P

ilg.

Car

dam

ine

prat

ensi

s L.

Bel

lis p

eren

nis

L.D

aucu

s ca

rota

L.

Pla

ntag

o la

nceo

lata

L.

Ach

illea

mill

efol

ium

L.

Fes

tuca

pra

tens

is H

uds.

Leon

todo

n au

tum

nalis

L.

Ver

onic

a ch

amae

drys

L.

Ver

onic

a se

rpyl

lifol

ia L

.C

eras

tium

hol

oste

oide

s F

r.V

eron

ica

arve

nsis

L.

Epi

lobi

um p

arvi

floru

m S

chre

b.S

tella

ria g

ram

inea

L.

Alc

hem

illa

xant

hoch

lora

Rot

hm.

Poa

ann

ua L

.Lo

lium

mul

tiflo

rum

Lam

.M

yoso

tis s

corp

ioid

es L

.R

umex

ace

tosa

L.

Cirs

ium

pal

ustr

e (L

.) S

cop.

Aju

ga r

epta

ns L

.Lu

zula

sud

etic

a (W

illd.

) S

chul

t.A

gros

tis g

igan

tea

Rot

hP

lant

ago

maj

or L

.M

enth

a lo

ngifo

lia (

L.)

Hud

s.Ju

ncus

infle

xus

L.C

arex

hirt

a L.

Loliu

m p

eren

ne L

.R

umex

obt

usifo

lius

L.T

rifol

ium

rep

ens

L.P

hleu

m p

rate

nse

L.P

oa tr

ivia

lis L

.R

anun

culu

s ac

ris L

. sub

sp. f

riesi

anus

(Jo

rd.)

Sym

eP

oa p

rate

nsis

L.

Cyn

osur

us c

rista

tus

L.F

estu

ca r

ubra

L.

Dac

tylis

glo

mer

ata

L.A

gros

tis s

tolo

nife

ra L

.B

rom

us h

orde

aceu

s L.

Tar

axac

um o

ffici

nale

agg

r.R

anun

culu

s fic

aria

L.

Ste

llaria

med

ia (

L.)

Vill

.C

arex

can

esce

ns L

.S

ilene

flos

−cu

culi

(L.)

Cla

irv.

Trif

oliu

m p

rate

nse

L.F

ilipe

ndul

a ul

mar

ia (

L.)

Max

im.

Rhi

nant

hus

min

or L

.C

irsiu

m o

lera

ceum

(L.

) S

cop.

Cha

erop

hyllu

m h

irsut

um L

.G

eum

riv

ale

L.G

aliu

m p

alus

tre

L.C

arex

dav

allia

na S

m.

Mol

inia

coe

rule

a (L

.) M

oenc

hH

olcu

s la

natu

s L.

Car

ex r

ostr

ata

Sto

kes

Pot

entil

la e

rect

a (L

.) R

aeus

ch.

Lotu

s pe

dunc

ulat

us C

av.

Car

ex e

chin

ata

Mur

ray

Pol

ygon

um b

isto

rta

L.Ju

ncus

effu

sus

L.A

gros

tis c

apill

aris

L.

Sci

rpus

silv

atic

us L

.C

alth

a pa

lust

ris L

.C

arex

app

ropi

nqua

ta S

chum

ach.

Car

ex n

igra

(L.

) R

eich

ard

Ant

hoxa

nthu

m o

dora

tum

L.

010

020

030

040

050

0

Pflanzenarten Seebodenalp

hclust (*, "ward")dist(sba[, 4:74])

Hei

ght

Abbildung 5: Beispiel der Clusterbildung der Vegetationsaufnahmen von Fabian Reutlinger auf der Seebodenalp.Abundanzschätzwerte 0wurdenmit 0.5 ersetzt, leere Zellenmit 0, damit eine Clusteranalyse durchgeführt werdenkonnte.


7 Zeitreihenstatistik

Die Zeit ist eine spezielle Variable in der Statistik und in der reellen Welt generell. Die Zeit istnicht umkehrbar, sie ist nicht zufällig, und sie ist nicht kontrollierbar.Aus diesen Gründen sind viele Methoden, die aus der univariaten und bivariaten Statistik be-kannt sind und sich mit zufälligen Stichproben befassen nicht ohne weiteres übertragbar aufPhänomene, in denen die Zeit eine Rolle spielt.

36.5

37.0

37.5

38.0

Hour of Day

Bod

y T

empe

ratu

re [d

egC

]

9:00 12:00 15:00 18:00 21:00 00:00 03:00

●

●

●

●

● ● ●

●

●

●

●

●

●

● ●●

● ●

●

●

●●

● ●

● ● ● ●●

● ●

●

● ●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●● ●

●

●

●

● ● ●

●● ●

● ●

●

●

●

●

●

● ●

●

●

●●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

● ●

● ●●

●

●●

●

●

Beaver #1Beaver #2

Abbildung 6: Beispiel einer Zeitreihe der gemessenen Körpertemperatur (alsMass für die Aktivität) von zwei Bibern.Die Messungen wurden regelmässig in 10-Minuten-Abständen vorgenommen.

Am häufigsten beobachtet man in Zeitreihen das Phänomen der Autokorrelation oder Auto-regression. Das hiesst: ein Messpunkt, der zur Zeit t + ∆t erfasst wurde, ist nicht völlig un-abhängig vom Messpunkt der kurz vorher, nämlich zur Zeit t, gemessen wurde. Beispiel: dieTemperatur um 11:00 Uhr ist nicht zufällig verschieden von der Temperatur um 10:00 Uhr. Manspricht hier von einem AR(1)-Prozess (auto-regressiver Prozess erster Ordnung). Die Autokorre-lationsfunktion (ACF) zeigt an, wie gross dieser Zusammenhang bei welchem Zeitunterschied(engl. „lag“) ist. Siehe Abb. 7.Die Autokorrelationsfunktion einer Zeitreihe ist also nichts anderes als die Korrelation mit sichselber bei zunehmendem (oder abnehmendem) Lag. Der Zusammenhang zwischen zwei Zeitrei-hen nennt sich Kreuzkorrelationsfunktion (CCF). Siehe Abb. 8.

R: acf() (auto-correlation function) bzw. ccf() (cross-correlation function). Mit ts() wirdein Zeitreihenobjekt erzeugt.

SPSS: ACFauto-correlation function) bzw. CCF(cross-correlation function). Beide Befehle er-zeugen auch eine Grafik. Die Funktion AREGerzeugt hingegen nur Text-Output.


0 5 10 15 20

−0.

20.

00.

20.

40.

60.

81.

0

Lag in 10−minute steps

AC

F

Beaver Body Temperature

●

●

●

●

●

●

●●

●●

●● ●

●

●

●

●

●

●

●

●

●

Beaver #1Beaver #2

Abbildung 7: Die Autokorrelationsfunktionen beider Zeitreihen aus Abb. 6. Die horizontalen gestrichelten Linienzeigen das Konfidenzintervall für weisses Rauschen.

−15 −10 −5 0 5 10 15

−0.

20.

00.

20.

40.

60.

81.

0

Lag in 10−minute steps

AC

F

Lag in Activity of Beaver #1

Beaver #1 later than Beaver #2Beaver #1 earlier than Beaver #2

Abbildung 8: Kreuzkorrelationsfunktion der Zeitreihen aus Abb. 6. Hier musste ein Zeitfenster gewählt werden, wovon beiden Bibern Messungen vorliegen.

Versuchsplanung und Statistik WS 2004/2005PD Dr. Werner Eugster, 28. Januar 2005 1

8 Grafiken in R fertigstellen

8.1 Grafik in druckfähigem Format produzieren

Druckfähige Grafiken sind entweder im PostScript (eine Variante davon ist das EncapsulatedPostScript oder EPS) oder als PDF (Portable Document Format) zu erstellen. Andere Formate(z.B. JPEG, TIFF, GIF) sind Raster-Daten-Formate, die nur eine beschränkte Qualität erlauben unddeshalb meist nicht Druckqualität aufweisen.Grafiken von R sind nicht „WYSIWYG“. Das heisst, zuerst erzeugt man am Bildschirm eine Gra-fik, die alle Komponenten (Objekte) enthält, die drauf sein müssen. Erst dann beginnt manmitder Kosmetik beim Erstellen einer druckfähigen Grafikdatei.

PDF-Datei erzeugen

Hatman alle Befehle für die Grafik beisammen (d.h., am Bildschirm erscheinen alle Komponen-ten bzw. Objekte), wechselt man von der Bildschirmdarstellung in eine PDF-Datei. Diese öffnetmanmit dem Befehlpdf("dateiname.pdf")

Dann führt man alle Grafikbefehle aus und schliesst die Datei mit dem Befehldev.off()

Mit dem Acrobat Reader kannman sich diese Datei nun ansehen und entscheiden, was verbes-sert werden muss.Ein Beispiel: die PDF-Datei soll einem A4-Blatt im Hochformat entsprechen und als Schrift sollHelvetica mit der Schriftgrösse 20 Punkt verwendet werden. Dies erreicht manmit der Angabezusätzlicher Optionen beim Öffnen der PDF-Datei:pdf("dateiname.pdf", width=8.27, height=11.65, family="Helvetica", pointsize=20)

PostScript bzw. EPS erzeugen

Hier gibt es zwei Varianten: (1) hat man eine brauchbare Grafik am Bildschirm kann man diesemit dem Befehl dev.copy2eps() als EPS abspeichern; (2) man benützt zu Beginn den Be-fehl postscript() , führt dann alle Grafikbefehle aus, und schliesst die Datei mit dem Befehldev.off() (analog zu PDF, siehe oben).Ein Beispiel: Die PostScript-Datei soll einem A4-Querformat-Papier entsprechen, einen orange-farbenen Hintergrund haben, die Schrift Palatino verwenden und blaue statt schwarze Stan-dardfarbe verwenden:postscript("dateiname.ps", paper="a4", horizontal=TRUE,

family="Palatino", bg="orange", fg="blue")


Grafik verbessern

Der häufigsten Befehl zum Darstellen von Daten sind: plot() , hist() (für Histogramm),coplot() , boxplot() . Am Beispiel von plot() wird klar, wie man in die Darstellung derDaten eingreifen kann.Es gibt zwei Sachen zu beachten: (1)mögliche Argumente vonplot() findetman viahelp(plot)heraus; (2) weitere Einstellungen werden als Grafikparameter mit dem Befehl par() gesetzt.Der Grafiktyp wird in plot() mit dem Argument ty= angegeben: ty="l" für Liniengrafik,ty="p" für Punktgrafik, ty="b" oder ty="o" für kombinierte Punkt-/Liniengrafik, ty="s"bzw. ty="S" für Treppenstufen-Grafik, ty="h" für histogramm-artige Darstellung (bei Nie-derschlagsdaten üblich).Die Linienart und -stärkewird in plot() mit lty= (line type) bzw. mit lwd= (line width). Mangibt Zahlen, wobei Typ 1 einer ausgezogenen Linie entspricht und die Stärke 1 einer dünnenLinie.Die Farbe gibt man in plot() mit col= an, wobei entweder Farbnamen in Gänsefüsschen,oder ganze Zahlen von 1 bis n verwendet werden können. Einen Überblick über die gültigenFarbnamen erhält man mit example(colors) ; nach diesem Aufruf enthält das Objekt clalle vordefinierten 657 Farbnamen.Die Symbolewerden in plot() durch das Argument pch= bestimmt. Die brauchbaren Zahlenund Zeichen dafür erfährt manmit example(points) .Zwei Grafiken überlagern kann man mit dem Befehl par(new=TRUE) , den man zwischenzwei Grafikbefehlen einfügt.Mehrere Grafiken auf einer Seite: hier gibt es drei Varianten, die aber untereinander nicht kom-binierbar sind. (1)mit demBefehl par(mfrow=c(3,2)) definiertman drei Zeilenmit zwei Ko-lonnen, so dass die nächsten 6Grafiken auf einer Seite angeordnetwerden. (2) split.screen()bietet die Möglichkeit, gezielt eine Teilgrafik anzusteuern. (3) layout() bietet die meistenMöglichkeiten, auch unterschiedliche Grössen der Teilgrafiken, ist aber auch die kompliziertes-te Art der Darstellung.

Beschriften der Achsen

Innerhalb des Befehls plot() kannman den Titel der x- und y-Achsen durch die Option xlab=bzw. ylab= (oder beides) angeben.Beispiel:plot(x, y, xlab="x-Achse") .

Titel über die Grafik setzen

Dies geschiehtmit derOptionmain="Grafiktitel" innerhalb des Zeichenbefehls (z.B.plot() .Schauen Sie aber auch die Hilfe zum vielseitigeren Befehl title() an!


Legenden

Legenden sind sehr vielseitig, leider gibt es aber keine schnell-und-hässlich Variante in R. Hierein Beispiel, wie man in einen existierenden Plot eine Legende hineinzeichnet:legend(0, 0, legend=c("erste Kurve", "zweite Kurve"),

col=c("red", "blue"), lty=c(1,2), pch=c(20,2))

wobei die ersten beiden Zahlen die x- und y-Koordinaten der aktuellen Grafik sind. Eine Legen-de, die ausserhalb des Grafikbereichs gezeichnet wird, ist nicht sichtbar.

Weitere Texte einfügen

Ähnlich wie bei der Legende kannmit dem Befehl text() ein beliebiger Text irgendwo auf derGrafik platziert werden.Beispiel:text(0, 0, labels="(c) 2005 by ETHZ")

8.2 Mathematisch formatierter Text und griechische Symbole

Mathematische Sonderzeichenund Symbole stehen zur Verfügung,wennman eineexpression()verwendet.Beispiel:xlab=expression("Ertrag kg m"^{-2})

Wenns komplizierter wird, muss man die Elemente entweder mit * verknüpfen innerhalb vonexpression() , oder mit dem Befehl paste() zusammenhängen.Beispiele:xlab=expression("Ertrag kg m"^{-2}*" pro Jahr")ylab=expression(paste(alpha, " und ", mu[infinity])))

Schauen Sie sich folgendes an:demo(plotmath)

8.3 Mehrere Grafiken auf einer Seite platzieren

Zwischen verschiedenen Grafikbefehlen kann man den Befehlpar(new=TRUE)

einfügen, um das Löschen der bisherigen Grafik zu verhindern. Dies ist allerdings nicht nötigbei Befehlenwie abline() , lines , points , title , legend usw., die gar keine eigeneGrafikerzeugen wollen.In den meisten Fällen muss man selber sicherstellen, dass der dargestellte Bereich der sichüberlappenden Grafiken übereinstimmt (also keine automatische Skalierung vorgenommenwird). Das geschiehtmit der Option xlim=range() , wobei innerhalb von range() entwedereine Variable angegeben wird oder ein fixer Minimum- undMaximum-Wert.Bespiel für eine x-Achse von 0 bis 360:xlim=range(0,360)

Entsprechend verwendet man ylim= für die y-Achse. Natürlich müssen dann diese Optionenin allen Grafiken mit angegeben werden.

3 varianzanalyse:anova - eth zhomepage.usys.ethz.ch/eugsterw/lectures/ethz/beilagen-ws2004.pdf ·...

Documents