vorlesung: 18.11.2003 anova ii. warum sollte man eine anova überhaupt durchführen? ein vergleich...

Vorlesung: 18.11.2003

ANOVA II

• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test

- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich

• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:

1. Beispiel: Kandidatengene

2. Beispiel: Normalisierung von Microarray Daten

Übersicht

Angenommen, wir wollen untersuchen, ob

A man bei Rauchern tendenziell ein anderes Level von Protein x mißt als bei NichtrauchernB Raucher ein signifikant höheres Level von Protein x haben als Nichtraucher

Messungen 1 79,98 80,022 80,04 79,943 80,02 79,984 80,04 79,975 80,03 79,976 80,03 80,037 80,04 79,958 79,97 79,979 80,05

10 80,0311 80,0212 80,0013 80,02

M ean 80,02 79,98S T D 0,0240 0,0314

Gedankenexperiment 1: Raucher und Nichtraucher

Angenommen, wir wollen untersuchen, ob

4 verschiedene Laboratorien bei der Messung des Cholesterinspiegels von Patienten dieselben Ergebnisse liefern

1 2 3 4

Messungen4,13 3,86 4,00 3,884,07 3,85 4,02 3,884,04 4,08 4,01 3,914,07 4,11 4,01 3,954,07 4,08 4,04 3,924,05 4,01 3,99 3,974,04 4,02 4,03 3,924,02 4,11 3,97 3,904,06 3,97 3,98 3,904,10 3,95 3,984,044,08

4,06 4,00 4,00 3,910,0300 0,0959 0,0231 0,0300

MittelwertSTD

Gedankenexperiment 2: 4 Laboratorien

12

34

Gibt es einen Unterschied?zwischen

Rauchern/Nichtrauchern 4 Laboratorien

Fragestellung

Raucher und Nichtraucher: Zusammenfassung der Daten

Median: 80.03 versus 79.97

25/75% Quantil

Min/ Max

Was sehen wir?

• Tendenziell höhere Wert bei Rauchern

• hohe Varianz

• Es gibt durchaus Nichtraucher, die einen höheren Wert haben als einige Raucher

Sind die Unterschiede signifikant?

Raucher und Nichtraucher: Zusammenfassung der Daten

1 2 3 4

Was sehen wir?

• Tendenziell unterschiedliche Resultate

• hohe Varianz

• Labor 2, 3: fast gleiches Mittel, unterschiedliche Varianz

Sind die Unterschiede signifikant?

4 Laboratorien: Zusammenfassung der Daten

x

T-Test oder ANOVA?

T-test:Angenommen, wir haben zwei Proben.Die erste Probe X1, ..., Xn umfaßt n Stichproben, die aus einer Normalverteilung mit Erwartungswert X und Varianz 2 gezogen wurden; die zweite Probe Y1, ..., Ym umfaßt m Stichproben, die aus einer Normalverteilung mit Erwartungswert Y und Varianz 2 gezogen wurden.

Wenn man nun Differenzen zwischen den beiden Gruppen betrachten möchte ist das intuitive Maß die Differenz der Mittelwerte:

X - Y

Tatsächlich ist die Differenz normalverteilter Zufallsvariablen wieder normalverteilt, d.h. in diesem Fall mit Erwartungswert X - Y und Varianz 2 (1/n+1/m).

Definition: „pooled sample variance“

Satz:Angenommen, X1, ..., Xn sind n unabhängig normalverteilte Zufallsvariablen mit Erwartungswert X und Varianz 2 . Ebenso seien Y1, ..., Ym m unabhängige normalverteilte Zufallsvariablen mit Erwartungswert Y und Varianz 2 . Außerdem sind die Xi unabhängig von den Yj für alle i,j. Dann folgt die Statistik:

einer t-Verteilung mit m+n-2 Freiheitsgraden.

T-Test oder ANOVA?

2 22 ( 1) ( 1)

2X Y

p

n S m Ss

m n

( ( ) ( )) ( )

1/ 1/X Y

p

Mean X Mean Yt

s n m

Dichte einer t-Verteilung: t-Verteilung:

r=Freiheitsgrade

fr(t)= Fr(t)=

Was ist eine t-Verteilung?

Raucher und Nichtraucher: t-Test

Messungen ( ) 80.02

( ) 79.98

( ) 0.024

( ) 0.031

0.027

1/13 1/ 8 0.012

Raucher

Nichtraucher

R

NR

p

p

Mean X

Mean X

STD X

STD X

s

s

x

0 :

1:

2 :

3 :

R NR

R NR

R NR

R NR

H

H

H

H

Zweiseitiger Test

Einseitige Tests

( ( ) ( )) 80.02 79.983.3333

0.0121/ 1/R NR

p

Mean X Mean Xt

s n m


0 :

1:

2 :

3 :

R NR

R NR

R NR

R NR

H

H

H

H

t = 3.3333; Signifikanzlevel=0.05

2

2

2

1: ( / 2)

2 : ( )

3 : ( )

n m

n m

n m

H t t

H t t

H t t

P(H1) = 0.0033

P(H2) = 0.001656512

P(H3) = 0.9983435


x

Raucher und Nichtraucher: ANOVA

12

34

Nun haben wir aber mehr als zwei Probenreihen...

1

2

3

4

6 t- Tests

2 13 34 65 106 157 218 289 36

10 4511 5512 6613 7814 9115 10516 12017 13618 15319 17120 190

2

n n

4 Laboratorien: ein neues Problem

1 2 3 4

30,3066 194,3379 376,9584

0,4592 36,7911

272,3098

1

23

4

t

4 Laboratorien: t-Test

1 2 3 4

Laboratorien

0,0523 3,7153e-5 6,9624e-10

0,9748 0,0159

1,3707e-6

1

23

2 3 4

P-Wert

4 Laboratorien: ANOVA






Übersicht

… …

Drei Behandlungen:

Für welche Gene gibt es Unterschiede in den beiden Behandlungsmethoden?

Anwendung der ANOVA bei Microarray-Datenauswertungen


…

B e h a n d lu n g 1 B e h a n d lu n g 2 B e h a n d lu n g 3

S ta m m 1

S ta m m 2



B eh an d lu n g 1 B eh an d lu n g 2 B eh an d lu n g 3

S tam m 1 50 ,51 ,50 40 ,41 ,45 48 ,48 ,47 46 ,6

S tam m 2 50 ,52 ,53 41 ,42 ,41 49 ,48 ,50 47 ,3

51 ,0 41 ,6 48 ,3



Wir schauen uns erstmal nur ein Gen an

x

Patient: GrünKontrolle: Rot

Patient: RotKontrolle: Grün

Array 1 Array 2





ARRAY 1 oder 2 ?Variety: Patient oder Kontrolle ?

Farbstoff: Grün oder Rot ? Welches Gen ?

Intensität:14527

Farbstoff: Grün Farbstoff: Rot

Array 1

Array 2

Patient

Patient

Kontrolle

Kontrolle



- Dye Swap Setting- Latin Square Setting



Array

Variety

Dye=Farbstoff

Gen

2-Interaktionseffekte

3-Interaktionseffekte

ijkl

i j k l

ij ik il jk kl

ikj kjl ijl ikl

jl

Int

a v d g

av ad ag vd dg

adv dvg avg ad

v

g

g

+ ijkg



GesamtmittelADVG

AGDGVG

~~~~~~~~

ADVDVAVADADVGDVGAVGADG



Modell von G.Churchill/K.Kerr

Jede Messung in einem Micoarrayexperiment wird mit einer ganz speziellen Kombination der Parameter „Array“, „Dye (Farbstoff)“, „Variety(Probentyp)“, und „Gen“ assoziiert.

Angenommen,

y ijkg

Bezeichnet die Intensitätsmessung des g-ten Gens auf dem i-ten Array mit dem j-ten Farbstoff im k-ten Probentyp.




Dann kann man das folgende Modell einführen:

log(y ijkg) = + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg

Dabei ist der Gesamtmittelwert;

Ai bezeichnet den Arrayeffekt des i-ten Arrays;

Dj bezeichnet den Farbstoffeffekt des j-ten Farbstoffs;

Vk bezeichnet den k-ten Probentypeffekt;

Gg bezeichnet den Geneffekt des g-ten Gens;

(AG)ig bezeichnet den Interaktioneffekt von Array i und Gen g

und (VG)kg bezeichnet den Interaktionseffekt des k-ten Probentyps und des g-ten Gens.

ijkg ist ein N(0,) Fehlerterm.





Array 1

Array 2

Leber

Leber

Muskel

Muskel

Welche Gene sind in Leber und Muskel unterschiedlich exprimiert?





Array 1

Array 2

Leber

Leber

Muskel

Muskel

Array i=1,2

Dye j=1,2

Gewebe k=1,2

Gene g=1,...,n

Index Set: (i,j,k) { (1,1,1) , (1,2,2) , (2,1,2) , (2,2,1) }

d.h. jeder Clone Index (Gen) g=1,...,n erscheint genau einmal mit jeder Kombination (i,j,k)

log(y ijkg) = + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg




Quadrat der Summe der Residuen:

RSQ = ijkl (log(y ijkg) – ( + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg))2

Berechne die Parameter so, daß die Residuen möglichst klein sind.Dazu berechne die partiellen Ableitungen und setze diese gleich Null.

RSQ / (VG)kg =0




Array 1

Array 2

Leber

Leber

Muskel

Muskel

Leber

Muskel

(VG)k=1g‘ - (VG)k=2g‘ = 0.5 log( ) – 1/2n log( g )Y111g‘ y221g‘

Y122g‘ y212g‘

y111g y221g

y122g y212g

Konstant: ZentrierungLog-ratio des geometrischen Mittels der Beobachtungen für das Gen g‘ in den beiden Gruppen



(VG)k=1g‘ - (VG)k=2g‘

Die exponierten Differenzen

exp((VG)k=1g‘ - (VG)k=2g‘ )

können als Schätzer für „fold changes“ zwischen den beiden betrachteten Gruppen angesehen werden.



Mittel der Log-Produktintensität (Leber,Muskel)

(VG

) k=L

eber

g -

(V

G) k=

Mus

k el g

vorlesung: 18.11.2003 anova ii. warum sollte man eine anova überhaupt durchführen? ein vergleich...

Documents