vorlesung: 18.11.2003 anova ii. warum sollte man eine anova überhaupt durchführen? ein vergleich...
TRANSCRIPT
Vorlesung: 18.11.2003
ANOVA II
• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test
- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich
• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:
1. Beispiel: Kandidatengene
2. Beispiel: Normalisierung von Microarray Daten
Übersicht
• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test
- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich
• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:
1. Beispiel: Kandidatengene
2. Beispiel: Normalisierung von Microarray Daten
Übersicht
Angenommen, wir wollen untersuchen, ob
A man bei Rauchern tendenziell ein anderes Level von Protein x mißt als bei NichtrauchernB Raucher ein signifikant höheres Level von Protein x haben als Nichtraucher
Messungen 1 79,98 80,022 80,04 79,943 80,02 79,984 80,04 79,975 80,03 79,976 80,03 80,037 80,04 79,958 79,97 79,979 80,05
10 80,0311 80,0212 80,0013 80,02
M ean 80,02 79,98S T D 0,0240 0,0314
Gedankenexperiment 1: Raucher und Nichtraucher
Angenommen, wir wollen untersuchen, ob
4 verschiedene Laboratorien bei der Messung des Cholesterinspiegels von Patienten dieselben Ergebnisse liefern
1 2 3 4
Messungen4,13 3,86 4,00 3,884,07 3,85 4,02 3,884,04 4,08 4,01 3,914,07 4,11 4,01 3,954,07 4,08 4,04 3,924,05 4,01 3,99 3,974,04 4,02 4,03 3,924,02 4,11 3,97 3,904,06 3,97 3,98 3,904,10 3,95 3,984,044,08
4,06 4,00 4,00 3,910,0300 0,0959 0,0231 0,0300
MittelwertSTD
Gedankenexperiment 2: 4 Laboratorien
12
34
Gibt es einen Unterschied?zwischen
Rauchern/Nichtrauchern 4 Laboratorien
Fragestellung
Raucher und Nichtraucher: Zusammenfassung der Daten
Median: 80.03 versus 79.97
25/75% Quantil
Min/ Max
Was sehen wir?
• Tendenziell höhere Wert bei Rauchern
• hohe Varianz
• Es gibt durchaus Nichtraucher, die einen höheren Wert haben als einige Raucher
Sind die Unterschiede signifikant?
Raucher und Nichtraucher: Zusammenfassung der Daten
1 2 3 4
Was sehen wir?
• Tendenziell unterschiedliche Resultate
• hohe Varianz
• Labor 2, 3: fast gleiches Mittel, unterschiedliche Varianz
Sind die Unterschiede signifikant?
4 Laboratorien: Zusammenfassung der Daten
x
T-Test oder ANOVA?
T-test:Angenommen, wir haben zwei Proben.Die erste Probe X1, ..., Xn umfaßt n Stichproben, die aus einer Normalverteilung mit Erwartungswert X und Varianz 2 gezogen wurden; die zweite Probe Y1, ..., Ym umfaßt m Stichproben, die aus einer Normalverteilung mit Erwartungswert Y und Varianz 2 gezogen wurden.
Wenn man nun Differenzen zwischen den beiden Gruppen betrachten möchte ist das intuitive Maß die Differenz der Mittelwerte:
X - Y
Tatsächlich ist die Differenz normalverteilter Zufallsvariablen wieder normalverteilt, d.h. in diesem Fall mit Erwartungswert X - Y und Varianz 2 (1/n+1/m).
Definition: „pooled sample variance“
Satz:Angenommen, X1, ..., Xn sind n unabhängig normalverteilte Zufallsvariablen mit Erwartungswert X und Varianz 2 . Ebenso seien Y1, ..., Ym m unabhängige normalverteilte Zufallsvariablen mit Erwartungswert Y und Varianz 2 . Außerdem sind die Xi unabhängig von den Yj für alle i,j. Dann folgt die Statistik:
einer t-Verteilung mit m+n-2 Freiheitsgraden.
T-Test oder ANOVA?
2 22 ( 1) ( 1)
2X Y
p
n S m Ss
m n
( ( ) ( )) ( )
1/ 1/X Y
p
Mean X Mean Yt
s n m
Dichte einer t-Verteilung: t-Verteilung:
r=Freiheitsgrade
fr(t)= Fr(t)=
Was ist eine t-Verteilung?
Raucher und Nichtraucher: t-Test
Messungen ( ) 80.02
( ) 79.98
( ) 0.024
( ) 0.031
0.027
1/13 1/ 8 0.012
Raucher
Nichtraucher
R
NR
p
p
Mean X
Mean X
STD X
STD X
s
s
x
0 :
1:
2 :
3 :
R NR
R NR
R NR
R NR
H
H
H
H
Zweiseitiger Test
Einseitige Tests
( ( ) ( )) 80.02 79.983.3333
0.0121/ 1/R NR
p
Mean X Mean Xt
s n m
Raucher und Nichtraucher: t-Test
0 :
1:
2 :
3 :
R NR
R NR
R NR
R NR
H
H
H
H
t = 3.3333; Signifikanzlevel=0.05
2
2
2
1: ( / 2)
2 : ( )
3 : ( )
n m
n m
n m
H t t
H t t
H t t
P(H1) = 0.0033
P(H2) = 0.001656512
P(H3) = 0.9983435
Raucher und Nichtraucher: t-Test
x
Raucher und Nichtraucher: ANOVA
12
34
Nun haben wir aber mehr als zwei Probenreihen...
1
2
3
4
6 t- Tests
2 13 34 65 106 157 218 289 36
10 4511 5512 6613 7814 9115 10516 12017 13618 15319 17120 190
2
n n
4 Laboratorien: ein neues Problem
1 2 3 4
30,3066 194,3379 376,9584
0,4592 36,7911
272,3098
1
23
4
t
4 Laboratorien: t-Test
1 2 3 4
Laboratorien
0,0523 3,7153e-5 6,9624e-10
0,9748 0,0159
1,3707e-6
1
23
2 3 4
P-Wert
4 Laboratorien: ANOVA
• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test
- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich
• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:
1. Beispiel: Kandidatengene
2. Beispiel: Normalisierung von Microarray Daten
Übersicht
… …
Drei Behandlungen:
Für welche Gene gibt es Unterschiede in den beiden Behandlungsmethoden?
Anwendung der ANOVA bei Microarray-Datenauswertungen
1. Beispiel: Kandidatengene
…
B e h a n d lu n g 1 B e h a n d lu n g 2 B e h a n d lu n g 3
S ta m m 1
S ta m m 2
Anwendung der ANOVA bei Microarray-Datenauswertungen
1. Beispiel: Kandidatengene
B eh an d lu n g 1 B eh an d lu n g 2 B eh an d lu n g 3
S tam m 1 50 ,51 ,50 40 ,41 ,45 48 ,48 ,47 46 ,6
S tam m 2 50 ,52 ,53 41 ,42 ,41 49 ,48 ,50 47 ,3
51 ,0 41 ,6 48 ,3
Anwendung der ANOVA bei Microarray-Datenauswertungen
1. Beispiel: Kandidatengene
Wir schauen uns erstmal nur ein Gen an
x
• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test
- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich
• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:
1. Beispiel: Kandidatengene
2. Beispiel: Normalisierung von Microarray Daten
Patient: GrünKontrolle: Rot
Patient: RotKontrolle: Grün
Array 1 Array 2
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
ARRAY 1 oder 2 ?Variety: Patient oder Kontrolle ?
Farbstoff: Grün oder Rot ? Welches Gen ?
Intensität:14527
Farbstoff: Grün Farbstoff: Rot
Array 1
Array 2
Patient
Patient
Kontrolle
Kontrolle
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
- Dye Swap Setting- Latin Square Setting
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Array
Variety
Dye=Farbstoff
Gen
2-Interaktionseffekte
3-Interaktionseffekte
ijkl
i j k l
ij ik il jk kl
ikj kjl ijl ikl
jl
Int
a v d g
av ad ag vd dg
adv dvg avg ad
v
g
g
+ ijkg
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
GesamtmittelADVG
AGDGVG
~~~~~~~~
ADVDVAVADADVGDVGAVGADG
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Jede Messung in einem Micoarrayexperiment wird mit einer ganz speziellen Kombination der Parameter „Array“, „Dye (Farbstoff)“, „Variety(Probentyp)“, und „Gen“ assoziiert.
Angenommen,
y ijkg
Bezeichnet die Intensitätsmessung des g-ten Gens auf dem i-ten Array mit dem j-ten Farbstoff im k-ten Probentyp.
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Dann kann man das folgende Modell einführen:
log(y ijkg) = + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg
Dabei ist der Gesamtmittelwert;
Ai bezeichnet den Arrayeffekt des i-ten Arrays;
Dj bezeichnet den Farbstoffeffekt des j-ten Farbstoffs;
Vk bezeichnet den k-ten Probentypeffekt;
Gg bezeichnet den Geneffekt des g-ten Gens;
(AG)ig bezeichnet den Interaktioneffekt von Array i und Gen g
und (VG)kg bezeichnet den Interaktionseffekt des k-ten Probentyps und des g-ten Gens.
ijkg ist ein N(0,) Fehlerterm.
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Farbstoff: Grün Farbstoff: Rot
Array 1
Array 2
Leber
Leber
Muskel
Muskel
Welche Gene sind in Leber und Muskel unterschiedlich exprimiert?
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Farbstoff: Grün Farbstoff: Rot
Array 1
Array 2
Leber
Leber
Muskel
Muskel
Array i=1,2
Dye j=1,2
Gewebe k=1,2
Gene g=1,...,n
Index Set: (i,j,k) { (1,1,1) , (1,2,2) , (2,1,2) , (2,2,1) }
d.h. jeder Clone Index (Gen) g=1,...,n erscheint genau einmal mit jeder Kombination (i,j,k)
log(y ijkg) = + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Modell von G.Churchill/K.Kerr
Quadrat der Summe der Residuen:
RSQ = ijkl (log(y ijkg) – ( + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg))2
Berechne die Parameter so, daß die Residuen möglichst klein sind.Dazu berechne die partiellen Ableitungen und setze diese gleich Null.
RSQ / (VG)kg =0
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Farbstoff: Grün Farbstoff: Rot
Array 1
Array 2
Leber
Leber
Muskel
Muskel
Leber
Muskel
(VG)k=1g‘ - (VG)k=2g‘ = 0.5 log( ) – 1/2n log( g )Y111g‘ y221g‘
Y122g‘ y212g‘
y111g y221g
y122g y212g
Konstant: ZentrierungLog-ratio des geometrischen Mittels der Beobachtungen für das Gen g‘ in den beiden Gruppen
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
(VG)k=1g‘ - (VG)k=2g‘
Die exponierten Differenzen
exp((VG)k=1g‘ - (VG)k=2g‘ )
können als Schätzer für „fold changes“ zwischen den beiden betrachteten Gruppen angesehen werden.
Anwendung der ANOVA bei Microarray-Datenauswertungen
2. Beispiel: Normalisierung von Microarray Daten
Mittel der Log-Produktintensität (Leber,Muskel)
(VG
) k=L
eber
g -
(V
G) k=
Mus
k el g