genomforschung und sequenzanalyse einführung in methoden ... iii_08.pdf · 1 1 phylogenie...
Post on 02-Nov-2019
8 Views
Preview:
TRANSCRIPT
1
1
Phylogenie Phylogenie IIIIII
WS 2007/2008
Genomforschung und Sequenzanalyse
Einführung in Methoden der Bioinformatik
Bernhard Lieb &Tom Hankeln
MolekulareMolekulare
2
Charakter-orientierte Methoden
1. Maximum Parsimony (MP)
2. Maximum Likelihood (ML)
����
2
3
Maximum Likelihood
Zum ‘ersten’ mal von Cavalli-Sforza and Edwards (1967) für ‘gene frequency data’ benutzt, später (1981) von Felsenstein für DNA Sequenzen
L = P(D|H)
Wahrscheinlichkeit der Daten, gegeben eine Hypothese
Die Hypothee ist eine Baumtopologie, dessen Astlängen und ein Evolutionsmodell unter dessen
‘Präsenz’ die Daten evolvierten
““The explanation that makes the observed outcome the most likely”The explanation that makes the observed outcome the most likely”
4
Probability and likelihood
Die Wahrscheinlichkeit Wahrscheinlichkeit liegt immer zwischenNIE (0) NIE (0) und SICHER (1).SICHER (1).
Die bedingtebedingte WahrscheinlichkeitWahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses A, gegeben das
Ereignis B: P(A|B)P(A|B).
“...if “probabilityprobability” allows us to predict unknown outcomes based on known parameters P(H|D)P(H|D), then
“likelihoodlikelihood” allows us to determine unknown parameters based on known outcomes P(D|H)P(D|H)…”.
3
5
Probability and likelihood
0,5 0,5
0,25
0,25
0,5
0,5
0,5
0,5
P(ZZ|pZ=0,5)=0,25
L(pZ|ZZ)=0,25
6
Likelihood
Daten: KKZKZKKZZZ
• Ereignisse sind unabhängig
• Alle ‚Kopfwürfe‘ besitzen gleiche ‚unbekannte‘ Kopfwahrscheinlichkeit p
Hypothese
=> Likelihood L(D|H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p)
keine Verteilung, Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese)
alles wird getestet (gerechnet)
=> Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten?
L = P(L = P(DatenDaten | | Hypothese Hypothese ))
0,0 0,2 0,4 0,6 0,8 1,0[p]
Like
lihood
4
7
Maximum Likelihood
L = P(data|hypothesis)
• Wahrscheinlichkeit der beobachteten Daten(Sequenzen!) im Lichte der Hypothese(Stammbaum).
• d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt.
Evolutions-
modell
8
Maximum Likelihood
• benötigt ein explizites Evolutionsmodell• Parameter werden aus Daten + Modell errechnet.
• Explizite Verbindung Daten + Modell + Stammbaum.
• aber: schlechtes Modell => schlechter Stammbaum
• Alternative Stammbäume lassen sich testen
=> keine Methode extrahiert mehr Information aus den Daten; aber: sehr rechenintensiv
5
9
Maximum Likelihood
Evolutionsmodelle
Für DNA-Sequenzen:=> JC, K2P, F81, HKY, REV
Für Protein-Sequenzen:=> PAM, BLOSUM, JTT, WAG ...
10
Maximum Likelihood
Seq1 CGAGAC
Seq2 AGCGAC
Seq3 AGATTA
Seq4 GGATAG
Frage: Wie hoch ist die Wahrscheinlichkeit, dass der Stammbaum A für die Daten (Sequenzen) unter dem gegebenen ModellModell verantwortlich ist?
1
2
3
4
A
6
11
Maximum Likelihood
OTU 1 CGAGA C
OTU 2 AGCGA C
OTU 3 AGATT A
OTU 4 GGATA A
j
ACGT??
C
C
A
A
ACGT
4 x 4 Möglichkeiten
Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell.
1
2
3
4
12
ML – Beispiel (vereinfacht):
C
C
A
A
Daten: Modell (nicht realistisch):
A T C G
A 1 0,1 0,1 0,1
T 1 0,1 0,1
C 1 0,1
G 1
OTU 1
OTU 2
OTU 3
OTU 4
7
13
ML - Beispiel:
C
C
A
A
Stammbaum A:
X YX,Y = A, T, G, oder C
ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten
1
2
3
4
14
ML - Beispiel:
Stammbaum A1:
C
C
A
A
C T
C
C
A
A
C A
1 x 1 x 0,1 x 1 x 1 = 0,1 1 x 1 x 0,1 x 0,1 x 0,1 = 0,001
usw...
Summe aus 16 möglichen Stammbäumen!
Stammbaum A2:1. Topologie, immer gleich für unterschiedliche Knoten!
1
2
3
4
8
15
ML - Beispiel:
Stammbaum B1:C
A
C
A
C T
C
A
C
A
C A
0,1 x 0,1 x 1 x 0,1 x 1 = 0,001 1 x 0,1 x 0,1 x 0,1 x 0,1 = 0,0001
usw... usw..usw…
Summe aus 16 möglichen Stammbäumen!
Stammbaum B2:2. Topologie (andere Topologie) ! Aber immer gleich für unterschiedliche Knoten!
1
2
3
4
1 2
3 4
16
ML - Beispiel:
Stammbaum A:
C
C
A
A
Gesamt"wahrscheinlichkeit":
= 0,12427=> logL = -0,90563
C
A
C
A
Gesamt"wahrscheinlichkeit":
= 0,02302=> logL = -1,6379
Stammbaum B:
9
17
Wahrscheinlichkeit des Stammbaums A ist das Produktaller Wahrscheinlichkeiten für jede Position: ML-Stammbaum = Stammbaum mit größter "Likelihood".
Maximum Likelihood
1 CGAGAC
2 AGCGAC
3 AGATTA
4 GGATAG
i . . . .z
1
2
3
4
A
18
X,Y = A, T, G, oder C
A T C G
A 1,0 0,1 0,2 0,4
T 1,0 0,3 0,6
C 1,0 0,1
G 1,0
Sequence 1 CGAGAA
Sequence 2 AGCGAA
Sequence 3 AGATTT
Sequence 4 GGATAT
1x1x1x0,1x0,1=0,01
Sequence 1 CGAGAA
Sequence 2 AGCGAA
Sequence 3 AGATTT
Sequence 4 GGATAT
CGAGAA
AGCGAA
AGATTT
GGATAT
Likelihood einer vorgegebenen Topologie ist das Produkt allerWahrscheinlichkeiten jeder
Position
Berechnen aller Möglichkeiten für eine Topologie und eine
Position
Maximum Likelihood
10
19
A T C G
A 1,0 0,1 0,2 0,4
T 1,0 0,3 0,6
C 1,0 0,1
G 1,0
Sequence 1 CGAGAA
Sequence 2 AGCGAA
Sequence 3 AGATTT
Sequence 4 GGATAT
Sequence 1 CGAGAA
Sequence 2 AGCGAA
Sequence 3 AGATTT
Sequence 4 GGATAT
CGAGAA
AGCGAA
AGATTT
GGATAT
Maximum Likelihood
Likelihood für alle anderen Topologienund
Vergleich der Likelihoods
L = P(data|hypothesis)
Für n=50 Sequenzen gibt es 2,84x10Für n=50 Sequenzen gibt es 2,84x107676 mögliche Bäume <mögliche Bäume <--> Atome im Universum: ~10> Atome im Universum: ~108080
20
Maximum Likelihood - Vorteile
� Mathematisch gut definiert� Funktioniert gut in Simulationsexperimenten � Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen)
� "Realistische" Annahmen zur Evolution� Verschiedene Modelle und Stammbäume lassen sich testen
11
21
Maximum Likelihood - Nachteile
� Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief:Wie gut stimmt mein Modell
mit den Daten überein?
22
Maximum Likelihood – Lokale Maxima
„Bauminsel“
12
23
Maximum Likelihood
� Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar
� Lösung: "Intelligente Algorithmen"- Quartet puzzling- Bayessche Methode + MCMCMC
für n=50 Sequenzen gibt es 2,84x10für n=50 Sequenzen gibt es 2,84x107676 mögliche Bäumemögliche Bäume
24
Was „können“ oder „kennen“ wir !?
Alignment
Distanz matrix
Evolutions-modelle
Neigbor JoiningMax.Parsimony
Max. Likelihood UPGMA
Stammbaum
13
25
� Viele Methoden sind Computer-technisch nicht zu lösen, insbesondere bei vielen Taxa
� d.h., nicht alle (möglichen) Stammbäume berechenbar
Die Machbarkeit !?
L = P(data|hypothesis)
=5,5
26
� „Intelligente Algorithmen“
- Quartet puzzling
- Bayes´sche Methode + MCMCMC
Die Machbarkeit !?
14
27
Quartet puzzling
� Wie löst man ein großes Problem?
=> Man zerlegt es in viele kleine Teilprobleme.
� Wenn es aber zu viele kleine Teilprobleme sind?
=> Man rechnet von der Lösung einiger Teilprobleme auf die Lösung des Gesamtproblems hoch.
� Quartet puzzling: Errechnung eines Gesamtstammbaums aus vielen Einzelstammbäumen mit jeweils vier Taxa => Quartetten!
� Programm: Tree-Puzzle (Strimmer & van Haeseler, 1996) http://www.tree-puzzle.de/
28
The „shell“
15
29
Treepuzzle
Max Likelihood
Quartet-puzzle
Majority rule consensus3.)
1.)
2.)
Drei Schritte
30
Quartet puzzling
OTU 1
OTU 1 OTU 2
OTU 1 OTU 2
OTU 3
OTU 1
OTU 4
OTU 2
OTU 3
OTU 1
OTU 3
OTU 2
OTU 4
OTU 1
OTU 2
OTU 3
OTU 4
3.)
4.)1.)
2.)
=> Quartett ist die minimale Einheit zur Lösung eines phylogenetischen Problems.
16
31
• Summe der „Likelihoods“ (eine Position, alle Möglichkeiten)
• Produkt aller „Likelihoods“(alle Positionen)
Berechnung: wie bei ML
Wahrscheinlichkeit für einen Stammbaum
∑∑∑∑====
n
1i)i(LlnlnL=
Berechnung der Einzelwahrscheinlichkeiten
32
Berechnung der Einzelwahrscheinlichkeiten
OTU 1
OTU 4
OTU 2
OTU 3
OTU 1
OTU 3
OTU 2
OTU 4
L1
L2
L3
voteand puzzle
Größte
Likelihood
OTU 1
OTU 2
OTU 3
OTU 4
17
33
ABCDE
ML Quartette
ABCDE, ABCDE, ABCDE, ABCDE
Puzzling step (für 5. Taxon)
34
Puzzling step für 5 Taxa
18
35
Hinzufügen der restlichen Sequenzen an den besten Vierer-Baum über „Nachbarbeziehungen“
� viele viele viele intermediäre Bäume Schon wieder nicht möglich => häufige Wiederholung der „Puzzling steps“ mit verschiedenen Ausgangstopologien
Puzzling step
36
Quartet puzzling
.....
Scorpion
Vogelspinne
Tausendfüsser
Doppelfüsser
Hummer
Flohkrebs
Drosophila
Heuschrecke
44
90
66
88
95
"Puzzling" = Bastelneines kompletten Stammbaums.
= Wie häufig stehen die OTUs in Quartetten zusammen?Je höher dieser Wert ist, desto besser ist die entsprechende Topologie (alles, was rechts des Knotenpunkts steht) abgesichert (~ "Bootstrap"-Unterstützung).
19
37
Quartet puzzling
Vorteile:• Relativ schnelle Methode um ML-Stammbaum zu konstruieren. • Phylogenetischer Informationsgehalt der Sequenzen lässt sich einfach bestimmen => "Likelihood mapping".
Nachteile:• Wenn Anzahl der OTUs groß, werden nicht alle möglichen Quartette berechnet, sondern aus einem Teil der Daten der komplette Stammbaum konstruiert.
• Quartette nicht immer aufgelöst, d.h. Topologie nicht immer eindeutig
• Unterstützungswerte wahrscheinlichkeitstheoretisch nicht eindeutig definiert.
38
"Wahrscheinlichkeit" (Likelihood) der Sequenzdaten, gegeben die Topologie des Stammbaums und ein Evolutionsmodell.
Maximum Likelihood
Sequenz 5
Sequenz 3
Sequenz 2
Sequenz 4
Sequenz 1 Seq1 KIADKNFTYRHHNQLV
Seq2 KVAEKNMTFRRFNDII
Seq3 KIADKDFTYRHW-QLV
Seq4 KVADKNFSYRHHNNVV
Seq5 KLADKQFTFRHH-QLV
+ Modell(PAM, BLOSUM...)
Anders formuliert:Welcher Stammbaum (und welches Evolutionsmodell) Welcher Stammbaum (und welches Evolutionsmodell)
erklärt am besten meine Sequenzdaten?erklärt am besten meine Sequenzdaten?
L = P(data|tree)
20
39
Wahrscheinlichkeit nach Bayes
• Reverend Thomas Bayes (1702-1761)(presbyterianischer Pfarrer)
• Wahrscheinlichkeitsrechnungen nach Bayeserst seit ein paar Jahren in der Statistik akzeptiert.
• Seit den 90er Jahren auch Anwendung in der molekularen Phylogenie.
40
Die Wahrscheinlichkeit ("posterior propability") beruht auf einem anfänglichen Evolutionsmodell und neuen Erkenntnissen nach einem Experiment.
Wahrscheinlichkeit nach Bayes
posterior propability P(H|D)
prior propability P(H)
21
41
BayesBayes´sche Statistik beruht auf dem Satz von Bayes.
AA ist die Hypothese. BB ist das beobachtete Ereignis. P(A)P(A) ist die A-Priori-Wahrscheinlichkeit von A. P(B | A)P(B | A) ist die bedingte Wahrscheinlichkeit von B, unter der Bedingung dass die Hypothese A wahr ist (als Funktion von A nennt man sie die Likelihood-Funktion):
P(B)P(B) ist die unbedingte Wahrscheinlichkeit von B.P(A | B)P(A | B) ist die A-Posteriori-Wahrscheinlichkeit von A gegeben B.
An Essay towards solving a Problem in the Doctrine of Chances. By the late Rev. Mr. Bayes, communicated by Mr. Price, in a letter to John Canton, M. A. and F. R. S.
42
Bayes
22
43
Wahrscheinlichkeit nach Bayes
××××====
)(
)()()(
dataPtreePtreedataP
datatreeP
Die Wahrscheinlichkeit eines Stammbaums, gegeben die Sequenzdaten, enspricht dem Produkt aus der Wahrscheinlichkeit der Daten gegeben den Stammbaum (likelihood) und der Wahrscheinlichkeit
des Stammbaums (prior probability), geteilt durch die Wahrscheinlichkeit der Daten (Randbedingungen).
Posteriore Wahrscheinlichkeit für ein Ereignis A (tree) unter der
Bedingung, dass B (alignment) auftritt.
A-Priori-Wahrscheinlichkeit für ein Ereignis A
(tree)
A-Priori-Wahrscheinlichkeit für ein Ereignis B (alignment)
Die Wahrscheinlichkeit für ein Ereignis B (alignment)unter der Bedingung, dass
A (tree) auftritt (Likelihood)
44
Randbedingungen
(((( )))) )A(P)A|B(PBPB
××××==== ∑∑∑∑)...A(P)A|B(P)A(P)A|B(P 2211 ++++====
sind die Randbedingungen der Daten. D.h., es werden ALLE möglichen Werte von B berechnet. Sie geben, ebenso wie , das "Vorabwissen" an, welches man berücksichtigt.
)B(P
)A(P
)()()|(
)|(BP
APABPBAP
××××====
23
45
Bayes
46
Beispiel: Ist mein Würfel gezinkt?
90 ungezinkte Würfel 10 gezinkte WürfelWurf ungezinkt gezinkt
)A(PWie gross ist die Wahrscheinlichkeit, dass ich einen gezinkten Würfel ziehe (also )? => 1/10
24
47
Beispiel: Ist mein Würfel gezinkt?
Nun ziehe ich einen Würfel und würfle damit zweimal.Das Ergebnis ist:
Frage: Ist mein Würfel gezinkt?
48
-> prior-> likelihood
Wurf ungezinkt gezinkt
-> alle Möglichkeiten
Beispiel: Ist mein Würfel gezinkt?
Bayes:
2137,0≈≈≈≈) |gezinkt(P
prior posterior
0,1 0,2137
9/10ungezinkt)|(1/10gezinkt)|(
1/10gezinkt)|()|gezinkt(
×+×
×=
PP
PP
25
49
Mehr Daten: Ist mein Würfel gezinkt?
Wurf Häufigkeit
979,0)D|gezinkt(P ====
021,0)D|ungezinkt(P ====
Bayes:
Nun ziehe ich einen Würfel und würfle damit 20x. Das Ergebnis ist:
2137,0≈≈≈≈) |gezinkt(P
prior posterior
0,1 0,2137
vorher:
50
Randbedingungen
(((( )))) )A(P)A|B(PBPB
××××==== ∑∑∑∑)...A(P)A|B(P)A(P)A|B(P 2211 ++++====
sind die Randbedingungen der Daten. D.h., es werden ALLE möglichen Werte von B berechnet. Sie geben, ebenso wie , das "Vorabwissen" an, welches man berücksichtigt.
)B(P
)A(P
)()()|(
)|(BP
APABPBAP
××××====
26
51
Wahrscheinlichkeit nach Bayes
Bayes sucht die Bäume mit den höchsten posterior probabilities.posterior probabilities.
(((( )))) )A(P)A|B(PBPB
××××==== ∑∑∑∑)...A(P)A|B(P)A(P)A|B(P 2211 ++++====
)()()|(
)|(BP
APABPBAP
××××====
Nenner: Summation über alle denkbaren Hypothesen (Bäume)
=> MCMCMCMCMCMC „Metropolis-Coupled Markov Chain Monte Carlo“
52
Monte CarloMetropolis-Coupled Markov Chain
Wahrscheinlichkeit nach Bayes
Zufällige Stichprobe aus der posterior probability Verteilungposterior probability Verteilung ziehenStichprobe muss groß (genug) sein
Prozentsatz mit dem ‚Clade‘ bei den Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass ‚Clade‘ korrekt ist
MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“
27
53
Andrey (Andrei) Andreyevich MarkovRussischer Mathematiker (1856 – 1922)
Ein stochastischer Prozess besitzt die sogenannte Markov Eigenschaft, wenn:
Die bedingte Wahrscheinlichkeitsverteilung zukünftiger Zustände, bei gegebenen momentanten Status und allen vergangenen Ereignissen NUR von dem momentanen Status abhängt und NICHT von den vergangenen
54
Wahrscheinlichkeit nach Bayes
MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“
Zufällige Stichprobe aus der ‚posterior probability‘-Verteilung ziehenStichprobe muss groß (genug) sein
Prozentsatz mit dem eine Gruppierung (‚Clade‘) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass ‚Clade‘ korrekt ist
Im Falle einer Markow-Kette erster Ordnung wird hierfür sogar nur Kenntnis über den momentanenmomentanen Zustand benötigt (Gedächtnislosigkeit).
Markov Chain
Ziel ist es, Wahrscheinlichkeiten für das Eintreten zukünftiger Ereignisse anzugeben
Auf lange Sicht pendelt sich Wahrscheinlichkeit auf einen Wert ein => Prozentsatz mit dem ‚Clade‘ in den Bäumen auftritt
28
55
Wahrscheinlichkeit nach Bayes
MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“
Markov Chain Monte Carlo
Zufallselement - die Bank gewinnt auf lange Sicht immer
Die Masse machts - Wahrscheinlichkeit falscher Rückschlüsse sinkt mit zunehmender Generationszahl
Kurz gesagt, was bedeutet MCMC?
Viele Zufallsproben aus der posterioren Wahrsscheinlichkeitsverteilung (Bäume) nehmen und Rückschlüsse ziehen
Zufällige Stichprobe aus der ‚posterior probability‘-Verteilung ziehenStichprobe muss groß (genug) sein
Prozentsatz mit dem eine Gruppierung (‚Clade‘) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass ‚Clade‘ korrekt ist
56
Wahrscheinlichkeit nach Bayes
Akzeptieren oder Verwerfen?
MetropolisMetropolis--HastingsHastings--GreenGreen--AlgorithmusAlgorithmus
Vorgegebener (Zufalls-)Baum Ti mit Topologie, Astlängen und Evolutionsmodell
Neuer Baum, neue Parameter
)()|()()|(
)()()|(
)()()|(
jj
ii
jj
ii
iesprobabilitposteriorTPTBPTPTBP
DPTPTBP
DPTPTBP
Q××××
××××====
××××
××××
====
XX
1Q ≥≥≥≥ Neuen Baum akzeptieren!
1Q <<<< Generation einer Zufallszahl (0-1) Z< Q, neuen Baum akzeptieren, sonst alter Baum
MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“
29
57
„1“
Wahrscheinlichkeit nach Bayes
MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“
Metropolis-Hastings-Green-Algorithmus
)()|(
)()|(
jj
iiiesprobabilitposterior
TPTBPTPTBP
Q××××
××××====
priorslikelihoods
shape parameter, Astlängen..
DAS PROBLEM
),,,|()|( shapeonsubstitutilengthtreeBPTBP −−−−==== αααα
„Lösung“
)|()|(ji
ij
TTPTTP
x
Änderungsvorschläge
58
Wahrscheinlichkeit nach Bayes
MetropolisMetropolis--HastingsHastings--GreenGreen--AlgorithmusAlgorithmus
1Q ≥≥≥≥ Neuen Baum akzeptieren!
1Q <<<< Generation einer Zufallszahl (0-1) Z< Q, neuen Baum akzeptieren, sonst alter Baum
MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“
2,05,0
1,0Q
51,0
5,0Q
iesprobabilitposterior
iesprobabilitposterior
========
========
behalten
neue Zufallszahl
0,1
0,3 neuer Baum
Im Gegensatz zur ‚Maximum likelihood‘ kann hier ‚likelihood‘ � und �
neuen Baum akzeptieren
30
59
Problem: Wir erwarten keine diskrete Wahrscheinlichkeit, sondern eine Wahrscheinlichkeitsdichte!
Beispiel: Man werfe eine Münze 100x. Es ist unwahrscheinlich, dass genau jeweils 50x "Kopf" und 50x "Zahl" herauskommen.
z.B. Ergebnis von 100 x 100 Münzwürfen. Darstellung z.B. für Ergebnis "Zahl".
90
100x1000
MCMC (Markov Chain Monte Carlo)Wahrscheinlichkeitsdichte
60
MCMC (Markov Chain Monte Carlo)
Problem: Wie ermittelt man die Verteilung der Wahrscheinlichkeiten mit einer endlichen Anzahl von Versuchen? Lösung: Ermittlung der
Wahrscheinlichkeitsdichte mittels MCMC (Markov Chain Monte Carlo) Simulation=> nur einige Wahrscheinlichkeiten werden wirklich ermittelt, die Verteilung der Wahrscheinlichkeiten wird hochgerechnet.
31
61
Maximum Likelihood – Lokale Maxima
62
MCMC (Markov Chain Monte Carlo)
32
63
„Start, sample and burnin“
wird verworfen
Man startet mit einen beliebigen Stammbaumdurch "burnin" werden "frühe" Ergebnisse (Stammbäume) verworfen, und über alle anderen gesamplet. => Wie gut stimmen die jeweiligen Bäume überein?Entspricht ~ Bootstrapping (kommt noch).
MrBayes
64
How to get up and get over?
??
33
65
Wahrscheinlichkeit nach Bayes
Metropolis-Coupled
=> mehrere MCMC laufen parallel und ‚kommunizieren‘
MC MC 3 3 -- MCMCMCMCMCMC - „Metropolis-Coupled Markov Chain Monte Carlo“
Zufällige Stichprobe aus der ‚posterior probability‘-Verteilung ziehenStichprobe muss groß (genug) sein
Prozentsatz mit dem eine Gruppierung (‚Clade‘) bei diesen zufälligen Bäumen auftritt wird als Wahrscheinlichkeit interpretiert, dass ‚Clade‘ korrekt ist
66
MCMCMC (Metropolis coupled Markov Chain Monte Carlo)
Landschaft aus Sicht der "cold chain".
Landschaft aus Sicht der "heated chains".
34
67
MCMCMC (Metropolis coupled Markov Chain Monte Carlo)
• MC3 läßt mehrere "chains" suchen• Die "cold chain" zählt, die anderen sind "heated chains"
Landschaft wird für heated chain "geebnet" => Übergang zu einem anderen Optimum ist leichter möglich.
68
Wahrscheinlichkeit nach Bayes
Vorteile:
� Vorabinformation wird berücksichtigt.� Sehr schnelle ‚Lösung‘ komplexer phylogenetischer Probleme möglich!
� Diskrete Wahrscheinlichkeitswerte werden für jeden Ast gegeben.
Nachteile:
� Vorabinformation wird berücksichtigt. � Wahrscheinlichkeitstheoretisch umstritten.
35
69
Past and next
� Molekularphylogenetische Methoden:- Quartet puzzling- Bayesian approach
� Test von Stammbäumen- Bootstrapping - Likelihood tests…
70
Statistische Auswertung
….oder….
Wie gut ist mein Stammbaum ?
häufigste Methode ist „Bootstrapping“…
36
71
Bayes FaktorBayes FaktorBayes Faktor
(nach Kass & Raftery (1995) entspricht LRTLRT)� Vergleich zweier Modelle Mi und Mj :
� Kriterien nach Kass and Raftery (1995):� Bij < 1, negative (support for Mj)� 1 < Bij < 3, barely worth mentioning� 3 < Bij < 12, positive� 12 < Bij < 150, strong and� Bij > 150, very strong.
Vorteil:� ‚Nested‘ und ‚non-nested data‘ kann verglichen
werden
)|(
)|(
j
iij
MDPMDP
B ====
72
BootstrappingZiehen MITMITZurücklegen
37
73
D
Bootstrapping
Position
Sequence 1 2 3 4 5 6 7 8 9
A A A A A G T G C A
B A G C C G T G C G
C A G A T A T C C A
D A G A G A T C C G
OrginalsequenzenPosition
Sequence 1 2 2 4 5 5 7 8 8
A A A A A G G G C C
B A G G C G G C C C
C A G G T A A C C C
D A G G G A A C C C
Pseudosample 1
z.B. 100 WiederholungenPosition
Sequence 1 1 1 4 4 6 7 7 7
A A A A A A T G G G
B A A A C C T G G G
C A A A T T T C C C
D A A A G G T C C C
Pseudosample 2
A
D
BC
A
B
C
…100 Stammbäume
74
Bootstrapping
123456789 Freq
-----------------
.**...... 100.00
...**.... 100.00
.....**.. 100.00
...****.. 100.00
...****** 96.00
.......** 84.00
...****.* 13.00
...*****. 5.00
.*******. 3.00
.**....*. 1.00
.**.....* 1.00
Majority-rule consensus tree
Taxon 1
Taxon 3
Taxon 8
Taxon 9
Taxon 4
Taxon 6
Taxon 7
100
96
84
100
100
100
Taxon 2
Taxon 5
38
75
BootstrappingSTRICT CONSENSUS -> MAJORITY-RULE CONSENSUS TREE
Taxon 1
Taxon 3
Taxon 8
Taxon 9
Taxon 4
Taxon 6
Taxon 7
100
84
100
100
100
Taxon 2
Taxon 540/65 Taxon 8
Taxon 9
Taxon 4
Taxon 6
Taxon 7
Taxon 5
Taxon 8
Taxon 9
Taxon 4
Taxon 6
Taxon 7
Taxon 5
ein replicate – zwei Topologien
FWR: FREQUENCY IN REPLICATES (geringere Gewichtung, Einbeziehung aller Bäume)
76
Jackknife
• Prinzip gleich zu „bootstrap“ allerdings werden zufällig Daten gelöscht
• Unterstützungswerte ensprechen sich aber nicht
• Bootstrap-Wert in % entspricht ‚jacknife‘-Wert bei ca. 40 % gelöschte Daten
39
770.1
NpH
Plaxip
Calloc
Nuttal
Lepitoc
Nuttall64
Lorica
Stenos
Lepido
Lorice
Onitho
Tonici60
62
58
AfH
Notopl
Crypto66
61
Likelhood mapping� …Berechnung der posterior probability (Pi) aller Bäume� Pi summiert sich auf 1 (irgendeine Topologie muss sein)� 3 Ecken repräsentieren die 3 Topologien� Je näher P an einer der Ecke desto stärker wird dieser
Baum favorisiert
28
33 30
78
Split Tree
40
79
Schwarzspitzenhai
Phylogenetic methodsEvolutionary relationships among unique mtDNAhaplotypes were reconstructed using the maximummaximum--parsimonyparsimony (MP)(MP) optimality criterion with allmutations weighted equally and indels treated as afifth state. A two-nucleotide indel at positions 1045and 1046 was treated as one event by omitting thesecond nucleotide from analyses. HeuristicHeuristic treetreesearchessearches were performed for all MP analyses with1000 random-addition replications, saving amaximum of 1000 trees per replicate, and treetree--bisectionbisection––reconnectionreconnection (TBR) branch swapping.Statistical support for nodes was determined via1000 nonparametric bootstrapbootstrap replicatesreplicates(Felsenstein 1985) with 10 random-additionsequences per replicate, saving a maximum of 1000trees per replicate, and nearestnearest neighbourneighbourinterchangeinterchange (NNI) branch swapping. Haplotypetrees were initially rooted using blacktip reef shark( C. melanopterus ) and Australian blacktip shark, C.tilstoni , sequences as outgroups. Although therelationships of species within the genusCarcharhinus are not fully resolved (Lavery 1992;Naylor 1992), C. melanopterus and C. tilstoni werethe closest relatives to C. limbatus for which tissuesamples were available. C. melanopterus was used asthe sole outgroup after C. limbatus was found to beparaphyletic to C. tilstoni in the MP analyses.
80
Methoden im Vergleich
maximal support
nach: Gene und Stammbäume, Knoop und Müller
(Raubbeutler)
Allg Trend: support MP/NJ < ML, Bayes
41
81
Die "Molekulare Uhr"
Relativer Ratentest:
X
A
B
C = Außengruppe
Molecular clock-Hypothese: XA = XB
Außengruppe C als Bezug
AC – BC ~ 0
AC/BC ~ 1
82
800 700 600 500 400 300 200 100 0 million years
520
420
480
220
343
370736
fossil records
Vetigastropoda
Protobranchia
Octobrachia
Decabrachia
Tetrabranchiata
Die "Molekulare Uhr"
42
83
Bedeutung der molekularen Phylogenie für die Systematik
� Frühere Vorstellungen zur Evolution und zu den Verwandtschaftsverhältnissen der Organismen beruhten auf morphologischen Kriterienmorphologischen Kriterien
� Die molekulare Phylogeniemolekulare Phylogenie hat viele der früheren Vorstellungen in den letzten ~10 Jahren über den Haufen geworfen, aber die meisten Hypothesen meisten Hypothesen bestätigtbestätigt.
� Am interessantesten sind natürlich die "revolutionären" Vorstellungen, z.B.:- Ecdysozoa - Lophotrochozoa- Afrotheria ...
84
43
85
Ecdysozoa - Lophotrochozoa
86
Ecdysozoa - Lophotrochozoa
Glenner et al., 2005 Curr Biol
44
87
88
Afrotheria
RüsselRüssel--springerspringer
ElefantenElefanten
SeeküheSeekühe
ErdferkelErdferkel
SchlieferSchliefer
BorstenigelBorstenigel
MicrogaleMicrogale longicaudatalongicaudata
45
89
Afrotheria
Afrotheria vor > 100 Mio Jahren in Afrika entstanden!
Auseinanderbrechen des südlichen Gondwana (Kreide)
90
Konvergente Entwicklung!?
snail-like ?
46
91
top related