relaxed bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3....

80
Relaxed Bayesian phylogenetics Molecular Clocks and Calibration Alexei Drummond, [email protected] University of Auckland Workshop on Molecular Evolution Cesky Krumlov, 30th Jan 2015

Upload: others

Post on 16-Sep-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Relaxed Bayesian phylogeneticsMolecular Clocks and Calibration

Alexei Drummond, [email protected] of Auckland

Workshop on Molecular EvolutionCesky Krumlov, 30th Jan 2015

Page 2: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

1 BEAST

2 Tree Space

3 Bayesian phylogenetics

4 Clocks and calibrations

5 Relaxed phylogenetics

Page 3: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

BEAST

Page 4: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

BEAST

BEAST focuses on time-trees (phylochronologies); both speciestrees and gene treesCurrently useful for

• Divergence time dating• Estimating phylogenies under relaxed clock models• Single population coalescent reconstruction• Estimation of rates from viruses or ancient DNA• Co-estimation of species trees and gene trees• Automatic partitioning and substitution model selection

Working on• More tree priors, more clock models, more substitution models• More efficient tree sampling techniques (HMC)• Phylodynamical models, host-pathogen co-phylogeny models

Page 5: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

BEAST 1.4.8Rates/dates from serially sampled data Relaxed phylogenetics

Estimating population size and changes

Page 6: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

BEAST 1.6

Bayesian skyline plots and coalescentmodels with multiple loci

Coestimation of species tree and gene trees

Bayesian skyride Generalized partitioning

Page 7: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

BEAST 1.8Phylogeographic models

Page 8: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

BEAST 2.2

Birth-death-skyline models Fossilized birth-death models

tor

t1

t2 = 0

λ1,µ1,ψ1

λ2,µ2,ψ2

ρ

and lots of others (e.g. Dirichlet process site partition model averaging)

Page 9: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Tree Space

Page 10: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Darwin’s Tree of LifeThe only illustration in the Origin of Species (Darwin, 1859)

z10

z1

z2

z3

z4

z5

z6

z7

z8

z9

w7

w8

w9

w10

u5

u6

u7

u8

t2t3

m1

m2

m3

m4

m5

m6

m7

m8

m9

E10 F10m10

s2

i2i3k5

k6k7k8

l7l8

a1

a2

a3

a4

a5

a6

a7

a8

a9

f 6f 7

f 8f 9

a10 f 10

A B C D E F G H I K L

W.West lith. Hatton Garden

I

II

III

IV

V

VI

VII

VIII

IX

X

XI

XII

XIII

XIVa14 q14 p14 b14 f 14 o14 e14m14 F14 n14 r 14 w14 y14 v14 z14

Page 11: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Types of phylogenies and representations

rooted trees unrooted tree

ABCDE

(a) cladogram

AB

CDE

0.1

(b) phylogram

AB

C

D

E

0.1

(c) unrooted tree

((((A, B), C), D), E); ((((A:0.1, B:0.2):0.12, C:0.3):0.123, D:0.4):0.1234, E:0.5);

branches (edges) and their lengths, nodes, tips (leaves)

Page 12: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

The tip-labeled time-tree

A tip-labeled time-tree is described by a tip-labeled ranked topology ofsize k and coalescent times, u = {u2, . . . , uk}.

These time-trees of size 3 can be interpreted as describing thepossible alternative evolutionary histories for three species or(uniparental) ancestries of the three individuals represented by thelabeled tips.

Page 13: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

y

x

1 2 3

y

x

1 2 3

1 2 3

1 2 3

Figure: A Euclidean two-dimensional space representing the space of allpossible time-trees for the topology ((1,2),3). There are two parameters, xand y, one for each of the two inter-coalescent intervals, the sum of whichis the age of the root (troot = x + y). Three trees are displayed, along withtheir arithmetic mean tree, also called the centroid. The dashed lines showthe path connecting each of the three trees to the mean tree by theshortest distance (i.e. their deviations from the mean).

Page 14: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

1 2 3

1 2 3

132

2 3 1

Figure: τ3, the simplest non-trivial tree space (for time-trees), representingthe space of time-trees for n = 3 taxa sampled contemporaneously. Each ofthe three non-degenerate tree topologies is represented by atwo-dimensional Euclidean space (as illustrated in Figure 1) and thesesubspaces meet at a single shared edge representing the star tree, which is aone-dimensional subspace and thus has a single parameter (the age of theroot). The dashed lines shows the paths of shortest distance between thefour displayed trees.

Page 15: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Another space of tip-labeled time-trees of size 3

1 2 3

t1 = t2

t((2,3),1)2t

((1,2),3)2

t((1,3),2)2

1 2 3

1 3 2

2 3 1

t1

t2

t1

t2

t1

t2

HH

H

t ((2,3),1)

2

=H

Figure: Space T3.

Figure from Gavruskin & Drummond (2014)

Page 16: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

A space of tip-labeled time-trees of size 4

1 3 4 1 2 3 42

1 2 4 3

1 2 3 4

1 2 3 4

2 1 3 4

τ2

τ3

σ2

σ3

µ2

µ3

T

R

E

Figure: Three-dimensional projection of 4-dimensional τ -space 4.

Figure from Gavruskin & Drummond (2014)

Page 17: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Unranked tree topologies of size 4

1 2 3 4

1 3 2 4

1 4 2 3

1 2 3 4

1 2 4 3

1 3 2 4

1 3 4 2

1 4 2 3

1 4 3 2

2 3 1 4

2 3 4 1

2 4 1 3

2 4 3 1

3 4 1 2

3 4 2 1

Page 18: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

How many trees are there?

For n species there are

Tn = 1× 3× 5× · · · × (2n − 3) = (2n−3)!(n−2)!2n−2

rooted, tip-labelled binary trees:

n #trees4 15 enumerable by hand5 105 enumerable by hand on a rainy day6 945 enumerable by computer7 10395 still searchable very quickly on computer8 135135 about the number of hairs on your head9 2027025 greater than the population of Auckland10 34459425 ≈ upper limit for exhaustive search20 8.20× 1021 ≈ upper limit of branch-and-bound searching48 3.21× 1070 ≈ the number of particles in the Universe136 2.11× 10267 number of trees to choose from in the “Out of Africa”

data (Vigilant et al. 1991)

Page 19: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Counting different types of rooted trees

n #shapes #trees, |Tn| #ranked trees #fully ranked trees2 1 1 1 13 1 3 3 44 2 15 18 345 3 105 180 4966 6 945 2700 110567 11 10395 56700 3495048 23 135135 1587600 148731049 46 2027025 57153600 81978649610 98 34459425 2571912000 56814228736

Table: The number of unlabeled rooted tree shapes, the number of labelledrooted trees, the number of labelled ranked trees (on contemporaneoustips), and the number of fully-ranked trees (on distinctly-timed tips) as afunction of the number of taxa, n.

Page 20: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Bayesian phylogenetics

Page 21: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Felsenstein’s likelihood (1981)

L(T) = Pr{D|T,Q}The probability of the data,Pr{D|T,Q} can be efficientlycalculated given a phylogenetictree (T), and a probabilisticmodel of molecular evolution(Q).

In statistical phylogenetics,branch lengths aretraditionally unconstrained.

Page 22: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Tree space as a hilly landscapeThe space of all possible trees can be visualized as a hilly landscape. Nearbypoints in this landscape represent similar trees, and the height of thelandscape is the probability of the tree at that point.

• This space can be sampled in a Bayesian analysis with MCMC

• The peak can be identified by a search algorithm in the context ofmaximum likelihoods

Page 23: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Local tree search and multiple optima

Page 24: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Bayes rule in statistics

Pr(θ|D) = Pr(D|θ)Pr(θ)Pr(D)

where

• P(D|θ) is the likelihood,• Pr(θ) is the prior distribution and• Pr(θ|D) is the posterior distribution.• Pr(D) is the marginal likelihood of the data.

Page 25: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Bayes rule in phylogenetics

p(T,Q|D) = Pr{D|T,Q}p(T)p(Q)Pr{D}

where

• Pr(D|T,Q) is Felsenstein’s likelihood,• p(T) is the prior distribution on phylogenetic trees,• p(Q) is the prior distribution on the model of evolution and• p(T,Q|D) is the posterior distribution• Pr(D) is the marginal likelihood of the data.

Page 26: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Bayesian reconstruction of phylogenetic treesYang & Rannala (1997), Mau, Newton & Larget (1998)

In the context of Bayesian phylogenetics, what we want to computeis the probability of the tree given the data.

We can compute that from the likelihood using Bayes Theorem:

Pr( | )P( | ) =

Pr( )P( )|Likelihood

Posterior probability

Prior Probability

Normalizing constant

This is known as the Posterior probability of the tree. Anothermethod of reconstructing the evolutionary history is then to find thetree that has the Maximum Posterior probability.

Page 27: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Bayesian Phylogenetics

• The output of a Bayesian evolutionary analysis is a probabilitydistribution on trees and parameter values.

• For phylogenetics the tree topology is the object of interest.The substitution parameters and tree prior parameters are anuisance that we average over using MCMC and then ignore.

• For population genetics the tree and substitution parametersare a nuisance that we average over and then ignore, focusinginstead on the population parameters.

• Often a more specific hypothesis is of interest (like “Did thisadaptive radiation predate the Miocene?”) and then the result ofthe analysis should be the testing of this hypothesis, averagedover all trees and parameter values, weighted by theirprobability given the data.

Page 28: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

The Posterior Distribution on Darwin’s Finches

This posterior probability distribution was computed using an algorithmcalled Markov chain Monte Carlo implemented in the BEAST softwarepackage (Drummond & Rambaut, 2007).

Page 29: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

The posterior distribution for larger trees

Page 30: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Elaborating the model

Basic model: (posterior proportional to likelihood × prior)

p(T|D) ∝ Pr{D|T}p(T)

Substitution model estimation:

p(T,Q|D) ∝ Pr{D|T,Q}p(T)p(Q)

Substitution model and parametric tree prior:

p(T,Q, θ|D) ∝ Pr{D|T,Q}p(T|θ)p(Q)p(θ)

Page 31: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Clocks and calibrations

Page 32: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

The molecular clock constraint

T g

Standard BEAST model:p(g,Q, θ|D) ∝ Pr{D|g,Q}p(g|θ)p(Q)p(θ)

The joint posterior probability of the rooted time-tree (g) thesubstitution matrix (Q) and the tree prior parameters (θ) is sampledusing Markov chain Monte Carlo (Drummond et al, 2002; 2006)

Page 33: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Model assumptions

• Product of rate and time(branch length) is independentand identically distributedamong branches.

• The root of the tree could beanywhere with equal probability.

• Topology implies nothing aboutindividual branch lengths.

• Rate of evolution is the same onall branches.

• The root of the tree isequidistant from all tips.

• Topology constrains branchlengths (e.g. two branches in acherry must be of equal length)

Page 34: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Calibration via a global molecular clock

Basic model: (Tree in expected substitutions per site)

p(g, θ|D) ∝ Pr{D|g}p(g|θ)p(θ)

Fix (i.e. condition on) the global rate to µ:

p(g, θ|D) ∝ Pr{D|µ× g}p(g|θ)p(θ)

Estimate the global rate:

p(g, µ, θ|D) ∝ Pr{D|µ× g}p(g|θ)p(θ)p(µ)

In the models above the parameters related to the details of thesubstitution process (Q) have been suppressed for simplicity.

Page 35: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Genetic distance = rate × timeStrict molecular clock

T = µ× g

0.0

0.10

0.30

0.45

A B C D

= 0.01 ×

0.0

10.0

30.0

45.0

A B C D

“substitution tree” evolutionary ratesubstitutions / site / unit time

time tree

Page 36: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Non-identifiability of rate and times

0.0

0.10

0.30

0.45

A B C D

= 0.01 ×

0.0

10.0

30.0

45.0

A B C D

= 0.1 ×

0.0

1.0

3.0

4.5

A B C D

“substitution tree” evolutionary ratesubstitutions / site / unit time

time tree

Page 37: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

A simple calibration is not simpleConsider the simplest type of calibration to admit uncertainty: theplacement of an upper and a lower limit on the age of a singlecalibrated divergence (hC) in the tree:

f(hC) =

{1/(u − l) l ≤ hC ≤ u0 otherwise

(1)

This calibration already has two quite distinct interpretations. Oneinterpretation is that the resulting marginal prior distribution on thecalibrated divergence should obey the tree process prior (fG, e.g.Yule or Birth-death) but be constrained to be within the upper andlower bounds:

ρG(g|θ) ∝ fG(g|θ)f(hC), (2)

Alternatively, the marginal prior of hC is uniform and conditioned on:

ρG(g|θ) ∝ fG(g−hC |θ, hC)f(hC), (3)

Page 38: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Absolute time via calibrations

Let ρG(g|θ) be “calibrated” fG(g|θ) and estimate the rate, µ:

p(µ, g, θ|D) ∝ Pr{D|µ× g}ρG(g|θ)fN(θ)fM(µ)

Page 39: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Calibrating tree space

y

x

1 2 3

y

x

1 2 3

1 2 3

Single calibration on the root height: 8 < x + y < 12

Page 40: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Calibrating tree spaceTwo calibrations is even less simple!

y

x

1 2 3

y

x

1 2 3

1 2 3

First calibration: 8 < x + y < 12Second calibration: 5 < y < 10

Page 41: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

(a) (b) (c)

(d) (e) (f)

(g) (h)

Figure: A simple construction of calibrated tree prior: ρG(g) ∝ fG(g)×∏k

i=1 fi(si). Wherefi() is the univariate ”calibration density” for the divergence time of the i’th calibrated node inthe tree. Monophyly is enforced for each calibrated node.

Page 42: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

(a) (b) (c)

(d) (e) (f)

(g) (h)

Figure: The marginal prior distributions that result from BEAST (gray) versus calibrationdensities (black) specified for the calibrated nodes from [?]. The marginal prior distributionswere obtained from a MCMC run using the prior only.

Page 43: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

How do I pick the calibration density?

Page 44: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Modeling the Fossil Age Gap

What is the probability distribution ofthe age gap?

60-61.5 Myr penguinProf. Ewan Fordyce with reconstruction ofWaimanu tuatahi

Current day penguin species: 20

Number of independent penguin fossils withgood geological age from all ages: 20-60

Page 45: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

The posterior estimate of the age of penguins

Page 46: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Evolution is happening right now!Rodrigo and Felsenstein, 1999; Drummond et al, 2002

Many pathogens, such as HIV, Hepatitis C and Influenza A, evolve veryrapidly, so that samples of the virus population from different times directlyreveal evolutionary change.

In fact it becomes possible to calibrate the tree and thus place the tree ona time scale - by constraining the tips to known sampling times

Page 47: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis
Page 48: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

A calibrated phylogenetic inferenceOrigin of HIV Epidemic in the Americas, Gilbert et al (2007)

A phylogenetic reconstruction of samples of HIV-1 virus. Each degree onenode represents a single infected individual from whom a blood sample hasbeen taken.

Page 49: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Human immunodeficiency virus type 1(HIV-1)

A single HIV-1 infected personhas at least 107 − 108 infectedcells, with each infected cellproducing ∼ 103 viral particlesduring its life time.

Page 50: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

A tree of HIV sequences from 9 infected patientsShankarappa et al (1999)

A phylogenetic reconstruction of samples of HIV-1 virus. Each degree onenode represents a single virus particle isolated from a blood sample of oneof 9 patients.

Page 51: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Estimated accumulation of evolutionary changeLemey et al (2008)

Page 52: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

On the Origin of 2009 H1N1 Swine Flu outbreakhttp://tree.bio.ed.ac.uk/groups/influenza/

������ ������ ������ ������ ������ ������

��������������������������������

����������������������������������

�����������������������������������

������������������������������

����������������������������������

��������������������������������

����������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

���������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

������������������������������

��������������������������������

���������������������������������������������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������������

����������������������������������������������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

����������������������������������

����������������������������������

��������������������������������

�����������������������������

����������������������������������

��������������������������������

���������������������������������

�������������������������������������

��������������������������������

��������������������������������

������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

������������������������������������������������������������������������������

��������������������������������

����������������������������������

��������������������������������

������������������������������

��������������������������������

�������������������������������

���������������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

���������������������������������������

����������������������������������

��������������������������������

����������������������������������

����������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

���������������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

�����������������������������

����������������������������������

�������������������������������

��������������������������������

������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

������������������������������������

�������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

����������������������������������

����������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

���������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������

���������������������������������������������������������

������ ������ ������ ������ ������ ������

��������������������������������

����������������������������������

�����������������������������������

������������������������������

����������������������������������

��������������������������������

����������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

���������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

������������������������������

��������������������������������

���������������������������������������������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������������

����������������������������������������������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

����������������������������������

����������������������������������

��������������������������������

�����������������������������

����������������������������������

��������������������������������

���������������������������������

�������������������������������������

��������������������������������

��������������������������������

������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

������������������������������������������������������������������������������

��������������������������������

����������������������������������

��������������������������������

������������������������������

��������������������������������

�������������������������������

���������������������������������������

��������������������������������

��������������������������������

���������������������������������������

��������������������������������

���������������������������������������

����������������������������������

��������������������������������

����������������������������������

����������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

���������������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

�����������������������������

����������������������������������

�������������������������������

��������������������������������

������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

������������������������������������

�������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

��������������������������������

����������������������������������

��������������������������������

����������������������������������

����������������������������������

��������������������������������

��������������������������������

��������������������������������

����������������������������������

���������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

���������������������������������

���������������������������������������������������������

Page 53: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Relaxed phylogenetics

Page 54: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Genetic distance = rate × timeRelaxed molecular clock

T = µ⃗ ⋆ g

BA

0.10.15

C

0.2 0.15

D

0.075

0.1=

0.0150.010.0050.010.010.005

0.0

10.0

30.0

45.0

A B

1 2

C

53

D

6

4

“substitution tree” evolutionary ratessubstitutions / site / unit time

time tree

Page 55: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Nonidentifiability in the relaxed clock

BA

0.10.15

C

0.2 0.15

D

0.075

0.1=

0.0150.010.0050.010.010.005

0.0

10.0

30.0

45.0

A B

1 2

C

53

D

6

4

=

0.00750.0050.0050.010.020.005

0.0

20.0

30.0

45.0

A B

1 2

C

5

3

D

6

4

“substitution tree” evolutionary ratessubstitutions / site / unit time

time tree

Page 56: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Relaxing the molecular clock

Page 57: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Sampling branch rates using MCMC

Page 58: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Influenza A gene tree estimated by relaxed molecular clock

Page 59: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Influenza A gene tree estimated by relaxed molecular clock

• Box-and-whisker plotsshow uncertainty indivergence times (only forsplits with posteriorprobability > 0.5)

• Node size and branchthickness proportional toevolutionary rate.

Page 60: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Influenza trees under different relaxed clock models

Page 61: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

UC versus AC on five data sets

Page 62: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Prior versusPosterior

Marsupials example(24 taxa, 5658nucleotides)

Page 63: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Accuracy in Bayesian Phylogenetics

• Phylogenetics is an estimationproblem, in which thephylogenetic tree topology is theobject we wish to estimate.

• The error associated with thisestimation can be described bythe 95% credible set of trees:the smallest set of trees including95% of the posterior probability.

• A standard measure of accuracyis the false positive rate. Howoften do we exclude the truetree from the 95% credible set?

Page 64: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Precision in Bayesian Phylogenetics

• The precision of an estimate canbe described by how much isexcluded.

• How small is the 95% credibleset of trees?

Page 65: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Testing Accuracy and Precision with real data

• Used 106 genes from 8 species of yeast (Rokas et al, 2003) and 4other “phylogenomic” data sets

• For each gene used both MrBayes and BEAST to estimatephylogeny and 95% credible set

• Assumed true tree is the tree estimated using all theconcatenated data set.

• Tabulated number of trees in credible set and whether the truetree was in credible set for MrBayes (unconstrained) and BEAST(MLLN and CLOC models)

Page 66: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Rokas data: MrBayes tree estimates

Page 67: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Rokas data: Strict clock tree estimates from BEAST

Page 68: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Rokas data: Relaxed clock tree estimates from BEAST

Page 69: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Summary of Bayesian Accuracy on five large data sets

Page 70: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Summary of Bayesian Precision on five large data sets

Page 71: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Increasing the length of the sequence

Page 72: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Random local molecular clocks

Page 73: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Random local molecular clocks

Page 74: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Primate data set (Poisson prior on # rate changes)

Page 75: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Primate data set (Uniform prior on # rate changes)

Page 76: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Rodents (1+2 codon positions from 3 nuclear genes)

Page 77: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Rodent data set (Poisson prior on # rate changes)

Page 78: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Rodents data set (Uniform prior on # rate changes)

Page 79: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Ratite relaxed clock on full mitochondrial sequences

Page 80: Relaxed Bayesian phylogeneticsevomicsorg.wpengine.netdna-cdn.com/wp-content/uploads/... · 2017. 3. 14. · Bayesian Phylogenetics • The output of a Bayesian evolutionary analysis

Conclusions

• Relaxed molecular clocks have many benefits overunconstrained models for phylogenetic inference

• They appear to estimate the phylogenetic tree more accuratelyon real data sets

• They automatically provide estimates of a root position, withoutthe need for an outgroup

• They automatically provide estimates of relative divergencedates, or absolute divergence dates when calibration informationis available

• Calibration is hard and interesting• Specifying natural means of calibrating phylogenies is subtle• Recent methods for including fossil evidence include new tree

priors, and opportunities for total evidence dating.

• The geometry of (time) is understudied and its study could leadto new methods for doing phylogenetic inference and posteriorpost-processing and summary.