el papel de la estadística en la inferencia del ``árbol de...

94
El papel de la Estadística en la inferencia del “árbol de la vida” Claudia Solís Lemus Octubre 17, 2014

Upload: others

Post on 15-Mar-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

El papel de la Estadística en la inferencia del“árbol de la vida”

Claudia Solís Lemus

Octubre 17, 2014

Page 2: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Motivación: Árbol de la vida

CSL estadística filogenética Octubre 17, 2014 2 / 63

Page 3: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Ejemplos de filogenética: biología

1Zimmer (2009)2Zhou et al (2011)

CSL estadística filogenética Octubre 17, 2014 3 / 63

Page 4: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Ejemplos de filogenética: biología

1Figure Campbell’s Biology, 5th Edition2O’Brien et al. (1985)

CSL estadística filogenética Octubre 17, 2014 4 / 63

Page 5: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Ejemplos de filogenética: más allá de la biología

VIH1O’Brien et al. (2004)

CSL estadística filogenética Octubre 17, 2014 5 / 63

Page 6: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Ejemplos de filogenética: más allá de la biología

Cáncer

1Abu-Asab et al. (2013)CSL estadística filogenética Octubre 17, 2014 6 / 63

Page 7: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Ejemplos de filogenética: más allá de la biología

Lingüística

1Mace and Holden (2005)CSL estadística filogenética Octubre 17, 2014 7 / 63

Page 8: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Ejemplos de filogenética: más allá de la biología

Ciencias Forenses1Learns and Mullins (2003)

CSL estadística filogenética Octubre 17, 2014 8 / 63

Page 9: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Qué es un árbol filogenético?

(a) Con raíz (b) Sin raíz

Figure: Árbol filogenético binario

CSL estadística filogenética Octubre 17, 2014 9 / 63

Page 10: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Desde el punto de vista estadístico

Quiénes son los datos?

CSL estadística filogenética Octubre 17, 2014 10 / 63

Page 11: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Desde el punto de vista estadístico

Quiénes son los datos?

CSL estadística filogenética Octubre 17, 2014 10 / 63

Page 12: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Desde el punto de vista estadístico

Quiénes son los parámetros a estimar?

Alligator

Emu

Kiwi

Ostrich

Swan

Goose

Chicken

Falcon

Finch

Osprey

Woodpecker

Ibis

Stork

Vulture

Penguin

CSL estadística filogenética Octubre 17, 2014 11 / 63

Page 13: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Desde el punto de vista estadístico

Quiénes son los parámetros a estimar?

Alligator

Emu

Kiwi

Ostrich

Swan

Goose

Chicken

Falcon

Finch

Osprey

Woodpecker

Ibis

Stork

Vulture

Penguin

CSL estadística filogenética Octubre 17, 2014 11 / 63

Page 14: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

All models are wrong, but some models are useful.

George Box

Columnas en la secuencia evolucionan de manera independienteCadena de Markov en tiempo continuo, sobre {A,C,G,T}Homogénea y reversible

Ejemplo de generador:

Q =

A C G T

∗ µaπC µbπG µcπT A

µaπA ∗ µdπG µeπT C

µbπA µdπC ∗ µf πT G

µcπA µeπC µf πG ∗ T

Probabilidades de transición: Pt = exp(tQ)

CSL estadística filogenética Octubre 17, 2014 12 / 63

Page 15: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

All models are wrong, but some models are useful.

George Box

Columnas en la secuencia evolucionan de manera independienteCadena de Markov en tiempo continuo, sobre {A,C,G,T}Homogénea y reversible

Ejemplo de generador:

Q =

A C G T

∗ µaπC µbπG µcπT A

µaπA ∗ µdπG µeπT C

µbπA µdπC ∗ µf πT G

µcπA µeπC µf πG ∗ T

Probabilidades de transición: Pt = exp(tQ)

CSL estadística filogenética Octubre 17, 2014 12 / 63

Page 16: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

All models are wrong, but some models are useful.

George Box

Modelo más simple: Jukes-CantorπA = πC = πG = πTa = b = c = d = e = f

Modelo más general: Transición (b,e) - Transversión (a,c,d,f)

Transition

Transition

Transversion

CSL estadística filogenética Octubre 17, 2014 13 / 63

Page 17: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

All models are wrong, but some models are useful.

George Box

Modelo más simple: Jukes-CantorπA = πC = πG = πTa = b = c = d = e = f

Modelo más general: Transición (b,e) - Transversión (a,c,d,f)

Transition

Transition

Transversion

CSL estadística filogenética Octubre 17, 2014 13 / 63

Page 18: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

GTR

TN93

HKY85 F84

F81

K80

JC69

CSL estadística filogenética Octubre 17, 2014 14 / 63

Page 19: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

Modelos más generales:

Distinta tasa de mutación: µ ∼ Gamma

Posibilidad de dependencia entre posiciones de nucleótidos

CSL estadística filogenética Octubre 17, 2014 15 / 63

Page 20: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

CSL estadística filogenética Octubre 17, 2014 16 / 63

Page 21: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

L =∑w

∑y

∑x

π(w)Pt6(w , y)Pt5(w ,G)Pt3(y , x)Pt4(y ,C)

Pt2(x ,C)Pt1(x ,A)

CSL estadística filogenética Octubre 17, 2014 17 / 63

Page 22: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de Markov de evolución de secuencias de ADN

L =∑w

∑y

∑x

π(w)Pt6(w , y)Pt5(w ,G)Pt3(y , x)Pt4(y ,C)

Pt2(x ,C)Pt1(x ,A)

CSL estadística filogenética Octubre 17, 2014 17 / 63

Page 23: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Reconstrucción del árbol de gen

Optimización numérica para las longitudes de ramas

Optimización heurística para la topología del árbol

MrBayes, RAxML

CSL estadística filogenética Octubre 17, 2014 18 / 63

Page 24: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Reconstrucción del árbol de gen

# Especies # Árboles sin raíz # Árboles con raíz1 1 12 1 13 1 34 3 155 15 1056 105 9457 945 103958 10,395 135,1359 135,135 2,027,02510 2,027,025 34,459,42511 34,459,425 654,729,07512 654,729,075 13,749,310,57513 13,749,310,575 316,234,143,225...

......

52 > # de átomos en el universo

CSL estadística filogenética Octubre 17, 2014 19 / 63

Page 25: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Reconstrucción del árbol de gen

76% Human

Chimpanzee

Gorilla

Orangutan

CSL estadística filogenética Octubre 17, 2014 20 / 63

Page 26: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Reconstrucción del árbol de gen

Human

Chimpanzee

Gorilla

Orangutan

CSL estadística filogenética Octubre 17, 2014 21 / 63

Page 27: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Árbol de especies vs árbol de genes

Human Chimpanzee Gorilla

CSL estadística filogenética Octubre 17, 2014 22 / 63

Page 28: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Árbol de especies vs árbol de genes

Human Chimpanzee Gorilla

CSL estadística filogenética Octubre 17, 2014 23 / 63

Page 29: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Árbol de especies vs árbol de genes

Human Chimpanzee Gorilla

CSL estadística filogenética Octubre 17, 2014 24 / 63

Page 30: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Reconstrucción del árbol de gen

76% Human

Chimpanzee

Gorilla

Orangutan

CSL estadística filogenética Octubre 17, 2014 25 / 63

Page 31: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Reconstrucción del árbol de gen

76% Human

Chimpanzee

Gorilla

Orangutan

12% Human

Gorilla

12% Human

Orangutan

Árbol de especies y el árbol de genes pueden ser diferentes!

CSL estadística filogenética Octubre 17, 2014 26 / 63

Page 32: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Reconstrucción del árbol de gen

76% Human

Chimpanzee

Gorilla

Orangutan

12% Human

Gorilla

12% Human

Orangutan

Árbol de especies y el árbol de genes pueden ser diferentes!

CSL estadística filogenética Octubre 17, 2014 26 / 63

Page 33: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Estimación en varios niveles

Secuenciasde ADN

Árbol degenes

Árbol deespecies

Modelo deMarkov deevolución desecuencias Modelo de

Coalescencia

CSL estadística filogenética Octubre 17, 2014 27 / 63

Page 34: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Estimación en varios niveles

Secuenciasde ADN

Árbol degenes

Árbol deespecies

Modelo deMarkov deevolución desecuencias

Modelo deCoalescencia

CSL estadística filogenética Octubre 17, 2014 27 / 63

Page 35: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Estimación en varios niveles

Secuenciasde ADN

Árbol degenes

Árbol deespecies

Modelo deMarkov deevolución desecuencias Modelo de

Coalescencia

CSL estadística filogenética Octubre 17, 2014 27 / 63

Page 36: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 28 / 63

Page 37: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 29 / 63

Page 38: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 30 / 63

Page 39: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 31 / 63

Page 40: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 32 / 63

Page 41: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 33 / 63

Page 42: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 34 / 63

Page 43: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 35 / 63

Page 44: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 36 / 63

Page 45: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 37 / 63

Page 46: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

CSL estadística filogenética Octubre 17, 2014 38 / 63

Page 47: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

Población haploide constante: N individuos1 individuo = 1 cromosomaSin selección: probabilidad uniforme 1

N

Probabilidad de no coalescencia en g generaciones: (1− 1

N

)gTiempo de coalescencia: t = g/N(

1− tNt

)Nt −−−−→N→∞

e−t

Distribución exponencial con media 1

CSL estadística filogenética Octubre 17, 2014 39 / 63

Page 48: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

P(T > t) = exp(−t)

CSL estadística filogenética Octubre 17, 2014 40 / 63

Page 49: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

P(T > t) = exp(−t)

CSL estadística filogenética Octubre 17, 2014 40 / 63

Page 50: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelo de coalescencia para una población

1− 2/3 exp(−t) 1/3 exp(−t) 1/3 exp(−t)

CSL estadística filogenética Octubre 17, 2014 41 / 63

Page 51: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelos para reconstruir árbol de especies

k secuenciasde ADN Di

Árbol degenes Ti

Árbol deespecies τ

Modelo deMarkov deevolución desecuencias Modelo de

Coalescencia

k∏i=1

P{Di |Ti}︸ ︷︷ ︸secuencias

P{Ti |τ}︸ ︷︷ ︸coalescencia

CSL estadística filogenética Octubre 17, 2014 42 / 63

Page 52: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Modelos para reconstruir árbol de especies

k secuenciasde ADN Di

Árbol degenes Ti

Árbol deespecies τ

Modelo deMarkov deevolución desecuencias Modelo de

Coalescencia

k∏i=1

P{Di |Ti}︸ ︷︷ ︸secuencias

P{Ti |τ}︸ ︷︷ ︸coalescencia

CSL estadística filogenética Octubre 17, 2014 42 / 63

Page 53: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Métodos para reconstruir el árbol de especies

Métodos Bayesianos: computacionalmente pesados, k ≤ 30 genes.hypotésis restrictivas sobre la longitud de ramas.

*BEAST, BEST

Métodos en 2 etapas: estimación de árboles de genes Ti , estimacióndel árbol de especies suponiendo Ti sin error.

STEM, STAR, STEAC, MP-EST

CSL estadística filogenética Octubre 17, 2014 43 / 63

Page 54: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Métodos para reconstruir el árbol de especies

Métodos Bayesianos: computacionalmente pesados, k ≤ 30 genes.hypotésis restrictivas sobre la longitud de ramas.

*BEAST, BEST

Métodos en 2 etapas: estimación de árboles de genes Ti , estimacióndel árbol de especies suponiendo Ti sin error.

STEM, STAR, STEAC, MP-EST

CSL estadística filogenética Octubre 17, 2014 43 / 63

Page 55: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:IdentificabilidadMétodo de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:Especies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 56: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:IdentificabilidadMétodo de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:Especies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 57: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:

IdentificabilidadMétodo de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:Especies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 58: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:Identificabilidad

Método de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:Especies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 59: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:IdentificabilidadMétodo de máxima parsimonia inconsistente

No existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:Especies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 60: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:IdentificabilidadMétodo de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:Especies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 61: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:IdentificabilidadMétodo de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:

Especies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 62: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:IdentificabilidadMétodo de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:Especies bien delimitadas

No flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 63: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:IdentificabilidadMétodo de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescencia:Especies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 44 / 63

Page 64: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Muchos retos para la Estadística

“Next-generation sequencing”: muchos datos

Errores sistemáticos en alineamiento de secuencias (Zwickl, 2014)

Comportamiento asintótico de los estimadores:IdentificabilidadMétodo de máxima parsimonia inconsistenteNo existencia de estimador consistente para µ cuando datosmorfológicos siguen un modelo Ornstein-Uhlenbeck (Ho y Ané, 2014)

Violación de supuestos del modelo de coalescenciaEspecies bien delimitadasNo flujo de genes entre especies

CSL estadística filogenética Octubre 17, 2014 45 / 63

Page 65: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

iBPP (Solis-Lemus, Knowles, Ané, 2014)BPP (Yang, Rannala, 2010)

Meta: Estimar el árbol de especies explorando qué tan distintas sonlas poblaciones

...ABCDCDBADCBA

CSL estadística filogenética Octubre 17, 2014 46 / 63

Page 66: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

BPP (Yang, Rannala, 2010)Verosimilitud

P{secuencias|árboles genes}︸ ︷︷ ︸modelo de secuencias

∗P{árboles genes|árbol especies, t, θ}︸ ︷︷ ︸modelo de coalescencia

Distribuciones a prioriTopología: Uniforme correspondiente a un árbol guía

A B C D AB C D A B CD AB CD ABCD

CSL estadística filogenética Octubre 17, 2014 47 / 63

Page 67: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

BPP (Yang, Rannala, 2010)Verosimilitud

P{secuencias|árboles genes}︸ ︷︷ ︸modelo de secuencias

∗P{árboles genes|árbol especies, t, θ}︸ ︷︷ ︸modelo de coalescencia

Distribuciones a prioriTopología: Uniforme correspondiente a un árbol guía

A B C D AB C D A B CD AB CD ABCD

CSL estadística filogenética Octubre 17, 2014 47 / 63

Page 68: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

BPP (Yang, Rannala, 2010)Verosimilitud

P{secuencias|árboles genes}︸ ︷︷ ︸modelo de secuencias

∗P{árboles genes|árbol especies, t, θ}︸ ︷︷ ︸modelo de coalescencia

Distribuciones a prioriTopología: Uniforme correspondiente a un árbol guía

A B C D AB C D A B CD AB CD ABCD

CSL estadística filogenética Octubre 17, 2014 47 / 63

Page 69: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

BPP (Yang, Rannala, 2010)Verosimilitud

P{secuencias|árboles genes}︸ ︷︷ ︸modelo de secuencias

∗P{árboles genes|árbol especies, t, θ}︸ ︷︷ ︸modelo de coalescencia

Distribuciones a prioriTopología: Uniforme correspondiente a un árbol guíaLongitudes de ramas: ti − tj ∼ GammaTamaño de población: θ ∼ Gamma

CSL estadística filogenética Octubre 17, 2014 48 / 63

Page 70: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

iBPP (Solis-Lemus, Knowles, Ané, 2014)Incorpora datos morfológicos: Y1, ...,Yk ∼ N(µ, σ2Vλ)Movimiento Browniano entre y dentro de poblaciones

h2

h21−

B CA

CSL estadística filogenética Octubre 17, 2014 49 / 63

Page 71: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

iBPP (Solis-Lemus, Knowles, Ané, 2014)Verosimilitud

P{Y1, ...,Yk |λ1, ..., λk , árbol especies}︸ ︷︷ ︸modelo de BM

P{secuencias|árboles genes}︸ ︷︷ ︸modelo de secuencias

∗P{árboles genes|árbol especies, t, θ}︸ ︷︷ ︸modelo de coalescencia

Distribuciones a prioriλ ∼ U(0, 1)σ2 ∼ Inv .χ2 conjugadaµ|σ2 ∼ Normal conjugada

CSL estadística filogenética Octubre 17, 2014 50 / 63

Page 72: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

iBPP (Solis-Lemus, Knowles, Ané, 2014)Verosimilitud

P{Y1, ...,Yk |λ1, ..., λk , árbol especies}︸ ︷︷ ︸modelo de BM

P{secuencias|árboles genes}︸ ︷︷ ︸modelo de secuencias

∗P{árboles genes|árbol especies, t, θ}︸ ︷︷ ︸modelo de coalescencia

Distribuciones a prioriλ ∼ U(0, 1)σ2 ∼ Inv .χ2 conjugadaµ|σ2 ∼ Normal conjugada

CSL estadística filogenética Octubre 17, 2014 50 / 63

Page 73: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

●●

0.1

0.2

0.3

0.4

0.5

0.6

0.7

●●

●●

mea

n P

P o

f the

true

tree

traits onlygenes onlygenes & traits

λ = 0.7, 3 traits, 4 loci

0 0.1 1 5 10migration rate

CSL estadística filogenética Octubre 17, 2014 51 / 63

Page 74: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

0.1

0.2

0.3

0.4

0.5

0.6

0.7

plasticity

● ●●

●● ●

0 0.01 0.05 0.1

mea

n P

P o

f the

true

tree

traits onlygenes onlygenes & traits

M=0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

plasticity

● ● ●●

0 0.01 0.05 0.1

M=5

CSL estadística filogenética Octubre 17, 2014 52 / 63

Page 75: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Delimitación de especies: enfoque bayesiano

Nuevos retos:

Datos morfológicos discretos

Modelo de Ornstein-Uhlenbeck

Dependencia en datos morfológicos

CSL estadística filogenética Octubre 17, 2014 53 / 63

Page 76: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Presencia de flujo de genes

Cartoon by Nick Kimwww.nearingzero.net

CSL estadística filogenética Octubre 17, 2014 54 / 63

Page 77: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Presencia de flujo de genes

www.quora.net

CSL estadística filogenética Octubre 17, 2014 55 / 63

Page 78: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Presencia de flujo de genes

Red de especies

CSL estadística filogenética Octubre 17, 2014 56 / 63

Page 79: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Presencia de flujo de genes

Red de especies

CSL estadística filogenética Octubre 17, 2014 56 / 63

Page 80: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Gran pregunta

(a) Árbol

(b) Red

CSL estadística filogenética Octubre 17, 2014 57 / 63

Page 81: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Red filogenética

(c) Con raíz (d) Sin raíz

Figure: Red filogénetica binaria

Pregunta: Cómo estimar una red y sus longitudes de ramas?

CSL estadística filogenética Octubre 17, 2014 58 / 63

Page 82: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Red filogenética

(a) Con raíz (b) Sin raíz

Figure: Red filogénetica binaria

Pregunta: Cómo estimar una red y sus longitudes de ramas?

CSL estadística filogenética Octubre 17, 2014 58 / 63

Page 83: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Nuestra contribución

Secuenciasde ADN

Árbol degenes

Red deespecies

Modelo deMarkov deevolución desecuencias

Modelo deCoalescenciaextendidoa redes

CSL estadística filogenética Octubre 17, 2014 59 / 63

Page 84: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Desde el punto de vista estadístico

Quiénes son los datos?

Árboles de genes

CSL estadística filogenética Octubre 17, 2014 60 / 63

Page 85: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Desde el punto de vista estadístico

Quiénes son los datos?Árboles de genes

CSL estadística filogenética Octubre 17, 2014 60 / 63

Page 86: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Desde el punto de vista estadístico

Quiénes son los datos?Árboles de genes

CSL estadística filogenética Octubre 17, 2014 60 / 63

Page 87: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Extensión del modelo de coalescencia

1 evento de hibridación

CSL estadística filogenética Octubre 17, 2014 61 / 63

Page 88: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Grandes preguntas de mi tesis

Metódo de estimación de una red de especies: extensión del modelode coalescencia

Un evento de hibridaciónMás de un evento de hibridación

Problemas de identificabilidad

Prueba de hipótesis: Árbol vs Red

Implementación computacional: búsqueda en el espacio de redes

CSL estadística filogenética Octubre 17, 2014 62 / 63

Page 89: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Grandes preguntas de mi tesis

Metódo de estimación de una red de especies: extensión del modelode coalescencia

Un evento de hibridación

Más de un evento de hibridación

Problemas de identificabilidad

Prueba de hipótesis: Árbol vs Red

Implementación computacional: búsqueda en el espacio de redes

CSL estadística filogenética Octubre 17, 2014 62 / 63

Page 90: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Grandes preguntas de mi tesis

Metódo de estimación de una red de especies: extensión del modelode coalescencia

Un evento de hibridaciónMás de un evento de hibridación

Problemas de identificabilidad

Prueba de hipótesis: Árbol vs Red

Implementación computacional: búsqueda en el espacio de redes

CSL estadística filogenética Octubre 17, 2014 62 / 63

Page 91: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Grandes preguntas de mi tesis

Metódo de estimación de una red de especies: extensión del modelode coalescencia

Un evento de hibridaciónMás de un evento de hibridación

Problemas de identificabilidad

Prueba de hipótesis: Árbol vs Red

Implementación computacional: búsqueda en el espacio de redes

CSL estadística filogenética Octubre 17, 2014 62 / 63

Page 92: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Grandes preguntas de mi tesis

Metódo de estimación de una red de especies: extensión del modelode coalescencia

Un evento de hibridaciónMás de un evento de hibridación

Problemas de identificabilidad

Prueba de hipótesis: Árbol vs Red

Implementación computacional: búsqueda en el espacio de redes

CSL estadística filogenética Octubre 17, 2014 62 / 63

Page 93: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Grandes preguntas de mi tesis

Metódo de estimación de una red de especies: extensión del modelode coalescencia

Un evento de hibridaciónMás de un evento de hibridación

Problemas de identificabilidad

Prueba de hipótesis: Árbol vs Red

Implementación computacional: búsqueda en el espacio de redes

CSL estadística filogenética Octubre 17, 2014 62 / 63

Page 94: El papel de la Estadística en la inferencia del ``árbol de ...pages.stat.wisc.edu/~claudia/talk_itam.pdf · Ejemplosdefilogenética: biología 1Figure Campbell’s Biology, 5th

Gracias!

Cécile AnéDavid BaumBret Larget

John Malloy (UMBC)

CSL estadística filogenética Octubre 17, 2014 63 / 63