inférence phylogénétique
DESCRIPTION
Inférence phylogénétique. phylogenetic tree ( T ). Observed sequence alignment ( D ). Chick. A E F D L Y K S. S E F D L Y K S. Human. S E F D V Y K S. Cat. Fish. A E F D L Y R S. Snail. S E F E V F R S. A E Y E L F R T. Fly. Hydra. A E F E V F R S. S E F E V F R S. Polyp. ?. - PowerPoint PPT PresentationTRANSCRIPT
Inférence phylogénétique
Observed sequence alignment (D)phylogenetic tree (T)
Chick
CatFishSnailFlyHydraPolyp
HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S
A E Y E L F R TA E F E V F R SS E F E V F R S
S E F E V F R S
?
Principes généraux d'uneméthode d'inférence phylogénétique
Deux aspects indépendants à considérer :
1) Le critère: Se définir un score S(T,D) permettant de mesurer le 'fit' d'un arbre T, sachant les données D (séquences alignées)
2) La méthode de recherche: Choisir parmi tous les arbres possibles de celui ayant le meilleur score
Critère 1 : Maximum de parcimonie
Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement
Observed sequence alignment (D)phylogenetic tree (T)
Chick
CatFishSnailFlyHydraPolyp
HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S
A E Y E L F R TA E F E V F R SS E F E V F R S
S E F E V F R S
Critère 1 : Maximum de parcimonie
Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement
Observed sequence alignment (D)phylogenetic tree (T)
Chick
CatFishSnailFlyHydraPolyp
HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S
A E Y E L F R TA E F E V F R SS E F E V F R S
S E F E V F R S
E D
E
Critère 1 : Maximum de parcimonie
Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement
Observed sequence alignment (D)phylogenetic tree (T)
Chick
CatFishSnailFlyHydraPolyp
HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S
A E Y E L F R TA E F E V F R SS E F E V F R S
S E F E V F R S
Critère 1 : Maximum de parcimonie
Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement
Observed sequence alignment (D)phylogenetic tree (T)
Chick
CatFishSnailFlyHydraPolyp
HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S
A E Y E L F R TA E F E V F R SS E F E V F R S
S E F E V F R SV V L
V L L V
Une convergence : deux évolutions indépendantes vers LUne réversion : chez le chat, un retour à l'état ancestral (V)
Convergences et réversions : homoplasies
Critère 1 : Maximum de parcimonie
Pour un arbre donné, le score est le nombre minimal de changements nécessaires pour expliquer l’alignement
Observed sequence alignment (D)phylogenetic tree (T)
Chick
CatFishSnailFlyHydraPolyp
HumanA E F D L Y K SS E F D L Y K SS E F D V Y K SA E F D L Y R S
A E Y E L F R TA E F E V F R SS E F E V F R S
S E F E V F R SL
L V
L V
L V
Maximum de parcimonie
Deux étapes de minimisation :
1) Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement
2) Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements
Trouver l'arbre de Maximum de parcimonie
méthode naïve
• prendre chaque arbre l'un après l'autre
• pour chaque arbre, calculer le score de parcimonie
• conserver le (ou les) meilleurs arbres
Trouver l'arbre de Maximum de parcimonie
méthode naïve
• prendre chaque arbre l'un après l'autre
• pour chaque arbre, calculer le score de parcimonie
• conserver le (ou les) meilleurs arbres
• problème: combinatoire trop élevée
Agglomération progressive des espèces
Heuristiques de recherche de topologies
1. Insertion sur toutes les branches2. Calcul du nombre de changements3. Choix de l’arbre le plus
parcimonieuxNombre d’opérations : 3+5+7=15
(pour 105 arbres possibles)
Pour 10 espèces : 63 versus 2 millions
Ordre d’agglomération des espèces
A
BC
D
E
A
B C
D
E
A
B C
D
AB
CF
D
FE
C
B
D
F E
C
B
D
F E
C
DF
EA
1. Ajouter les espèces de manière aléatoire2. Répéter l’opération un grand nombre de
fois3. Choisir l’arbre le plus parcimonieux
Algorithme de réarrangements
Réarrangement local ou Nearest Neighbor Interchange (NNI)
YX
WZ
Subtree Pruning and Regrafting (SPR)
2
13 4
5
6
2
13 4
5
6
2
13 4
5
6
2
13 4
5
6 4(n-3)(n-2) possibilités
WX
YZ
ZX
WY
2(n-3) possibilités
MINIMUM GLOBAL
MinimumLocal
MinimumsLocaux
LongueurDeL’arbre
RÉPLICATS D’ADDITION ALÉATOIRE DE SEQUENCES
SUCCÈSÉCHEC ÉCHEC
Branch SwappingBranch Swapping
Branch Swapping
http://bioinf.ncl.ac.uk/molsys/data/characters.ppt
Minimums locaux : les ilôts d’arbres optimaux
The branch and bound algorithm
Hendy et Penny (1982) Mathematical Biosciences, 60:133-142, 1982
Utilisation de contraintes a priori
G7
G10G6G8
G4G2
G9
G3
G11
G1
G5
11 espèces : 24 106
45 espèces : 5 1064
Méthode de distances
1) Pour chaque paire d’espèces, calculer la distance évolutive (c’est-à-dire le nombre de différences)
2) Choix parmi tous les arbres possibles de celui correspondant à la matrice de distances
Le critère ici est l'adéquation entre l'arbre et la matrice de distance
Cas idéal
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C
E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 5 6 0Espèce 4 7 8 6 0
Cas idéalAAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAAAAAAUGC AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C
E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 5 6 0Espèce 4 7 8 6 0
Arbre #11
2
3
4
a
b
e
d
c
Plus d’équations que de variables : en général,
pas de solutions
D(E1,E2) = a+b=3 (1)D(E1,E3) = a+e+c=5 (2)D(E1,E4) = a+e+d=7 (3)D(E2,E3) = b+e+c=6 (4)D(E2,E4) = b+e+d=8 (5)D(E3,E4) = c+d=6 (6)
(2)+(4)-(1) 2e+2c=5+6-3 e+c=4 (7)(2)–(7) a=5-4=1(1) b=3-1=2(4)+(5)–(6) 2b+2e=6+8-6 b+e=4 e=4-2=2(4) c=6-2-2=2(5) d=8-2-2=4
E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 5 6 0Espèce 4 7 8 6 0
Principe des méthodes de distance
1
2
3
4
1
2
2
4
2
Arbre #21
3
2
4
a
c
e
d
b
Plus d’équations que de variables : en général,
pas de solutions
D(E1,E2) = a+e+b=3 (1)D(E1,E3) = a+c=5 (2)D(E1,E4) = a+e+d=7 (3)D(E2,E3) = b+e+c=6 (4)D(E2,E4) = b+d=8 (5)D(E3,E4) = c+e+d=6 (6)
(2)+(4)-(1) 2c=5+6-3 c=4(2) a=5-4=1 a=1(3)+(4)-(5) a+c+2e=7+6-8=5 e=0(1) b=3-1=2 b=2(5) d=8-2=6 d=6(6) 4+0+6=6 10=6
E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 5 6 0Espèce 4 7 8 6 0
Principe des méthodes de distance
1
3
2
4
1
4
0
6
2
Une matrice de distances est dite additive (d’arbre) si et seulement il existe un arbre ayant des longueurs de branches parfaitement compatibles avec la matrice
Conditions des 4 points :Pour tout ensemble de 4 espèces i,j,k et l, deux des valeurs D(i,j)+D(k,l), D(i,k)+D(j,l) et D(i,l)+D(j,k) sont égales et supérieures à la troisième
Distances additives et ultramétriques
Une matrice de distances est dite ultramétrique si et seulement si, pour toutes feuilles i,j et k, max{d(i,j), d(i,k), d(j,k)} n’est pas unique
Horloge moléculaire i j k
d(i,j)
d(i,k) = d(j,k)
i j k
d(j,k)
d(i,j) = d(i,k)
j i k
d(i,k)
d(j,i) = d(j,k)
Une substitution multiple
AAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAAAAAAAGU AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-------GUEspèce 4 AA--GGCU--C
E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 4 (5) 5 (6) 0Espèce 4 7 8 6 0
Distances non additives
Substitutions multiples
entraînent une sous-estimation des distances
Moindres carrés
Appelons P une distance correspondant à un arbre phylogénétique T
les espèces i et j, P(i,j) = arètes sur le chemin connectant i et jSoit F la fonction qui mesure la qualité de l’ajustement (fit) de P à D
∑∑ −=i j
jiPjiDF ),(),( ( )∑∑ −=
i j jiD
jiPjiDF
),(
),(),( 2
1) On calcule les arètes de longueur inconnue (a, b, c, d et e, dans le cas précédent) en minimisant F par une méthode de moindre carré (least square method)
2) On choisit parmi tous les arbres possibles celui qui minimise F
ou
Comme en parcimonie, deux étapes d’ajustement/minimisation
Algorithme du Neighbor Joining (Saitou&Nei, 1987)
Calculer
Chercher i et j pour lesquels« Dij - ui - uj » est minimal
∑≠ −
=n
ji
ijj n
Du
2i
j
Calculer les voisinages :vi = (Dij + ui - uj) / 2vj = (Dij + uj - ui) / 2
i
j
vi vj
Calculer les distancesdu nouveau noeud (ij) à k :D(ij),k = (Dik + Djk - Dij) / 2
(ij)
Répéter jusqu’à ce qu’il ne reste que 3 espèces
Une substitution multiple
AAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAAAAAAAGU AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 4 (5) 5 (6) 0Espèce 4 7 8 6 0
1
2
1.5
4.5
1.5E1
E2
E3
E4
Trois substitutions multiples
AAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA GAAGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAGAAAAAAA AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
E1 E2 E3 E4Espèce 1 0Espèce 2 3 0Espèce 3 3 (5) 1 (6) 0Espèce 4 7 7 (8) 6 0
1.8
5.2
0.7
0.4
0.6E1
E4
E2
E3
Nécessité de corriger les distances avant d’inférer l’arbre
Calcul de la distance évolutive
Distance évolutive = nombre de substitutions ayant eu lieu entre deux espèces (ou organismes)
Mutation : altération d’une molécule d’ADN
(mutation ponctuelle : si un seul nucléotide est modifié)
Substitution : modification de la séquence d’ADN
dans l’ensemble de la population
PRINCIPE : estimer à partir des différences observées entre deux séquences le nombre de substitutions qui se sont produites
Nécessité d’un modèle d’évolution des séquences
…A A C A G T A C…
time
G C
A G
C A
Evolution operates independentlyand identically at each position
Markov process - no memory - time-homogeneous - of rate …A A C A C T A C…
…A G C A A T A C…
A simple model: Jukes and Cantor
For each substitution, drawfinal state with equal probability (1/3)
Modèle de Jukes et Cantor (1969)
• Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T)
• Tous les sites ont la même probabilité de subir une substitutionSéquence S0
0
Séquence St
t
Soit la fréquence de substitutions par million d'années
Soit qt la fréquence des nucléotides identiques entre la séquence à l’instant t et la séquence à l’instant 0
On cherche à calculer qt+1 la fréquence des nucléotides identiques entre la séquence à l’instant t + 1 et la séquence
à l’instant 0
qt+1 =
(1-)*qt
sites qui restent constants
/3*(1-qt)
sites qui étaient différents
+
Modèle de Jukes et Cantor (1969)
• Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T)
• Tous les sites ont la même probabilité de subir une substitution 0
Séquence S2 : S2t
Séquence S1 : S0
2t
D : distance évolutive (nombre de substitutions)
Q : p-distance (nombre de différences observées)
⎟⎠
⎞⎜⎝
⎛ −−= qD3
41ln
4
3
Modèle de Jukes et Cantor (1969)
⎟⎠
⎞⎜⎝
⎛ −−= qD3
41ln
4
3
00.10.20.30.40.50.60.70.80.9
1
0 1 2 3 4 5 6
DJC (substitutions estimées)p-d
ista
nce (
diff
ére
nces o
bserv
ées)
0.75
Modèle de Kimura (1980)
• Transition : remplacement d’une purine (A et G) par une autre ou d’une pyrimidine (C et T) par une autre.
• Transversion : remplacement d’une purine (A et G) par une pyrimidine (C et T).
Modèle de Kimura (1980)
1. Les substitutions sont séparées en deux catégories : transitions et transversions. A l’intérieur de ces deux catégories, les changements sont équiprobables (même probabilité de passer de A vers C que de A vers T)
2. Tous les sites ont la même probabilité de subir une substitution
• Transition : remplacement d’une purine (A et G) par une autre ou d’une pyrimidine (C et T) par une autre.
• Transversion : remplacement d’une purine (A et G) par une pyrimidine (C et T).
P : fréquence de transitions observées entre 2 séquences
Q : fréquence de transversions observées entre 2 séquences
⎟⎟⎠
⎞⎜⎜⎝
⎛−
+⎟⎟⎠
⎞⎜⎜⎝
⎛−−
=QQP
D21
1ln
4
1
21
1ln
2
1
Modèle de Jukes et Cantor (1969)
⎟⎠
⎞⎜⎝
⎛ −−= qD3
41ln
4
3
00.10.20.30.40.50.60.70.80.9
1
0 1 2 3 4 5 6
DJC (substitutions estimées)p-d
ista
nce (
diff
ére
nces o
bserv
ées)
0.75
(2 nucléotides) 0.50
…A A C A G T A C…
time
G C
A G
C A
Evolution operates independentlyand identically at each position
Markov process - no memory - time-homogeneous - of rate …A A C A C T A C…
…A G C A A T A C…
A simple model Felsenstein 1981
00.01
0.020.03
0.040.050.06
0.070.08
0.090.1
A C G T F G H I K L M N P Q R S T V W Y
For each substitution, drawfinal state from frequency vector:
Modèle de Felsenstein (1981)
• Toutes les substitutions sont équiprobables (par exemple si A est modifié, il y a une chance sur trois que ce soit en C, 1/3 en G et 1/3 en T)
• Tous les sites ont la même probabilité de subir une substitution
• Les fréquences des quatre nucléotides ne sont pas obligatoirement 0.25, 0.25, 0.25 et 0.25
P : fréquence de différences observées entre 2 séquences
⎟⎠
⎞⎜⎝
⎛ −−=B
PBD 1ln
)(1 2222TGCAB ππππ +++−=
General Time Reversible (GTR) model
1. Chaque type de substitutions nucléotidiques a sa propre probabilité
2. Tous les sites ont la même probabilité de subir une substitution
3. Les fréquences des quatre nucléotides ne sont pas obligatoirement 0.25, 0.25, 0.25 et 0.25
0
50
100
150
200
250
300N
om
bre
de s
ubst
itu
tion
s p
ar
posi
tion
Alignement de cytochrome b
2065 séquences de cytochrome b de Vertebrés
Variabilité du taux de substitutions entre positions
0
50
100
150
200
250
300
No
mb
re d
e su
bst
itu
tio
ns
par
po
siti
on
Alignement de cytochrome b Observé
Ajusté (=0.54)
0
20
40
60
80
100
120
140
160
Variabilité du taux de substitutions entre positions
Modélisation par une distribution
: paramètre de forme
Nei et Gojobori (1986)⎥⎥⎦
⎤
⎢⎢⎣
⎡−⎟
⎠⎞
⎜⎝⎛ −=
−
134p
14
3K
1αα
Jin et Nei (1990)
€
K =α
42 1− 2P − Q( )
−1 α+ 1− 2Q( )
−1 α− 3[ ]
Tamura et Nei (1993)
, paramètre de la loi
p, P, P1, P2 et Q fréquences des différences, transitions,transitions A/G, transitions CXT et transversions, respectivement
f, fréquence des nucléotides (R=purines, Y=pyrimidines)
€
K = 2α
fAfG
fR1−
fR
2 fAfGP1 −
1
2 fRQ
⎛
⎝ ⎜
⎞
⎠ ⎟
− 1α
+fTfC
fY1−
fY
2 fTfCP2 −
1
2 fYQ
⎛
⎝ ⎜
⎞
⎠ ⎟
− 1α
+ fRfY −fAfGfY
fR−fTfCfR
fY
⎛
⎝ ⎜
⎞
⎠ ⎟ 1−
1
2 fYfRQ
⎛
⎝ ⎜
⎞
⎠ ⎟
− 1α
− fAfG − fTfC − fRfY
⎡
⎣
⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢
⎤
⎦
⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥
Variabilité du taux de substitutions entre positions
Indice de Bremer : nombre de pas à ajouter à la longueur de l’arbre le plus parcimonieux pour casser la monophylie du clade considéré
Robustesse des phylogénies : l’indice de Bremer
Indice de Bremer (“Bremer Decay Index”) est égal à :
Le nombre de pas de l’arbre le plus parcimonieux dans lequel le clade considéré n’est pas
monophylétique
Moins
Le nombre de pas de l’arbre le plus parcimonieux dans lequel le clade considéré est monophylétique
Robustesse des phylogénies : le test du bootstrap
1) Tirage avec remise de n positions parmi n positions
2) Construire l’arbre phylogénétique
3) Répéter 1) et 2) un grand nombre de fois (1000)
4) Analyser tous les arbres obtenus (en particulier via un arbre consensus)
L’arbre de consensus majoritaire
1) On calcule la fréquence d’apparition des différents groupements d’espèces
E et F : 100%D, E et F : 93%A et B : 52%A et C : 48%C, E et F : 7%
2) Construire l’arbre consensus
B
AC D
E
F C
AD B
E
F B
AD C
E
FEtc.
B
A
C D
E
F52%
93%
100%
Robustesse des phylogénies : le test du jackknife
Jackknife : tirage sans remise de x% des positions originales
1
Le but du jackknife est de savoir si une petite fraction de l’alignement a un impact sur l’inférence
phylogénétique
10111101110101011011110
Problèmes
• Très couteux en temps calcul
• Seuil de significativité (70%, 95%)
Robustesse des phylogénies : le test du bootstrap
Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions
Par exemple : 2 1 0 3 0 2 1 1 1 3 0 4 0 0 1 2 2 1 1 3 0 1 0 1 3 2 0 0
(à chaque tirage, un tiers des positions ne sont pas considérés)
Le but du bootstrap vise à mesurer si le signal phylogénétique en faveur d'un groupe donné est présent dans beaucoup de colonnes de l'alignement
Le principe de parcimonie
Interprétation probabiliste
chaque fois que deux espèces ont un caractère en commun,
deux interprétations sont possibles:
1- caractère hérité de l'ancêtre commun
2- convergence (acquisition indépendante)
Maximum de Parcimonie <=> 1 est plus probable que 2
Interpretation "Philosophique"
• rasoir d'Occam
• l'économie d'hypothèses est à la base de la science
Le principe de parcimoniemis en défaut
D'après l'interprétation probabiliste, toutes les fois où les
convergences sont plus probables que les caractères dérivés partagés,
le principe du Maximum de Parcimonie est inconsistant.
Attraction des longues branches
1
32
4
p
q q
1
4
23
Felsenstein, 1978
A C G T A C G T A C G T A C G T
A A A A A A A A A A A A A A A A
A A A A C C C C G G G G T T T T
A A A A A A A A A A A A A A A A
A A
A
2 et4 ont des branches très courtes:ont gardé l'état ancestral1 et 3 ont des branches très longues:présentent un état complètement aléatoire( ¼ A, ¼ C, ¼ G ¼ T)
Attraction des longues branches
1
32
4
1
4
23
Felsenstein, 1978
A C G T A C G T A C G T A C G T
A A A A A A A A A A A A A A A A
A A A A C C C C G G G G T T T T
A A A A A A A A A A A A A A A A
A A
A
Seuls ces trois états sont informatifs(tous les autres ont meme score de parcimoniesur les 3 arbres possibles)
1
23
4 1
34
2
Attraction des longues branchesLe maximum de parcimonie
favorise l'arbre fauxA
DB
C
p
q q p<q2
A
DB
C
A
D
BC
A
DBC
Felsenstein, 1978
Attraction des longues branches
A
DB
C
p
q q p<q2
A
DB
C
Si A est un groupe extérieur éloigné
A
D
BC
A
DBC
Felsenstein, 1978
Inconsistence de l’inférence phylogénétique
Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux
quand il y a de plus en plus de données
ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré
est correct
Echantillonnage taxonomique
C
AA
C
A
C
AA
C
A
A
AA
C
Ajouter des espèces à l’analyse permet de mieux détecter les substitutions
multiples
Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des
longues branches
(Hendy et Penny, 1989)
Biais de composition
Problème : les différentes espèces n’ont pas les mêmes compositions en bases
Deinococcus
G+C=49%
BacillusG+C=50%
ThermusG+C=73
%
AquifexG+C=76%
ARN ribosomique 16S
Distance Jukes et Cantor