classification naturelle = phylogénie
DESCRIPTION
Classification naturelle = phylogénie. Quelques définitions. Arbre = réseau connexe non cyclique. noeud. branche. Réseau connexe non cyclique. Réseau connexe cyclique. Réseau non connexe non cyclique. Plusieurs graphismes pour les phylogénies. A. B. C. A. B. C. D. D. B. A. A. D. - PowerPoint PPT PresentationTRANSCRIPT
Classification naturelle = phylogénie
Quelques définitions
Arbre = réseau connexe non cyclique
Réseau non connexe non
cyclique
Réseau connexe cyclique
Réseau connexe non cyclique
branche
noeud
Plusieurs graphismes pour les phylogénies
ABC
DA B C D
BAD
C
A
B
C
D
A
B
C
D
A
B
C
D
ARBRE NON RACINÉ et ARBRE RACINÉ
Oiseaux
Monotrèmes Marsupiaux
Placentaires
Oiseaux
Monotrèmes
Marsupiaux
Placentaires
Oiseaux
Monotrèmes
Marsupiaux
Placentaires
Oiseaux
Monotrèmes
Marsupiaux
Placentaires
Oiseaux
Monotrèmes
Marsupiaux
Placentaires
1 2
3 4
Oiseaux
Monotrèmes
Marsupiaux
Placentaires5
1 4
2 35
Racine et groupe extérieur
Oiseaux
Monotrèmes Marsupiaux
Placentaires
Oiseaux
Monotrèmes
Marsupiaux
Placentaires1
1
Un groupe extérieur (outgroup) est presque toujours utilisé pour raciner les phylogénies
moléculaires
AAAAAAAAAAA
CAAAAAAAAAA
1
CAGGAAAAAAA
2
CUAAAAAAAAA
1
AAAAAAAAAAC
1
AAAAGGCUAAC
4
AAAAAAAAUGC
2
Espèce 1 Espèce 2 Espèce 3 Espèce 4
Cas idéal
Espèce 1 CUAAAAAAAAAEspèce 2 CAGGAAAAAAAEspèce 3 AAAAAAAAUGCEspèce 4 AAAAGGCUAAC
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C
Combien existe-t-il d’arbres ?
Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés
3 espèces : 1 arbre
A
CB
D
D D
4 espèces : 3 * 1 arbresA
B
C
D
A
C
B
D
A
D
B
CE
E
AB
C
DE
5 espèces : 5 * 3 * 1 arbres7 (2*6-5) branches
6 espèces : 7 * 5 * 3 * 1 arbres
#espèces #arbres 4 3 5 15 6 105 7 945
10 2 106
20 8 1021
50 2.8 1074
135 2 10267
n (2n – 5) (2n – 7) … (3) (1)
Le nombre d’arbres possibles
Augmentation exponentielle du nombre d’arbres possibles :
problème NP-complet (Non-Polynomial)
AAAAAAAAAAA
CAAAAAAAAAA
1
CAGGAAAAAAA
2
CUAAAAAAAAA
1
AAAAAAAAAAC
1
AAAAGGCUAAC
4
AAAAAAAAUGC
2
Espèce 1 Espèce 2 Espèce 3 Espèce 4
Arbre #1
Arbre #2
Arbre #3
1
2
3
4 4
1 2
34
1 2
3
Cas idéal
Espèce 1 CUAAAAAAAAAEspèce 2 CAGGAAAAAAAEspèce 3 AAAAAAAAUGCEspèce 4 AAAAGGCUAAC
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C
Arbre #1
Arbre #2
Arbre #3
Site 2
1 A
2 U A 4
A 3A A
1 A U 2
3 A A 4
A A
1 A U 2
A 34 A
A A
1 changemen
t
1 changement
1 changement
Site 1
A 3
A 42 C
1 CAC
A 43 A
C 21 CA A
4 A A 3
C 21 CA A
1 changement
2 changements
2 changements
Site informatif : un site avec au moins deux nucléotides différents (états de caractère) présents au moins deux fois
L’information phylogénétique
Arbre #1 :
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C
Choisir l’arbre nécessitant le plus petit nombre de substitutions (changements)
Principe du “rasoir d’Occam” : la meilleure explication des données est la plus simple, celle qui nécessite le plus petit
nombre d’hypothèses ad hoc
Le nombre total de changements évolutifs sur une phylogénie (longueur de l’arbre) is simplement la somme du nombre de changements à chaque site
L=1+1+1+1+1+1+1+1+1+1+1=11
Parcimonie maximale
Cas idéalAAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAAAAAAUGC AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Arbre #1
Arbre #2
Arbre #3
1
2
3
4 4
1 2
34
1 2
3
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C
L=11 L=13 L=13
Sites informatifs
Un peu de vocabulaireAAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAAAAAAUGC AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C
Synapomorphie : Caractéristique nouvelle et distinctive partagée par un groupe d'organismes (C à la position 1)
Symplésiomorphie : similitude due au partage d’un état ancestral de caractère (A à la position 1)
Autapomorphie : état dérivé non partagé (U à la position 2)
Une substitution multiple
AAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAAAAAAAGU AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-------GUEspèce 4 AA--GGCU--C
Arbre #1
Arbre #2
Arbre #3
Site 2
1 A
2 A C 4
U 3A A
1 A A 2
3 U C 4
A A
1 A A 2
U 34 C
A A
2 changement
s
2 changement
s
2 changement
s
Trop d’information tue l’information
Les symplésiomorphies ne sont pas informatives (groupe paraphylétique)
Arbre #1
Arbre #2
Arbre #3
1
2
3
4 4
1 2
34
1 2
3L=11 L=12 L=12
AAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAAAAAAAGU AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-------GUEspèce 4 AA--GGCU--C
Une substitution multiple
AAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAGAAAAAGC AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-G-----GCEspèce 4 AA--GGCU--C
Arbre #1
Arbre #2
Arbre #31
2
3
4 4
1 2
34
1 2
3
L=11 L=13 L=12
1+1+1+2+1+1+1+1+0+1+1 2+1+1+1+1+1+1+1+0+1+2
Une substitution multiple : une convergence
Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-G-------Espèce 4 AA--GGCU--C
AAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA CAGGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAGAAAAAAA AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Arbre 1 Arbre 2 Arbre 31
2
3
4 4
1 2
34
1 2
3
L=10 L=11 L=10
Deux substitutions multiples : convergence et réversion
Trois substitutions multiples
Espèce 1 CUAAAAAAAAAEspèce 2 GA-G-------Espèce 3 AA-G-------Espèce 4 AA--GGCU--C
AAAAAAAAAAA
CAAAAAAAAAA
CUAAAAAAAAA GAAGAAAAAAA
1
21
Espèce 1 Espèce 2
AAAAAAAAAAC
AAAGAAAAAAA AAAAGGCUAAC
1
42
Espèce 3 Espèce 4
Arbre 1 Arbre 2 Arbre 31
2
3
4 4
1 2
34
1 2
3
L=10 L=10 L=9
Homoplasie
homoplasie : toute caractéristique présente chez deux espèces (ou plus) qui n'est pas présente chez leur ancêtre commun immédiat.
Arbre 1 Arbre 2 Arbre 31
2
3
4 4
1 2
34
1 2
3
L=10 L=10 L=9
Les substitutions multiples impliquent une sous-estimation de la longueur de l’arbre
Vrai nombre de substitutions : 11
Mesure de l’homoplasie
Pour un site, IC = m/sm : nombre minimum de changements (= nombre d’états de caractères – 1)s : nombre de changements observés dans l’arbre le plus parcimonieux
Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969)
1 A2 C3 C4 C5 A6 T7 T8 T9 C
C
CA
CA
CT
TC
s = 49 C2 C3 C4 C6 T7 T8 T1 A 5 A
C
TA
CT
m = 2
IC = 0.5
Mesure de l’homoplasie
Pour un arbre, IC = M/SM : nombre minimum de changements pour tous les sitesS : nombre total de changements dans l’arbre le plus parcimonieux
Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969)
Pour un site non informatif, m = s donc IC = 1
ICi = Mi/Si
Mi : nombre minimum de changements pour tous les sites informatifsSi : nombre total de changements dans l’arbre le plus parcimonieux pour les sites informatifs
Indice de Cohérence excluant les sites non informatifs ICi
Algorithme récursif de Fitch
1) Passage de bas en haut :x et y les fils du noeud n et X, Y, N les ensembles de nucléotides correpondant à ces noeuds
sinon
Ø si
YX
YXYXN
C G A A C
C G A A C
{C,G}
C G A A C
{A,C}
{C,G}
C G A A C
{A,C}
{A}{C,G
}
C G A A C
{A,C}
{A}{C,G
}
{A,C,G}
Une substitution pour chaque
union
Algorithme récursif de Fitch
2) Passage de haut en bas :a) Choix arbitraire d’un nucléotide à la racineb) On assigne au fils x du noeud n :
• a X si a N• n’importe quel nucléotide de X sinon
C G A A C
A
AC
C
C G A A C
A
AC
A
C G A A C
A
AG
G
Agglomération progressive des espèces
Heuristiques de recherche de topologies
1. Insertion sur toutes les branches2. Calcul du nombre de changements3. Choix de l’arbre le plus
parcimonieuxNombre d’opérations : 3+5+7=15
(pour 105 arbres possibles)
Pour 10 espèces : 63 versus 2 millions
Ordre d’agglomération des espèces
A
BC
D
E
A
B C
D
E
A
B C
D
AB
CF
D
FE
C
B
D
F E
C
B
D
F E
C
DF
EA
1. Ajouter les espèces de manière aléatoire2. Répéter l’opération un grand nombre de
fois3. Choisir l’arbre le plus parcimonieux
Algorithme de réarrangements
Réarrangement local ou Nearest Neighbor Interchange (NNI)
YX
WZ
Subtree Pruning and Regrafting (SPR)
2
13 4
5
6
2
13 4
5
6
2
13 4
5
6
2
13 4
5
6 4(n-3)(n-2) possibilités
WX
YZ
ZX
WY
2(n-3) possibilités
Algorithme de réarrangements
Tree Bisection and Reconnection (TBR)
2
13 4
5
6
(2n1-3)(2n2-2) possibilités/coupure
2
13 4
5
6
1) Une branche est coupée
2
13 4
5
6
2
13 4
5
6
2
13 4
5
6
2) Toutes les reconnexions
possibles sont testées
Etc.
Algorithme exact du branch and bound
Hendy et Penny (1982) Mathematical Biosciences, 60:133-142, 1982
Utilisation de contraintes a priori
G7
G10G6G8
G4G2
G9
G3
G11
G1
G5
11 espèces : 24 106
45 espèces : 5 1064
Maximum de parcimonie
Deux étapes de minimisation :
1) Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement
2) Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements
Robustesse des phylogénies : le test du bootstrap
1) Tirage avec remise de n positions parmi n positions
2) Construire l’arbre phylogénétique
3) Répéter 1) et 2) un grand nombre de fois (1000)
4) Analyser tous les arbres obtenus (en particulier via un arbre consensus)
L’arbre de consensus majoritaire
1) On calcule la fréquence d’apparition des différents groupements d’espèces
E et F : 100%D, E et F : 93%A et B : 52%A et C : 48%C, E et F : 7%
2) Construire l’arbre consensus
B
AC D
E
F C
AD B
E
F B
AD C
E
FEtc.
B
A
C D
E
F52%
93%
100%
Problèmes
• Très couteux en temps calcul
• Seuil de significativité (70%, 95%)
Robustesse des phylogénies : le test du bootstrap
Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions
Par exemple : 2 1 0 3 0 2 1 1 1 3 0 4 0 0 1 2 2 1 1 3 0 1 0 1 3 2 0 0
(à chaque tirage, un tiers des positions ne sont pas considérés)
Le but du bootstrap est de “rejouer” l’évolution des sites. Il estime la robustesse d’un noeud pour un jeu de données et d’après une méthode de reconstruction
Attraction des longues branches
A
DB
C
p
q q p<q2
A
DB
C
Si A est un groupe extérieur éloigné
A
D
BC
A
DBC
Felsenstein, 1978
Inconsistence de l’inférence phylogénétique
Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux
quand il y a de plus en plus de données
ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré
est correct
• (1-10-2) * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 0.98
• 10-2 * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 10-2
• etc.
A 1 0 1 0 1 0 B 1 0 0 1 0 1 C 0 1 1 0 0 1 D 0 1 0 1 1 0
10-2*10-6 10-6 10-2*10-2 10-6*10-6 10-2*10-6 10-6*10-2
A 0 1 0 0 0 B 0 0 1 0 0 C 0 0 0 1 0 D 0 0 0 0 1
0.98 10-2 10-6 10-2 10-6
~10-6 ~10-4 ~2*10-8
A
DB
C
10-
2
10-
2
10-
6
0
Attraction des longues branches
Echantillonnage taxonomique
C
AA
C
A
C
AA
C
A
A
AA
C
Ajouter des espèces à l’analyse permet de mieux détecter les substitutions
multiples
Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des
longues branches
(Hendy et Penny, 1989)