modèles de wright--fisher et n-coalescent · table des gures 2.1 mod ele de wright{fisher pour une...
TRANSCRIPT
JEAN-HUBERT SMITH-LACROIX
Modeles de Wright–Fisher et n-coalescent
Essai presentea la Faculte des etudes superieures de l’Universite Lavaldans le cadre du programme de maıtrise en statistiquepour l’obtention du grade de Maıtre es sciences (M.Sc.)
FACULTE DES SCIENCES ET DE GENIEUNIVERSITE LAVAL
QUEBEC
Aout 2005
c©Jean-Hubert Smith-Lacroix, 2005
Avant-propos
Je tiens a remercier en premier lieu monsieur Bernard Hodgson, professeur au
departement de mathematiques et de statistique, qui n’a absolument pas contribue a la
redaction de cet essai. Il en est toutefois, en quelque sorte, l’instigateur. C’est en effet
son refus de superviser mon projet de fin d’etudes au baccalaureat en mathematiques
qui m’a pousse a rencontrer monsieur Claude Belisle, qui a subsequemment supervise
ledit projet, ma maıtrise et cet essai. Je remercie donc monsieur Hodgson de m’avoir
encourage a explorer de nouveaux sujets et d’avoir ainsi declenche mon cheminement
vers la statistique. Je le remercie surtout pour le support, les conseils et les nombreuses
discussions que j’ai eu le plaisir d’avoir avec lui durant les dernieres annees.
La grosse part des remerciements revient cependant a monsieur Claude Belisle, mon
directeur de maıtrise, pour l’aide apportee dans l’ecriture de ce document et pour le
support constant qu’il m’a apporte pendant les deux dernieres annees. C’est lui qui m’a
propose d’entamer ma maıtrise et c’est grace a lui que je la termine aujourd’hui. C’est
aussi lui qui m’a encourage a, et permis de, realiser un sejour inoubliable de cinq mois
en Nouvelle-Zelande. Je le remercie plus specifiquement pour le travail qu’il a fait avec
moi dans la redaction de cet essai, en me pointant vers les references qui semblaient
prometteuses, en clarifiant les aspects qui m’echappaient et, bien sur, en relisant le
document pour y suggerer plusieurs ameliorations importantes. Je le remercie aussi de
facon plus generale pour son soutien et sa franche camaraderie que j’apprecie au plus
haut point.
Je dois aussi remercier le departement de mathematiques et statistique ainsi que le
CRSNG pour le support financier qu’ils m’ont apporte par l’entremise de divers contrats
et de la subvention de recherche de monsieur Belisle.
Finalement, je voudrais remercier parents, famille et amis, pour les petits coups de
main, les heures de plaisir et tous les autres aleas de la vie . . .
a Nathalie
And that’s Human. We make mistakes.
Genetic manipulation or not - nobody’s perfect.
Captain Jean-Luc Picard
United Federation of Planets
Table des matieres
Avant-Propos ii
Table des matieres iv
Table des figures v
1 Introduction 1
2 Le modele de Wright–Fisher 2
2.1 Le modele de Wright–Fisher . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1 Distribution du nombre de descendants d’un allele . . . . . . . . 4
2.2 Derive genetique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Homozygotie, heterozygotie et loi de Hardy–Weinberg . . . . . . . . . . 11
2.3.1 Homozigotie et heterozygotie . . . . . . . . . . . . . . . . . . . 11
2.3.2 Loi de Hardy–Weinberg . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Le modele de Wright–Fisher avec mutation et selection . . . . . . . . . 14
2.4.1 La mutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.2 La selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.3 Mutation et selection . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Le modele de Moran . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.6 Le modele des nids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Le n-coalescent 23
3.1 Le n-coalescent de Kingman . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Distribution de Hn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Distribution de Ln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Echantillons emboıtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5 Le n-coalescent et le modele de Wright–Fisher . . . . . . . . . . . . . . 39
3.5.1 Ajustement pour une population de taille variable . . . . . . . . 44
3.6 Le n-coalescent et le modele de Moran . . . . . . . . . . . . . . . . . . 47
3.7 Au dela de Wright–Fisher et Moran . . . . . . . . . . . . . . . . . . . 49
3.8 Le n-coalescent avec mutation . . . . . . . . . . . . . . . . . . . . . . . 51
v
4 Largage de mutations 56
4.1 Modeles a nombre infini d’alleles, a nombre infini de sites et a nombre
fini de sites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Processus de mutations a taux constant . . . . . . . . . . . . . . . . . 58
4.2.1 Sites de segregation . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.2 Differences par paire . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Conclusion 64
Bibliographie 65
Table des figures
2.1 Modele de Wright–Fisher pour une population diploıde. . . . . . . . . . 4
2.2 Evolution de pt pour quatre simulations du modele de Wright–Fisher. . 5
2.3 Disparition d’un type d’allele dans le modele de Wright–Fisher. . . . . 10
2.4 Quatre generations du modele de Moran. . . . . . . . . . . . . . . . . . 19
3.1 Exemple de la genealogie d’un echantillon de taille n = 5. . . . . . . . . 24
3.2 Differentes valeurs de Ln pour un meme Hn. . . . . . . . . . . . . . . . 28
3.3 Genealogie maximisant les differences genetiques vs. n-coalescent typique. 32
3.4 Reduction de la longueur de la genealogie par rapport au maximum pos-
sible. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5 Probabilite d’obtenir le plus recent ancetre commun d’une population. . 39
3.6 Genealogie d’un echantillon de 5 alleles sous le modele de Wright–Fisher. 40
3.7 Quatre cas lors d’une coalescence dans la population. . . . . . . . . . . 48
3.8 Exemple du n-coalescent avec mutation. . . . . . . . . . . . . . . . . . 54
4.1 Exemple d’un modele a nombre infini de sites. . . . . . . . . . . . . . . 58
4.2 Temps avant l’ancetre commun d’une paire. . . . . . . . . . . . . . . . 62
Chapitre 1
Introduction
Les pages qui suivent presentent un bref sommaire de quelques-uns des modeles les
plus frequemment rencontres dans la litterature concernant la genetique des popula-
tions.
Le texte est divise en trois parties distinctes. Dans la premiere, nous ferons un survol
des modeles discrets de base, en passant par le modele de Wright–Fisher, le modele de
Moran et le modele des nids. Le modele de Wright–Fisher sera etudie un peu plus
en profondeur et des ajustements pour la selection et la mutation seront introduits.
Nous en profiterons aussi pour presenter certaines notions de base en genetique des
populations.
Dans la seconde partie, nous etudierons le n-coalescent, un objet mathematique
extremement interessant. Quelques-unes de ses proprietes seront decrites en detail puis
nous montrerons comment il apparait de facon naturelle dans les modeles decrits a la
premiere partie.
Finalement, nous terminerons avec un bref chapitre presentant le largage de muta-
tions. Il s’agit d’une technique qui s’applique au n-coalescent et qui permet une etude
efficace mais simplifiee de l’evolution des populations.
Avant de commencer, notons que l’ensemble du present document ne s’interesse qu’a
l’evolution d’un seul gene ou allele a la fois. La recombinaison et la correlation entre
des genes voisins ne sera jamais consideree.
Chapitre 2
Le modele de Wright–Fisher
2.1 Le modele de Wright–Fisher
Un des premiers modeles presentes dans la litterature concernant l’etude de la
genetique des populations est le modele de Wright–Fisher. Il s’agit d’un modele re-
lativement simple qui permet de representer l’evolution d’un allele a l’interieur d’une
population diploıde ou haploıde.
Les especes diploıdes sont generalement plus complexes et sont distinguees par le fait
que chaque individu possede deux copies de chacun de ses genes ou alleles. Les individus
ont deux parents. L’enfant a donc une copie d’un gene qui provient de son premier parent
et une autre copie qui provient de son deuxieme parent. Les humains et les animaux
sont des populations diploıdes. Par opposition les populations haploıdes, plus simples,
sont composees d’individus n’ayant qu’un seul parent. Dans les cas ou nous etudierons
des populations diploıdes, on supposera que les individus sont hermaphrodites de facon
a ne pas avoir a complexifier les modeles pour qu’ils tiennent compte du fait que chaque
individu doive avoir des parents de sexe different.
Dans sa forme la plus simple, le modele fait les hypotheses suivantes, qui pour-
ront etre modifiees ou carrement enlevees dans certaines adaptations qui sont parfois
developpees :
– La population est de taille constante. Selon le cas qui nous interesse, on supposera
une taille de N individus diploıdes ou 2N individus haploıdes.
– Les generations sont disjointes. On veut dire qu’a une suite de moments precis,
tous les individus de la generation precedente decedent et donnent naissance a
Chapitre 2. Le modele de Wright–Fisher 3
tous les individus de la generation suivante.
– Il n’y a aucune selection. Tous les individus ou genes ont la meme chance de
survie, la meme chance d’avoir des descendants.
– Les accouplements se font de facon aleatoire.
Le modele en tant que tel est facile a simuler. L’algorithme, pour le cas d’une
population diploıde, est le suivant. Au temps 0, on a N individus ayant chacun deux
copies de l’allele qui nous interesse. On a donc 2N alleles. Par la suite, on genere
successivement et independamment les uns des autres les N individus de la generation
1 de la facon suivante :
1. on choisit, de facon equiprobable, un premier parent dans la generation t− 1.
2. on choisit, de facon equiprobable, un allele du parent choisi et on en place une
copie comme premier allele du nouvel individu.
3. on choisit, de facon equiprobable, un deuxieme parent dans la generation t− 1.
4. on choisit, toujours de facon equiprobable, un allele du deuxieme parent choisi et
on en place une copie comme deuxieme allele du nouvel individu.
Notons que ces quatre selections sont faites independamment des unes et des autres.
Les generations successives sont ensuite creees de la meme facon.
Notons qu’on a suppose une population hermaphrodite. C’est ce qui a permis que
le choix des deux parents se fasse exactement de la meme facon et que l’on n’ait pas
divise la population en deux groupes, les males et les femelles. A la limite, il est permis
que les deux parents d’un individu de la generation t soient le meme individu de la
generation t− 1.
Dans les cas simples, on supposera l’existence de deux types d’alleles distincts, disons
l’allele A et l’allele B. La figure 2.1 donne un exemple de la simulation d’une premiere
generation avec N = 8, donc un total de 16 alleles dans chaque generation. On y
represente les alleles de type A par un rectangle blanc et ceux de type B par un rectangle
noir. Les individus sont representes par les bulles qui contiennent chacune deux alleles.
On peut definir plusieurs statistiques decrivant la simulation obtenue. Les deux
premieres sont NA,t et NB,t, qui decrivent respectivement les nombres d’alleles de type
A et de type B dans la population a la generation t. Il est clair que dans le cas ou
seuls deux types d’alleles existent, on a toujours NA,t + NB,t = 2N . On voit que la
suite (NA,t; t ∈ N) est une chaıne de Markov a temps discret sur l’ensemble d’etats
Chapitre 2. Le modele de Wright–Fisher 4
Fig. 2.1 – Modele de Wright–Fisher pour une population diploıde.
{0, 1, 2, . . . , 2N} avec etats absorbants en 0 et en 2N . De plus, on a que
L(NA,t|NA,t−1 = k) = binomiale
(
2N,k
2N
)
.
Dans certains cas, plutot que de s’interesser aNA,t, on etudiera simplement pt, definie
comme etant la proportion d’alleles de type A dans la population a la generation t. On
utilisera donc, pour la suite du texte,
pt =NA,t
2N.
On voit facilement que dans notre exemple p0 = 6/16 ≈ .38 et p1 = 8/16 = 0.50. On
peut aussi programmer de facon relativement aisee un ordinateur pour faire ce genre de
simulation. C’est ce que nous avons fait pour donner au lecteur un certaine intuition de
ce qui se passe dans un tel modele. Les resultats de quatre simulations independantes
avec N = 40 et p0 = .4 pour 100 generations sont reproduits dans la figure 2.2. Nous
n’avons trace que l’evolution de pt en fonction du passage des generations pour chacune
des simulations.
2.1.1 Distribution du nombre de descendants d’un allele
Il peut etre interessant d’examiner le modele sous un angle legerement different en
explorant la distribution du nombre de descendants dans la generation t+ 1 des alleles
de la generation t. En effet, si on numerote chacun des 2N alleles de la generation t et
qu’on pose
ηk = Le nombre de descendants dans la generation t+ 1 de l’allele k de la generation t.
Chapitre 2. Le modele de Wright–Fisher 5
Fig. 2.2 – Evolution de pt pour quatre simulations du modele de Wright–Fisher.
on s’apercoit que
ηk ∼ binomiale
(
2N,1
2N
)
∀k ∈ {1, 2, . . . , 2N}.
Les variables ηi ne sont cependant certainement pas independantes car la taille de
la population demeure constante. On a donc la contrainte∑2N
k=1 ηk = 2N . En fait, la
distribution conjointe des nombres de descendants est donnee par
(η1, η2, . . . , η2N ) ∼ multinomiale
(
2N,
(
1
2N,
1
2N, . . . ,
1
2N
))
.
On peut utiliser ce dernier fait pour deduire de petits resultats concernant la distri-
bution du nombre de descendants des alleles. Par exemple, on obtient directement que
E(ηk) = 1 et Var (ηk) = 1 − 12N
pour tout k et que Cov (ηk, η`) = −12N
pour toute paire
k, ` avec k 6= `.
2.2 Derive genetique
La valeur de pt varie significativement dans le temps. Cela decoule du fait que
les differents alleles ont des nombres aleatoires de descendants. Consequemment, si les
alleles de type A sont choisis plus souvent lors de la simulation d’une certaine generation,
pt aura tendance a augmenter. C’est ce phenomene que nous appelons derive genetique.
En fait, l’etude de la figure 2.2 nous permet de remarquer que, dans certains cas, la
Chapitre 2. Le modele de Wright–Fisher 6
variation de pt peut aller jusqu’a l’extinction d’un type d’alleles. Nous tirons de cette
observation notre premier theoreme.
Theoreme
La chaıne NA,t atteint presque surement un de ses etats absorbants apres un temps fini,
c’est-a-dire qu’on a
P
(
∞⋂
`=0
(NA,` /∈ {0, 2N})
∣
∣
∣
∣
∣
NA,0 = i
)
= 0 ∀i.
Demonstration
Tout d’abord, observons que pour tout t,
P(NA,t+1 ∈ {0, 2N}|NA,t = k) ≥
(
1
2N
)2N
∀k.
Il s’agit ici d’une borne imprecise obtenue en faisant le raisonnement suivant. Si dans
l’expression ci-haut k = 0 ou k = 2N , alors la probabilite donnee est 1 et est donc
certainement superieure a(
12N
)2N. Si par contre k ∈ {1, 2, . . . , 2N − 1}, alors c’est
qu’on a au moins un allele de type A a la generation t. Dans ce cas, il est possible
que tous les alleles de la generation t + 1 soient des descendants de cet allele de type
A. Cela se produit avec une probabilite(
12N
)2Net nous amene a l’etat 2N . Dans ces
cas, on a donc que P(NA,t+1 = 2N |NA,t = k) ≥(
12N
)2Net, par consequent, P(NA,t+1 ∈
{0, 2N}|NA,t = k) ≥(
12N
)2N.
On a donc, ∀k ∈ {0, 1, 2, . . . , 2N} et ∀t ≥ 0
P(NA,t+1 /∈ {0, 2N}|NA,t = k) ≤ 1 −
(
1
2N
)2N
.
Examinons maintenant ce qui se passe sur un horizon de deux generations. Pour
tout t ≥ 0 et pour tout k ∈ {0, 1, 2, . . . , 2N}, on obtient
Chapitre 2. Le modele de Wright–Fisher 7
P(NA,t+2 /∈ {0, 2N}|NA,t = k)
=2N∑
`=0
P(NA,t+2 /∈ {0, 2N}|NA,t+1 = `, NA,t = k)P(NA,t+1 = `|NA,t = k)
=
2N−1∑
`=1
P(NA,t+2 /∈ {0, 2N}|NA,t+1 = `)P(NA,t+1 = `|NA,t = k)
≤
2N−1∑
`=1
(
1 −
(
1
2N
)2N)
P(NA,t+1 = `|NA,t = k)
=
(
1 −
(
1
2N
)2N)
2N−1∑
`=1
P(NA,t+1 = `|NA,t = k)
=
(
1 −
(
1
2N
)2N)
P(NA,t+1 /∈ {0, 2N}|NA,t = k)
≤
(
1 −
(
1
2N
)2N)(
1 −
(
1
2N
)2N)
=
(
1 −
(
1
2N
)2N)2
On a donc aussi, encore ∀k ∈ {0, 1, 2, . . . , 2N} et ∀t ≥ 0,
P(NA,t+2 /∈ {0, 2N}|NA,t = k) ≤
(
1 −
(
1
2N
)2N)2
.
De facon analogue, on obtient, ∀k ∈ {0, 1, 2, . . . , 2N}, ∀t ≥ 0 et ∀m ≥ 0
P(NA,t+m /∈ {0, 2N}|NA,t = k) ≤
(
1 −
(
1
2N
)2N)m
.
Donc, pour tout i,
P
(
∞⋂
`=0
(NA,` /∈ {0, 2N})
∣
∣
∣
∣
∣
NA,0 = i
)
= limm→∞
P
(
m⋂
`=0
(NA,` /∈ {0, 2N})
∣
∣
∣
∣
∣
NA,0 = i
)
= limm→∞
P (NA,m /∈ {0, 2N}|NA,0 = i)
≤ limm→∞
(
1 −
(
1
2N
)2N)m
= 0
Chapitre 2. Le modele de Wright–Fisher 8
ce qui conclut la demonstration.
tu
On peut donc definir la variable aleatoire T = min{t : NA,t ∈ {0, 2N}}. Celle-ci
represente donc le premier temps t ou la population ne compte qu’un type d’allele. Il
est naturel de s’interroger sur l’esperance du temps requis avant que cela ne se produise,
E(T ). Pour cela, nous allons avoir le reflexe souvent efficace de conditionner sur le pre-
mier pas de la chaıne et ensuite resoudre un systeme lineaire. Pour simplifier l’ecriture,
nous allons definir, pour le cas d’une population de N individus,
fN(i) = E (T |NA,0 = i) .
Il est clair que
fN (0) = 0 et fN(2N) = 0.
Pour les autres valeurs de i, on conditionne sur NA,1. Cela nous permet d’ecrire
fN(i) = E (T |NA,0 = i)
=2N∑
j=0
[
P (NA,1 = j|NA,0 = i) E (T |NA,0 = i, NA,1 = j)]
=
2N∑
j=0
[
(
2N
j
)(
i
2N
)j (2N − i
2N
)2N−j
(1 + fN(j))
]
= 1 +
2N∑
j=0
[
fN(j)
(
2N
j
)(
i
2N
)j (2N − i
2N
)2N−j]
.
Il faut ensuite resoudre numeriquement ce systeme de 2N +1 equations. Il peut etre
utile d’observer que, peu importe N et i, on a toujours fN(i) = fN(2N − i).
Chapitre 2. Le modele de Wright–Fisher 9
On trouve, par exemple, que
f1(i) =
{
0 si i ∈ {0, 2}
2 si i ∈ {1}
f2(i) =
0 si i ∈ {0, 4}10729
si i ∈ {1, 3}13229
si i ∈ {2}
f5(i) ≈
0 si i ∈ {0, 10}
5.75 si i ∈ {1, 9}
8.95 si i ∈ {2, 8}
11.03 si i ∈ {3, 7}
12.21 si i ∈ {4, 6}
12.59 si i ∈ {5}
f100(i) ≈
0 si i ∈ {0, 200}
11.94 si i ∈ {1, 199}
21.45 si i ∈ {2, 198}
30.05 si i ∈ {3, 197}
38.01 si i ∈ {4, 196}
45.48 si i ∈ {5, 195}...
274.82 si i ∈ {97, 103}
274.92 si i ∈ {98, 102}
274.98 si i ∈ {99, 101}
275.00 si i ∈ {100}
Il n’y a malheureusement pas de forme explicite simple pour decrire E(T ).
Une autre question interessante est de savoir quel sera le type d’allele qui disparaıtra
de l’echantillon. Cela revient a se demander a quel etat absorbant nous aboutirons. On
cherche donc P(NA,T = 0) ou, de facon equivalente, P(NA,T = 2N). La reponse a cette
derniere question est etonnamment simple et sera l’objet d’un theoreme.
Theoreme
P(NA,T = 2N |NA,0 = i) =i
2N.
Demonstration
Le resultat n’est pas choquant intuitivement, mais prenons le temps de le justifier par
le raisonnement suivant. Examinons par exemple le cas illustre ci-bas ou c’est l’allele
de type A qui a disparu de la population.
Tout d’abord, on remarque que certains individus de la generation de depart n’ont
aucun descendant dans la generation suivante. On voit aussi que, en partant d’un in-
dividu quelconque d’une generation quelconque, on peut remonter jusqu’a un ancetre
precis dans la generation de depart. Finalement, on voit que si on attend assez long-
temps, trois generations dans notre exemple, on arrive a un moment ou tous les individus
sont des descendants du meme individu de la generation de depart. Cependant, comme
les individus de la generation de depart jouent exactement le meme role, ils ont tous la
Chapitre 2. Le modele de Wright–Fisher 10
Fig. 2.3 – Disparition d’un type d’allele dans le modele de Wright–Fisher.
meme probabilite d’avoir l’honneur d’etre l’ancetre commun. Or, si le type A a disparu,
c’est que cet ancetre commun est de type B et vice versa. Par consequent, la probabi-
lite que ce soit le type B qui s’eteigne est egale a la probabilite de choisir un ancetre
commun de type A, c’est-a-dire NA,0/2N , ou encore, plus simplement, p0.
tu
Remarque
Il est interessant de noter que l’on aurait aussi pu demontrer le theoreme precedent a
l’aide de la theorie des martingales. Notons tout d’abord que ∀i ∈ {0, 1, 2, . . . , 2N} et
∀t > 0,
E (NA,t|NA,0 = i) =
2N∑
k=0
E (NA,t|NA,t−1 = k,NA,0 = i) P(NA,t−1 = k|NA,0 = i)
=
2N∑
k=0
E (NA,t|NA,t−1 = k) P(NA,t−1 = k|NA,0 = i)
=
2N∑
k=0
kP(NA,t−1 = k|NA,0 = i)
= E(NA,t−1 = k|NA,0 = i)
Il s’en suit que ∀t ≥ 0 et ∀i ∈ {0 1, 2, . . . , 2N}
E(NA,t|NA,0 = i) = i.
On a cependant aussi que (NA,t; t ∈ {0, 1, 2, . . .}) est une martingale et un resultat
de la theorie des martingales qui nous permet de remplacer le t de la derniere equation
par certains temps d’arret aleatoires. En particulier, on peut remplacer t par notre
Chapitre 2. Le modele de Wright–Fisher 11
temps aleatoire T et trouver
E(NA,T |NA,0 = i) = i.
Or, NA,T n’a que deux valeurs possibles et on peut donc ecrire que
0 × P(NA,T = 0|NA,0 = i) + 2N × P(NA,T = 2N |NA,0 = i) = i
et demontrer ainsi le theoreme en isolant simplement P(NA,T = 2N |NA,0 = i) dans la
derniere equation.
2.3 Homozygotie, heterozygotie et loi de Hardy–
Weinberg
2.3.1 Homozigotie et heterozygotie
Jusqu’a maintenant, nous ne nous sommes interesses qu’aux proportions respectives
d’alleles de type A et B dans la population. Nous avons en quelque sorte discute d’une
population de 2N alleles et nous avons completement laisse de cote les N individus.
Dans la situation ou seuls deux types d’alleles existent, ces individus peuvent etre
de trois categories distinctes, AA, BB ou AB, selon que leurs deux copies de l’allele
sont de type A, de type B ou qu’ils aient une copie de chaque type. On nomme ces
categories par le terme genotype. Aucune importance n’est donnee a l’ordre dans lequel
on donne les alleles. Ainsi, il n’y aurait pas de difference entre un individu de genotype
AB et un individu de genotype BA. On dira aussi qu’un individu est homozygote, si
ses deux alleles sont du meme type (AA ou BB) et qu’il est heterozygote si ses alleles
sont differents (AB). On notera xAA(t), xBB(t) et xAB(t) les frequences relatives de
ces categories a la generation t. Encore une fois, xAB(t) = xBA(t), mais on utilisera
la convention qui veut que l’on donne les indices en ordre alphabetique. Dans notre
premier exemple, a la figure 2.1, on avait, au temps 0, xAA(0) = 1/4, xBB(0) = 1/2 et
xAB(0) = 1/4. Le lecteur pourra sans doute se convaincre qu’on aura toujours
pt = xAA(t) +xAB(t)
2.
En effet, un lien etroit existe entre les frequences des types d’alleles et des categories
d’individus dans une population.
Nous avons vu a la section 2.2 que la variation entre les nombres de descendants des
alleles dans une population amenait eventuellement a la disparition d’un type d’allele.
Chapitre 2. Le modele de Wright–Fisher 12
Definissons maintenant Ht, l’heterozygotie au temps t, comme la probabilite condition-
nelle, sachant NA,t, d’obtenir deux alleles de types differents quand on fait deux tirages
aleatoires avec remise parmi les 2N alleles de la generation t. On a donc
Ht = 2pt(1 − pt).
On remarque que Ht est aussi la probabilite conditionnelle, toujours sachant NA,t, d’ob-
tenir un individu heterozygote dans la generation t+ 1.
Il est clair que Ht = 0 pour tout t > T . Aussi, le fait que la disparition d’un type
d’allele soit inevitable va de pair avec le fait que Ht a tendance a diminuer avec le
temps. On peut demontrer cela en ecrivant
E(Ht|pt−1) = E(2pt(1 − pt)|pt−1)
= 2 E(pt − p2t |pt−1)
= 2[
E(pt|pt−1) − Var (pt|pt−1) − E(pt|pt−1)2]
= 2
[
pt−1 −pt−1(1 − pt−1)
2N− (pt−1)
2
]
= 2pt−1(1 − pt−1)
(
1 −1
2N
)
= Ht−1
(
1 −1
2N
)
. (2.1)
Nous avons utilise dans ce calcul le fait que
E(pt|pt−1) = E
(
NA,t
2N
∣
∣
∣
∣
pt−1
)
=E(NA,t|pt−1)
2N=
2Npt−1
2N= pt−1
et que
Var (pt|pt−1) = Var
(
NA,t
2N
∣
∣
∣
∣
pt−1
)
=Var (NA,t|pt−1)
(2N)2=
2Npt−1(1 − pt−1)
(2N)2=pt−1(1 − pt−1)
2N.
L’equation (2.1) nous permet de deduire que
E(Ht|p0) = H0
(
1 −1
2N
)t
. (2.2)
Chapitre 2. Le modele de Wright–Fisher 13
Par exemple, on a que
E(H2|p0) = E(E(H2|p1, p0)|p0)
= E(E(H2|p1)|p0)
= E
(
H1
(
1 −1
2N
)∣
∣
∣
∣
p0
)
=
(
1 −1
2N
)
E(H1|p0)
= H0
(
1 −1
2N
)2
.
Donc, l’esperance de l’heterozygotie tend vers zero conditionnellement a p0. Aussi, si la
taille de la population 2N est grande, on a E(Ht|p0) ≈ H0e−t/2N , ce qui permet de dire
que l’heterozygotie decroit de facon exponentielle a un taux de 1/(2N).
2.3.2 Loi de Hardy–Weinberg
A ce stade, il serait impardonnable de ne pas prendre un instant pour discuter de
la fameuse loi de Hardy–Weinberg. 1 Pour cela, il faut se pencher un instant sur le cas
d’une population de taille infinie. La variable NA,t n’a plus vraiment d’interet, mais pt,
xAA(t), xBB(t) et xAB(t) ont toujours un sens clair. Penchons-nous un instant sur la
prediction de xAA(1), xBB(1) et xAB(1) en fonction de p0.
Les hypotheses d’accouplement aleatoire et d’hermaphrodicite nous permettent de
dire que
xAA(1) =
(
xAA(0) +xAB(0)
2
)(
xAA(0) +xAB(0)
2
)
= p20
puisque pour obtenir un individu AA il faut choisir deux fois, de facon independante, un
allele de type A dans le parent choisi. Or, dans chaque cas, cela peut se faire en prenant
le bon allele d’un parent AB ou un allele quelconque d’un parent AA. On trouve de
1Contrairement a ce que l’on pourrait croire, la loi n’est pas le fruit d’une collaboration entre
Godfrey Harold Hardy et Wilhelm Weinberg. En effet, la decouverte a ete faite independemment par
ces deux hommes. Weinberg l’a publiee le 13 janvier 1908 et Hardy le 10 juillet de la meme annee.
Cependant, les ecrits de Weinberg sont longtemps restes inconnus des geneticiens car peu d’entre eux
avaient le bagage mathematique pour bien saisir ce qu’il faisait et certains ne lisaient pas l’allemand.
Pour ces raisons, la loi a longtemps ete connue sous le nom de Loi de Hardy. Aussi, la formulation
de Hardy etait differente de celle qu’on a presentee ici. En fait, Hardy demontre que si les frequences
respectives de AA, AB et BB sont p, 2q et r, alors l’equilibre est atteint si q2 = pr. [9]
Chapitre 2. Le modele de Wright–Fisher 14
la meme facon que xBB(1) = (1 − p0)2 et le saut n’est pas tres grand pour voir que
xAB(1) = 2p0(1 − p0).
La consequence interessante de tout cela vient du fait que l’on a
p1 = xAA(1) +xAB(1)
2
= p20 +
2p0(1 − p0)
2= p0(p0 + 1 − p0)
= p0.
La loi de Hardy–Weinberg stipule donc que, pour une population de taille infinie,
hermaphrodite, avec accouplements aleatoires, pour un allele sur lequel ne s’applique
aucune selection naturelle,
∀t > 0, pt = p0, xAA(t) = p20, xBB(t) = (1 − p0)
2 et xAB(t) = 2p0(1 − p0).
Notons aussi que pour t > 0, pt, xAA(t), xAB(t) et xBB(t) ne dependent pas de
xAA(0), xAB(0) et xBB(0). C’est ce qui nous permet de dire que, pour une population
hermaphrodite, l’equilibre de Hardy–Weinberg est atteint en une seule generation. Si la
population est sexuee, on peut montrer que l’equilibre est atteint en deux generations.
Tout cela n’est cependant vrai que pour une population de taille infinie. Dans le
cas d’une population finie, nous avons vu plus tot qu’on arrivait inevitablement a la
disparition d’un type d’allele. C’est ce qu’on a appele la derive genetique.
2.4 Le modele de Wright–Fisher avec mutation et
selection
Il est possible de modifier legerement le modele de Wright–Fisher de facon a le rendre
plus pres de la realite et a explorer les consequences de certaines realites biologiques sur
les frequences des alleles dans la population. Nous allons maintenant etudier rapidement,
dans le cas d’une population de taille infinie, deux des modifications qui peuvent etre
faites : l’ajout de mutations et de selection. La notation presentee ici se base sur [1].
Chapitre 2. Le modele de Wright–Fisher 15
2.4.1 La mutation
La mutation est un phenomene tres complexe et de nombreuses hypotheses peuvent
etre faites quand vient le temps de la modeliser. Comme premiere approche, nous allons
supposer un modele largement simplifie ou les mutations ne creent pas de nouveaux
alleles mais permettent simplement a un allele de type A de muter au type B, ce qui
arrive avec probabilite u, et a un allele de type B de muter au type A, ce qui arrive
avec probabilite v. En general, u et v seront tres petits, de l’ordre de 10−6 par exemple.
Sans mutation, dans une population de taille infinie, nous avons vu que la frequence
de l’allele A demeure constante. On a pt+1 = pt. L’ajout de mutation nous donne
pt+1 = (1 − u)pt + v(1 − pt)
car un allele du type A de la generation t + 1 peut etre soit le descendant d’un allele
de type du type A qui n’a pas mute, ou d’un allele du type B qui a subi une mutation.
Avec un peu de travail, on peut trouver l’expression de pt en fonction de la frequence
initiale.
Theoreme
Dans une population de taille infinie, avec probabilites u et v de mutations du type A
vers B et B vers A, on a, pour tout t ≥ 0,
pt =v
u+ v+
(
p0 −v
u+ v
)
(1 − u− v)t. (2.3)
Demonstration
Le resultat se demontre par induction. Verifions tout d’abord pour t = 0. On a alors
v
u+ v+
(
p0 −v
u+ v
)
(1 − u− v)0 =v
u+ v+ p0 −
v
u+ v
= p0
comme desire.
Chapitre 2. Le modele de Wright–Fisher 16
Par la suite, si on suppose le resultat vrai pour k, on a que
pk+1 = (1 − u)pk + v(1 − pk)
= (1 − u− v)pk + v
= (1 − u− v)
(
v
u+ v+
(
p0 −v
u+ v
)
(1 − u− v)k
)
+ v
=
(
v
u+ v
)
−
(
uv
u+ v
)
−
(
v2
u+ v
)
+
(
p0 −v
u+ v
)
(1 − u− v)k+1 + v
=
(
v
u+ v
)
−
(
v(u+ v)
u+ v
)
+
(
p0 −v
u+ v
)
(1 − u− v)k+1 + v
=v
u+ v+
(
p0 −v
u+ v
)
(1 − u− v)k+1.
Ce qui conclut la demonstration.
tu
La formule obtenue, malgre son allure banale, permet de conclure que la mutation
du type postule n’entraine pas l’extinction d’un des types d’alleles (dans le cas ou u 6= 0
et v 6= 0). En effet, quand t→ ∞, on trouve que pt tend vers la valeur vu+v
car le terme
de droite de l’equation (2.3) tend vers 0.
2.4.2 La selection
On peut aussi ajouter certaines formes de selection dans le modele pour mieux
simuler l’evolution de pt. L’option la plus simple consiste a attribuer une mesure de
viabilite, soient wAA, wAB et wBB , toutes des constantes positives, a chaque genotype
et a supposer que la selection elimine une certaine partie des individus de la generation
t entre le moment de leur naissance et le moment d’engendrer la generation t + 1.
Les parametres wAA, wAB et wBB representeront donc ici les probabilites de survie
pour chacun des genotypes jusqu’au moment d’engendrer la generation suivante. Si on
suppose que la population a atteint l’equilibre de Hardy–Weinberg, on a alors le scenario
suivant.
– Dans un premier temps, on engendre la generation t. Les proportions des differents
alleles sont respectivement p(t) et 1 − p(t) avec les frequences des differents
Chapitre 2. Le modele de Wright–Fisher 17
genotypes donnes par xAA(t), xAB(t) et xBB(t).
– Dans un deuxieme temps, la selection entre en jeu. La proportion des individus de
genotype AA dans la population apres la selection est notee xAA(t) et est donnee
par
xAA(t) =xAA(t)wAA
xAA(t)wAA + xBB(t)wBB + xAB(t)wAB
. (2.4)
De la meme facon, on a
xBB(t) =xBB(t)wBB
xAA(t)wAA + xBB(t)wBB + xAB(t)wAB(2.5)
et
xAB(t) =xAB(t)wAB
xAA(t)wAA + xBB(t)wBB + xAB(t)wAB. (2.6)
– Finalement, la generation t + 1 est engendree. Pour calculer p(t + 1), il faut voir
qu’il y a deux facons de generer un allele de type A. Soit on pige un parent de
genotype AA dans la population, ce qui arrive avec probabilite xAA(t), ou encore
on pige un parent de genotype AB et on choisit le bon allele de celui-ci, ce qui
arrive avec probabilite xAB(t)/2. On a donc que
pt+1 = xAA(t) +xAB(t)
2
=xAA(t)wAA + xAB(t)wAB
2
xAA(t)wAA + xBB(t)wBB + xAB(t)wAB
=p2
twAA + 2pt(1−pt)wAB
2
p2twAA + (1 − pt)2wBB + 2pt(1 − pt)wAB
=pt
(
ptwAA + (1 − pt)wAB
)
p2twAA + (1 − pt)2wBB + 2pt(1 − pt)wAB
.
La frequence de l’allele de type A dans la generation t+ 1 sera donc donnee par
pt+1 =pt(ptwAA + (1 − pt)wAB)
w
Chapitre 2. Le modele de Wright–Fisher 18
ou w = p2twAA + 2pt(1 − pt)wAB + (1 − pt)
2wBB la viabilite moyenne de la population
a la generation t.
On peut aussi predire la tendance qu’aura pt a long terme en etudiant les rapports
des w. Par exemple, si wAA est le plus grand des trois parametres, alors c’est que les
individus de genotype AA sont avantages. Dans ce cas, on peut montrer que pt tendra
vers 1 peu importe la valeur de p0 6= 0. On peut aussi montrer que dans les cas ou
wAB est la plus grande des trois valeurs, pt tend habituellement vers une constante
strictement comprise entre 0 et 1.
Les equations (2.4) a (2.6) nous permettent aussi de voir que la multiplication de
tous les w par une meme constante positive ne change rien a la suite des calculs. En fait,
les valeurs precises des w n’ont pas vraiment d’importance. Ce ne sont que les rapports
entre celles-ci qui importent. Par consequent, les auteurs n’exigent habituellement pas
que les valeurs des w soient comprises dans l’intervalle unite. Aussi, certains auteurs,
comme par exemple [2], preferent donc employer la convention que
wAA = 1,
wAB = 1 − hs,
wBB = 1 − s.
Dans ce contexte, on appelle s le coefficient de selection, une mesure de la viabilite rela-
tive du genotype BB par rapport au genotype AA, et h est appele l’effet heterozygote
et mesure la viabilite du genotype AB relativement a la difference selective entre les
deux homozygotes.
2.4.3 Mutation et selection
On peut assez facilement combiner les deux ajustements du modele presentes prece-
demment en supposant que la mutation et la selection se produisent successivement.
Dans un tel contexte, on notera par pt la frequence de l’allele de type A a la naissance
de la generation t, donc apres l’effet de la mutation mais avant l’effet de la selection, et
par ψt la frequence de l’allele de type A apres selection. On a donc que
ψt =pt(ptwAA + (1 − pt)wAB)
w
avec w defini comme plus tot, et que
pt+1 = (1 − u)ψt + v(1 − ψt).
Chapitre 2. Le modele de Wright–Fisher 19
2.5 Le modele de Moran
L’une des principales hypotheses du modele de Wright–Fisher est que les alleles
d’une generation meurent tous au moment ou ils engendrent la generation suivante.
Cela est tres loin de la realite et le besoin se fait sentir de developper un modele ou les
alleles de la generation t peuvent survivre dans les generations suivantes. Le modele le
plus simple qui permet cela est le modele de Moran que nous presentons brievement ici.
Nous avons encore une fois une population de taille constante de 2N alleles avec
deux types d’alleles possibles, A et B. La simulation des generations successives est
cependant tres differente. Dans le modele de Moran, etant donne la generation t, on
cree la generation t+ 1 en trois etapes :
1. on choisit aleatoirement un allele et on en cree une copie dans la generation t+1,
2. on choisit aleatoirement un allele qui decede,
3. on deplace les survivants, y compris l’allele choisi en 1, vers la generation t+ 1.
Notons que rien n’interdit que l’allele qui se reproduit et celui qui decede soient le
meme allele. Notons aussi que nous avons choisi de dire qu’on deplace les survivants et
non qu’on en cree des copies dans la generation suivante. La distinction est importante
car si on superpose un schema de mutations au modele, il faut voir qu’il ne peut y avoir
mutation qu’entre l’allele qui a cree une copie et sa copie. On ne pourrait donc pas voir
apparaıtre plus d’un mutant par unite de temps.
La figure 2.4 donne un exemple de quatre generations successives produites par le
modele de Moran. A la premiere etape, c’est l’allele 4 qui a ete choisi pour se reproduire
et l’allele 5 qui a ete choisi pour le deces. A la deuxieme etape, ce sont les alleles 3 et
1 qui ont etes choisis et ainsi de suite. On remarque que seulement une des etapes a
change les proportions d’alleles de type A et B.
Fig. 2.4 – Quatre generations du modele de Moran.
On voit aussi que NA,t, qui a la meme definition que dans le modele de Wright–
Chapitre 2. Le modele de Wright–Fisher 20
Fisher, ne peut maintenant varier que de 1 par generation. On a que
P(NA,t = `|NA,t−1 = k) =
k2N
(
1 − k2N
)
si ` = k − 1,(
k2N
)2+(
1 − k2N
)2si ` = k,
k2N
(
1 − k2N
)
si ` = k + 1,
0 sinon.
Comme dans le modele de Wright–Fisher, la derive genetique amene la disparition
eventuelle d’un type d’allele. Le processus est cependant plus long. En effet, quand on
examine l’evolution de l’heterozygotie, on obtient
E(Ht|pt−1) = Ht−1
(
1 −2
(2N)2
)
(2.7)
et on en deduit que
E(Ht|p0) = H0
(
1 −2
(2N)2
)t
. (2.8)
Les equations (2.7) et (2.8) sont les analogues des equations (2.1) et (2.2) de la section
2.3.1 et sont obtenues de la meme facon a l’exception que cette fois-ci on a
E(pt|pt−1) = E
(
NA,t
2N
∣
∣
∣
∣
pt−1
)
=E (NA,t|pt−1)
2N
=1
2N
(
(k − 1)pt−1(1 − pt−1) + (k + 1)pt−1(1 − pt−1) + k((pt−1)2 + (1 − pt−1)
2))
=k
2N
(
pt−1(1 − pt−1) + pt−1(1 − pt−1) + ((pt−1)2 + (1 − pt−1)
2))
=k
2N= pt−1
et
Var (pt|pt−1) = E
(
(
pt − E(pt|pt−1))2
∣
∣
∣
∣
pt−1
)
= E
(
(
pt − pt−1
)2
∣
∣
∣
∣
pt−1
)
=
(
1
2N
)2
pt−1(1 − pt−1) +
(
−1
2N
)2
pt−1(1 − pt−1) + (0)2((pt−1)2 + (1 − pt−1)
2)
=2pt−1(1 − pt−1)
(2N)2.
Chapitre 2. Le modele de Wright–Fisher 21
De l’equation (2.8) on tire que Ht = H0
(
1 − 2(2N)2
)t
≈ H0e−2t/(2N)2 . On a donc
encore une decroissance exponentielle, mais cette fois-ci a un taux de 2/(2N)2 par unite
de temps. Il est cependant naturel de poser qu’une generation dure 2N unites de temps
dans le modele de Moran. En effet, comme un allele a une chance sur 2N de deceder
a chaque unite de temps, il faudra en moyenne 2N unites de temps pour qu’il decede.
La duree de vie moyenne d’un allele est donc de 2N unites de temps. L’heterozygotie
decroit donc avec un taux de 2/(2N) par generation, ce qui est le double du taux du
modele de Wright–Fisher.
2.6 Le modele des nids
Il est possible de construire des modeles plus complexes que ceux de Wright–Fisher
et de Moran. Voici un autre exemple de modele interessant pour une population de
taille constante.
Supposons qu’il existe dans l’environnement de l’espece etudiee des endroits plus
propices a la reproduction que d’autres, que ce soit parce que ces endroits contiennent
plus de ressources, procurent une meilleure protection contre les predateurs ou toute
autre raison imaginable. Supposons qu’il existe K types de tels endroits. Ce sont nos
nids. Supposons aussi que les nids de type i, pour 1 ≤ i ≤ K, composent une proportion
αi de tous les nids disponibles. Supposons finalement que comme la qualite des nids est
fixe, on sait qu’une proportion βi de la prochaine generation sera engendree dans les
nids de type i selon selon un modele de Wright–Fisher.
On obtient un modele de population a taille constante que l’on peut simuler en
suivant les etapes suivantes (toujours en supposant une population de 2N alleles). Pour
creer la generation t+ 1, il faut :
1. Pour i de 1 a K, choisir 2Nαi alleles de la generation t et les placer dans les nids
de type i.
2. Pour i de 1 a K, choisir 2Nβi fois de facon aleatoire et avec remise un des 2Nαi
alleles qui sont places dans les nids de type i et placer une copie de l’allele choisi
dans la generation t+ 1.
Il est important de remarquer que les alleles sont encore tous de viabilite egale. Il
n’y a aucun avantage a naıtre dans un nid d’un type particulier puisque l’on reassigne
les nids de facon aleatoire a l’ensemble de la population a chaque generation. On a donc,
comme c’etait le cas pour le modele de Wright–Fisher et le modele de Moran, que les
Chapitre 2. Le modele de Wright–Fisher 22
nombres de descendants de chacun des alleles j pour 1 ≤ j ≤ 2N sont identiquement
distribues. Il est cependant clair que dans aucun de nos modeles ces variables aleatoires
ne sont independantes puisque la taille de la population demeure constante.
Ce type de modele est plus general que ceux etudies precedemment. On remarque
que si K = 1, α1 = 1 et β1 = 1, on obtient le modele de Wright–Fisher ; tandis que
si K = 2N , αi = 1/2N pour tout i, β1 = 2/2N , β2 = 0 et βi = 1/2N pour tout
3 ≤ i ≤ 2N , on obtient le modele de Moran.
Chapitre 3
Le n-coalescent
3.1 Le n-coalescent de Kingman
Jusqu’a maintenant, nous avons explore des modeles qui representaient l’evolution
d’une population dans le sens naturel du temps. Nous nous donnions une popula-
tion de depart et nous deduisions des resultats concernant les generations subsequentes
engendrees selon certaines regles bien precises. Nous allons maintenant travailler en
remontant le temps et en examinant l’histoire ancestrale d’un echantillon. Pour cela,
nous allons decrire le modele qui est au coeur de cet essai, le n-coalescent de Kingman.
On demarre avec un echantillon de n individus haploıdes, donc de n alleles. On
sait aussi que, a divers moments dans le passe, certains alleles partagent des ancetres
communs. En fait, si on trace un arbre genealogique qui remonte assez loin dans le
temps, on peut trouver un allele qui est l’ancetre commun de l’ensemble de l’echantillon
de depart. C’est le type d’arbre obtenu quand on fait ce travail que represente le n-
coalescent. La figure 3.1 montre un exemple de ce type d’arbre genealogique pour un
echantillon de taille n = 5.
Si An denote l’ensemble des relations d’equivalence sur {1, 2, ..., n}, alors on peut
decrire les relations de parente qui existent entre les alleles de l’echantillon de depart a
n’importe quel temps t dans le passe par un element de An. Dans notre exemple, pour
0 ≤ t ≤ T5 on est a l’etat {{1}, {2}, {3}, {4}, {5}}. Ensuite, pour T5 < t ≤ T4 on est a
l’etat {{1}, {2}, {3}, {4, 5}}, puis {{1}, {2, 3}, {4, 5}} pour T4 < t ≤ T3. Finalement on
a {{1, 2, 3}, {4, 5}} pour T3 < t ≤ T2 et on termine a l’etat {{1, 2, 3, 4, 5}} pour tout
t > T2. On a donc un processus {Xt; t ≥ 0} a temps continu et a valeurs dans An. On
dira qu’il y a coalescence quand deux lignees se reunissent.
Chapitre 3. Le n-coalescent 24
3
2
1
4
5
τ5 τ4 τ3 τ2
T5 T4 T3 T20
Fig. 3.1 – Exemple de la genealogie d’un echantillon de taille n = 5.
Decrivons un peu plus precisement ce processus. A partir de maintenant, nous utili-
serons des lettres grecques pour parler d’un element quelconque de An.1 Nous utiliserons
aussi les quelques conventions suivantes. Nous reserverons la lettre α pour la relation
d’equivalence composee uniquement de singletons et la lettre ω pour celle composee
d’une seule classe. Cette convention est suggeree par le fait que le n-coalescent passe
toujours de α a ω, respectivement premiere et derniere lettre de l’alphabet grec. Nous
denoterons aussi par |η| le nombre de classes d’equivalence de l’element η ∈ An. Fi-
nalement, on dira que γ ≺ δ si δ est le fruit de la reunion d’exactement deux classes
d’equivalences de γ. Les temps aleatoires Tk seront nommes temps de coalescence.
On peut maintenant decrire une facon efficace de simuler des arbres comme celui
de la figure 3.1. En partant de X0 = α, on assigne a chaque paire d’individus de la
population une variable aleatoire Exponentielle(1). Donc, en numerotant les classes de
α, on a Λij ∼ Exponentielle(1) pour tout 1 ≤ i < j ≤ n. On a donc, d’une certaine
facon,(
n2
)
reveils-matin qui sonneront chacun dans un temps exponentiel tous de facon
independante. Une fois que l’un de ces reveils sonne, on a coalescence. Le temps passe
a l’etat α est donc une variable aleatoire
τn = min1≤i<j≤n
Λij
= Λ
1Nous ne limiterons cependant pas l’utilisation des lettres grecques a cela. Par exemple, les lettres
τ, λ et Λ seront utilisees a d’autres fins.
Chapitre 3. Le n-coalescent 25
avec, selon un resultat bien connu, τn = Λ ∼ Exponentielle((
n2
)
). Pour determiner l’etat
suivant, on regarde quel reveil-matin a sonne le premier et on rassemble les deux indivi-
dus de la paire gagnante en une seule classe d’equivalence, formant ainsi l’etat suivant.
Selon un autre resultat bien connu, on a que la distribution de la paire choisie est une
uniforme sur l’ensemble des paires possibles. Notons donc que l’on aurait pu simplement
determiner un temps selon une loi exponentielle de parametre(
n2
)
et ensuite choisir une
paire de classes d’equivalences de facon uniforme parmi les(
n2
)
paires possibles sans
jamais avoir a simuler les Λij.
On peut ensuite repeter le processus. Si on est a l’etat ξ avec |ξ| = k, on numerote
chaque classe et on assigne a chaque paire (i, j) avec 1 ≤ i < j ≤ k une variable expo-
nentielle Λij de moyenne 1. On a cette fois-ci τk = min1≤i<j≤k Λij ∼ Exponentielle((
k2
)
)
et on forme une fois de plus l’etat suivant en combinant les classes i et j gagnantes.
Par convention, on dira aussi que T1 = ∞ et que X∞ = ω.
Si on pose Yk = XTket on observe {Yk, k = n, n − 1, n − 2, . . . , 1}, on trouve un
processus markovien avec Yn = α, Y1 = ω et probabilites de transition donnees par
Πηξ = P(Yk = ξ|Yk+1 = η) =1(
|η|2
) si η ≺ ξ ∀k ∈ {n− 1, n− 2, . . . , 1}.
La sequence Yk etant bien determinee, on peut, avec un peu de travail, arriver a
de jolis resultats. En voici un premier qui donne la probabilite de passer par un etat
particulier a une etape donnee. Il s’agit du premier theoreme d’un article celebre de
J.F.C. Kingman, fort probablement l’auteur le plus cite en la matiere.
Theoreme
P(Yk = ν) =
{
(n−k)!k!(k−1)!n!(n−1)!
λ1!λ2! . . . λk! si |ν| = k,
0 sinon.
ou les λi sont les tailles des classes d’equivalences pour 1 ≤ i ≤ k pour l’etat ν.
Demonstration
Il est clair que P(|Yk| = k) = 1 et c’est ce qui entraine P(Yk = ν) = 0 quand |ν| 6= k.
Pour les autres cas, nous utiliserons, comme l’a fait Kingman, une induction retrograde
pour demontrer l’affirmation.
Pour demarrer, on substitue k = n dans la formule et on obtient P(Yn = ν) = 1
pour tout ν avec |ν| = n. Or, il n’y a que α dans An qui est de cardinalite n. On a
donc, comme on le voudrait bien, P(Yn = α) = 1.
Chapitre 3. Le n-coalescent 26
Posons donc l’equation valide pour k et verifions pour k − 1. On a que
P(Yk−1 = ν) =∑
{µ∈An :|µ|=k}
P(Yk−1 = ν|Yk = µ)P (Yk = µ)
=∑
{µ∈An :µ≺ν}
P(Yk−1 = ν|Yk = µ)P (Yk = µ)
=∑
{µ∈An :µ≺ν}
1(
k2
)P (Yk = µ)
=2
k(k − 1)
∑
{µ∈An :µ≺ν}
P (Yk = µ).
Pour passer de la premiere a la deuxieme ligne, on a observe que si on n’a pas µ ≺ ν,
alors P(Yk−1 = ν|Yk = µ) = 0. Ensuite, on s’est servi du fait que de n’importe quel µ
tel que µ ≺ ν, on peut atteindre(
k2
)
etats differents, de facon equiprobable et que ν est
l’un d’entre eux.
Nous allons maintenant detailler un peu plus la sommation en etudiant quels sont
les elements de An qui sont de bons candidats pour µ et en les denombrant. Posons
tout d’abord que les tailles des classes d’equivalence de ν sont λ1, λ2, . . . , λk−1. Comme
ν est obtenu par la reunion de deux classes de µ, on sait que les classes de µ sont de
tailles λ1, λ2, . . . , λ` − r, r, λ`+1, . . . , λk−1 pour une certaine combinaison de ` et r tels
que 1 ≤ ` ≤ k − 1 et 1 ≤ r ≤ λ` − 1 (car on ne doit pas vider la `-ieme classe).
Finalement, pour une paire de ` et r donnee, il y a(
λ`
r
)
facons de choisir les r elements
de la `-ieme classe de ν qui forment une classe distincte dans µ. On doit cependant
diviser le nombre de candidats par deux etant donne que l’on ne distingue pas entre la
nouvelle classe et la partie restante de la classe brisee. Pour illustrer ce dernier point,
voici un petit exemple. Supposons n = 5, ν = {{1, 2, 3} {4, 5}}. Choisissons dans un
premier temps ` = 1, r = 2 et tirons les nombres 1 et 2 dans la classe {1, 2, 3}, on
obtient µ = {{1, 2}, {3} {4, 5}}. Dans un deuxieme temps, supposons qu’on a ` = 1,
r = 1 et que l’on tire le nombre 3 dans la classe {1, 2, 3}, on obtient une fois de plus
µ = {{1, 2}, {3} {4, 5}}. On a donc deux combinaisons differentes qui aboutissent au
meme µ.
Chapitre 3. Le n-coalescent 27
On peut maintenant continuer nos calculs. On a
P(Yk−1 = ν)
=2
k(k − 1)
∑
{µ∈An :µ≺ν}
P (Yk = µ)
=2
k(k − 1)
k−1∑
`=1
λ`−1∑
r=1
(
λ`
r
)
2
(n− k)!k!(k − 1)!
n!(n− 1)!λ1!λ2! . . . λ`−1!(λ` − r)!r!λ`+1! . . . λk−1!
=(n− k)!(k − 2)!(k − 1)!
n!(n− 1)!
k−1∑
`=1
λ`−1∑
r=1
(
λ`
r
)
λ1!λ2! . . . λ`−1!(λ` − r)!r!λ`+1! . . . λk−1!
=(n− k)!(k − 2)!(k − 1)!
n!(n− 1)!
k−1∑
`=1
λ1!λ2! . . . λ`−1!λ`+1! . . . λk−1!
λ`−1∑
r=1
(
λ`
r
)
(λ` − r)!r!
=(n− k)!(k − 2)!(k − 1)!
n!(n− 1)!
k−1∑
`=1
λ1!λ2! . . . λ`−1!λ`+1! . . . λk−1!
λ`−1∑
r=1
λ`!(λ` − r)!r!
r!(λ` − r)!
=(n− k)!(k − 2)!(k − 1)!
n!(n− 1)!
k−1∑
`=1
λ1!λ2! . . . λ`−1!λ`!λ`+1! . . . λk−1!
λ`−1∑
r=1
1
=(n− k)!(k − 2)!(k − 1)!
n!(n− 1)!λ1!λ2! . . . λk−1!
k−1∑
`=1
λ`−1∑
r=1
1
=(n− k)!(k − 2)!(k − 1)!
n!(n− 1)!λ1!λ2! . . . λk−1!
k−1∑
`=1
λ` − 1
=(n− k)!(k − 2)!(k − 1)!
n!(n− 1)!λ1!λ2! . . . λk−1!(n− (k − 1))
=(n− (k − 1))!(k − 1)!((k − 1) − 1)!
n!(n− 1)!λ1!λ2! . . . λk−1!
et on aboutit a la forme desiree.
tu
On peut aussi demontrer que le processus {Xt; t ≥ 0} est une chaıne de Markov a
temps continu sur le meme ensemble d’etats dont {Yk, k ∈ n} est la chaıne des sauts et
dont les temps de sejour sont distribues selon la regle suivante.
τn = Tn ∼ Exponentielle
((
n
2
))
,
τj−1 = Tj−1 − Tj ∼ Exponentielle
((
j − 1
2
))
pour 3 ≤ j ≤ n.
Chapitre 3. Le n-coalescent 28
et
τ1 = T1 − T2 = ∞
On peut maintenant definir deux variables interessantes qui decrivent le n-coalescent.
Posons donc
Hn = min{t ≥ 0 | Xt = ω} =
n∑
k=2
τk
et
Ln =n∑
k=2
k τk.
Concretement, Hn represente la hauteur de l’arbre, soit le temps avant le premier
ancetre commun, tandis que Ln represente plutot la longueur totale des branches de
l’arbre. La figure 3.2 montre bien comment on peut obtenir differentes valeurs de Ln
pour une meme valeur de Hn (pour un meme n). Le lecteur attentif remarquera que
l’arbre qui est presente a droite est beaucoup moins probable que celui a gauche. En
effet, plus il y a de lignees dans la population, plus l’esperance du temps avant la
prochaine coalescence est petite, ce qui ne cadre pas bien avec l’exemple de droite.
Fig. 3.2 – Differentes valeurs de Ln pour un meme Hn.
Pour les geneticiens, la variable Ln a, dans certaines situations, plus d’interet que
la variable Hn. C’est le cas, par exemple, quand on simule l’evolution d’une espece en
deux etapes successives selon une technique que nous verrons au chapitre 4. Dans un
premier temps, on simulera un arbre genealogique qui relie les individus et dans un
deuxieme temps, on placera des evenements de mutations sur l’arbre obtenu selon un
processus bien choisi. Comme le nombre total de mutations sur l’arbre sera fonction de
sa longueur et non de sa hauteur, c’est Ln qui nous interssera. Cela correspond au fait
que l’on s’attende naturellement a ce que les individus au bas de l’arbre de droite de la
figure 3.2 soient plus differents au point de vue genetique que ceux de l’arbre de gauche.
Chapitre 3. Le n-coalescent 29
3.2 Distribution de Hn
Il est tout naturel de s’interroger sur la distribution de Hn, la hauteur de l’arbre. Or,
on sait que Hn est simplement une somme de variables exponentielles independantes.
Sa distribution est donc une convolution de celles-ci, ce qui ne donne pas de forme
explicite simple. Il a cependant ete demontre que, pour t > 0, on obtient
fHn(t) =
n∑
i=2
(
i
2
)
e−(i2)t
n∏
j=2
j 6=i
(
j2
)
(
j2
)
−(
i2
) .
Le resultat precedent n’est en fait qu’un cas particulier d’un resultat plus general.
La section 5.2.4 de [10] explique en detail comment on obtient la distribution d’une
somme de variables exponentielles ayant toutes des parametes differents.
On peut tout de meme donner quelques proprietes de Hn tres facilement. C’est le
cas de son esperance et de sa variance. On trouve en effet que
E(Hn) = E
(
n∑
k=2
τk
)
=
n∑
k=2
E (τk)
=n∑
k=2
1(
k2
)
= 2
n∑
k=2
1
k(k − 1)
= 2n∑
k=2
1
k − 1−
1
k
= 2
(
1 −1
n
)
Chapitre 3. Le n-coalescent 30
et
Var (Hn) = Var
(
n∑
k=2
τk
)
=n∑
k=2
Var (τk)
=n∑
k=2
(
1(
k2
)
)2
=
n∑
k=2
4
k2(k − 1)2.
Il est interessant de faire une remarque concernant l’esperance de Hn. On a que
l’esperance du temps requis pour la premiere coalescence, τn, vaut(
n2
)−1, ce qui est
tres petit pour de grandes valeurs de n. A l’oppose, le temps requis pour la derniere
coalescence, τ2, a une esperance de(
22
)−1= 1. Or, le temps requis pour trouver l’ancetre
commun de n individus est en moyenne legerement inferieur a deux. En quelque sorte,
la derniere coalescence est responsable, en moyenne, de plus de la moitie du temps total
avant le plus recent ancetre commun.
On remarquera aussi que
limn→∞
E(Hn) = 2
et que
limn→∞
Var (Hn) =∞∑
k=2
4
k2(k − 1)2≈ 1, 159,
donc que lorsque n est grand, on a E(Hn) ≈ 2 et Var (Hn) ≈ 1, 159.
Chapitre 3. Le n-coalescent 31
3.3 Distribution de Ln
La moyenne et la variance de Ln sont aussi faciles a calculer. On a que
E(Ln) = E
(
n∑
k=2
k τk
)
=
n∑
k=2
kE (τk)
=n∑
k=2
2k
k(k − 1)
= 2
n−1∑
k=1
1
k
et
Var (Ln) = Var
(
n∑
k=2
k τk
)
=n∑
k=2
k2Var (τk)
=
n∑
k=2
k2
(
2
k(k − 1)
)2
= 4n−1∑
k=1
1
k2.
Cette fois-ci, on remarque que
limn→∞
E(Ln)
ln(n)= 2
et que
limn→∞
Var (Ln) =2π2
3≈ 6, 580,
car ln(n) <∑n−1
k=11k2 < 1 + ln(n − 1) et
∑∞k=1
1k2 = π2
6. Par consequent, quand n est
grand, on a on a E(Ln) ≈ 2 ln(n) et Var (Ln) ≈ 6, 580.
Ces informations nous permettent de sentir le degre auquel les individus d’un echan-
tillon partagent une grande partie de leur historique. En effet, on voit que pour k
Chapitre 3. Le n-coalescent 32
individus, le scenario qui maximise les differences genetiques serait celui ou leur ancetre
commun Hk unites de temps dans le passe aurait engendre k successeurs distincts dont
les individus contemporains sont les descendants. Or, comme l’illustre la figure 3.3, cela
est tres different de la structure typique du n-coalescent.
Fig. 3.3 – Genealogie maximisant les differences genetiques vs. n-coalescent typique.
Dans le cas qui maximise les differences, on s’attend en moyenne a ce que la longueur
totale de l’arbre soit kE(Hk) = 2(k − 1). Or, ce que l’on vient de calculer nous dit que
la longueur totale de l’arbre est significativement plus petite que cela en moyenne. On
peut calculer, en fonction de k, de combien en proportion l’arbre est en moyenne plus
petit que l’arbre maximal. On obtient
kE(Hk) − E(Lk)
kE(Hk)≈
2(k − 1) − 2 ln (k)
2(k − 1)= 1 −
ln (k)
k − 1.
La longueur du processus sur lequel il sera possible de faire apparaıtre des mutations
est donc habituellement beaucoup plus petite que le maximum theorique. Un graphique
comme celui de la figure 3.4 montre bien a quel point la reduction est grande.
0.9
k
0.85
0.8
35
0.75
0.7
30
0.65
0.6
252015105
Fig. 3.4 – Reduction de la longueur de la genealogie par rapport au maximum possible.
On peut aussi aller un peu plus loin et calculer la distribution de Ln. Cela fait l’objet
du prochain theoreme.
Chapitre 3. Le n-coalescent 33
Theoreme
On a que
P(Ln ≤ t) =(
1 − e−t2
)n−1
.
Demonstration
Nous allons commencer par ecrire le probleme d’une facon un peu plus digeste. Pour
cela, on remarque que
Ln =n∑
k=2
kτk =n−1∑
j=1
Yj
avec les variables Yj independantes telles que Yj ∼ Exponentielle(j/2). Cela est justifie
par le fait que
τk ∼ Exponentielle
((
k
2
))
=⇒ τk ∼ Exponentielle
(
k(k − 1)
2
)
=⇒ k τk ∼ Exponentielle
(
k − 1
2
)
.
Par consequent, si on arrive a montrer le lemme ci-dessous, on aura gagne puisque
l’on pourra appliquer le lemme avec n = n− 1.
Lemme
Si on pose Sn =n∑
j=1
Yj avec Yj ∼ Exponentielle(j/2) independantes, alors
P(Sn ≤ t) =(
1 − e−t/2)n.
Demonstration du lemme
On demontre le resultat par induction sur n. Le cas n = 1 decoule directement de
notre connaissance de la loi de Y1. Supposons donc le resultat vrai pour n = k − 1 et
verifions-le pour n = k. On trouve
P(Sk ≤ t) = P(Sk−1 + Yk ≤ t)
=
∫ t
0
P(Sk−1 + Yk ≤ t|Yk = s)fYk(s)ds
=
∫ t
0
P(Sk−1 ≤ (t− s)) fYk(s)ds
Chapitre 3. Le n-coalescent 34
=
∫ t
0
(
1 − e−(t−s)
2
)k−1 k
2e
−ks2 ds
=
∫ t
0
(
k−1∑
l=0
(
k − 1
l
)
(1)k−1−l(
−e−(t−s)
2
)l)
k
2e
−ks2 ds
=
∫ t
0
k−1∑
l=0
(
k − 1
l
)
(−1)le−l(t−s)
2k
2e
−ks2 ds
=
k−1∑
l=0
(
k − 1
l
)
(−1)lk
2e
−lt2
∫ t
0
e−(k−l)s
2 ds
=k−1∑
l=0
(
k − 1
l
)
(−1)lk
2e
−lt2
[
−2
(k − l)e
−(k−l)s2
∣
∣
∣
∣
t
s=0
]
=
k−1∑
l=0
(
k − 1
l
)
(−1)lk
2e
−lt2
(
2
(k − l)
(
1 − e−(k−l)t
2
)
)
=k−1∑
l=0
(
k − 1
l
)
k
k − l(−1)le
−lt2
(
1 − e−(k−l)t
2
)
=
(
k−1∑
l=0
(
k
l
)
(−1)le−lt2
)
−
(
k−1∑
l=0
(
k
l
)
(−1)le−kt2
)
=
(
k∑
l=0
(
k
l
)
(−1)le−lt2
)
− (−1)ke−kt2 − e
−kt2
((
k∑
l=0
(
k
l
)
(−1)l
)
− (−1)k
)
=
(
k∑
l=0
(
k
l
)
(−1)le−lt2
)
− e−kt2
(
k∑
l=0
(
k
l
)
(−1)l
)
=
(
k∑
l=0
(
k
l
)
(
−e−t2
)l
(1)k−l
)
− e−kt2
(
k∑
l=0
(
k
l
)
(−1)l(1)k−l
)
=(
−e−t2 + 1
)k
− e−kt2 ((−1) + (1))k
=(
1 − e−t2
)k
.
Cela termine l’induction et, par consequent, la preuve du lemme et du theoreme. tu
Chapitre 3. Le n-coalescent 35
Comme nous le verrons au chapitre 4, la distribution de Ln est souvent utile. Nous
prenons donc un instant pour en donner une forme equivalente. Il decoule directement
du theoreme precedent que
fLn(t) =
n− 1
2
(
1 − e−t2
)n−2
e−t2 .
En utilisant le developpement du binome et en travaillant un peu, on peut calculer
que
fLn(t) =
n− 1
2e
−t2
n−2∑
j=0
(
n− 2
j
)
(1)n−2−j(
−e−t2
)j
=
n−2∑
j=0
(n− 2)!
j!(n− 2 − j)!
n− 1
2(−1)je
−(j+1)t2
=
n−2∑
j=0
(n− 1)!
(j + 1)!(n− 2 − j)!
j + 1
2(−1)je
−(j+1)t2
=n∑
i=2
(−1)i
(
n− 1
i− 1
)
i− 1
2e
−(i−1)t2 .
C’est cette derniere forme que l’on prefere dans certains documents concernant le
coalescent et c’est celle-ci que nous utiliserons au chapitre 4.
Avant de terminer cette section, nous prenons le temps de demontrer un dernier
petit theoreme interessant.
Theoreme
On a que
Ln − 2 ln(n)L
−→ Gumbel(0, 2).
Chapitre 3. Le n-coalescent 36
Demonstration
On a que
limn→∞
P(Ln − 2 ln(n) ≤ t) = limn→∞
P(Ln ≤ t+ 2 ln(n))
= limn→∞
(
1 − e−t−2 ln(n)
2
)n−1
= limn→∞
(
1 −e−
t2
n
)n−1
= e−e−t2
tu
La loi de Gumbel est aussi connue comme etant la distribution des valeurs extremes
de type 1. Pour un expose detaille concernant cette distribution, le lecteur interesse
peut consulter [4].
3.4 Echantillons emboıtes
La genetique des populations est un des domaines en statistique ou l’augmentation
de la taille d’echantillon ne donne pas toujours d’excellents resultats. Cela vient en
quelque sorte du fait que les individus d’une population ne sont pas independants (ils
partagent un ancetre commun !). Nous avons aussi vu dans les deux sections precedentes
que le fait d’augmenter n n’a pas beaucoup d’effet sur les variables Hn et Ln quand n
est grand car la longueur des branches ajoutees au bas de la genealogie est tres courte.
Il existe certains autres resultats qui montrent clairement a quel point l’augmenta-
tion de la taille d’echantillon n’est pas toujours profitable. Le suivant est tres interessant.
Theoreme
Si on suppose deux echantillons emboites, le petit etant de taille m et le grand etant
de taille n, alors la probabilite que le plus recent ancetre commun du petit echantillon
soit aussi celui du grand echantillon est donnee par
(n + 1)(m− 1)
(n− 1)(m+ 1).
Chapitre 3. Le n-coalescent 37
Demonstration
On peut demontrer le resultat par induction. Pour cela, nous commencons par examiner
un peu ce qui se produit dans la situation ou deux echantillons sont emboıtes.
Supposons qu’on a un echantillon de taille m inclus dans un echantillon de taille
n avec n ≥ m. Quand on remonte le temps, a la premiere coalescence dans le grand
echantillon, deux scenarios differents peuvent se produire. Soit les individus qui coales-
cent font tous deux partie du petit echantillon, ce qui se produit avec probabilite m(m−1)n(n−1)
et a pour effet de diminuer le nombre de lignees du petit et du gros echantillon de 1.
Soit au moins l’un des individus qui coalescent ne fait pas partie du petit echantillon,
ce qui se produit avec probabilite 1 − m(m−1)n(n−1)
, et alors seulement le nombre de lignees
du grand echantillon diminue de 1. Posons donc pour la suite que le premier cas est
denote par S et le deuxieme par Sc.
Allons-y donc avec l’induction sur n.
Si n = 2, deux cas sont possibles.
– m = 1 : C’est un cas degenere ou l’individu du petit echantillon est son propre
plus recent ancetre commun. La probabilite voulue est donc clairement 0. Or, on
a bel et bien que (2+1)(1−1)(2−1)(1+1)
= 0.
– m = 2 : Les deux echantillons sont le meme. La probabilite voulue est donc
clairement 1. Or, on a bel et bien que (2+1)(2−1)(2−1)(2+1)
= 1.
Supposons donc le resultat vrai pour n− 1 et verifions-le pour n.
Si on definit par Am,n l’evenement le sous-echantillon de taille m a le meme plus
recent ancetre commun que le grand echantillon de taille n, alors on peut ecrire, en
Chapitre 3. Le n-coalescent 38
conditionnant sur ce qui se produit a la premiere coalescence, que
P(Am,n) = P(Am,n|S) P(S) + P(Am,n|Sc) P(Sc)
=n(m− 2)
(n− 2)m
m(m− 1)
n(n− 1)+
n(m− 1)
(n− 2)(m+ 1)
(
1 −m(m− 1)
n(n− 1)
)
=(m− 1)(m+ 1)(m− 2) + n(m− 1)(n− 1) −m(m− 1)2
(n− 1)(n− 2)(m+ 1)
=(m− 1)
(
(m+ 1)(m− 2) + n(n− 1) −m(m− 1))
(n− 1)(n− 2)(m+ 1)
=(m− 1)
(
m2 −m− 2 + n2 − n−m2 +m)
(n− 1)(n− 2)(m+ 1)
=(m− 1)(n+ 1)(n− 2)
(n− 1)(n− 2)(m+ 1)
=(n + 1)(m− 1)
(n− 1)(m + 1).
Ceci termine l’induction et demontre le resultat.
tu
Une application interessante du theoreme est de supposer que le grand echantillon
est en fait l’ensemble de la population. Dans ce cas, comme on a habituellement que la
taille de la population est grande, on obtient que la probabilite que le plus recent ancetre
commun de l’ensemble de la population soit celui de l’echantillon est approximativement
egale a (m− 1)/(m+ 1). Par consequent, un echantillon de taille 10 a environ 82% des
chances de partager son plus recent ancetre commun avec l’ensemble de la population.
Pour un echantillon de taille 20, c’est environ 90%. Le graphe ci-bas montre cependant
que l’augmentation de la taille d’echantillon a rapidement de moins en moins d’effet sur
cette probabilite.
Chapitre 3. Le n-coalescent 39
m
100
0.96
80
0.92
0.88
60
0.84
4020
Fig. 3.5 – Probabilite d’obtenir le plus recent ancetre commun d’une population.
3.5 Le n-coalescent et le modele de Wright–Fisher
Le n-coalescent est en soi un objet mathematique tres joli. Cependant, ses avantages
ne s’arretent pas la. En effet, il apparaıt a l’interieur de certains autres modeles quand
on examine l’histoire ancestrale d’un echantillon tire d’une grande population et qu’on
prend une limite bien choisie. C’est le cas, par exemple, pour le modele de Wright–
Fisher que nous avons etudie plus tot. La presente section se consacre a preciser et
justifier cette affirmation.
Lors de notre presentation du modele de Wright–Fisher, nous avons demarre avec
une generation donnee et nous avons examine les generations successives qui en decou-
laient. Nous allons maintenant regarder le processus dans le sens inverse, en remontant
dans le temps.
La description du modele faite au chapitre precedent est tout a fait equivalente a celle
du processus suivant. On a une sequence de generations comprenant toutes 2N alleles
et chaque allele d’une generation t choisit de facon equiprobable, independamment des
autres alleles et avec remise, son parent dans la generation t− 1.
Le lecteur attentif aura peut-etre remarque que nous ne nous sommes pas preoccupes
des individus (i.e. des N paires de deux alleles.). En effet, nous decidons pour la suite
de laisser tomber cet aspect et d’etudier le modele comme representant simplement
l’evolution d’une population de 2N alleles.
Nous allons aussi modifier notre point de vue en n’etudiant qu’un echantillon de
Chapitre 3. Le n-coalescent 40
taille k. La figure 3.6 donne un exemple du resultat obtenu pour un echantillon de
k = 5 alleles pris a partir d’une population de taille 2N = 16. Les rectangles noirs
representent les alleles qui font partie de l’echantillon ainsi que leurs ancetres.
Fig. 3.6 – Genealogie d’un echantillon de 5 alleles sous le modele de Wright–Fisher.
Dans notre exemple, il a fallu remonter de cinq generations pour trouver l’ancetre
commun de l’echantillon. Nous avons cependant ete tres chanceux, comme nous le
verrons par la suite.
On peut commencer par se demander combien de generations, en moyenne, il faut
attendre pour qu’il y ait coalescence dans un echantillon de taille k, c’est-a-dire pour
qu’une premiere paire d’alleles quelconque trouve un ancetre commun. Pour ce faire,
commencons en denotant par A l’evenement les k alleles ont tous des ancetres distincts
une generation dans le passe. Observons ensuite que
P(A) =k−1∏
j=1
(
1 −j
2N
)
≈ 1 −
k−1∑
j=1
j
2N= 1 −
(k − 1)k
2 × 2N= 1 −
(
k2
)
2N.
Le calcul de la probabilite est assez simple quand on fait le raisonnement suivant. Pour
que tous les alleles aient un ancetre different, il faut que successivement :
– le premier allele choisisse un parent,
– le deuxieme allele choisisse un parent different de celui du premier allele, ce qui
arrive avec probabilite 1 − 1/2N ,
– le troisieme allele choisisse un parent different de ceux des deux premiers alleles,
ce qui arrive avec probabilite 1 − 2/2N ,...
– le k-ieme allele choisisse un parent different de ceux des alleles precedents, ce qui
arrive avec probabilite 1 − (k − 1)/2N .
Chapitre 3. Le n-coalescent 41
L’approximation qui a ete faite ensuite est justifiee par le fait que, dans les applica-
tions, on aura toujours k � 2N et que, par consequent, les termes ayant une puissance
de N superieure a 2 au denominteur seront negligeables.
Selon [5], cette approximation est equivalente a supposer qu’il ne peut y avoir plus
qu’une paire d’alleles qui trouvent un ancetre commun en une seule generation. On peut
se convaincre de cela en observant que la probabilite qu’exactement une paire d’alleles
trouve un parent commun est donnee par
P(exactement une paire coalesce) =
(
k2
)(
2N1
)(
2N−1k−2
)
(k − 2)!
(2N)k
car, parmi les (2N)k facons qu’ont les k alleles de l’echantillon de choisir leurs parents
on peut denombrer les facons ou exactement une paire coalesce de la facon suivante.
Il y a(
k2
)
facons de choisir la paire qui coalesce,(
2N1
)
facons de choisir le parent de la
paire,(
2N−1k−2
)
facons de choisir les parents des autres alleles de l’echantillon et (k − 2)!
facons d’assigner les parents choisis aux alleles qui ne trouvent pas d’ancetre commun.
On a donc que
P(exactement une paire coalesce) =
(
k2
)
(2N)(k − 2)!
(2N)k
(2N − 1)!
(k − 2)!((2N − 1) − (k − 2))!
=
(
k2
)
(2N)(2N − 1)(2N − 2) . . . (2N − k + 2)
(2N)k
≈
(
k2
)
(2N)k−1
(2N)k=
(
k2
)
2N.
Ensuite, comme on sait que le choix des parents d’une generation se fait indepen-
damment du choix des parents des autres generations, on a que le nombre de generations
necessaires pour qu’il y ait coalescence suit une loi geometrique de parametre 1− P(A).
Donc, si on denote par τ(N)k le nombre de generations ou l’ensemble des ancetres des
alleles de l’echantillon de depart est de taille k, on a que
P
(
τ(N)k = j
)
= P(A)j−1(1 − P(A)) ≈
(
1 −
(
k2
)
2N
)j−1 (k2
)
2N.
On a donc une geometrique avec une tres faible probabilite de succes et on sait
que cela s’approxime bien par une loi exponentielle. En effet, le lemme suivant est un
resultat bien connu en probabilite.
Chapitre 3. Le n-coalescent 42
Lemme des evenements rares
Si
Xn ∼ Geometrique
(
λ
n
)
∀n,
alors, quand n→ ∞,
Xn
n
L−→ Exponentielle(λ).
Demonstration
Fixons λ > 0 et considerons, pour chaque entier positif n tel que λ/n < 1, une variable
aleatoire Xn avec loi geometrique de parametre p = λ/n. Posons aussi Tn = Xn/n.
Si t ≥ 0, alors
FTn(t) = P(Tn ≤ t)
= P
(
Xn
n≤ t
)
= P (Xn ≤ tn)
=
btnc∑
k=1
P (Xn = k)
=
btnc∑
k=1
(
1 −λ
n
)k−1λ
n
= 1 −
(
1 −λ
n
)btnc
.
Pour la derniere egalite, on a utilise le fait fait que
m∑
k=1
rk−1 =1 − rm
1 − r.
On a donc que
FTn(t) =
{
1 −(
1 − λn
)btncsi t ≥ 0
0 si t < 0.
On peut ensuite utiliser le fait que
limn→∞
(
1 +y
n
)n
= ey
Chapitre 3. Le n-coalescent 43
et que
limn→∞
btnc
n= t
pour obtenir, pour tout t ≥ 0,
limn→∞
FTn(t) = lim
n→∞
(
1 −
(
1 −λ
n
)btnc)
= 1 − limn→∞
((
1 −λ
n
)n)btnc
n
= 1 −(
e−λ)t
= 1 − e−λt.
On verifie donc que
limn→∞
FTn(t) = FT (t) ∀t ∈ R,
avec T ∼ Exponentielle(λ). Bref, la distribution de Tn converge en loi vers la distribution
exponentielle de parametre λ. Comme Tn = Xn/n, cela termine la demonstration.
tu
On peut donc dire que
τ(N)k ∼ Geometrique (1 − P(A)) ≈ Geometrique
(
(
k2
)
2N
)
et que, en utilisant le lemme des evenements rares,
τ(N)k
2N≈ Exponentielle
((
k
2
))
quand 2N est grand.
On a donc que, quand la taille de la population est grande,τ(N)k
2Nsuit approximati-
vement une loi exponentielle de parametre(
k2
)
. Cela nous amene a dire que l’historique
d’un echantillon de taille n d’une population de 2N alleles, avec N grand, obeissant
au modele de Wright–Fisher correspond, a un changement d’echelle du temps pres, au
n-coalescent tel que decrit a la section 3.1.
Dans le cas particulier ou l’on s’interesse a un echantillon de taille 2, on n’a pas a
faire la premiere approximation faite plus haut. On obtient
P(A) =1
2Net τ
(N)2 ∼ Geometrique
(
1
2N
)
.
Chapitre 3. Le n-coalescent 44
On a donc que l’esperance du nombre de generations requises pour trouver le plus
recent ancetre commun de deux alleles choisis aleatoirement dans la population est de
l’ordre du nombre d’alleles dans la population, 2N , et que la variance de ce nombre de
generations est de l’ordre de 2N(2N − 1). Cela justifie l’affirmation que l’exemple de la
figure 3.6 etait tres chanceux car la derniere coalescence a elle seule aurait du necessiter
environ 2N = 16 generations. . .
3.5.1 Ajustement pour une population de taille variable
Jusqu’a maintenant, nous avons toujours suppose une population de taille constante.
Cela est cependant bien peu frequent dans la nature. La population humaine croıt a
un rythme effarant pendant que celle des homards, des baleines et de plusieurs especes
d’oiseaux diminue dangereusement rapidement. Heureusement, il est parfois possible de
modifier nos modeles de facon a ce que le n-coalescent soit toujours applicable malgre
une population de taille variable.
Nous allons donc, pour la presente section, supposer une population de taille va-
riable, mais dont la variation est deterministe et suit une fonction pas trop mechante. Po-
sons Ni =le nombre d’individus dans la population a la generation i pour i ∈ {0, 1, 2, . . .}
et supposons que le vecteur
N = (N0, N1, N2, N3, . . .)
est de la forme
N =
(
N,NfN
(
1
2N
)
, NfN
(
2
2N
)
, NfN
(
3
2N
)
, . . .
)
avec fN une fonction de R+ vers R+ continue qui converge de facon uniforme sur les
compacts vers une certaine fonction f , elle aussi continue et definie sur R+ vers R+.
De facon analogue au cas d’une population de taille constante, nous allons supposer
un echantillon de k alleles, selectionnes a la generation 0, et examiner les coalescences qui
surviennent dans l’echantillon quand on remonte les generations. Nous denoterons par
τ(N)k le nombre de generations pendant lesquelles l’ensemble des ancetres de l’echantillon
de depart est de taille k. Il est a remarquer que τ(N)k depend du vecteur N alors que le
τ(N)k ne dependait que de la constante N .
Supposons maintenant qu’on ait laisse tourner le modele pendant un grand nombre
Chapitre 3. Le n-coalescent 45
de generations. On a, de facon analogue au cas d’une population constante, que
P(τ(N)k > 1) =
k−1∏
i=1
(
1 −i
2N1
)
≈ 1 −
k−1∑
i=1
i
2N1
= 1 −
(
k2
)
2N1
.
On poursuit en observant que
P
(
τ(N)k > 2
)
= P
(
τ(N)k > 2|τ
(N)k > 1
)
P
(
τ(N)k > 1
)
≈
(
1 −
(
k2
)
2N2
)(
1 −
(
k2
)
2N1
)
et on en deduit que
P
(
τ(N)k > j
)
≈
j∏
`=1
(
1 −
(
k2
)
2N`
)
.
On peut aller un peu plus loin en disant que
P
(
τ(N)k > j
)
≈ eln
jQ
`=1
1−(k2)
2N`
!
≈ e−
jP
`=1
(k2)
2N`
en utilisant le fait que, pour x petit, ln (1 + x) ≈ x.
Tout cela entraine que
P
(
τ(N)k
2N> t
)
= P
(
τ(N)k > 2Nt
)
≈ e−
b2NtcP
`=1
(k2)
2N`
= e−
b2NtcP
`=1
(k2)
2NfN( `2N )
= e−(k
2)b2NtcP
`=1
1
2NfN( `2N ) .
Chapitre 3. Le n-coalescent 46
On obtient donc que
limN→∞
P
(
τ(N)k
2N> t
)
≈ limN→∞
e−(k
2)b2NtcP
`=1
1
2NfN( `2N )
= e−(k2)R t
01
f(s)ds
= e−(k2)Λ(t)
avec Λ(t) =∫ t
01
f(s)ds.
On remarque que le resultat obtenu ici concorde avec le cas d’une population de
taille constante. En effet, on a dans ce cas que fN = f = 1, donc que Λ(t) = t et queτ(N)k
2Nsuit bel et bien approximativement une loi exponentielle avec le bon parametre.
Malheureusement, on s’apercoit ensuite que l’on n’obtient pas une loi exponentielle dans
le cas d’une population de taille variable. La cause n’est cependant pas perdue car on
peut resoudre le probleme assez simplement.
Si on pose
X ∼ Exponentielle
((
k
2
))
et
Y = Λ−1(X),
alors on obtient que
P(Y ≤ t) = P(Λ−1(X) ≤ t)
= P(X ≤ Λ(t))
= 1 − e−(k2)Λ(t)
car Λ(x) est une fonction strictement croissante.
En resume, on avait dans le modele a population constante que les temps de coales-
cence etaient tels que
τ(N)k
2N≈ Exponentielle
((
2
k
))
pour une population de grande taille alors qu’on obtient
τ(N)k
2N≈ Λ−1(X)
avec X ∼ Exponentielle((
k2
))
quand N est grand et que la variation de la taille de la
population est de la forme decrite plus haut.
Chapitre 3. Le n-coalescent 47
Concretement, cela signifie que quand la taille de la population varie, on n’ajuste plus
simplement l’echelle du temps de facon lineaire, mais selon une fonction bien choisie.
On peut aussi voir que le nouvel ajustement est fait de facon a ce que moins de temps
de coalescence passe quand la taille de la population est grande et plus de temps passe
quand la population est petite. Cela concorde avec l’intuition qui veut que l’on s’attende
a devoir remonter moins de generations pour trouver l’ancetre commun de deux alleles
choisis dans une petite population que dans une grande population.
3.6 Le n-coalescent et le modele de Moran
Nous avons demontre a la section 3.5 que le n-coalescent apparait comme limite
quand on examine l’histoire ancestrale d’un echantillon de taille n d’une population
nombreuse obeissant au modele de Wright–Fisher. Nous allons maintenant montrer que
la meme chose est vraie dans le cas du modele de Moran.
Le debut du processus demande cependant un peu plus de travail. Il faut remonter
le temps, mais cela est maintenant plus complique. Examinons la probabilite qu’il y
ait coalescence une unite de temps dans le passe pour un echantillon de taille k d’une
population de 2N alleles. Pour commencer, notons qu’il n’y a, dans l’ensemble de la
population, que la possibilite de 0 ou 1 coalescence par unite de temps. En effet, si
l’allele choisi pour mourir est le meme que celui qui genere un descendant, il n’y a
aucune coalescence dans la population, et si ces deux alleles sont distincts, il y a une
coalescence dans l’ensemble de la population. On fait donc ici une approximation de
moins que dans le cas de Wright–Fisher ou l’on avait exploite le fait que, lorsque N est
grand, la probabilite que plus d’une coalescence survienne en une seule unite de temps
etait negligeable par rapport a la probabilite d’avoir exactement une coalescence.
Pour la suite, il sera utile de se donner un peu de notation pour faciliter la compre-
hension. Nous commencons donc par definir l’evenement
E = Il y a une coalescence dans la population entiere
une unite de temps dans le passe.
Il n’est pas tres difficile de voir que l’on a
P(E) = 1 −1
2N
car on a une chance sur 2N que l’allele selectionne pour mourir soit le meme que celui qui
est selectionne pour donner naissance. L’evenement qui nous interesse n’est cependant
Chapitre 3. Le n-coalescent 48
pas E mais bien
Fk = Il y a exactement une coalescence dans l’echantillon (de taille k)
une unite de temps dans le passe.
En effet, dans le cas ou il y a coalescence dans l’ensemble de la population, quatre
cas sont possibles dont seulement un signifie qu’il y a coalescence dans l’echantillon.
Ces quatre cas sont representes dans la figure 3.7 pour une situation ou la taille de
la population est 2N = 6 et la taille de l’echantillon est k = 3. Dans la figure, on a
hachure les alleles faisant partie de l’echantillon. En a), la copie creee fait partie de
l’echantillon, mais pas le parent, il n’y a donc pas coalescence dans l’echantillon. En
b), le parent fait partie de l’echantillon, mais pas sa copie. En c), aucun des deux n’est
dans l’echantillon. Finalement, en d), la copie et le parent font partie de l’echantillon
et on a le seul cas ou il y a coalescence dans l’echantillon.
���������������������
���������������������
���������������
���������������
���������������
���������������
��������������������
��������������������
������������
������������
����������������������������
��������������������
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
�������������������������������������������������������������������������������������������������������������������������������������������������
�����
������������������������������������������������������
������������������������������������������������������
������������������������������������������������������
������������������������������������������������������
������������������������������������������������������������������
������������������������������������������������������
������������������������������������������������������
������������������������������������������������������
a)
c)������
�����
��������������������
��������������������
����������������������������
����������������������������
����������������������������
��������������������
!!!!!!
"�"�"�"�"�"�"�"�"�"�""�"�"�"�"�"�"�"�"�"�""�"�"�"�"�"�"�"�"�"�""�"�"�"�"�"�"�"�"�"�""�"�"�"�"�"�"�"�"�"�"
#�#�#�#�#�#�#�#�#�#�##�#�#�#�#�#�#�#�#�#�##�#�#�#�#�#�#�#�#�#�##�#�#�#�#�#�#�#�#�#�##�#�#�#�#�#�#�#�#�#�#
$�$�$�$$�$�$�$$�$�$�$
%�%�%%�%�%%�%�%
&�&�&�&&�&�&�&&�&�&�&
'�'�'�''�'�'�''�'�'�'
(�(�(�((�(�(�((�(�(�(
)�)�)�))�)�)�))�)�)�)*�*�*�*�*�**�*�*�*�*�**�*�*�*�*�**�*�*�*�*�**�*�*�*�*�*
+�+�+�+�++�+�+�+�++�+�+�+�++�+�+�+�++�+�+�+�+
,�,�,�,�,�,,�,�,�,�,�,,�,�,�,�,�,,�,�,�,�,�,,�,�,�,�,�,
-�-�-�-�--�-�-�-�--�-�-�-�--�-�-�-�--�-�-�-�-
.�.�.�.�.�..�.�.�.�.�..�.�.�.�.�..�.�.�.�.�..�.�.�.�.�.
/�/�/�/�/�//�/�/�/�/�//�/�/�/�/�//�/�/�/�/�//�/�/�/�/�/
00000
11111
2�2�2�2�2�22�2�2�2�2�22�2�2�2�2�22�2�2�2�2�22�2�2�2�2�22�2�2�2�2�2
3�3�3�3�3�33�3�3�3�3�33�3�3�3�3�33�3�3�3�3�33�3�3�3�3�33�3�3�3�3�3
444444
555555
666666
777777
b)
d)
Fig. 3.7 – Quatre cas lors d’une coalescence dans la population.
Si on denote les evenements
C = La copie fait partie de l’echantillon.
P = Le parent fait partie de l’echantillon.
alors on voit donc que
P(Fk) = P (E) × P(C ∩ P ).
Or, on peut calculer que
P(C ∩ P ) = 1 − P(Cc ∪ P c)
= 1 −(
P(Cc) + P(P c) − P(Cc ∩ P c))
.
On a cependant que
P(Cc) = P(P c) =2N − k
2N
Chapitre 3. Le n-coalescent 49
et
P(Cc ∩ P c) = P(Cc) × P(P c|Cc) =2N − k
2N×
(2N − 1) − k
2N − 1.
On peut donc ecrire que
P(C ∩ P ) = 1 −
(
22N − k
2N−
(2N − k)(2N − 1 − k)
2N(2N − 1)
)
=2N(2N − 1) − 2(2N − k)(2N − 1) + (2N − k)(2N − 1 − k)
2N(2N − 1)
=k(k − 1)
2N(2N − 1).
Tout cela nous amene a trouver que
P(F ) =
(
1 −1
2N
)
×k(k − 1)
2N(2N − 1)
=2N − 1
2N
k(k − 1)
2
2
2N(2N − 1)
=
(
k
2
)
2
(2N)2.
Comme les deux seules options possibles sont qu’il y ait exactement zero ou une
coalescence dans l’echantillon, la probabilite qu’il n’y en ait pas est tout simplement
1 − P(F ). Le nombre d’unites de temps que l’on doit attendre pour voir survenir une
coalescence suit donc exactement une loi geometrique de parametre(
k2
)
2(2N)2
. On peut
donc utiliser une fois de plus le lemme des evenements rares et trouver une exponentielle
de parametre(
k2
)
. On obtient donc encore une fois, a un changement d’echelle pres, le
n-coalescent quand on considere l’historique d’un echantillon de taille n d’une grande
population.
3.7 Au dela de Wright–Fisher et Moran
Dans les deux sections precedentes, nous avons vu qu’il est possible de voir apparaıtre
le n-coalescent a l’interieur de populations obeissant aux modeles de Wright–Fisher et
de Moran. Heureusement il n’est pas necessaire de refaire tout le travail pour chacun
des modeles que l’on peut imaginer. On peut arriver a des resultats plus generaux.
Nous ne demontrerons pas ici de tels resultats, qui demandent un travail mathematique
Chapitre 3. Le n-coalescent 50
significativement plus pousse que ce qui est presente dans ce document, mais nous en
mentionnons un au passage.
Considerons le cas d’une population de taille fixe. Disons qu’on a N individus, c’est-
a-dire 2N alleles. Posons aussi
Y ti,N = le nombre de descendants a la generation t+ 1 de l’allele i de la generation t.
Pour le modele de Wright–Fisher, on avait que les vecteurs YtN = (Y t
1,N , Yt2,N , . . . , Y
t2N,N)
etaient independants et que
∀t YtN ∼ multinomiale
(
2N,
(
1
2N,
1
2N, . . . ,
1
2N
))
C’est cette condition qui nous a permis d’obtenir le n-coalescent comme limite de l’his-
toire ancestrale d’un echantillon de n alleles quand N est grand.
On peut montrer que ce resultat est encore valable si on remplace la loi multinomiale
par une loi echangeable dont la variance marginale converge vers une constante positive
finie lorsque N tend vers l’infini, c’est-a-dire
0 < limN→∞
Var (Y ti,N) <∞.
Dans le cas du modele de Wright–Fisher, on avait que
limN→∞
Var (Y ti,N) = lim
N→∞
(
1 −1
2N
)
= 1
et la condition etait respectee.
Rappelons au passage qu’un vecteur (V1, V2, . . . , Vm) est dit echangeable si
(V1, V2, . . . , Vm)L= (Vσ(1), Vσ(2), . . . , Vσ(m))
pour toute permutation σ.
On pourrait par exemple utiliser le resultat pour demontrer que le n-coalescent
apparait comme limite de l’histoire ancestrale d’un echantillon de taille n d’une grande
population obeissant a un modele des nids tel que decrit a la section 2.6 pour certains
choix appropries de αi et βi.
Chapitre 3. Le n-coalescent 51
3.8 Le n-coalescent avec mutation
Avant de terminer ce chapitre, prenons quelques instants pour decrire une variante
interessante du coalescent qui a ete introduite par Donnelly, Tavare et Watterson. Il
s’agit du n-coalescent avec mutation. La presentation qui en est faite ici est inspiree de
[11].
Soit une fois de plus l’ensemble An = l’ensemble des relations d’equivalence sur
{1, 2, ..., n} avec α la relation d’equivalence composee uniquement de singletons et ω
celle qui ne contient qu’une seule classe. Etablissons maintenant une distinction entre
deux types de classes d’equivalences : les classes ancestrales et les classes nouvelles. On
demarre encore une fois a X0 = α, mais on considere en plus que les n classes sont
des classes ancestrales au debut du processus. On representera cet etat par la notation
X0 = {{1}, {2}, . . . , {n}|}. Le | separera toujours les classes ancestrales, ecrites a la
gauche du |, et les classes nouvelles qui seront ecrites a droite.
On decrira ensuite l’evolution du modele par une serie d’evenements de deux types
distincts. On dira qu’il y a coalescence quand deux classes ancestrales sont reunies
en une seule, et qu’il y a mutation quand une classe ancestrale devient une classe
nouvelle. Par exemple, si le premier evenement a survenir a lieu au temps t et est une
coalescence, on pourrait avoir Xt = {{1}, {2}, {3, 4}, {5}, . . . , {n}|} tandis que si le
premier evenement a lieu au temps t et est une mutation, on obtiendrait quelque chose
comme Xt = {{1}, {2}, . . . , {7}, {9}, . . . .{n}|{8}}.
On definit maintenant le processus Dt egal aux nombres de classes ancestrales de
Xt. On a donc Dt un processus de morts puisque les deux seuls types d’evenements
permis ont pour effet de diminuer de un le nombre de classes ancestrales de Xt. On
peut donc definir, similairement a ce qu’on avait dans le cas du n-coalescent simple
Tk = min{t ≥ 0|Dt = k},
τk = Tk−1 − Tk.
Attention, notre definition de Tk ne correspond pas exactement a celle de la section 3.1.
Cela vient du fait que le processus de la section 3.1 etait continu a gauche alors que le
processus decrit ici est continu a droite. Les τk representent cependant encore le temps
passe a Dt = k. Definissons aussi Xk = XTk. Ce Xk est un processus a temps discret, la
chaıne des sauts de Xt.
A partir d’un etat Xk+1 = ξ, le temps d’attente et les probabilites de transition sont
donnes par les suppositions suivantes.
Chapitre 3. Le n-coalescent 52
1. On definit les variables aleatoires Ψi ∼ Exponentielle(
θ2
)
, 1 ≤ i ≤ k + 1 pour
chaque classe ancestrale de ξ, avec θ un parametre donne strictement positif.
2. On definit les variables aleatoires Λi,j ∼ Exponentielle(1) , 1 ≤ i < j ≤ k+1 pour
chaque paire de classes ancestrales de ξ.
3. On pose Ψ = min1≤i≤k+1
Ψi et Λ = min1≤i<j≤k+1
Λi,j, obtenant ainsi Ψ ∼ Exponentielle(
(k+1)θ2
)
et Λ ∼ Exponentielle(
k(k+1)2
)
.
4. On pose τk+1 = min{Λ,Ψ} et on a donc que le temps d’attente a Xk+1 suit une
loi Exponentielle(
(k+1)(k+θ)2
)
.
5. On definit l’etat η = Xk de la facon suivante :
– Si τk+1 = Λ, on rassemble les classes ancestrales i et j, avec i, j tels que
Λi,j = Λ, en une nouvelle classe ancestrale.
– Si τk+1 = Ψ, on transforme la classe ancestrale i, avec i tel que Ψi = Ψ, en
une classe nouvelle.
Le θ que nous avons introduit ici est un parametre qui represente la frequence des
mutations. Plus il est eleve, plus on verra apparaitre de mutations.
Cette description nous permet de determiner que
pξ,η = P (Xk = η|Xk+1 = ξ) =
2(k+1)(k+θ)
si ξ ≺ η,
θ(k+1)(k+θ)
si ξ ↪→ η,
0 sinon.
Le symbole ≺ ayant toujours la meme definition et ξ ↪→ η signifiant qu’exactement une
classe ancestrale de ξ devient une classe nouvelle de η.
On peut facilement verifier l’exactitude de l’equation precedente. Par exemple, dans
le cas ou ξ ↪→ η avec i? la classe ancestrale de ξ qui est devenue une classe nouvelle, on
a
Chapitre 3. Le n-coalescent 53
pξ,η = P(Le premier evenement est une mutation.)
×P(Le premier evenement est la mutation de i?.|
Le premier evenement est une mutation.)
= P(τk+1 = Ψ) × P(Ψ?i = Ψ|τk+1 = Ψ)
=(k+1)θ
2(k+1)(k+θ)
2
×1
k + 1
=θ
(k + 1)(k + θ).
Pour ce calcul, nous avons utilise les deux faits suivants. Premierement, si U et V
suivent respectivement des lois exponentielles de parametres α et β, alors P(U < V ) =
α/(α+β). Deuxiemement, si on a U1, U2, . . . Un exponentielles independantes de meme
parametre, alors ∀k, P(Uk = min1≤i≤n Ui) = 1/n.
La figure 3.8 donne un exemple du n-coalescent avec mutation. On y a represente
les mutations par des cercles noirs. Dans cet exemple, on a
X7 = {{1}, {2}, {3}, {4}, {5}, {6}, {7}, |}
X6 = {{1}, {2}, {3}, {4}, {5, 6}, {7}, |}
X5 = {{1}, {2}, {3}, {4}, {7}, |{5, 6}}...
X1 = {{1, 2, 4, 7}|{3}, {5, 6}}
X0 = {|{1, 2, 4, 7}{3}, {5, 6}}.
L’exemple de la figure 3.8 permet aussi de voir certaines des differences majeures
entre le n-coalescent avec mutation et le n-coalescent de Kingman. Tout d’abord, dans
le cas avec mutation, la chaıne peut se terminer a divers etats alors que le n-coalescent
traditionnel se terminait toujours a l’etat ω = {{1}, {2}, {3}, . . . , {n}}. Ensuite, on
remarque que le processus a une fin, c’est-a-dire que τ1 est fini. Finalement, et il s’agit
d’une difference significative, l’ensemble d’etats sur lequel est defini {Xt; t ≥ 0} n’est
plus tout a fait An mais bien une modification de celui-ci permettant la distinction
entre deux types de classes.
On peut aussi remarquer une foule de petits resultats interessants. Par exemple, on
voit que
P(Xk+1 ↪→ Xk) =θ
k + θet P(Xk+1 ≺ Xk) =
k
k + θ.
Chapitre 3. Le n-coalescent 54
1
2
3
4
5
6
7
T0T1T2T3T4T5T6
Fig. 3.8 – Exemple du n-coalescent avec mutation.
Cela vient du fait que
P(Xk+1 ↪→ Xk) = P(Ψ < Λ)
=(k+1)θ
2(k+1)θ
2+ k(k+1)
2
=θ
k + θ,
en utilisant une fois de plus le resultat concernant le minimum de deux exponentielles
independantes.
On pourrait aussi s’interesser a P(Xk = η) en fonction de n et des tailles des classes
nouvelles et ancestrales de η, mais cela ne donne pas une formule particulierement jolie.
Finalement, on peut mentionner que Gudrun Tried [11] a demontre que l’on pouvait
recreer de facon relativement simple la chaıne Xk par l’entremise d’une urne de Polya.
Le processus est le suivant.
On demarre avec une urne ne contenant qu’une petite boule noire de masse θ ne
portant pas de numero et une boule de masse 1 portant le numero 1. Par la suite, on
effectue une suite de tirages dans l’urne en supposant que la probabilite qu’une boule
soit choisie est proportionnelle a son poids et en agissant selon la regle suivante :
– si on tire la boule noire, on la remet dans l’urne, en plus d’ajouter une boule de
masse 1 a laquelle on donne un numero qui n’etait pas present dans l’urne au
Chapitre 3. Le n-coalescent 55
moment du tirage,
– si on tire une boule numerotee, on la remet dans l’urne, en plus d’ajouter une
boule de masse 1 ayant le meme numero que la boule tiree.
Avec un peu de reflexion, on peut se convaincre que cela equivaut bel et bien a
la chaıne des sauts du n-coalescent avec mutation. On simule cependant a partir des
generations loin dans le passe vers les generations recentes. Quand on tire la boule
noire, c’est qu’il y a mutation et quand on tire une boule numerotee, c’est qu’il y a
coalescence. Si par exemple on obtenait la sequence
1, 1, noire, 1, noire, 3,
alors on aurait recree, a une permutation des etiquettes des individus de depart pres,
le scenario de la figure 3.8.
Avant de conclure a l’equivalence entre les deux modeles, il reste cependant a verifier
que la probabilite d’obtenir les divers arbres possibles est bel et bien la meme dans les
deux cas. Nous choisissons cependant de ne pas nous lancer dans de tels calculs ici et
de renvoyer le lecteur interesse a l’article de Trieb.
Chapitre 4
Largage de mutations
Le n-coalescent est tres utile dans le cas ou l’on s’interesse a des mutations neutres.
Par mutations neutres, on veut dire les mutations qui n’ont aucun effet sur la via-
bilite des individus ou leur chances de se reproduire. On a en effet dans ces cas que
l’apparition des mutations n’a aucun effet sur la forme des genealogies. On peut donc
simuler l’evolution des populations en deux etapes successives. Premierement on simule
la genealogie selon le n-coalescent ou un autre modele approprie et, deuxiemement, on
repartit des mutations sur l’arbre obtenu selon un processus bien defini. C’est la tech-
nique qui est parfois denommee largage de mutation. Il est important de remarquer que
cela est different de la technique presentee a la section 3.8 ou l’apparition des mutations
faisait partie integrante de la creation des genealogies.
Avant d’entrer dans les mathematiques du sujet, il est important de faire un petit
detour vers la biologie afin de pouvoir bien se situer par la suite.
4.1 Modeles a nombre infini d’alleles, a nombre in-
fini de sites et a nombre fini de sites
Les modeles genetiques qui comprennent des mutations se regroupent principalement
en trois categories distinctes. Les modeles a nombre infini d’alleles, a nombre infini de
sites et a nombre fini de sites. Chaque categorie est definie de la facon suivante :
Chapitre 4. Largage de mutations 57
Nombre infini d’alleles
Dans ce type de modeles, plus grossiers mais plus simples, on suppose une infinite de
types d’alleles pour approximer la grande quantite, neanmoins finie, d’alleles differents
possibles dans la realite. On y considere que chaque nouvelle mutation amene l’appari-
tion d’un nouveau type d’allele, jamais vu auparavant dans l’histoire de la population.
Dans ces cas, on ne s’interesse qu’au fait que deux alleles soient de types identiques ou
differents et on ne peut pas dire si deux alleles de types differents sont proches ou non.
Le modele de la section 3.8 est un modele de ce type.
Nombre infini de sites
Un peu plus raffines, les modeles de ce type considerent un nombre infini d’endroits
sur un allele ou les mutations peuvent se produire. En fait, les alleles ou genes sont
en realite des sequences de nucleotides de longueur finie, mais on suppose ici qu’une
fois qu’une mutation est survenue a un endroit dans la sequence, toutes les muta-
tions subsequentes doivent se produire a des endroits differents. Comme on suppose
une infinite de sites candidats a etre transformes par une mutation, la probabilite de
selectionner deux fois le meme site pour appliquer une mutation est nulle.
Le resultat est un modele ou il existe encore un fois une infinite de types differents
d’alleles possibles, mais ou l’on pourra determiner que deux alleles sont plus pres l’un
de l’autre que deux autres. La figure 4.1 montre clairement pourquoi cela est le cas.
On y voit la descendance d’un gene ancestral avec les transitions ou il y a eu mutation
representees par des fleches pointillees. Nul n’a besoin de connaıtre l’ensemble de la
genealogie pour observer que l’individu a l’extreme droite de la derniere generation
presentee est plus pres de l’avant-dernier individu de sa generation que du premier.
Cela est en effet apparent puisque que les deux derniers individus de la generation
partagent une mutation que ne presentent pas les deux premiers. On aurait donc pu
predire, sans connaıtre l’ensemble de la genealogie, qu’ils partagent un ancetre commun
plus recent que celui de l’ensemble de l’echantillon compose des quatres alleles au bas
du graphe. C’est precisement ce type d’analyse, impossible dans le cas des modeles a
nombre infini d’alleles, qui fait la force des modeles a nombre infini de sites.
Le largage de mutations presente a la section suivante produit un modele de ce type.
Nombre fini de sites
Dans les applications plus poussees, certains modeles considerent le fait que la quan-
tite de mutations possibles d’un allele est finie. Il est en effet possible en theorie, quoique
Chapitre 4. Largage de mutations 58
Fig. 4.1 – Exemple d’un modele a nombre infini de sites.
peu probable, qu’une mutation survienne en ayant pour effet de ramener un allele a un
etat anterieur ou de reproduire une nouvelle configuration deja survenue ailleurs dans
la genealogie. Ce sont les modeles a nombre fini de sites.
D’une certaine facon, le modele de la section 2.4 est un modele simplifie de ce type,
mais nous n’entrerons pas plus dans le present document dans l’etude de ce type de
modeles.
4.2 Processus de mutations a taux constant
La facon la plus courante d’appliquer un modele de mutations neutres sur une
genealogie est d’utiliser un processus de mutations a taux constant. Dans ce contexte,
le nombre de mutations a survenir entre un enfant et son parent est une variable
aleatoire distribuee selon une loi de Poisson de moyenne µ independante de tous les
autres nombres de mutations entre parent et enfant, independamment du temps et de
la taille de la population. On obtient donc un modele a nombre infini de sites car on
peut compter le nombre de differences entre un descendant et son ancetre au lieu de
simplement verifier s’ils sont de meme type ou non.
Le processus est un processus de Poisson. En effet, comme les nombres de mutations
sont independants d’une generation a l’autre, on peut toujours dire que le nombre de
sites differents entre un allele et son descendant t generations plus tard est une variable
suivant une loi de Poisson de moyenne tµ. De la meme facon, si on sait que deux
individus dans le present ont leur plus recent ancetre commun t generations dans le
passe, le nombre de mutations qui les separe suit une loi de Poisson de moyenne 2tµ.
Chapitre 4. Largage de mutations 59
4.2.1 Sites de segregation
Supposons maintenant un echantillon de taille n evoluant selon le modele de Wright–
Fisher. Une fois equipes du processus de mutations a taux constant, on peut decrire la
variable Sn = le nombre de sites de segregation dans un echantillon de taille n.
Par site de segregation on veut dire les sites sur les alleles qui ne sont pas identiques
pour tous les alleles de la population. Comme nous travaillons dans un contexte ou le
nombre de sites est infini et que la probabilite que deux mutations surviennent sur le
meme site est nulle, le nombre de sites de segregation est egal au nombre de mutations
survenues dans la genealogie.
En supposant que la genealogie de l’echantillon soit bien approximee par le n-coales-
cent, il est facile de calculer l’esperance et la variance de Sn. Si on pose θ = 4Nµ, une
convention frequente dans les textes sur le sujet, et si on se souvient qu’une unite de
temps du n-coalescent correspond a 2N generations d’un modele de Wright–Fisher, on
trouve que
E(Sn) = E (E(Sn|Ln))
= E (2Nµ Ln)
= 2Nµ E (Ln)
= 4Nµ
n−1∑
k=1
1
k
= θ
n−1∑
k=1
1
k
et
Var (Sn) = Var (E(Sn|Ln)) + E (Var (Sn|Ln))
= Var (2Nµ Ln) + E (2Nµ Ln)
= (2Nµ)2Var (Ln) + 2Nµ E (Ln)
= (2Nµ)2n−1∑
k=1
4
k2+ 4Nµ
n−1∑
k=1
1
k
= θ2n−1∑
k=1
1
k2+ θ
n−1∑
k=1
1
k.
On a utilise dans le calcul certains des resultats de la section 3.3 concernant la distri-
bution de Ln.
Chapitre 4. Largage de mutations 60
Notons au passage qu’une convention plus generale que celle proposee ici est de
poser θ = 2Neµ ou Ne est la taille effective de la population. Or, la population effective
est definie par rapport au changement d’echelle necessaire pour obtenir la convergence
vers le n-coalescent. Dans le cas du modele de Wright–Fisher, Ne = 2N et on a donc
θ = 4Nµ. Par consequent θ represente le nombre moyen de differences entre deux
individus ayant leur ancetre commun une unite de temps du n-coalescent dans le passe
ou, plus simplement, le double du nombre de mutations sur une lignee en une unite de
temps du n-coalescent.
On peut aussi calculer la distribution exacte de Sn en conditionnant sur la longueur
totale de la genealogie. On a que
P(Sn = k) =
∫ ∞
0
P(S = k|Ln = t) fLn(t) dt
=
∫ ∞
0
(
θt2
)ke−
θt2
k!
n∑
i=2
(−1)i
(
n− 1
i− 1
)
i− 1
2e
−(i−1)t2 dt
=
(
θ
2
)k n∑
i=2
(−1)i
(
n− 1
i− 1
)
i− 1
2
∫ ∞
0
tk e−(θ+i−1)t
2
k!dt
=
(
θ
2
)k n∑
i=2
(−1)i
(
n− 1
i− 1
)
i− 1
2
(
2
θ + i− 1
)k+1
=n∑
i=2
(−1)i
(
n− 1
i− 1
)(
i− 1
θ + i− 1
)(
θ
θ + i− 1
)k
,
en utilisant la densite d’une loi gamma pour faire l’integrale a la troisieme egalite.
Il est interessant de remarquer que pour un echantillon de taille 2 cette formule se
reduit considerablement. On obtient
P(S2 = k) =
(
1
θ + 1
)(
θ
θ + 1
)k
.
On trouve donc une loi geometrique de parametre 1θ+1
. Cela s’explique bien par la lo-
gique suivante. Supposons que l’on remonte le temps en suivant la genealogie de deux
individus. On rencontre periodiquement des evenements de deux types, des mutations
et des coalescences. Chaque evenement rencontre a une probabilite 1θ+1
d’etre une coa-
lescence et le nombre de sites de segregation dans l’echantillon est simplement le nombre
de mutations rencontrees avant de rencontrer une coalescence.
Le resultat est aussi d’une grande utilite en pratique. Il permet par exemple d’estimer
le taux de mutation µ ou encore de verifier si le taux que l’on suppose est vraisemblable.
Chapitre 4. Largage de mutations 61
4.2.2 Differences par paire
On peut aussi decrire une autre variable couramment utilisee pour decrire le degre
de variation genetique d’une population : les differences par paire. Cette variable, habi-
tuellement notee π, donne le nombre de differences que l’on trouvera en moyenne quand
on pige aleatoirement une paire d’alleles dans la population. La definition de la variable
implique que, si kij denote le nombre de differences entre les individus i et j, alors
π =1(
N2
)
∑
1≤i<j≤N
kij
pour une population de taille N .
On pourrait s’attendre a ce que l’esperance de π ait une forme compliquee, mais ce
n’est pourtant pas le cas. On trouve en effet que E(π) = θ. On peut deviner ce resultat
avec un peu de reflexion. Si N = 2, il est assez clair. Il n’y a alors qu’une seule paire
dans la population et le nombre de differences qui distingue les individus est egal au
nombre de mutations survenues entre chacun d’entre eux et leur ancetre commun. Or,
comme le temps moyen de coalescence des deux individus est de une unite de temps du
n-coalescent, cela est egal a θ. Nous allons tout de meme prendre le temps de demontrer
le resultat.
Theoreme
E(π) = θ.
Demonstration
Pour commencer, ecrivons
E(π) =1(
N2
)
∑
1≤i<j≤N
E(kij)
=1(
N2
)
∑
1≤i<j≤N
θ
2E(2τij)
ou τij denote le temps en unite du n-coalescent entre les individus i, j et leur ancetre
commun. On a simplement utilise le fait que l’esperance du nombre de differences entre
deux individus est l’esperance du nombre de mutations sur le trajet qui les separe et
que, comme on a un processus de Poisson, cette esperance est egale a l’esperance de la
longueur du trajet, soit deux fois le temps avant leur ancetre commun, multipliee par
le taux de mutation, θ/2. Si on montre que E(τij) = 1, on aura gagne puisqu’on pourra
Chapitre 4. Largage de mutations 62
continuer en disant que
E(π) =θ(
N2
)
∑
1≤i<j≤N
1
= θ.
Le fait que E(τij) = 1 est intuitivement acceptable, mais pas du tout trivial. Si
la taille de la population est 2, alors τij suit une loi exponentielle de parametre 1 et
le resultat est donne. Cependant, si la population est plus grande, on ne peut pas
dire combien de coalescences il faut remonter dans le passe avant de trouver l’ancetre
commun de i et j. La figure 4.2 montre differentes situations qui peuvent se produire.
Peut-etre que, comme dans le cas a gauche de la figure, i et j trouvent leur ancetre
commun a la premiere coalescence apres un temps exponentiel de parametre(
n2
)
. Peut-
etre que, comme dans le cas a droite de la figure, ce n’est qu’a la derniere coalescence
que cela se produit, apres une somme de temps exponentiels. Peut-etre aussi que l’on a
une situation intermediaire comme celle au centre de la figure.
i j i ji j
Fig. 4.2 – Temps avant l’ancetre commun d’une paire.
Nous devons donc faire la moyenne de toutes ces possibilites. Pour cela, nous allons
conditionner le calcul de l’esperance de τij sur la variable Cij. Cette derniere decrira
laquelle des N − 1 coalescences permet a i et j de trouver leur ancetre commun. On
numerotera les coalescences selon le nombre de lignees presentes dans la genealogie juste
avant la coalescence. Par exemple, dans la figure 4.2, on a Cij = 5 a gauche, Cij = 3 au
centre et Cij = 2 a droite. On peut donc ecrire
E(τij) =N∑
k=2
E(τij |Cij = k) P(Cij = k).
Chapitre 4. Largage de mutations 63
Le calcul devient plus simple car
E(τij|Cij = k) = E
(
N∑
`=k
τ`
)
=
N∑
`=k
E (τ`) =
N∑
`=k
1(
`2
) = 2
(
1
k − 1−
1
N
)
et
P(Cij = k) =N∏
`=k+1
(
1 −1(
`2
)
)
1(
k2
) =2(N + 1)
k(k + 1)(N − 1).
Pour le calcul de P(Cij = k), on a commence par faire le raisonnement suivant. Si i
et j trouvent leur ancetre a la coalescence k, c’est que successivement :
– la paire i, j n’a pas ete la paire choisie a la coalescence N , ce qui arrive avec
probabilite 1 − 1/(
N2
)
,
– la paire formee par les branches contenant i et j n’a pas ete choisie a la coalescence
N − 1, ce qui arrive avec probabilite 1 − 1/(
N−12
)
,...
– la paire formee par les branches contenant i et j n’a pas ete choisie a la coalescence
k + 1, ce qui arrive avec probabilite 1 − 1/(
k+12
)
,
– la paire formee par les branches contenant i et j a ete choisie a la coalescence k,
ce qui arrive avec probabilite 1/(
k+12
)
.
On peut ensuite verifier que
N∑
k=2
E(τij |Cij = k) P(Cij = k) =N∑
k=2
2
(
1
k − 1−
1
N
)(
2(N + 1)
k(k + 1)(N − 1)
)
= 1.
Ceci conclut la preuve du theoreme.
tu
Chapitre 5
Conclusion
Nous avons vu, dans les pages precedentes, les proprietes de base de certains modeles
discrets classiques de la genetique des populations. Nous avons aussi tente de faire une
introduction de qualite au n-coalescent de Kingman, un objet mathematique fascinant
d’une tres grande utilite. Nous n’avons cependant qu’effleure l’ensemble des connais-
sances, theoremes, applications et resultats qui sont disponibles dans la litterature
concernant ces sujets.
Dans ces pages, nous avons tente de garder une saveur mathematique et de ne
pas nous lancer dans une longue discussion des phenomenes biologiques associes a la
genetique des populations. Nous avons prefere laisser cette tache aux vrais experts en
la matiere. Le travail n’a cependant pas ete facile. En effet, le lecteur interesse qui
recherche des articles ou des livres sur la matiere est souvent confronte a deux extremes
qui peuvent le laisser assez perplexe. Il y a d’un cote les articles dans des revues telles que
Genetics qui ne comportent presqu’aucune equation et qui laissent le mathematicien
sur son appetit et, de l’autre, les articles de revues telles que le Journal of Applied
probability qui requierent un niveau mathematique bien plus avance que celui de cet
essai. Il est notre espoir que ces quelques chapitres auront reussi a se situer quelque
part entre ces deux extremes et a fournir au lecteur une expose interessant.
Si une suite a cet essai etait ecrite un jour, son sujet principal serait probablement
l’application des concepts decrits ici d’un aspect probabiliste a des jeux de donnees
et le traitement statistique du n-coalescent. Toutefois, nous sommes confiants que de
meilleurs auteurs sont deja au travail pour rediger des volumes sur la question.
Bibliographie
[1] Balding, D. J. (2003). Handbook of statistical genetics . John Wiley & Sons, Chi-
chester.
[2] Gillespie, John H. (2004). Population Genetics : A Concise Guide (second edition).
The Johns Hopkins University Press, Baltimore.
[3] Gladstein, Keith. (1978). The Characteristic Values and Vectors for a Class of
Stochastic Matrices Arising in Genetics. SIAM Journal on Applied Mathematics,
vol. 34 no 4, 630-642.
[4] Johnson, Norman L., Kotz, Samuel, Balakrishnan, N. (1994). Continuous univa-
riate distributions Volume 2. Wiley, New York.
[5] Hein, Jotun. (2005). Gene genealogies, variation and evolution : a primer in coa-
lescent theory. Oxford University Press, Oxford.
[6] Hudson, Richard R. (1991). Gene genealogies and the coalescent process. Oxford
surveys in evolutionary biology, vol. 7, 1-44.
[7] Kingman, J.F.C. (1982). The coalescent. Stochastic processes and their applica-
tions, vol. 13, 235-248.
[8] Kingman, J.F.C. (1982). On the genealogy of large populations. Journal of applied
probability, vol. 19A, 27-43 .
[9] Provine, William B. (2001). The Origins of Theoretical Population Genetics. The
University of Chicago Press, Chicago.
[10] Ross, Sheldon M. (2003). Introduction to probability models, Eighth edition. Aca-
demic press, San Diego.
[11] Trieb, Gudrun (1992). A Polya urn model and the coalescent. Journal of Applied
Probability, vol. 29, 1-10.
[12] Wakeley, John. (a paraıtre). Coalescent Theory : An introduction. Roberts & Com-
pany Publishers, Greenwood Village.