modèles de wright--fisher et n-coalescent · table des gures 2.1 mod ele de wright{fisher pour une...

JEAN-HUBERT SMITH-LACROIX

Modeles de Wright–Fisher et n-coalescent

Essai presentea la Faculte des etudes superieures de l’Universite Lavaldans le cadre du programme de maıtrise en statistiquepour l’obtention du grade de Maıtre es sciences (M.Sc.)

FACULTE DES SCIENCES ET DE GENIEUNIVERSITE LAVAL

QUEBEC

Aout 2005

c©Jean-Hubert Smith-Lacroix, 2005

Avant-propos

Je tiens a remercier en premier lieu monsieur Bernard Hodgson, professeur au

departement de mathematiques et de statistique, qui n’a absolument pas contribue a la

redaction de cet essai. Il en est toutefois, en quelque sorte, l’instigateur. C’est en effet

son refus de superviser mon projet de fin d’etudes au baccalaureat en mathematiques

qui m’a pousse a rencontrer monsieur Claude Belisle, qui a subsequemment supervise

ledit projet, ma maıtrise et cet essai. Je remercie donc monsieur Hodgson de m’avoir

encourage a explorer de nouveaux sujets et d’avoir ainsi declenche mon cheminement

vers la statistique. Je le remercie surtout pour le support, les conseils et les nombreuses

discussions que j’ai eu le plaisir d’avoir avec lui durant les dernieres annees.

La grosse part des remerciements revient cependant a monsieur Claude Belisle, mon

directeur de maıtrise, pour l’aide apportee dans l’ecriture de ce document et pour le

support constant qu’il m’a apporte pendant les deux dernieres annees. C’est lui qui m’a

propose d’entamer ma maıtrise et c’est grace a lui que je la termine aujourd’hui. C’est

aussi lui qui m’a encourage a, et permis de, realiser un sejour inoubliable de cinq mois

en Nouvelle-Zelande. Je le remercie plus specifiquement pour le travail qu’il a fait avec

moi dans la redaction de cet essai, en me pointant vers les references qui semblaient

prometteuses, en clarifiant les aspects qui m’echappaient et, bien sur, en relisant le

document pour y suggerer plusieurs ameliorations importantes. Je le remercie aussi de

facon plus generale pour son soutien et sa franche camaraderie que j’apprecie au plus

haut point.

Je dois aussi remercier le departement de mathematiques et statistique ainsi que le

CRSNG pour le support financier qu’ils m’ont apporte par l’entremise de divers contrats

et de la subvention de recherche de monsieur Belisle.

Finalement, je voudrais remercier parents, famille et amis, pour les petits coups de

main, les heures de plaisir et tous les autres aleas de la vie . . .

a Nathalie

And that’s Human. We make mistakes.

Genetic manipulation or not - nobody’s perfect.

Captain Jean-Luc Picard

United Federation of Planets

Table des matieres

Avant-Propos ii

Table des matieres iv

Table des figures v

1 Introduction 1

2 Le modele de Wright–Fisher 2

2.1 Le modele de Wright–Fisher . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1.1 Distribution du nombre de descendants d’un allele . . . . . . . . 4

2.2 Derive genetique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Homozygotie, heterozygotie et loi de Hardy–Weinberg . . . . . . . . . . 11

2.3.1 Homozigotie et heterozygotie . . . . . . . . . . . . . . . . . . . 11

2.3.2 Loi de Hardy–Weinberg . . . . . . . . . . . . . . . . . . . . . . 13

2.4 Le modele de Wright–Fisher avec mutation et selection . . . . . . . . . 14

2.4.1 La mutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4.2 La selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.3 Mutation et selection . . . . . . . . . . . . . . . . . . . . . . . . 18

2.5 Le modele de Moran . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.6 Le modele des nids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Le n-coalescent 23

3.1 Le n-coalescent de Kingman . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 Distribution de Hn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3 Distribution de Ln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.4 Echantillons emboıtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.5 Le n-coalescent et le modele de Wright–Fisher . . . . . . . . . . . . . . 39

3.5.1 Ajustement pour une population de taille variable . . . . . . . . 44

3.6 Le n-coalescent et le modele de Moran . . . . . . . . . . . . . . . . . . 47

3.7 Au dela de Wright–Fisher et Moran . . . . . . . . . . . . . . . . . . . 49

3.8 Le n-coalescent avec mutation . . . . . . . . . . . . . . . . . . . . . . . 51

v

4 Largage de mutations 56

4.1 Modeles a nombre infini d’alleles, a nombre infini de sites et a nombre

fini de sites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2 Processus de mutations a taux constant . . . . . . . . . . . . . . . . . 58

4.2.1 Sites de segregation . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2.2 Differences par paire . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Conclusion 64

Bibliographie 65

Table des figures

2.1 Modele de Wright–Fisher pour une population diploıde. . . . . . . . . . 4

2.2 Evolution de pt pour quatre simulations du modele de Wright–Fisher. . 5

2.3 Disparition d’un type d’allele dans le modele de Wright–Fisher. . . . . 10

2.4 Quatre generations du modele de Moran. . . . . . . . . . . . . . . . . . 19

3.1 Exemple de la genealogie d’un echantillon de taille n = 5. . . . . . . . . 24

3.2 Differentes valeurs de Ln pour un meme Hn. . . . . . . . . . . . . . . . 28

3.3 Genealogie maximisant les differences genetiques vs. n-coalescent typique. 32

3.4 Reduction de la longueur de la genealogie par rapport au maximum pos-

sible. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.5 Probabilite d’obtenir le plus recent ancetre commun d’une population. . 39

3.6 Genealogie d’un echantillon de 5 alleles sous le modele de Wright–Fisher. 40

3.7 Quatre cas lors d’une coalescence dans la population. . . . . . . . . . . 48

3.8 Exemple du n-coalescent avec mutation. . . . . . . . . . . . . . . . . . 54

4.1 Exemple d’un modele a nombre infini de sites. . . . . . . . . . . . . . . 58

4.2 Temps avant l’ancetre commun d’une paire. . . . . . . . . . . . . . . . 62

Chapitre 1

Introduction

Les pages qui suivent presentent un bref sommaire de quelques-uns des modeles les

plus frequemment rencontres dans la litterature concernant la genetique des popula-

tions.

Le texte est divise en trois parties distinctes. Dans la premiere, nous ferons un survol

des modeles discrets de base, en passant par le modele de Wright–Fisher, le modele de

Moran et le modele des nids. Le modele de Wright–Fisher sera etudie un peu plus

en profondeur et des ajustements pour la selection et la mutation seront introduits.

Nous en profiterons aussi pour presenter certaines notions de base en genetique des

populations.

Dans la seconde partie, nous etudierons le n-coalescent, un objet mathematique

extremement interessant. Quelques-unes de ses proprietes seront decrites en detail puis

nous montrerons comment il apparait de facon naturelle dans les modeles decrits a la

premiere partie.

Finalement, nous terminerons avec un bref chapitre presentant le largage de muta-

tions. Il s’agit d’une technique qui s’applique au n-coalescent et qui permet une etude

efficace mais simplifiee de l’evolution des populations.

Avant de commencer, notons que l’ensemble du present document ne s’interesse qu’a

l’evolution d’un seul gene ou allele a la fois. La recombinaison et la correlation entre

des genes voisins ne sera jamais consideree.

Chapitre 2

Le modele de Wright–Fisher

2.1 Le modele de Wright–Fisher

Un des premiers modeles presentes dans la litterature concernant l’etude de la

genetique des populations est le modele de Wright–Fisher. Il s’agit d’un modele re-

lativement simple qui permet de representer l’evolution d’un allele a l’interieur d’une

population diploıde ou haploıde.

Les especes diploıdes sont generalement plus complexes et sont distinguees par le fait

que chaque individu possede deux copies de chacun de ses genes ou alleles. Les individus

ont deux parents. L’enfant a donc une copie d’un gene qui provient de son premier parent

et une autre copie qui provient de son deuxieme parent. Les humains et les animaux

sont des populations diploıdes. Par opposition les populations haploıdes, plus simples,

sont composees d’individus n’ayant qu’un seul parent. Dans les cas ou nous etudierons

des populations diploıdes, on supposera que les individus sont hermaphrodites de facon

a ne pas avoir a complexifier les modeles pour qu’ils tiennent compte du fait que chaque

individu doive avoir des parents de sexe different.

Dans sa forme la plus simple, le modele fait les hypotheses suivantes, qui pour-

ront etre modifiees ou carrement enlevees dans certaines adaptations qui sont parfois

developpees :

– La population est de taille constante. Selon le cas qui nous interesse, on supposera

une taille de N individus diploıdes ou 2N individus haploıdes.

– Les generations sont disjointes. On veut dire qu’a une suite de moments precis,

tous les individus de la generation precedente decedent et donnent naissance a

Chapitre 2. Le modele de Wright–Fisher 3

tous les individus de la generation suivante.

– Il n’y a aucune selection. Tous les individus ou genes ont la meme chance de

survie, la meme chance d’avoir des descendants.

– Les accouplements se font de facon aleatoire.

Le modele en tant que tel est facile a simuler. L’algorithme, pour le cas d’une

population diploıde, est le suivant. Au temps 0, on a N individus ayant chacun deux

copies de l’allele qui nous interesse. On a donc 2N alleles. Par la suite, on genere

successivement et independamment les uns des autres les N individus de la generation

1 de la facon suivante :

1. on choisit, de facon equiprobable, un premier parent dans la generation t− 1.

2. on choisit, de facon equiprobable, un allele du parent choisi et on en place une

copie comme premier allele du nouvel individu.

3. on choisit, de facon equiprobable, un deuxieme parent dans la generation t− 1.

4. on choisit, toujours de facon equiprobable, un allele du deuxieme parent choisi et

on en place une copie comme deuxieme allele du nouvel individu.

Notons que ces quatre selections sont faites independamment des unes et des autres.

Les generations successives sont ensuite creees de la meme facon.

Notons qu’on a suppose une population hermaphrodite. C’est ce qui a permis que

le choix des deux parents se fasse exactement de la meme facon et que l’on n’ait pas

divise la population en deux groupes, les males et les femelles. A la limite, il est permis

que les deux parents d’un individu de la generation t soient le meme individu de la

generation t− 1.

Dans les cas simples, on supposera l’existence de deux types d’alleles distincts, disons

l’allele A et l’allele B. La figure 2.1 donne un exemple de la simulation d’une premiere

generation avec N = 8, donc un total de 16 alleles dans chaque generation. On y

represente les alleles de type A par un rectangle blanc et ceux de type B par un rectangle

noir. Les individus sont representes par les bulles qui contiennent chacune deux alleles.

On peut definir plusieurs statistiques decrivant la simulation obtenue. Les deux

premieres sont NA,t et NB,t, qui decrivent respectivement les nombres d’alleles de type

A et de type B dans la population a la generation t. Il est clair que dans le cas ou

seuls deux types d’alleles existent, on a toujours NA,t + NB,t = 2N . On voit que la

suite (NA,t; t ∈ N) est une chaıne de Markov a temps discret sur l’ensemble d’etats


Fig. 2.1 – Modele de Wright–Fisher pour une population diploıde.

{0, 1, 2, . . . , 2N} avec etats absorbants en 0 et en 2N . De plus, on a que

L(NA,t|NA,t−1 = k) = binomiale

(

2N,k

2N

)

.

Dans certains cas, plutot que de s’interesser aNA,t, on etudiera simplement pt, definie

comme etant la proportion d’alleles de type A dans la population a la generation t. On

utilisera donc, pour la suite du texte,

pt =NA,t

2N.

On voit facilement que dans notre exemple p0 = 6/16 ≈ .38 et p1 = 8/16 = 0.50. On

peut aussi programmer de facon relativement aisee un ordinateur pour faire ce genre de

simulation. C’est ce que nous avons fait pour donner au lecteur un certaine intuition de

ce qui se passe dans un tel modele. Les resultats de quatre simulations independantes

avec N = 40 et p0 = .4 pour 100 generations sont reproduits dans la figure 2.2. Nous

n’avons trace que l’evolution de pt en fonction du passage des generations pour chacune

des simulations.

2.1.1 Distribution du nombre de descendants d’un allele

Il peut etre interessant d’examiner le modele sous un angle legerement different en

explorant la distribution du nombre de descendants dans la generation t+ 1 des alleles

de la generation t. En effet, si on numerote chacun des 2N alleles de la generation t et

qu’on pose

ηk = Le nombre de descendants dans la generation t+ 1 de l’allele k de la generation t.


Fig. 2.2 – Evolution de pt pour quatre simulations du modele de Wright–Fisher.

on s’apercoit que

ηk ∼ binomiale

(

2N,1

2N

)

∀k ∈ {1, 2, . . . , 2N}.

Les variables ηi ne sont cependant certainement pas independantes car la taille de

la population demeure constante. On a donc la contrainte∑2N

k=1 ηk = 2N . En fait, la

distribution conjointe des nombres de descendants est donnee par

(η1, η2, . . . , η2N ) ∼ multinomiale

(

2N,

(

1

2N,

1

2N, . . . ,

1

2N

))

.

On peut utiliser ce dernier fait pour deduire de petits resultats concernant la distri-

bution du nombre de descendants des alleles. Par exemple, on obtient directement que

E(ηk) = 1 et Var (ηk) = 1 − 12N

pour tout k et que Cov (ηk, η`) = −12N

pour toute paire

k, ` avec k 6= `.

2.2 Derive genetique

La valeur de pt varie significativement dans le temps. Cela decoule du fait que

les differents alleles ont des nombres aleatoires de descendants. Consequemment, si les

alleles de type A sont choisis plus souvent lors de la simulation d’une certaine generation,

pt aura tendance a augmenter. C’est ce phenomene que nous appelons derive genetique.

En fait, l’etude de la figure 2.2 nous permet de remarquer que, dans certains cas, la


variation de pt peut aller jusqu’a l’extinction d’un type d’alleles. Nous tirons de cette

observation notre premier theoreme.

Theoreme

La chaıne NA,t atteint presque surement un de ses etats absorbants apres un temps fini,

c’est-a-dire qu’on a

P

(

∞⋂

`=0

(NA,` /∈ {0, 2N})

∣

∣

∣

∣

∣

NA,0 = i

)

= 0 ∀i.

Demonstration

Tout d’abord, observons que pour tout t,

P(NA,t+1 ∈ {0, 2N}|NA,t = k) ≥

(

1

2N

)2N

∀k.

Il s’agit ici d’une borne imprecise obtenue en faisant le raisonnement suivant. Si dans

l’expression ci-haut k = 0 ou k = 2N , alors la probabilite donnee est 1 et est donc

certainement superieure a(

12N

)2N. Si par contre k ∈ {1, 2, . . . , 2N − 1}, alors c’est

qu’on a au moins un allele de type A a la generation t. Dans ce cas, il est possible

que tous les alleles de la generation t + 1 soient des descendants de cet allele de type

A. Cela se produit avec une probabilite(

12N

)2Net nous amene a l’etat 2N . Dans ces

cas, on a donc que P(NA,t+1 = 2N |NA,t = k) ≥(

12N

)2Net, par consequent, P(NA,t+1 ∈

{0, 2N}|NA,t = k) ≥(

12N

)2N.

On a donc, ∀k ∈ {0, 1, 2, . . . , 2N} et ∀t ≥ 0

P(NA,t+1 /∈ {0, 2N}|NA,t = k) ≤ 1 −

(

1

2N

)2N

.

Examinons maintenant ce qui se passe sur un horizon de deux generations. Pour

tout t ≥ 0 et pour tout k ∈ {0, 1, 2, . . . , 2N}, on obtient


P(NA,t+2 /∈ {0, 2N}|NA,t = k)

=2N∑

`=0

P(NA,t+2 /∈ {0, 2N}|NA,t+1 = `, NA,t = k)P(NA,t+1 = `|NA,t = k)

=

2N−1∑

`=1

P(NA,t+2 /∈ {0, 2N}|NA,t+1 = `)P(NA,t+1 = `|NA,t = k)

≤

2N−1∑

`=1

(

1 −

(

1

2N

)2N)

P(NA,t+1 = `|NA,t = k)

=

(

1 −

(

1

2N

)2N)

2N−1∑

`=1

P(NA,t+1 = `|NA,t = k)

=

(

1 −

(

1

2N

)2N)

P(NA,t+1 /∈ {0, 2N}|NA,t = k)

≤

(

1 −

(

1

2N

)2N)(

1 −

(

1

2N

)2N)

=

(

1 −

(

1

2N

)2N)2

On a donc aussi, encore ∀k ∈ {0, 1, 2, . . . , 2N} et ∀t ≥ 0,

P(NA,t+2 /∈ {0, 2N}|NA,t = k) ≤

(

1 −

(

1

2N

)2N)2

.

De facon analogue, on obtient, ∀k ∈ {0, 1, 2, . . . , 2N}, ∀t ≥ 0 et ∀m ≥ 0

P(NA,t+m /∈ {0, 2N}|NA,t = k) ≤

(

1 −

(

1

2N

)2N)m

.

Donc, pour tout i,

P

(

∞⋂

`=0

(NA,` /∈ {0, 2N})

∣

∣

∣

∣

∣

NA,0 = i

)

= limm→∞

P

(

m⋂

`=0

(NA,` /∈ {0, 2N})

∣

∣

∣

∣

∣

NA,0 = i

)

= limm→∞

P (NA,m /∈ {0, 2N}|NA,0 = i)

≤ limm→∞

(

1 −

(

1

2N

)2N)m

= 0


ce qui conclut la demonstration.

tu

On peut donc definir la variable aleatoire T = min{t : NA,t ∈ {0, 2N}}. Celle-ci

represente donc le premier temps t ou la population ne compte qu’un type d’allele. Il

est naturel de s’interroger sur l’esperance du temps requis avant que cela ne se produise,

E(T ). Pour cela, nous allons avoir le reflexe souvent efficace de conditionner sur le pre-

mier pas de la chaıne et ensuite resoudre un systeme lineaire. Pour simplifier l’ecriture,

nous allons definir, pour le cas d’une population de N individus,

fN(i) = E (T |NA,0 = i) .

Il est clair que

fN (0) = 0 et fN(2N) = 0.

Pour les autres valeurs de i, on conditionne sur NA,1. Cela nous permet d’ecrire

fN(i) = E (T |NA,0 = i)

=2N∑

j=0

[

P (NA,1 = j|NA,0 = i) E (T |NA,0 = i, NA,1 = j)]

=

2N∑

j=0

[

(

2N

j

)(

i

2N

)j (2N − i

2N

)2N−j

(1 + fN(j))

]

= 1 +

2N∑

j=0

[

fN(j)

(

2N

j

)(

i

2N

)j (2N − i

2N

)2N−j]

.

Il faut ensuite resoudre numeriquement ce systeme de 2N +1 equations. Il peut etre

utile d’observer que, peu importe N et i, on a toujours fN(i) = fN(2N − i).


On trouve, par exemple, que

f1(i) =

{

0 si i ∈ {0, 2}

2 si i ∈ {1}

f2(i) =

0 si i ∈ {0, 4}10729

si i ∈ {1, 3}13229

si i ∈ {2}

f5(i) ≈

0 si i ∈ {0, 10}

5.75 si i ∈ {1, 9}

8.95 si i ∈ {2, 8}

11.03 si i ∈ {3, 7}

12.21 si i ∈ {4, 6}

12.59 si i ∈ {5}

f100(i) ≈

0 si i ∈ {0, 200}

11.94 si i ∈ {1, 199}

21.45 si i ∈ {2, 198}

30.05 si i ∈ {3, 197}

38.01 si i ∈ {4, 196}

45.48 si i ∈ {5, 195}...

274.82 si i ∈ {97, 103}

274.92 si i ∈ {98, 102}

274.98 si i ∈ {99, 101}

275.00 si i ∈ {100}

Il n’y a malheureusement pas de forme explicite simple pour decrire E(T ).

Une autre question interessante est de savoir quel sera le type d’allele qui disparaıtra

de l’echantillon. Cela revient a se demander a quel etat absorbant nous aboutirons. On

cherche donc P(NA,T = 0) ou, de facon equivalente, P(NA,T = 2N). La reponse a cette

derniere question est etonnamment simple et sera l’objet d’un theoreme.

Theoreme

P(NA,T = 2N |NA,0 = i) =i

2N.

Demonstration

Le resultat n’est pas choquant intuitivement, mais prenons le temps de le justifier par

le raisonnement suivant. Examinons par exemple le cas illustre ci-bas ou c’est l’allele

de type A qui a disparu de la population.

Tout d’abord, on remarque que certains individus de la generation de depart n’ont

aucun descendant dans la generation suivante. On voit aussi que, en partant d’un in-

dividu quelconque d’une generation quelconque, on peut remonter jusqu’a un ancetre

precis dans la generation de depart. Finalement, on voit que si on attend assez long-

temps, trois generations dans notre exemple, on arrive a un moment ou tous les individus

sont des descendants du meme individu de la generation de depart. Cependant, comme

les individus de la generation de depart jouent exactement le meme role, ils ont tous la


Fig. 2.3 – Disparition d’un type d’allele dans le modele de Wright–Fisher.

meme probabilite d’avoir l’honneur d’etre l’ancetre commun. Or, si le type A a disparu,

c’est que cet ancetre commun est de type B et vice versa. Par consequent, la probabi-

lite que ce soit le type B qui s’eteigne est egale a la probabilite de choisir un ancetre

commun de type A, c’est-a-dire NA,0/2N , ou encore, plus simplement, p0.

tu

Remarque

Il est interessant de noter que l’on aurait aussi pu demontrer le theoreme precedent a

l’aide de la theorie des martingales. Notons tout d’abord que ∀i ∈ {0, 1, 2, . . . , 2N} et

∀t > 0,

E (NA,t|NA,0 = i) =

2N∑

k=0

E (NA,t|NA,t−1 = k,NA,0 = i) P(NA,t−1 = k|NA,0 = i)

=

2N∑

k=0

E (NA,t|NA,t−1 = k) P(NA,t−1 = k|NA,0 = i)

=

2N∑

k=0

kP(NA,t−1 = k|NA,0 = i)

= E(NA,t−1 = k|NA,0 = i)

Il s’en suit que ∀t ≥ 0 et ∀i ∈ {0 1, 2, . . . , 2N}

E(NA,t|NA,0 = i) = i.

On a cependant aussi que (NA,t; t ∈ {0, 1, 2, . . .}) est une martingale et un resultat

de la theorie des martingales qui nous permet de remplacer le t de la derniere equation

par certains temps d’arret aleatoires. En particulier, on peut remplacer t par notre


temps aleatoire T et trouver

E(NA,T |NA,0 = i) = i.

Or, NA,T n’a que deux valeurs possibles et on peut donc ecrire que

0 × P(NA,T = 0|NA,0 = i) + 2N × P(NA,T = 2N |NA,0 = i) = i

et demontrer ainsi le theoreme en isolant simplement P(NA,T = 2N |NA,0 = i) dans la

derniere equation.

2.3 Homozygotie, heterozygotie et loi de Hardy–

Weinberg

2.3.1 Homozigotie et heterozygotie

Jusqu’a maintenant, nous ne nous sommes interesses qu’aux proportions respectives

d’alleles de type A et B dans la population. Nous avons en quelque sorte discute d’une

population de 2N alleles et nous avons completement laisse de cote les N individus.

Dans la situation ou seuls deux types d’alleles existent, ces individus peuvent etre

de trois categories distinctes, AA, BB ou AB, selon que leurs deux copies de l’allele

sont de type A, de type B ou qu’ils aient une copie de chaque type. On nomme ces

categories par le terme genotype. Aucune importance n’est donnee a l’ordre dans lequel

on donne les alleles. Ainsi, il n’y aurait pas de difference entre un individu de genotype

AB et un individu de genotype BA. On dira aussi qu’un individu est homozygote, si

ses deux alleles sont du meme type (AA ou BB) et qu’il est heterozygote si ses alleles

sont differents (AB). On notera xAA(t), xBB(t) et xAB(t) les frequences relatives de

ces categories a la generation t. Encore une fois, xAB(t) = xBA(t), mais on utilisera

la convention qui veut que l’on donne les indices en ordre alphabetique. Dans notre

premier exemple, a la figure 2.1, on avait, au temps 0, xAA(0) = 1/4, xBB(0) = 1/2 et

xAB(0) = 1/4. Le lecteur pourra sans doute se convaincre qu’on aura toujours

pt = xAA(t) +xAB(t)

2.

En effet, un lien etroit existe entre les frequences des types d’alleles et des categories

d’individus dans une population.

Nous avons vu a la section 2.2 que la variation entre les nombres de descendants des

alleles dans une population amenait eventuellement a la disparition d’un type d’allele.


Definissons maintenant Ht, l’heterozygotie au temps t, comme la probabilite condition-

nelle, sachant NA,t, d’obtenir deux alleles de types differents quand on fait deux tirages

aleatoires avec remise parmi les 2N alleles de la generation t. On a donc

Ht = 2pt(1 − pt).

On remarque que Ht est aussi la probabilite conditionnelle, toujours sachant NA,t, d’ob-

tenir un individu heterozygote dans la generation t+ 1.

Il est clair que Ht = 0 pour tout t > T . Aussi, le fait que la disparition d’un type

d’allele soit inevitable va de pair avec le fait que Ht a tendance a diminuer avec le

temps. On peut demontrer cela en ecrivant

E(Ht|pt−1) = E(2pt(1 − pt)|pt−1)

= 2 E(pt − p2t |pt−1)

= 2[

E(pt|pt−1) − Var (pt|pt−1) − E(pt|pt−1)2]

= 2

[

pt−1 −pt−1(1 − pt−1)

2N− (pt−1)

2

]

= 2pt−1(1 − pt−1)

(

1 −1

2N

)

= Ht−1

(

1 −1

2N

)

. (2.1)

Nous avons utilise dans ce calcul le fait que

E(pt|pt−1) = E

(

NA,t

2N

∣

∣

∣

∣

pt−1

)

=E(NA,t|pt−1)

2N=

2Npt−1

2N= pt−1

et que

Var (pt|pt−1) = Var

(

NA,t

2N

∣

∣

∣

∣

pt−1

)

=Var (NA,t|pt−1)

(2N)2=

2Npt−1(1 − pt−1)

(2N)2=pt−1(1 − pt−1)

2N.

L’equation (2.1) nous permet de deduire que

E(Ht|p0) = H0

(

1 −1

2N

)t

. (2.2)


Par exemple, on a que

E(H2|p0) = E(E(H2|p1, p0)|p0)

= E(E(H2|p1)|p0)

= E

(

H1

(

1 −1

2N

)∣

∣

∣

∣

p0

)

=

(

1 −1

2N

)

E(H1|p0)

= H0

(

1 −1

2N

)2

.

Donc, l’esperance de l’heterozygotie tend vers zero conditionnellement a p0. Aussi, si la

taille de la population 2N est grande, on a E(Ht|p0) ≈ H0e−t/2N , ce qui permet de dire

que l’heterozygotie decroit de facon exponentielle a un taux de 1/(2N).

2.3.2 Loi de Hardy–Weinberg

A ce stade, il serait impardonnable de ne pas prendre un instant pour discuter de

la fameuse loi de Hardy–Weinberg. 1 Pour cela, il faut se pencher un instant sur le cas

d’une population de taille infinie. La variable NA,t n’a plus vraiment d’interet, mais pt,

xAA(t), xBB(t) et xAB(t) ont toujours un sens clair. Penchons-nous un instant sur la

prediction de xAA(1), xBB(1) et xAB(1) en fonction de p0.

Les hypotheses d’accouplement aleatoire et d’hermaphrodicite nous permettent de

dire que

xAA(1) =

(

xAA(0) +xAB(0)

2

)(

xAA(0) +xAB(0)

2

)

= p20

puisque pour obtenir un individu AA il faut choisir deux fois, de facon independante, un

allele de type A dans le parent choisi. Or, dans chaque cas, cela peut se faire en prenant

le bon allele d’un parent AB ou un allele quelconque d’un parent AA. On trouve de

1Contrairement a ce que l’on pourrait croire, la loi n’est pas le fruit d’une collaboration entre

Godfrey Harold Hardy et Wilhelm Weinberg. En effet, la decouverte a ete faite independemment par

ces deux hommes. Weinberg l’a publiee le 13 janvier 1908 et Hardy le 10 juillet de la meme annee.

Cependant, les ecrits de Weinberg sont longtemps restes inconnus des geneticiens car peu d’entre eux

avaient le bagage mathematique pour bien saisir ce qu’il faisait et certains ne lisaient pas l’allemand.

Pour ces raisons, la loi a longtemps ete connue sous le nom de Loi de Hardy. Aussi, la formulation

de Hardy etait differente de celle qu’on a presentee ici. En fait, Hardy demontre que si les frequences

respectives de AA, AB et BB sont p, 2q et r, alors l’equilibre est atteint si q2 = pr. [9]


la meme facon que xBB(1) = (1 − p0)2 et le saut n’est pas tres grand pour voir que

xAB(1) = 2p0(1 − p0).

La consequence interessante de tout cela vient du fait que l’on a

p1 = xAA(1) +xAB(1)

2

= p20 +

2p0(1 − p0)

2= p0(p0 + 1 − p0)

= p0.

La loi de Hardy–Weinberg stipule donc que, pour une population de taille infinie,

hermaphrodite, avec accouplements aleatoires, pour un allele sur lequel ne s’applique

aucune selection naturelle,

∀t > 0, pt = p0, xAA(t) = p20, xBB(t) = (1 − p0)

2 et xAB(t) = 2p0(1 − p0).

Notons aussi que pour t > 0, pt, xAA(t), xAB(t) et xBB(t) ne dependent pas de

xAA(0), xAB(0) et xBB(0). C’est ce qui nous permet de dire que, pour une population

hermaphrodite, l’equilibre de Hardy–Weinberg est atteint en une seule generation. Si la

population est sexuee, on peut montrer que l’equilibre est atteint en deux generations.

Tout cela n’est cependant vrai que pour une population de taille infinie. Dans le

cas d’une population finie, nous avons vu plus tot qu’on arrivait inevitablement a la

disparition d’un type d’allele. C’est ce qu’on a appele la derive genetique.

2.4 Le modele de Wright–Fisher avec mutation et

selection

Il est possible de modifier legerement le modele de Wright–Fisher de facon a le rendre

plus pres de la realite et a explorer les consequences de certaines realites biologiques sur

les frequences des alleles dans la population. Nous allons maintenant etudier rapidement,

dans le cas d’une population de taille infinie, deux des modifications qui peuvent etre

faites : l’ajout de mutations et de selection. La notation presentee ici se base sur [1].


2.4.1 La mutation

La mutation est un phenomene tres complexe et de nombreuses hypotheses peuvent

etre faites quand vient le temps de la modeliser. Comme premiere approche, nous allons

supposer un modele largement simplifie ou les mutations ne creent pas de nouveaux

alleles mais permettent simplement a un allele de type A de muter au type B, ce qui

arrive avec probabilite u, et a un allele de type B de muter au type A, ce qui arrive

avec probabilite v. En general, u et v seront tres petits, de l’ordre de 10−6 par exemple.

Sans mutation, dans une population de taille infinie, nous avons vu que la frequence

de l’allele A demeure constante. On a pt+1 = pt. L’ajout de mutation nous donne

pt+1 = (1 − u)pt + v(1 − pt)

car un allele du type A de la generation t + 1 peut etre soit le descendant d’un allele

de type du type A qui n’a pas mute, ou d’un allele du type B qui a subi une mutation.

Avec un peu de travail, on peut trouver l’expression de pt en fonction de la frequence

initiale.

Theoreme

Dans une population de taille infinie, avec probabilites u et v de mutations du type A

vers B et B vers A, on a, pour tout t ≥ 0,

pt =v

u+ v+

(

p0 −v

u+ v

)

(1 − u− v)t. (2.3)

Demonstration

Le resultat se demontre par induction. Verifions tout d’abord pour t = 0. On a alors

v

u+ v+

(

p0 −v

u+ v

)

(1 − u− v)0 =v

u+ v+ p0 −

v

u+ v

= p0

comme desire.


Par la suite, si on suppose le resultat vrai pour k, on a que

pk+1 = (1 − u)pk + v(1 − pk)

= (1 − u− v)pk + v

= (1 − u− v)

(

v

u+ v+

(

p0 −v

u+ v

)

(1 − u− v)k

)

+ v

=

(

v

u+ v

)

−

(

uv

u+ v

)

−

(

v2

u+ v

)

+

(

p0 −v

u+ v

)

(1 − u− v)k+1 + v

=

(

v

u+ v

)

−

(

v(u+ v)

u+ v

)

+

(

p0 −v

u+ v

)

(1 − u− v)k+1 + v

=v

u+ v+

(

p0 −v

u+ v

)

(1 − u− v)k+1.

Ce qui conclut la demonstration.

tu

La formule obtenue, malgre son allure banale, permet de conclure que la mutation

du type postule n’entraine pas l’extinction d’un des types d’alleles (dans le cas ou u 6= 0

et v 6= 0). En effet, quand t→ ∞, on trouve que pt tend vers la valeur vu+v

car le terme

de droite de l’equation (2.3) tend vers 0.

2.4.2 La selection

On peut aussi ajouter certaines formes de selection dans le modele pour mieux

simuler l’evolution de pt. L’option la plus simple consiste a attribuer une mesure de

viabilite, soient wAA, wAB et wBB , toutes des constantes positives, a chaque genotype

et a supposer que la selection elimine une certaine partie des individus de la generation

t entre le moment de leur naissance et le moment d’engendrer la generation t + 1.

Les parametres wAA, wAB et wBB representeront donc ici les probabilites de survie

pour chacun des genotypes jusqu’au moment d’engendrer la generation suivante. Si on

suppose que la population a atteint l’equilibre de Hardy–Weinberg, on a alors le scenario

suivant.

– Dans un premier temps, on engendre la generation t. Les proportions des differents

alleles sont respectivement p(t) et 1 − p(t) avec les frequences des differents


genotypes donnes par xAA(t), xAB(t) et xBB(t).

– Dans un deuxieme temps, la selection entre en jeu. La proportion des individus de

genotype AA dans la population apres la selection est notee xAA(t) et est donnee

par

xAA(t) =xAA(t)wAA

xAA(t)wAA + xBB(t)wBB + xAB(t)wAB

. (2.4)

De la meme facon, on a

xBB(t) =xBB(t)wBB

xAA(t)wAA + xBB(t)wBB + xAB(t)wAB(2.5)

et

xAB(t) =xAB(t)wAB

xAA(t)wAA + xBB(t)wBB + xAB(t)wAB. (2.6)

– Finalement, la generation t + 1 est engendree. Pour calculer p(t + 1), il faut voir

qu’il y a deux facons de generer un allele de type A. Soit on pige un parent de

genotype AA dans la population, ce qui arrive avec probabilite xAA(t), ou encore

on pige un parent de genotype AB et on choisit le bon allele de celui-ci, ce qui

arrive avec probabilite xAB(t)/2. On a donc que

pt+1 = xAA(t) +xAB(t)

2

=xAA(t)wAA + xAB(t)wAB

2

xAA(t)wAA + xBB(t)wBB + xAB(t)wAB

=p2

twAA + 2pt(1−pt)wAB

2

p2twAA + (1 − pt)2wBB + 2pt(1 − pt)wAB

=pt

(

ptwAA + (1 − pt)wAB

)

p2twAA + (1 − pt)2wBB + 2pt(1 − pt)wAB

.

La frequence de l’allele de type A dans la generation t+ 1 sera donc donnee par

pt+1 =pt(ptwAA + (1 − pt)wAB)

w


ou w = p2twAA + 2pt(1 − pt)wAB + (1 − pt)

2wBB la viabilite moyenne de la population

a la generation t.

On peut aussi predire la tendance qu’aura pt a long terme en etudiant les rapports

des w. Par exemple, si wAA est le plus grand des trois parametres, alors c’est que les

individus de genotype AA sont avantages. Dans ce cas, on peut montrer que pt tendra

vers 1 peu importe la valeur de p0 6= 0. On peut aussi montrer que dans les cas ou

wAB est la plus grande des trois valeurs, pt tend habituellement vers une constante

strictement comprise entre 0 et 1.

Les equations (2.4) a (2.6) nous permettent aussi de voir que la multiplication de

tous les w par une meme constante positive ne change rien a la suite des calculs. En fait,

les valeurs precises des w n’ont pas vraiment d’importance. Ce ne sont que les rapports

entre celles-ci qui importent. Par consequent, les auteurs n’exigent habituellement pas

que les valeurs des w soient comprises dans l’intervalle unite. Aussi, certains auteurs,

comme par exemple [2], preferent donc employer la convention que

wAA = 1,

wAB = 1 − hs,

wBB = 1 − s.

Dans ce contexte, on appelle s le coefficient de selection, une mesure de la viabilite rela-

tive du genotype BB par rapport au genotype AA, et h est appele l’effet heterozygote

et mesure la viabilite du genotype AB relativement a la difference selective entre les

deux homozygotes.

2.4.3 Mutation et selection

On peut assez facilement combiner les deux ajustements du modele presentes prece-

demment en supposant que la mutation et la selection se produisent successivement.

Dans un tel contexte, on notera par pt la frequence de l’allele de type A a la naissance

de la generation t, donc apres l’effet de la mutation mais avant l’effet de la selection, et

par ψt la frequence de l’allele de type A apres selection. On a donc que

ψt =pt(ptwAA + (1 − pt)wAB)

w

avec w defini comme plus tot, et que

pt+1 = (1 − u)ψt + v(1 − ψt).


2.5 Le modele de Moran

L’une des principales hypotheses du modele de Wright–Fisher est que les alleles

d’une generation meurent tous au moment ou ils engendrent la generation suivante.

Cela est tres loin de la realite et le besoin se fait sentir de developper un modele ou les

alleles de la generation t peuvent survivre dans les generations suivantes. Le modele le

plus simple qui permet cela est le modele de Moran que nous presentons brievement ici.

Nous avons encore une fois une population de taille constante de 2N alleles avec

deux types d’alleles possibles, A et B. La simulation des generations successives est

cependant tres differente. Dans le modele de Moran, etant donne la generation t, on

cree la generation t+ 1 en trois etapes :

1. on choisit aleatoirement un allele et on en cree une copie dans la generation t+1,

2. on choisit aleatoirement un allele qui decede,

3. on deplace les survivants, y compris l’allele choisi en 1, vers la generation t+ 1.

Notons que rien n’interdit que l’allele qui se reproduit et celui qui decede soient le

meme allele. Notons aussi que nous avons choisi de dire qu’on deplace les survivants et

non qu’on en cree des copies dans la generation suivante. La distinction est importante

car si on superpose un schema de mutations au modele, il faut voir qu’il ne peut y avoir

mutation qu’entre l’allele qui a cree une copie et sa copie. On ne pourrait donc pas voir

apparaıtre plus d’un mutant par unite de temps.

La figure 2.4 donne un exemple de quatre generations successives produites par le

modele de Moran. A la premiere etape, c’est l’allele 4 qui a ete choisi pour se reproduire

et l’allele 5 qui a ete choisi pour le deces. A la deuxieme etape, ce sont les alleles 3 et

1 qui ont etes choisis et ainsi de suite. On remarque que seulement une des etapes a

change les proportions d’alleles de type A et B.

Fig. 2.4 – Quatre generations du modele de Moran.

On voit aussi que NA,t, qui a la meme definition que dans le modele de Wright–


Fisher, ne peut maintenant varier que de 1 par generation. On a que

P(NA,t = `|NA,t−1 = k) =

k2N

(

1 − k2N

)

si ` = k − 1,(

k2N

)2+(

1 − k2N

)2si ` = k,

k2N

(

1 − k2N

)

si ` = k + 1,

0 sinon.

Comme dans le modele de Wright–Fisher, la derive genetique amene la disparition

eventuelle d’un type d’allele. Le processus est cependant plus long. En effet, quand on

examine l’evolution de l’heterozygotie, on obtient

E(Ht|pt−1) = Ht−1

(

1 −2

(2N)2

)

(2.7)

et on en deduit que

E(Ht|p0) = H0

(

1 −2

(2N)2

)t

. (2.8)

Les equations (2.7) et (2.8) sont les analogues des equations (2.1) et (2.2) de la section

2.3.1 et sont obtenues de la meme facon a l’exception que cette fois-ci on a

E(pt|pt−1) = E

(

NA,t

2N

∣

∣

∣

∣

pt−1

)

=E (NA,t|pt−1)

2N

=1

2N

(

(k − 1)pt−1(1 − pt−1) + (k + 1)pt−1(1 − pt−1) + k((pt−1)2 + (1 − pt−1)

2))

=k

2N

(

pt−1(1 − pt−1) + pt−1(1 − pt−1) + ((pt−1)2 + (1 − pt−1)

2))

=k

2N= pt−1

et

Var (pt|pt−1) = E

(

(

pt − E(pt|pt−1))2

∣

∣

∣

∣

pt−1

)

= E

(

(

pt − pt−1

)2

∣

∣

∣

∣

pt−1

)

=

(

1

2N

)2

pt−1(1 − pt−1) +

(

−1

2N

)2

pt−1(1 − pt−1) + (0)2((pt−1)2 + (1 − pt−1)

2)

=2pt−1(1 − pt−1)

(2N)2.


De l’equation (2.8) on tire que Ht = H0

(

1 − 2(2N)2

)t

≈ H0e−2t/(2N)2 . On a donc

encore une decroissance exponentielle, mais cette fois-ci a un taux de 2/(2N)2 par unite

de temps. Il est cependant naturel de poser qu’une generation dure 2N unites de temps

dans le modele de Moran. En effet, comme un allele a une chance sur 2N de deceder

a chaque unite de temps, il faudra en moyenne 2N unites de temps pour qu’il decede.

La duree de vie moyenne d’un allele est donc de 2N unites de temps. L’heterozygotie

decroit donc avec un taux de 2/(2N) par generation, ce qui est le double du taux du

modele de Wright–Fisher.

2.6 Le modele des nids

Il est possible de construire des modeles plus complexes que ceux de Wright–Fisher

et de Moran. Voici un autre exemple de modele interessant pour une population de

taille constante.

Supposons qu’il existe dans l’environnement de l’espece etudiee des endroits plus

propices a la reproduction que d’autres, que ce soit parce que ces endroits contiennent

plus de ressources, procurent une meilleure protection contre les predateurs ou toute

autre raison imaginable. Supposons qu’il existe K types de tels endroits. Ce sont nos

nids. Supposons aussi que les nids de type i, pour 1 ≤ i ≤ K, composent une proportion

αi de tous les nids disponibles. Supposons finalement que comme la qualite des nids est

fixe, on sait qu’une proportion βi de la prochaine generation sera engendree dans les

nids de type i selon selon un modele de Wright–Fisher.

On obtient un modele de population a taille constante que l’on peut simuler en

suivant les etapes suivantes (toujours en supposant une population de 2N alleles). Pour

creer la generation t+ 1, il faut :

1. Pour i de 1 a K, choisir 2Nαi alleles de la generation t et les placer dans les nids

de type i.

2. Pour i de 1 a K, choisir 2Nβi fois de facon aleatoire et avec remise un des 2Nαi

alleles qui sont places dans les nids de type i et placer une copie de l’allele choisi

dans la generation t+ 1.

Il est important de remarquer que les alleles sont encore tous de viabilite egale. Il

n’y a aucun avantage a naıtre dans un nid d’un type particulier puisque l’on reassigne

les nids de facon aleatoire a l’ensemble de la population a chaque generation. On a donc,

comme c’etait le cas pour le modele de Wright–Fisher et le modele de Moran, que les


nombres de descendants de chacun des alleles j pour 1 ≤ j ≤ 2N sont identiquement

distribues. Il est cependant clair que dans aucun de nos modeles ces variables aleatoires

ne sont independantes puisque la taille de la population demeure constante.

Ce type de modele est plus general que ceux etudies precedemment. On remarque

que si K = 1, α1 = 1 et β1 = 1, on obtient le modele de Wright–Fisher ; tandis que

si K = 2N , αi = 1/2N pour tout i, β1 = 2/2N , β2 = 0 et βi = 1/2N pour tout

3 ≤ i ≤ 2N , on obtient le modele de Moran.

Chapitre 3

Le n-coalescent

3.1 Le n-coalescent de Kingman

Jusqu’a maintenant, nous avons explore des modeles qui representaient l’evolution

d’une population dans le sens naturel du temps. Nous nous donnions une popula-

tion de depart et nous deduisions des resultats concernant les generations subsequentes

engendrees selon certaines regles bien precises. Nous allons maintenant travailler en

remontant le temps et en examinant l’histoire ancestrale d’un echantillon. Pour cela,

nous allons decrire le modele qui est au coeur de cet essai, le n-coalescent de Kingman.

On demarre avec un echantillon de n individus haploıdes, donc de n alleles. On

sait aussi que, a divers moments dans le passe, certains alleles partagent des ancetres

communs. En fait, si on trace un arbre genealogique qui remonte assez loin dans le

temps, on peut trouver un allele qui est l’ancetre commun de l’ensemble de l’echantillon

de depart. C’est le type d’arbre obtenu quand on fait ce travail que represente le n-

coalescent. La figure 3.1 montre un exemple de ce type d’arbre genealogique pour un

echantillon de taille n = 5.

Si An denote l’ensemble des relations d’equivalence sur {1, 2, ..., n}, alors on peut

decrire les relations de parente qui existent entre les alleles de l’echantillon de depart a

n’importe quel temps t dans le passe par un element de An. Dans notre exemple, pour

0 ≤ t ≤ T5 on est a l’etat {{1}, {2}, {3}, {4}, {5}}. Ensuite, pour T5 < t ≤ T4 on est a

l’etat {{1}, {2}, {3}, {4, 5}}, puis {{1}, {2, 3}, {4, 5}} pour T4 < t ≤ T3. Finalement on

a {{1, 2, 3}, {4, 5}} pour T3 < t ≤ T2 et on termine a l’etat {{1, 2, 3, 4, 5}} pour tout

t > T2. On a donc un processus {Xt; t ≥ 0} a temps continu et a valeurs dans An. On

dira qu’il y a coalescence quand deux lignees se reunissent.

Chapitre 3. Le n-coalescent 24

3

2

1

4

5

τ5 τ4 τ3 τ2

T5 T4 T3 T20

Fig. 3.1 – Exemple de la genealogie d’un echantillon de taille n = 5.

Decrivons un peu plus precisement ce processus. A partir de maintenant, nous utili-

serons des lettres grecques pour parler d’un element quelconque de An.1 Nous utiliserons

aussi les quelques conventions suivantes. Nous reserverons la lettre α pour la relation

d’equivalence composee uniquement de singletons et la lettre ω pour celle composee

d’une seule classe. Cette convention est suggeree par le fait que le n-coalescent passe

toujours de α a ω, respectivement premiere et derniere lettre de l’alphabet grec. Nous

denoterons aussi par |η| le nombre de classes d’equivalence de l’element η ∈ An. Fi-

nalement, on dira que γ ≺ δ si δ est le fruit de la reunion d’exactement deux classes

d’equivalences de γ. Les temps aleatoires Tk seront nommes temps de coalescence.

On peut maintenant decrire une facon efficace de simuler des arbres comme celui

de la figure 3.1. En partant de X0 = α, on assigne a chaque paire d’individus de la

population une variable aleatoire Exponentielle(1). Donc, en numerotant les classes de

α, on a Λij ∼ Exponentielle(1) pour tout 1 ≤ i < j ≤ n. On a donc, d’une certaine

facon,(

n2

)

reveils-matin qui sonneront chacun dans un temps exponentiel tous de facon

independante. Une fois que l’un de ces reveils sonne, on a coalescence. Le temps passe

a l’etat α est donc une variable aleatoire

τn = min1≤i<j≤n

Λij

= Λ

1Nous ne limiterons cependant pas l’utilisation des lettres grecques a cela. Par exemple, les lettres

τ, λ et Λ seront utilisees a d’autres fins.


avec, selon un resultat bien connu, τn = Λ ∼ Exponentielle((

n2

)

). Pour determiner l’etat

suivant, on regarde quel reveil-matin a sonne le premier et on rassemble les deux indivi-

dus de la paire gagnante en une seule classe d’equivalence, formant ainsi l’etat suivant.

Selon un autre resultat bien connu, on a que la distribution de la paire choisie est une

uniforme sur l’ensemble des paires possibles. Notons donc que l’on aurait pu simplement

determiner un temps selon une loi exponentielle de parametre(

n2

)

et ensuite choisir une

paire de classes d’equivalences de facon uniforme parmi les(

n2

)

paires possibles sans

jamais avoir a simuler les Λij.

On peut ensuite repeter le processus. Si on est a l’etat ξ avec |ξ| = k, on numerote

chaque classe et on assigne a chaque paire (i, j) avec 1 ≤ i < j ≤ k une variable expo-

nentielle Λij de moyenne 1. On a cette fois-ci τk = min1≤i<j≤k Λij ∼ Exponentielle((

k2

)

)

et on forme une fois de plus l’etat suivant en combinant les classes i et j gagnantes.

Par convention, on dira aussi que T1 = ∞ et que X∞ = ω.

Si on pose Yk = XTket on observe {Yk, k = n, n − 1, n − 2, . . . , 1}, on trouve un

processus markovien avec Yn = α, Y1 = ω et probabilites de transition donnees par

Πηξ = P(Yk = ξ|Yk+1 = η) =1(

|η|2

) si η ≺ ξ ∀k ∈ {n− 1, n− 2, . . . , 1}.

La sequence Yk etant bien determinee, on peut, avec un peu de travail, arriver a

de jolis resultats. En voici un premier qui donne la probabilite de passer par un etat

particulier a une etape donnee. Il s’agit du premier theoreme d’un article celebre de

J.F.C. Kingman, fort probablement l’auteur le plus cite en la matiere.

Theoreme

P(Yk = ν) =

{

(n−k)!k!(k−1)!n!(n−1)!

λ1!λ2! . . . λk! si |ν| = k,

0 sinon.

ou les λi sont les tailles des classes d’equivalences pour 1 ≤ i ≤ k pour l’etat ν.

Demonstration

Il est clair que P(|Yk| = k) = 1 et c’est ce qui entraine P(Yk = ν) = 0 quand |ν| 6= k.

Pour les autres cas, nous utiliserons, comme l’a fait Kingman, une induction retrograde

pour demontrer l’affirmation.

Pour demarrer, on substitue k = n dans la formule et on obtient P(Yn = ν) = 1

pour tout ν avec |ν| = n. Or, il n’y a que α dans An qui est de cardinalite n. On a

donc, comme on le voudrait bien, P(Yn = α) = 1.


Posons donc l’equation valide pour k et verifions pour k − 1. On a que

P(Yk−1 = ν) =∑

{µ∈An :|µ|=k}

P(Yk−1 = ν|Yk = µ)P (Yk = µ)

=∑

{µ∈An :µ≺ν}

P(Yk−1 = ν|Yk = µ)P (Yk = µ)

=∑

{µ∈An :µ≺ν}

1(

k2

)P (Yk = µ)

=2

k(k − 1)

∑

{µ∈An :µ≺ν}

P (Yk = µ).

Pour passer de la premiere a la deuxieme ligne, on a observe que si on n’a pas µ ≺ ν,

alors P(Yk−1 = ν|Yk = µ) = 0. Ensuite, on s’est servi du fait que de n’importe quel µ

tel que µ ≺ ν, on peut atteindre(

k2

)

etats differents, de facon equiprobable et que ν est

l’un d’entre eux.

Nous allons maintenant detailler un peu plus la sommation en etudiant quels sont

les elements de An qui sont de bons candidats pour µ et en les denombrant. Posons

tout d’abord que les tailles des classes d’equivalence de ν sont λ1, λ2, . . . , λk−1. Comme

ν est obtenu par la reunion de deux classes de µ, on sait que les classes de µ sont de

tailles λ1, λ2, . . . , λ` − r, r, λ`+1, . . . , λk−1 pour une certaine combinaison de ` et r tels

que 1 ≤ ` ≤ k − 1 et 1 ≤ r ≤ λ` − 1 (car on ne doit pas vider la `-ieme classe).

Finalement, pour une paire de ` et r donnee, il y a(

λ`

r

)

facons de choisir les r elements

de la `-ieme classe de ν qui forment une classe distincte dans µ. On doit cependant

diviser le nombre de candidats par deux etant donne que l’on ne distingue pas entre la

nouvelle classe et la partie restante de la classe brisee. Pour illustrer ce dernier point,

voici un petit exemple. Supposons n = 5, ν = {{1, 2, 3} {4, 5}}. Choisissons dans un

premier temps ` = 1, r = 2 et tirons les nombres 1 et 2 dans la classe {1, 2, 3}, on

obtient µ = {{1, 2}, {3} {4, 5}}. Dans un deuxieme temps, supposons qu’on a ` = 1,

r = 1 et que l’on tire le nombre 3 dans la classe {1, 2, 3}, on obtient une fois de plus

µ = {{1, 2}, {3} {4, 5}}. On a donc deux combinaisons differentes qui aboutissent au

meme µ.


On peut maintenant continuer nos calculs. On a

P(Yk−1 = ν)

=2

k(k − 1)

∑

{µ∈An :µ≺ν}

P (Yk = µ)

=2

k(k − 1)

k−1∑

`=1

λ`−1∑

r=1

(

λ`

r

)

2

(n− k)!k!(k − 1)!

n!(n− 1)!λ1!λ2! . . . λ`−1!(λ` − r)!r!λ`+1! . . . λk−1!

=(n− k)!(k − 2)!(k − 1)!

n!(n− 1)!

k−1∑

`=1

λ`−1∑

r=1

(

λ`

r

)

λ1!λ2! . . . λ`−1!(λ` − r)!r!λ`+1! . . . λk−1!

=(n− k)!(k − 2)!(k − 1)!

n!(n− 1)!

k−1∑

`=1

λ1!λ2! . . . λ`−1!λ`+1! . . . λk−1!

λ`−1∑

r=1

(

λ`

r

)

(λ` − r)!r!

=(n− k)!(k − 2)!(k − 1)!

n!(n− 1)!

k−1∑

`=1

λ1!λ2! . . . λ`−1!λ`+1! . . . λk−1!

λ`−1∑

r=1

λ`!(λ` − r)!r!

r!(λ` − r)!

=(n− k)!(k − 2)!(k − 1)!

n!(n− 1)!

k−1∑

`=1

λ1!λ2! . . . λ`−1!λ`!λ`+1! . . . λk−1!

λ`−1∑

r=1

1

=(n− k)!(k − 2)!(k − 1)!

n!(n− 1)!λ1!λ2! . . . λk−1!

k−1∑

`=1

λ`−1∑

r=1

1

=(n− k)!(k − 2)!(k − 1)!

n!(n− 1)!λ1!λ2! . . . λk−1!

k−1∑

`=1

λ` − 1

=(n− k)!(k − 2)!(k − 1)!

n!(n− 1)!λ1!λ2! . . . λk−1!(n− (k − 1))

=(n− (k − 1))!(k − 1)!((k − 1) − 1)!

n!(n− 1)!λ1!λ2! . . . λk−1!

et on aboutit a la forme desiree.

tu

On peut aussi demontrer que le processus {Xt; t ≥ 0} est une chaıne de Markov a

temps continu sur le meme ensemble d’etats dont {Yk, k ∈ n} est la chaıne des sauts et

dont les temps de sejour sont distribues selon la regle suivante.

τn = Tn ∼ Exponentielle

((

n

2

))

,

τj−1 = Tj−1 − Tj ∼ Exponentielle

((

j − 1

2

))

pour 3 ≤ j ≤ n.


et

τ1 = T1 − T2 = ∞

On peut maintenant definir deux variables interessantes qui decrivent le n-coalescent.

Posons donc

Hn = min{t ≥ 0 | Xt = ω} =

n∑

k=2

τk

et

Ln =n∑

k=2

k τk.

Concretement, Hn represente la hauteur de l’arbre, soit le temps avant le premier

ancetre commun, tandis que Ln represente plutot la longueur totale des branches de

l’arbre. La figure 3.2 montre bien comment on peut obtenir differentes valeurs de Ln

pour une meme valeur de Hn (pour un meme n). Le lecteur attentif remarquera que

l’arbre qui est presente a droite est beaucoup moins probable que celui a gauche. En

effet, plus il y a de lignees dans la population, plus l’esperance du temps avant la

prochaine coalescence est petite, ce qui ne cadre pas bien avec l’exemple de droite.

Fig. 3.2 – Differentes valeurs de Ln pour un meme Hn.

Pour les geneticiens, la variable Ln a, dans certaines situations, plus d’interet que

la variable Hn. C’est le cas, par exemple, quand on simule l’evolution d’une espece en

deux etapes successives selon une technique que nous verrons au chapitre 4. Dans un

premier temps, on simulera un arbre genealogique qui relie les individus et dans un

deuxieme temps, on placera des evenements de mutations sur l’arbre obtenu selon un

processus bien choisi. Comme le nombre total de mutations sur l’arbre sera fonction de

sa longueur et non de sa hauteur, c’est Ln qui nous interssera. Cela correspond au fait

que l’on s’attende naturellement a ce que les individus au bas de l’arbre de droite de la

figure 3.2 soient plus differents au point de vue genetique que ceux de l’arbre de gauche.


3.2 Distribution de Hn

Il est tout naturel de s’interroger sur la distribution de Hn, la hauteur de l’arbre. Or,

on sait que Hn est simplement une somme de variables exponentielles independantes.

Sa distribution est donc une convolution de celles-ci, ce qui ne donne pas de forme

explicite simple. Il a cependant ete demontre que, pour t > 0, on obtient

fHn(t) =

n∑

i=2

(

i

2

)

e−(i2)t

n∏

j=2

j 6=i

(

j2

)

(

j2

)

−(

i2

) .

Le resultat precedent n’est en fait qu’un cas particulier d’un resultat plus general.

La section 5.2.4 de [10] explique en detail comment on obtient la distribution d’une

somme de variables exponentielles ayant toutes des parametes differents.

On peut tout de meme donner quelques proprietes de Hn tres facilement. C’est le

cas de son esperance et de sa variance. On trouve en effet que

E(Hn) = E

(

n∑

k=2

τk

)

=

n∑

k=2

E (τk)

=n∑

k=2

1(

k2

)

= 2

n∑

k=2

1

k(k − 1)

= 2n∑

k=2

1

k − 1−

1

k

= 2

(

1 −1

n

)


et

Var (Hn) = Var

(

n∑

k=2

τk

)

=n∑

k=2

Var (τk)

=n∑

k=2

(

1(

k2

)

)2

=

n∑

k=2

4

k2(k − 1)2.

Il est interessant de faire une remarque concernant l’esperance de Hn. On a que

l’esperance du temps requis pour la premiere coalescence, τn, vaut(

n2

)−1, ce qui est

tres petit pour de grandes valeurs de n. A l’oppose, le temps requis pour la derniere

coalescence, τ2, a une esperance de(

22

)−1= 1. Or, le temps requis pour trouver l’ancetre

commun de n individus est en moyenne legerement inferieur a deux. En quelque sorte,

la derniere coalescence est responsable, en moyenne, de plus de la moitie du temps total

avant le plus recent ancetre commun.

On remarquera aussi que

limn→∞

E(Hn) = 2

et que

limn→∞

Var (Hn) =∞∑

k=2

4

k2(k − 1)2≈ 1, 159,

donc que lorsque n est grand, on a E(Hn) ≈ 2 et Var (Hn) ≈ 1, 159.


3.3 Distribution de Ln

La moyenne et la variance de Ln sont aussi faciles a calculer. On a que

E(Ln) = E

(

n∑

k=2

k τk

)

=

n∑

k=2

kE (τk)

=n∑

k=2

2k

k(k − 1)

= 2

n−1∑

k=1

1

k

et

Var (Ln) = Var

(

n∑

k=2

k τk

)

=n∑

k=2

k2Var (τk)

=

n∑

k=2

k2

(

2

k(k − 1)

)2

= 4n−1∑

k=1

1

k2.

Cette fois-ci, on remarque que

limn→∞

E(Ln)

ln(n)= 2

et que

limn→∞

Var (Ln) =2π2

3≈ 6, 580,

car ln(n) <∑n−1

k=11k2 < 1 + ln(n − 1) et

∑∞k=1

1k2 = π2

6. Par consequent, quand n est

grand, on a on a E(Ln) ≈ 2 ln(n) et Var (Ln) ≈ 6, 580.

Ces informations nous permettent de sentir le degre auquel les individus d’un echan-

tillon partagent une grande partie de leur historique. En effet, on voit que pour k


individus, le scenario qui maximise les differences genetiques serait celui ou leur ancetre

commun Hk unites de temps dans le passe aurait engendre k successeurs distincts dont

les individus contemporains sont les descendants. Or, comme l’illustre la figure 3.3, cela

est tres different de la structure typique du n-coalescent.

Fig. 3.3 – Genealogie maximisant les differences genetiques vs. n-coalescent typique.

Dans le cas qui maximise les differences, on s’attend en moyenne a ce que la longueur

totale de l’arbre soit kE(Hk) = 2(k − 1). Or, ce que l’on vient de calculer nous dit que

la longueur totale de l’arbre est significativement plus petite que cela en moyenne. On

peut calculer, en fonction de k, de combien en proportion l’arbre est en moyenne plus

petit que l’arbre maximal. On obtient

kE(Hk) − E(Lk)

kE(Hk)≈

2(k − 1) − 2 ln (k)

2(k − 1)= 1 −

ln (k)

k − 1.

La longueur du processus sur lequel il sera possible de faire apparaıtre des mutations

est donc habituellement beaucoup plus petite que le maximum theorique. Un graphique

comme celui de la figure 3.4 montre bien a quel point la reduction est grande.

0.9

k

0.85

0.8

35

0.75

0.7

30

0.65

0.6

252015105

Fig. 3.4 – Reduction de la longueur de la genealogie par rapport au maximum possible.

On peut aussi aller un peu plus loin et calculer la distribution de Ln. Cela fait l’objet

du prochain theoreme.


Theoreme

On a que

P(Ln ≤ t) =(

1 − e−t2

)n−1

.

Demonstration

Nous allons commencer par ecrire le probleme d’une facon un peu plus digeste. Pour

cela, on remarque que

Ln =n∑

k=2

kτk =n−1∑

j=1

Yj

avec les variables Yj independantes telles que Yj ∼ Exponentielle(j/2). Cela est justifie

par le fait que

τk ∼ Exponentielle

((

k

2

))

=⇒ τk ∼ Exponentielle

(

k(k − 1)

2

)

=⇒ k τk ∼ Exponentielle

(

k − 1

2

)

.

Par consequent, si on arrive a montrer le lemme ci-dessous, on aura gagne puisque

l’on pourra appliquer le lemme avec n = n− 1.

Lemme

Si on pose Sn =n∑

j=1

Yj avec Yj ∼ Exponentielle(j/2) independantes, alors

P(Sn ≤ t) =(

1 − e−t/2)n.

Demonstration du lemme

On demontre le resultat par induction sur n. Le cas n = 1 decoule directement de

notre connaissance de la loi de Y1. Supposons donc le resultat vrai pour n = k − 1 et

verifions-le pour n = k. On trouve

P(Sk ≤ t) = P(Sk−1 + Yk ≤ t)

=

∫ t

0

P(Sk−1 + Yk ≤ t|Yk = s)fYk(s)ds

=

∫ t

0

P(Sk−1 ≤ (t− s)) fYk(s)ds


=

∫ t

0

(

1 − e−(t−s)

2

)k−1 k

2e

−ks2 ds

=

∫ t

0

(

k−1∑

l=0

(

k − 1

l

)

(1)k−1−l(

−e−(t−s)

2

)l)

k

2e

−ks2 ds

=

∫ t

0

k−1∑

l=0

(

k − 1

l

)

(−1)le−l(t−s)

2k

2e

−ks2 ds

=

k−1∑

l=0

(

k − 1

l

)

(−1)lk

2e

−lt2

∫ t

0

e−(k−l)s

2 ds

=k−1∑

l=0

(

k − 1

l

)

(−1)lk

2e

−lt2

[

−2

(k − l)e

−(k−l)s2

∣

∣

∣

∣

t

s=0

]

=

k−1∑

l=0

(

k − 1

l

)

(−1)lk

2e

−lt2

(

2

(k − l)

(

1 − e−(k−l)t

2

)

)

=k−1∑

l=0

(

k − 1

l

)

k

k − l(−1)le

−lt2

(

1 − e−(k−l)t

2

)

=

(

k−1∑

l=0

(

k

l

)

(−1)le−lt2

)

−

(

k−1∑

l=0

(

k

l

)

(−1)le−kt2

)

=

(

k∑

l=0

(

k

l

)

(−1)le−lt2

)

− (−1)ke−kt2 − e

−kt2

((

k∑

l=0

(

k

l

)

(−1)l

)

− (−1)k

)

=

(

k∑

l=0

(

k

l

)

(−1)le−lt2

)

− e−kt2

(

k∑

l=0

(

k

l

)

(−1)l

)

=

(

k∑

l=0

(

k

l

)

(

−e−t2

)l

(1)k−l

)

− e−kt2

(

k∑

l=0

(

k

l

)

(−1)l(1)k−l

)

=(

−e−t2 + 1

)k

− e−kt2 ((−1) + (1))k

=(

1 − e−t2

)k

.

Cela termine l’induction et, par consequent, la preuve du lemme et du theoreme. tu


Comme nous le verrons au chapitre 4, la distribution de Ln est souvent utile. Nous

prenons donc un instant pour en donner une forme equivalente. Il decoule directement

du theoreme precedent que

fLn(t) =

n− 1

2

(

1 − e−t2

)n−2

e−t2 .

En utilisant le developpement du binome et en travaillant un peu, on peut calculer

que

fLn(t) =

n− 1

2e

−t2

n−2∑

j=0

(

n− 2

j

)

(1)n−2−j(

−e−t2

)j

=

n−2∑

j=0

(n− 2)!

j!(n− 2 − j)!

n− 1

2(−1)je

−(j+1)t2

=

n−2∑

j=0

(n− 1)!

(j + 1)!(n− 2 − j)!

j + 1

2(−1)je

−(j+1)t2

=n∑

i=2

(−1)i

(

n− 1

i− 1

)

i− 1

2e

−(i−1)t2 .

C’est cette derniere forme que l’on prefere dans certains documents concernant le

coalescent et c’est celle-ci que nous utiliserons au chapitre 4.

Avant de terminer cette section, nous prenons le temps de demontrer un dernier

petit theoreme interessant.

Theoreme

On a que

Ln − 2 ln(n)L

−→ Gumbel(0, 2).


Demonstration

On a que

limn→∞

P(Ln − 2 ln(n) ≤ t) = limn→∞

P(Ln ≤ t+ 2 ln(n))

= limn→∞

(

1 − e−t−2 ln(n)

2

)n−1

= limn→∞

(

1 −e−

t2

n

)n−1

= e−e−t2

tu

La loi de Gumbel est aussi connue comme etant la distribution des valeurs extremes

de type 1. Pour un expose detaille concernant cette distribution, le lecteur interesse

peut consulter [4].

3.4 Echantillons emboıtes

La genetique des populations est un des domaines en statistique ou l’augmentation

de la taille d’echantillon ne donne pas toujours d’excellents resultats. Cela vient en

quelque sorte du fait que les individus d’une population ne sont pas independants (ils

partagent un ancetre commun !). Nous avons aussi vu dans les deux sections precedentes

que le fait d’augmenter n n’a pas beaucoup d’effet sur les variables Hn et Ln quand n

est grand car la longueur des branches ajoutees au bas de la genealogie est tres courte.

Il existe certains autres resultats qui montrent clairement a quel point l’augmenta-

tion de la taille d’echantillon n’est pas toujours profitable. Le suivant est tres interessant.

Theoreme

Si on suppose deux echantillons emboites, le petit etant de taille m et le grand etant

de taille n, alors la probabilite que le plus recent ancetre commun du petit echantillon

soit aussi celui du grand echantillon est donnee par

(n + 1)(m− 1)

(n− 1)(m+ 1).


Demonstration

On peut demontrer le resultat par induction. Pour cela, nous commencons par examiner

un peu ce qui se produit dans la situation ou deux echantillons sont emboıtes.

Supposons qu’on a un echantillon de taille m inclus dans un echantillon de taille

n avec n ≥ m. Quand on remonte le temps, a la premiere coalescence dans le grand

echantillon, deux scenarios differents peuvent se produire. Soit les individus qui coales-

cent font tous deux partie du petit echantillon, ce qui se produit avec probabilite m(m−1)n(n−1)

et a pour effet de diminuer le nombre de lignees du petit et du gros echantillon de 1.

Soit au moins l’un des individus qui coalescent ne fait pas partie du petit echantillon,

ce qui se produit avec probabilite 1 − m(m−1)n(n−1)

, et alors seulement le nombre de lignees

du grand echantillon diminue de 1. Posons donc pour la suite que le premier cas est

denote par S et le deuxieme par Sc.

Allons-y donc avec l’induction sur n.

Si n = 2, deux cas sont possibles.

– m = 1 : C’est un cas degenere ou l’individu du petit echantillon est son propre

plus recent ancetre commun. La probabilite voulue est donc clairement 0. Or, on

a bel et bien que (2+1)(1−1)(2−1)(1+1)

= 0.

– m = 2 : Les deux echantillons sont le meme. La probabilite voulue est donc

clairement 1. Or, on a bel et bien que (2+1)(2−1)(2−1)(2+1)

= 1.

Supposons donc le resultat vrai pour n− 1 et verifions-le pour n.

Si on definit par Am,n l’evenement le sous-echantillon de taille m a le meme plus

recent ancetre commun que le grand echantillon de taille n, alors on peut ecrire, en


conditionnant sur ce qui se produit a la premiere coalescence, que

P(Am,n) = P(Am,n|S) P(S) + P(Am,n|Sc) P(Sc)

=n(m− 2)

(n− 2)m

m(m− 1)

n(n− 1)+

n(m− 1)

(n− 2)(m+ 1)

(

1 −m(m− 1)

n(n− 1)

)

=(m− 1)(m+ 1)(m− 2) + n(m− 1)(n− 1) −m(m− 1)2

(n− 1)(n− 2)(m+ 1)

=(m− 1)

(

(m+ 1)(m− 2) + n(n− 1) −m(m− 1))

(n− 1)(n− 2)(m+ 1)

=(m− 1)

(

m2 −m− 2 + n2 − n−m2 +m)

(n− 1)(n− 2)(m+ 1)

=(m− 1)(n+ 1)(n− 2)

(n− 1)(n− 2)(m+ 1)

=(n + 1)(m− 1)

(n− 1)(m + 1).

Ceci termine l’induction et demontre le resultat.

tu

Une application interessante du theoreme est de supposer que le grand echantillon

est en fait l’ensemble de la population. Dans ce cas, comme on a habituellement que la

taille de la population est grande, on obtient que la probabilite que le plus recent ancetre

commun de l’ensemble de la population soit celui de l’echantillon est approximativement

egale a (m− 1)/(m+ 1). Par consequent, un echantillon de taille 10 a environ 82% des

chances de partager son plus recent ancetre commun avec l’ensemble de la population.

Pour un echantillon de taille 20, c’est environ 90%. Le graphe ci-bas montre cependant

que l’augmentation de la taille d’echantillon a rapidement de moins en moins d’effet sur

cette probabilite.


m

100

0.96

80

0.92

0.88

60

0.84

4020

Fig. 3.5 – Probabilite d’obtenir le plus recent ancetre commun d’une population.

3.5 Le n-coalescent et le modele de Wright–Fisher

Le n-coalescent est en soi un objet mathematique tres joli. Cependant, ses avantages

ne s’arretent pas la. En effet, il apparaıt a l’interieur de certains autres modeles quand

on examine l’histoire ancestrale d’un echantillon tire d’une grande population et qu’on

prend une limite bien choisie. C’est le cas, par exemple, pour le modele de Wright–

Fisher que nous avons etudie plus tot. La presente section se consacre a preciser et

justifier cette affirmation.

Lors de notre presentation du modele de Wright–Fisher, nous avons demarre avec

une generation donnee et nous avons examine les generations successives qui en decou-

laient. Nous allons maintenant regarder le processus dans le sens inverse, en remontant

dans le temps.

La description du modele faite au chapitre precedent est tout a fait equivalente a celle

du processus suivant. On a une sequence de generations comprenant toutes 2N alleles

et chaque allele d’une generation t choisit de facon equiprobable, independamment des

autres alleles et avec remise, son parent dans la generation t− 1.

Le lecteur attentif aura peut-etre remarque que nous ne nous sommes pas preoccupes

des individus (i.e. des N paires de deux alleles.). En effet, nous decidons pour la suite

de laisser tomber cet aspect et d’etudier le modele comme representant simplement

l’evolution d’une population de 2N alleles.

Nous allons aussi modifier notre point de vue en n’etudiant qu’un echantillon de


taille k. La figure 3.6 donne un exemple du resultat obtenu pour un echantillon de

k = 5 alleles pris a partir d’une population de taille 2N = 16. Les rectangles noirs

representent les alleles qui font partie de l’echantillon ainsi que leurs ancetres.

Fig. 3.6 – Genealogie d’un echantillon de 5 alleles sous le modele de Wright–Fisher.

Dans notre exemple, il a fallu remonter de cinq generations pour trouver l’ancetre

commun de l’echantillon. Nous avons cependant ete tres chanceux, comme nous le

verrons par la suite.

On peut commencer par se demander combien de generations, en moyenne, il faut

attendre pour qu’il y ait coalescence dans un echantillon de taille k, c’est-a-dire pour

qu’une premiere paire d’alleles quelconque trouve un ancetre commun. Pour ce faire,

commencons en denotant par A l’evenement les k alleles ont tous des ancetres distincts

une generation dans le passe. Observons ensuite que

P(A) =k−1∏

j=1

(

1 −j

2N

)

≈ 1 −

k−1∑

j=1

j

2N= 1 −

(k − 1)k

2 × 2N= 1 −

(

k2

)

2N.

Le calcul de la probabilite est assez simple quand on fait le raisonnement suivant. Pour

que tous les alleles aient un ancetre different, il faut que successivement :

– le premier allele choisisse un parent,

– le deuxieme allele choisisse un parent different de celui du premier allele, ce qui

arrive avec probabilite 1 − 1/2N ,

– le troisieme allele choisisse un parent different de ceux des deux premiers alleles,

ce qui arrive avec probabilite 1 − 2/2N ,...

– le k-ieme allele choisisse un parent different de ceux des alleles precedents, ce qui

arrive avec probabilite 1 − (k − 1)/2N .


L’approximation qui a ete faite ensuite est justifiee par le fait que, dans les applica-

tions, on aura toujours k � 2N et que, par consequent, les termes ayant une puissance

de N superieure a 2 au denominteur seront negligeables.

Selon [5], cette approximation est equivalente a supposer qu’il ne peut y avoir plus

qu’une paire d’alleles qui trouvent un ancetre commun en une seule generation. On peut

se convaincre de cela en observant que la probabilite qu’exactement une paire d’alleles

trouve un parent commun est donnee par

P(exactement une paire coalesce) =

(

k2

)(

2N1

)(

2N−1k−2

)

(k − 2)!

(2N)k

car, parmi les (2N)k facons qu’ont les k alleles de l’echantillon de choisir leurs parents

on peut denombrer les facons ou exactement une paire coalesce de la facon suivante.

Il y a(

k2

)

facons de choisir la paire qui coalesce,(

2N1

)

facons de choisir le parent de la

paire,(

2N−1k−2

)

facons de choisir les parents des autres alleles de l’echantillon et (k − 2)!

facons d’assigner les parents choisis aux alleles qui ne trouvent pas d’ancetre commun.

On a donc que

P(exactement une paire coalesce) =

(

k2

)

(2N)(k − 2)!

(2N)k

(2N − 1)!

(k − 2)!((2N − 1) − (k − 2))!

=

(

k2

)

(2N)(2N − 1)(2N − 2) . . . (2N − k + 2)

(2N)k

≈

(

k2

)

(2N)k−1

(2N)k=

(

k2

)

2N.

Ensuite, comme on sait que le choix des parents d’une generation se fait indepen-

damment du choix des parents des autres generations, on a que le nombre de generations

necessaires pour qu’il y ait coalescence suit une loi geometrique de parametre 1− P(A).

Donc, si on denote par τ(N)k le nombre de generations ou l’ensemble des ancetres des

alleles de l’echantillon de depart est de taille k, on a que

P

(

τ(N)k = j

)

= P(A)j−1(1 − P(A)) ≈

(

1 −

(

k2

)

2N

)j−1 (k2

)

2N.

On a donc une geometrique avec une tres faible probabilite de succes et on sait

que cela s’approxime bien par une loi exponentielle. En effet, le lemme suivant est un

resultat bien connu en probabilite.


Lemme des evenements rares

Si

Xn ∼ Geometrique

(

λ

n

)

∀n,

alors, quand n→ ∞,

Xn

n

L−→ Exponentielle(λ).

Demonstration

Fixons λ > 0 et considerons, pour chaque entier positif n tel que λ/n < 1, une variable

aleatoire Xn avec loi geometrique de parametre p = λ/n. Posons aussi Tn = Xn/n.

Si t ≥ 0, alors

FTn(t) = P(Tn ≤ t)

= P

(

Xn

n≤ t

)

= P (Xn ≤ tn)

=

btnc∑

k=1

P (Xn = k)

=

btnc∑

k=1

(

1 −λ

n

)k−1λ

n

= 1 −

(

1 −λ

n

)btnc

.

Pour la derniere egalite, on a utilise le fait fait que

m∑

k=1

rk−1 =1 − rm

1 − r.

On a donc que

FTn(t) =

{

1 −(

1 − λn

)btncsi t ≥ 0

0 si t < 0.

On peut ensuite utiliser le fait que

limn→∞

(

1 +y

n

)n

= ey


et que

limn→∞

btnc

n= t

pour obtenir, pour tout t ≥ 0,

limn→∞

FTn(t) = lim

n→∞

(

1 −

(

1 −λ

n

)btnc)

= 1 − limn→∞

((

1 −λ

n

)n)btnc

n

= 1 −(

e−λ)t

= 1 − e−λt.

On verifie donc que

limn→∞

FTn(t) = FT (t) ∀t ∈ R,

avec T ∼ Exponentielle(λ). Bref, la distribution de Tn converge en loi vers la distribution

exponentielle de parametre λ. Comme Tn = Xn/n, cela termine la demonstration.

tu

On peut donc dire que

τ(N)k ∼ Geometrique (1 − P(A)) ≈ Geometrique

(

(

k2

)

2N

)

et que, en utilisant le lemme des evenements rares,

τ(N)k

2N≈ Exponentielle

((

k

2

))

quand 2N est grand.

On a donc que, quand la taille de la population est grande,τ(N)k

2Nsuit approximati-

vement une loi exponentielle de parametre(

k2

)

. Cela nous amene a dire que l’historique

d’un echantillon de taille n d’une population de 2N alleles, avec N grand, obeissant

au modele de Wright–Fisher correspond, a un changement d’echelle du temps pres, au

n-coalescent tel que decrit a la section 3.1.

Dans le cas particulier ou l’on s’interesse a un echantillon de taille 2, on n’a pas a

faire la premiere approximation faite plus haut. On obtient

P(A) =1

2Net τ

(N)2 ∼ Geometrique

(

1

2N

)

.


On a donc que l’esperance du nombre de generations requises pour trouver le plus

recent ancetre commun de deux alleles choisis aleatoirement dans la population est de

l’ordre du nombre d’alleles dans la population, 2N , et que la variance de ce nombre de

generations est de l’ordre de 2N(2N − 1). Cela justifie l’affirmation que l’exemple de la

figure 3.6 etait tres chanceux car la derniere coalescence a elle seule aurait du necessiter

environ 2N = 16 generations. . .

3.5.1 Ajustement pour une population de taille variable

Jusqu’a maintenant, nous avons toujours suppose une population de taille constante.

Cela est cependant bien peu frequent dans la nature. La population humaine croıt a

un rythme effarant pendant que celle des homards, des baleines et de plusieurs especes

d’oiseaux diminue dangereusement rapidement. Heureusement, il est parfois possible de

modifier nos modeles de facon a ce que le n-coalescent soit toujours applicable malgre

une population de taille variable.

Nous allons donc, pour la presente section, supposer une population de taille va-

riable, mais dont la variation est deterministe et suit une fonction pas trop mechante. Po-

sons Ni =le nombre d’individus dans la population a la generation i pour i ∈ {0, 1, 2, . . .}

et supposons que le vecteur

N = (N0, N1, N2, N3, . . .)

est de la forme

N =

(

N,NfN

(

1

2N

)

, NfN

(

2

2N

)

, NfN

(

3

2N

)

, . . .

)

avec fN une fonction de R+ vers R+ continue qui converge de facon uniforme sur les

compacts vers une certaine fonction f , elle aussi continue et definie sur R+ vers R+.

De facon analogue au cas d’une population de taille constante, nous allons supposer

un echantillon de k alleles, selectionnes a la generation 0, et examiner les coalescences qui

surviennent dans l’echantillon quand on remonte les generations. Nous denoterons par

τ(N)k le nombre de generations pendant lesquelles l’ensemble des ancetres de l’echantillon

de depart est de taille k. Il est a remarquer que τ(N)k depend du vecteur N alors que le

τ(N)k ne dependait que de la constante N .

Supposons maintenant qu’on ait laisse tourner le modele pendant un grand nombre


de generations. On a, de facon analogue au cas d’une population constante, que

P(τ(N)k > 1) =

k−1∏

i=1

(

1 −i

2N1

)

≈ 1 −

k−1∑

i=1

i

2N1

= 1 −

(

k2

)

2N1

.

On poursuit en observant que

P

(

τ(N)k > 2

)

= P

(

τ(N)k > 2|τ

(N)k > 1

)

P

(

τ(N)k > 1

)

≈

(

1 −

(

k2

)

2N2

)(

1 −

(

k2

)

2N1

)

et on en deduit que

P

(

τ(N)k > j

)

≈

j∏

`=1

(

1 −

(

k2

)

2N`

)

.

On peut aller un peu plus loin en disant que

P

(

τ(N)k > j

)

≈ eln

jQ

`=1

1−(k2)

2N`

!

≈ e−

jP

`=1

(k2)

2N`

en utilisant le fait que, pour x petit, ln (1 + x) ≈ x.

Tout cela entraine que

P

(

τ(N)k

2N> t

)

= P

(

τ(N)k > 2Nt

)

≈ e−

b2NtcP

`=1

(k2)

2N`

= e−

b2NtcP

`=1

(k2)

2NfN( `2N )

= e−(k

2)b2NtcP

`=1

1

2NfN( `2N ) .


On obtient donc que

limN→∞

P

(

τ(N)k

2N> t

)

≈ limN→∞

e−(k

2)b2NtcP

`=1

1

2NfN( `2N )

= e−(k2)R t

01

f(s)ds

= e−(k2)Λ(t)

avec Λ(t) =∫ t

01

f(s)ds.

On remarque que le resultat obtenu ici concorde avec le cas d’une population de

taille constante. En effet, on a dans ce cas que fN = f = 1, donc que Λ(t) = t et queτ(N)k

2Nsuit bel et bien approximativement une loi exponentielle avec le bon parametre.

Malheureusement, on s’apercoit ensuite que l’on n’obtient pas une loi exponentielle dans

le cas d’une population de taille variable. La cause n’est cependant pas perdue car on

peut resoudre le probleme assez simplement.

Si on pose

X ∼ Exponentielle

((

k

2

))

et

Y = Λ−1(X),

alors on obtient que

P(Y ≤ t) = P(Λ−1(X) ≤ t)

= P(X ≤ Λ(t))

= 1 − e−(k2)Λ(t)

car Λ(x) est une fonction strictement croissante.

En resume, on avait dans le modele a population constante que les temps de coales-

cence etaient tels que

τ(N)k

2N≈ Exponentielle

((

2

k

))

pour une population de grande taille alors qu’on obtient

τ(N)k

2N≈ Λ−1(X)

avec X ∼ Exponentielle((

k2

))

quand N est grand et que la variation de la taille de la

population est de la forme decrite plus haut.


Concretement, cela signifie que quand la taille de la population varie, on n’ajuste plus

simplement l’echelle du temps de facon lineaire, mais selon une fonction bien choisie.

On peut aussi voir que le nouvel ajustement est fait de facon a ce que moins de temps

de coalescence passe quand la taille de la population est grande et plus de temps passe

quand la population est petite. Cela concorde avec l’intuition qui veut que l’on s’attende

a devoir remonter moins de generations pour trouver l’ancetre commun de deux alleles

choisis dans une petite population que dans une grande population.

3.6 Le n-coalescent et le modele de Moran

Nous avons demontre a la section 3.5 que le n-coalescent apparait comme limite

quand on examine l’histoire ancestrale d’un echantillon de taille n d’une population

nombreuse obeissant au modele de Wright–Fisher. Nous allons maintenant montrer que

la meme chose est vraie dans le cas du modele de Moran.

Le debut du processus demande cependant un peu plus de travail. Il faut remonter

le temps, mais cela est maintenant plus complique. Examinons la probabilite qu’il y

ait coalescence une unite de temps dans le passe pour un echantillon de taille k d’une

population de 2N alleles. Pour commencer, notons qu’il n’y a, dans l’ensemble de la

population, que la possibilite de 0 ou 1 coalescence par unite de temps. En effet, si

l’allele choisi pour mourir est le meme que celui qui genere un descendant, il n’y a

aucune coalescence dans la population, et si ces deux alleles sont distincts, il y a une

coalescence dans l’ensemble de la population. On fait donc ici une approximation de

moins que dans le cas de Wright–Fisher ou l’on avait exploite le fait que, lorsque N est

grand, la probabilite que plus d’une coalescence survienne en une seule unite de temps

etait negligeable par rapport a la probabilite d’avoir exactement une coalescence.

Pour la suite, il sera utile de se donner un peu de notation pour faciliter la compre-

hension. Nous commencons donc par definir l’evenement

E = Il y a une coalescence dans la population entiere

une unite de temps dans le passe.

Il n’est pas tres difficile de voir que l’on a

P(E) = 1 −1

2N

car on a une chance sur 2N que l’allele selectionne pour mourir soit le meme que celui qui

est selectionne pour donner naissance. L’evenement qui nous interesse n’est cependant


pas E mais bien

Fk = Il y a exactement une coalescence dans l’echantillon (de taille k)

une unite de temps dans le passe.

En effet, dans le cas ou il y a coalescence dans l’ensemble de la population, quatre

cas sont possibles dont seulement un signifie qu’il y a coalescence dans l’echantillon.

Ces quatre cas sont representes dans la figure 3.7 pour une situation ou la taille de

la population est 2N = 6 et la taille de l’echantillon est k = 3. Dans la figure, on a

hachure les alleles faisant partie de l’echantillon. En a), la copie creee fait partie de

l’echantillon, mais pas le parent, il n’y a donc pas coalescence dans l’echantillon. En

b), le parent fait partie de l’echantillon, mais pas sa copie. En c), aucun des deux n’est

dans l’echantillon. Finalement, en d), la copie et le parent font partie de l’echantillon

et on a le seul cas ou il y a coalescence dans l’echantillon.

��

��

��

��

��

��

��

��

��

��

��

��

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

��

��

��

��

��

��

��

��

��

��

a)

c)��

��

��

��

��

��

��

��

!!!!!!

"�"�"�"�"�"�"�"�"�"�""�"�"�"�"�"�"�"�"�"�""�"�"�"�"�"�"�"�"�"�""�"�"�"�"�"�"�"�"�"�""�"�"�"�"�"�"�"�"�"�"

#�#�#�#�#�#�#�#�#�#�##�#�#�#�#�#�#�#�#�#�##�#�#�#�#�#�#�#�#�#�##�#�#�#�#�#�#�#�#�#�##�#�#�#�#�#�#�#�#�#�#

$�$�$�$$�$�$�$$�$�$�$

%�%�%%�%�%%�%�%

&�&�&�&&�&�&�&&�&�&�&

'�'�'�''�'�'�''�'�'�'

(�(�(�((�(�(�((�(�(�(

)�)�)�))�)�)�))�)�)�)*�*�*�*�*�**�*�*�*�*�**�*�*�*�*�**�*�*�*�*�**�*�*�*�*�*

+�+�+�+�++�+�+�+�++�+�+�+�++�+�+�+�++�+�+�+�+

,�,�,�,�,�,,�,�,�,�,�,,�,�,�,�,�,,�,�,�,�,�,,�,�,�,�,�,

-�-�-�-�--�-�-�-�--�-�-�-�--�-�-�-�--�-�-�-�-

.�.�.�.�.�..�.�.�.�.�..�.�.�.�.�..�.�.�.�.�..�.�.�.�.�.

/�/�/�/�/�//�/�/�/�/�//�/�/�/�/�//�/�/�/�/�//�/�/�/�/�/

00000

11111

2�2�2�2�2�22�2�2�2�2�22�2�2�2�2�22�2�2�2�2�22�2�2�2�2�22�2�2�2�2�2

3�3�3�3�3�33�3�3�3�3�33�3�3�3�3�33�3�3�3�3�33�3�3�3�3�33�3�3�3�3�3

444444

555555

666666

777777

b)

d)

Fig. 3.7 – Quatre cas lors d’une coalescence dans la population.

Si on denote les evenements

C = La copie fait partie de l’echantillon.

P = Le parent fait partie de l’echantillon.

alors on voit donc que

P(Fk) = P (E) × P(C ∩ P ).

Or, on peut calculer que

P(C ∩ P ) = 1 − P(Cc ∪ P c)

= 1 −(

P(Cc) + P(P c) − P(Cc ∩ P c))

.

On a cependant que

P(Cc) = P(P c) =2N − k

2N


et

P(Cc ∩ P c) = P(Cc) × P(P c|Cc) =2N − k

2N×

(2N − 1) − k

2N − 1.

On peut donc ecrire que

P(C ∩ P ) = 1 −

(

22N − k

2N−

(2N − k)(2N − 1 − k)

2N(2N − 1)

)

=2N(2N − 1) − 2(2N − k)(2N − 1) + (2N − k)(2N − 1 − k)

2N(2N − 1)

=k(k − 1)

2N(2N − 1).

Tout cela nous amene a trouver que

P(F ) =

(

1 −1

2N

)

×k(k − 1)

2N(2N − 1)

=2N − 1

2N

k(k − 1)

2

2

2N(2N − 1)

=

(

k

2

)

2

(2N)2.

Comme les deux seules options possibles sont qu’il y ait exactement zero ou une

coalescence dans l’echantillon, la probabilite qu’il n’y en ait pas est tout simplement

1 − P(F ). Le nombre d’unites de temps que l’on doit attendre pour voir survenir une

coalescence suit donc exactement une loi geometrique de parametre(

k2

)

2(2N)2

. On peut

donc utiliser une fois de plus le lemme des evenements rares et trouver une exponentielle

de parametre(

k2

)

. On obtient donc encore une fois, a un changement d’echelle pres, le

n-coalescent quand on considere l’historique d’un echantillon de taille n d’une grande

population.

3.7 Au dela de Wright–Fisher et Moran

Dans les deux sections precedentes, nous avons vu qu’il est possible de voir apparaıtre

le n-coalescent a l’interieur de populations obeissant aux modeles de Wright–Fisher et

de Moran. Heureusement il n’est pas necessaire de refaire tout le travail pour chacun

des modeles que l’on peut imaginer. On peut arriver a des resultats plus generaux.

Nous ne demontrerons pas ici de tels resultats, qui demandent un travail mathematique


significativement plus pousse que ce qui est presente dans ce document, mais nous en

mentionnons un au passage.

Considerons le cas d’une population de taille fixe. Disons qu’on a N individus, c’est-

a-dire 2N alleles. Posons aussi

Y ti,N = le nombre de descendants a la generation t+ 1 de l’allele i de la generation t.

Pour le modele de Wright–Fisher, on avait que les vecteurs YtN = (Y t

1,N , Yt2,N , . . . , Y

t2N,N)

etaient independants et que

∀t YtN ∼ multinomiale

(

2N,

(

1

2N,

1

2N, . . . ,

1

2N

))

C’est cette condition qui nous a permis d’obtenir le n-coalescent comme limite de l’his-

toire ancestrale d’un echantillon de n alleles quand N est grand.

On peut montrer que ce resultat est encore valable si on remplace la loi multinomiale

par une loi echangeable dont la variance marginale converge vers une constante positive

finie lorsque N tend vers l’infini, c’est-a-dire

0 < limN→∞

Var (Y ti,N) <∞.

Dans le cas du modele de Wright–Fisher, on avait que

limN→∞

Var (Y ti,N) = lim

N→∞

(

1 −1

2N

)

= 1

et la condition etait respectee.

Rappelons au passage qu’un vecteur (V1, V2, . . . , Vm) est dit echangeable si

(V1, V2, . . . , Vm)L= (Vσ(1), Vσ(2), . . . , Vσ(m))

pour toute permutation σ.

On pourrait par exemple utiliser le resultat pour demontrer que le n-coalescent

apparait comme limite de l’histoire ancestrale d’un echantillon de taille n d’une grande

population obeissant a un modele des nids tel que decrit a la section 2.6 pour certains

choix appropries de αi et βi.


3.8 Le n-coalescent avec mutation

Avant de terminer ce chapitre, prenons quelques instants pour decrire une variante

interessante du coalescent qui a ete introduite par Donnelly, Tavare et Watterson. Il

s’agit du n-coalescent avec mutation. La presentation qui en est faite ici est inspiree de

[11].

Soit une fois de plus l’ensemble An = l’ensemble des relations d’equivalence sur

{1, 2, ..., n} avec α la relation d’equivalence composee uniquement de singletons et ω

celle qui ne contient qu’une seule classe. Etablissons maintenant une distinction entre

deux types de classes d’equivalences : les classes ancestrales et les classes nouvelles. On

demarre encore une fois a X0 = α, mais on considere en plus que les n classes sont

des classes ancestrales au debut du processus. On representera cet etat par la notation

X0 = {{1}, {2}, . . . , {n}|}. Le | separera toujours les classes ancestrales, ecrites a la

gauche du |, et les classes nouvelles qui seront ecrites a droite.

On decrira ensuite l’evolution du modele par une serie d’evenements de deux types

distincts. On dira qu’il y a coalescence quand deux classes ancestrales sont reunies

en une seule, et qu’il y a mutation quand une classe ancestrale devient une classe

nouvelle. Par exemple, si le premier evenement a survenir a lieu au temps t et est une

coalescence, on pourrait avoir Xt = {{1}, {2}, {3, 4}, {5}, . . . , {n}|} tandis que si le

premier evenement a lieu au temps t et est une mutation, on obtiendrait quelque chose

comme Xt = {{1}, {2}, . . . , {7}, {9}, . . . .{n}|{8}}.

On definit maintenant le processus Dt egal aux nombres de classes ancestrales de

Xt. On a donc Dt un processus de morts puisque les deux seuls types d’evenements

permis ont pour effet de diminuer de un le nombre de classes ancestrales de Xt. On

peut donc definir, similairement a ce qu’on avait dans le cas du n-coalescent simple

Tk = min{t ≥ 0|Dt = k},

τk = Tk−1 − Tk.

Attention, notre definition de Tk ne correspond pas exactement a celle de la section 3.1.

Cela vient du fait que le processus de la section 3.1 etait continu a gauche alors que le

processus decrit ici est continu a droite. Les τk representent cependant encore le temps

passe a Dt = k. Definissons aussi Xk = XTk. Ce Xk est un processus a temps discret, la

chaıne des sauts de Xt.

A partir d’un etat Xk+1 = ξ, le temps d’attente et les probabilites de transition sont

donnes par les suppositions suivantes.


1. On definit les variables aleatoires Ψi ∼ Exponentielle(

θ2

)

, 1 ≤ i ≤ k + 1 pour

chaque classe ancestrale de ξ, avec θ un parametre donne strictement positif.

2. On definit les variables aleatoires Λi,j ∼ Exponentielle(1) , 1 ≤ i < j ≤ k+1 pour

chaque paire de classes ancestrales de ξ.

3. On pose Ψ = min1≤i≤k+1

Ψi et Λ = min1≤i<j≤k+1

Λi,j, obtenant ainsi Ψ ∼ Exponentielle(

(k+1)θ2

)

et Λ ∼ Exponentielle(

k(k+1)2

)

.

4. On pose τk+1 = min{Λ,Ψ} et on a donc que le temps d’attente a Xk+1 suit une

loi Exponentielle(

(k+1)(k+θ)2

)

.

5. On definit l’etat η = Xk de la facon suivante :

– Si τk+1 = Λ, on rassemble les classes ancestrales i et j, avec i, j tels que

Λi,j = Λ, en une nouvelle classe ancestrale.

– Si τk+1 = Ψ, on transforme la classe ancestrale i, avec i tel que Ψi = Ψ, en

une classe nouvelle.

Le θ que nous avons introduit ici est un parametre qui represente la frequence des

mutations. Plus il est eleve, plus on verra apparaitre de mutations.

Cette description nous permet de determiner que

pξ,η = P (Xk = η|Xk+1 = ξ) =

2(k+1)(k+θ)

si ξ ≺ η,

θ(k+1)(k+θ)

si ξ ↪→ η,

0 sinon.

Le symbole ≺ ayant toujours la meme definition et ξ ↪→ η signifiant qu’exactement une

classe ancestrale de ξ devient une classe nouvelle de η.

On peut facilement verifier l’exactitude de l’equation precedente. Par exemple, dans

le cas ou ξ ↪→ η avec i? la classe ancestrale de ξ qui est devenue une classe nouvelle, on

a


pξ,η = P(Le premier evenement est une mutation.)

×P(Le premier evenement est la mutation de i?.|

Le premier evenement est une mutation.)

= P(τk+1 = Ψ) × P(Ψ?i = Ψ|τk+1 = Ψ)

=(k+1)θ

2(k+1)(k+θ)

2

×1

k + 1

=θ

(k + 1)(k + θ).

Pour ce calcul, nous avons utilise les deux faits suivants. Premierement, si U et V

suivent respectivement des lois exponentielles de parametres α et β, alors P(U < V ) =

α/(α+β). Deuxiemement, si on a U1, U2, . . . Un exponentielles independantes de meme

parametre, alors ∀k, P(Uk = min1≤i≤n Ui) = 1/n.

La figure 3.8 donne un exemple du n-coalescent avec mutation. On y a represente

les mutations par des cercles noirs. Dans cet exemple, on a

X7 = {{1}, {2}, {3}, {4}, {5}, {6}, {7}, |}

X6 = {{1}, {2}, {3}, {4}, {5, 6}, {7}, |}

X5 = {{1}, {2}, {3}, {4}, {7}, |{5, 6}}...

X1 = {{1, 2, 4, 7}|{3}, {5, 6}}

X0 = {|{1, 2, 4, 7}{3}, {5, 6}}.

L’exemple de la figure 3.8 permet aussi de voir certaines des differences majeures

entre le n-coalescent avec mutation et le n-coalescent de Kingman. Tout d’abord, dans

le cas avec mutation, la chaıne peut se terminer a divers etats alors que le n-coalescent

traditionnel se terminait toujours a l’etat ω = {{1}, {2}, {3}, . . . , {n}}. Ensuite, on

remarque que le processus a une fin, c’est-a-dire que τ1 est fini. Finalement, et il s’agit

d’une difference significative, l’ensemble d’etats sur lequel est defini {Xt; t ≥ 0} n’est

plus tout a fait An mais bien une modification de celui-ci permettant la distinction

entre deux types de classes.

On peut aussi remarquer une foule de petits resultats interessants. Par exemple, on

voit que

P(Xk+1 ↪→ Xk) =θ

k + θet P(Xk+1 ≺ Xk) =

k

k + θ.


1

2

3

4

5

6

7

T0T1T2T3T4T5T6

Fig. 3.8 – Exemple du n-coalescent avec mutation.

Cela vient du fait que

P(Xk+1 ↪→ Xk) = P(Ψ < Λ)

=(k+1)θ

2(k+1)θ

2+ k(k+1)

2

=θ

k + θ,

en utilisant une fois de plus le resultat concernant le minimum de deux exponentielles

independantes.

On pourrait aussi s’interesser a P(Xk = η) en fonction de n et des tailles des classes

nouvelles et ancestrales de η, mais cela ne donne pas une formule particulierement jolie.

Finalement, on peut mentionner que Gudrun Tried [11] a demontre que l’on pouvait

recreer de facon relativement simple la chaıne Xk par l’entremise d’une urne de Polya.

Le processus est le suivant.

On demarre avec une urne ne contenant qu’une petite boule noire de masse θ ne

portant pas de numero et une boule de masse 1 portant le numero 1. Par la suite, on

effectue une suite de tirages dans l’urne en supposant que la probabilite qu’une boule

soit choisie est proportionnelle a son poids et en agissant selon la regle suivante :

– si on tire la boule noire, on la remet dans l’urne, en plus d’ajouter une boule de

masse 1 a laquelle on donne un numero qui n’etait pas present dans l’urne au


moment du tirage,

– si on tire une boule numerotee, on la remet dans l’urne, en plus d’ajouter une

boule de masse 1 ayant le meme numero que la boule tiree.

Avec un peu de reflexion, on peut se convaincre que cela equivaut bel et bien a

la chaıne des sauts du n-coalescent avec mutation. On simule cependant a partir des

generations loin dans le passe vers les generations recentes. Quand on tire la boule

noire, c’est qu’il y a mutation et quand on tire une boule numerotee, c’est qu’il y a

coalescence. Si par exemple on obtenait la sequence

1, 1, noire, 1, noire, 3,

alors on aurait recree, a une permutation des etiquettes des individus de depart pres,

le scenario de la figure 3.8.

Avant de conclure a l’equivalence entre les deux modeles, il reste cependant a verifier

que la probabilite d’obtenir les divers arbres possibles est bel et bien la meme dans les

deux cas. Nous choisissons cependant de ne pas nous lancer dans de tels calculs ici et

de renvoyer le lecteur interesse a l’article de Trieb.

Chapitre 4

Largage de mutations

Le n-coalescent est tres utile dans le cas ou l’on s’interesse a des mutations neutres.

Par mutations neutres, on veut dire les mutations qui n’ont aucun effet sur la via-

bilite des individus ou leur chances de se reproduire. On a en effet dans ces cas que

l’apparition des mutations n’a aucun effet sur la forme des genealogies. On peut donc

simuler l’evolution des populations en deux etapes successives. Premierement on simule

la genealogie selon le n-coalescent ou un autre modele approprie et, deuxiemement, on

repartit des mutations sur l’arbre obtenu selon un processus bien defini. C’est la tech-

nique qui est parfois denommee largage de mutation. Il est important de remarquer que

cela est different de la technique presentee a la section 3.8 ou l’apparition des mutations

faisait partie integrante de la creation des genealogies.

Avant d’entrer dans les mathematiques du sujet, il est important de faire un petit

detour vers la biologie afin de pouvoir bien se situer par la suite.

4.1 Modeles a nombre infini d’alleles, a nombre in-

fini de sites et a nombre fini de sites

Les modeles genetiques qui comprennent des mutations se regroupent principalement

en trois categories distinctes. Les modeles a nombre infini d’alleles, a nombre infini de

sites et a nombre fini de sites. Chaque categorie est definie de la facon suivante :

Chapitre 4. Largage de mutations 57

Nombre infini d’alleles

Dans ce type de modeles, plus grossiers mais plus simples, on suppose une infinite de

types d’alleles pour approximer la grande quantite, neanmoins finie, d’alleles differents

possibles dans la realite. On y considere que chaque nouvelle mutation amene l’appari-

tion d’un nouveau type d’allele, jamais vu auparavant dans l’histoire de la population.

Dans ces cas, on ne s’interesse qu’au fait que deux alleles soient de types identiques ou

differents et on ne peut pas dire si deux alleles de types differents sont proches ou non.

Le modele de la section 3.8 est un modele de ce type.

Nombre infini de sites

Un peu plus raffines, les modeles de ce type considerent un nombre infini d’endroits

sur un allele ou les mutations peuvent se produire. En fait, les alleles ou genes sont

en realite des sequences de nucleotides de longueur finie, mais on suppose ici qu’une

fois qu’une mutation est survenue a un endroit dans la sequence, toutes les muta-

tions subsequentes doivent se produire a des endroits differents. Comme on suppose

une infinite de sites candidats a etre transformes par une mutation, la probabilite de

selectionner deux fois le meme site pour appliquer une mutation est nulle.

Le resultat est un modele ou il existe encore un fois une infinite de types differents

d’alleles possibles, mais ou l’on pourra determiner que deux alleles sont plus pres l’un

de l’autre que deux autres. La figure 4.1 montre clairement pourquoi cela est le cas.

On y voit la descendance d’un gene ancestral avec les transitions ou il y a eu mutation

representees par des fleches pointillees. Nul n’a besoin de connaıtre l’ensemble de la

genealogie pour observer que l’individu a l’extreme droite de la derniere generation

presentee est plus pres de l’avant-dernier individu de sa generation que du premier.

Cela est en effet apparent puisque que les deux derniers individus de la generation

partagent une mutation que ne presentent pas les deux premiers. On aurait donc pu

predire, sans connaıtre l’ensemble de la genealogie, qu’ils partagent un ancetre commun

plus recent que celui de l’ensemble de l’echantillon compose des quatres alleles au bas

du graphe. C’est precisement ce type d’analyse, impossible dans le cas des modeles a

nombre infini d’alleles, qui fait la force des modeles a nombre infini de sites.

Le largage de mutations presente a la section suivante produit un modele de ce type.

Nombre fini de sites

Dans les applications plus poussees, certains modeles considerent le fait que la quan-

tite de mutations possibles d’un allele est finie. Il est en effet possible en theorie, quoique


Fig. 4.1 – Exemple d’un modele a nombre infini de sites.

peu probable, qu’une mutation survienne en ayant pour effet de ramener un allele a un

etat anterieur ou de reproduire une nouvelle configuration deja survenue ailleurs dans

la genealogie. Ce sont les modeles a nombre fini de sites.

D’une certaine facon, le modele de la section 2.4 est un modele simplifie de ce type,

mais nous n’entrerons pas plus dans le present document dans l’etude de ce type de

modeles.

4.2 Processus de mutations a taux constant

La facon la plus courante d’appliquer un modele de mutations neutres sur une

genealogie est d’utiliser un processus de mutations a taux constant. Dans ce contexte,

le nombre de mutations a survenir entre un enfant et son parent est une variable

aleatoire distribuee selon une loi de Poisson de moyenne µ independante de tous les

autres nombres de mutations entre parent et enfant, independamment du temps et de

la taille de la population. On obtient donc un modele a nombre infini de sites car on

peut compter le nombre de differences entre un descendant et son ancetre au lieu de

simplement verifier s’ils sont de meme type ou non.

Le processus est un processus de Poisson. En effet, comme les nombres de mutations

sont independants d’une generation a l’autre, on peut toujours dire que le nombre de

sites differents entre un allele et son descendant t generations plus tard est une variable

suivant une loi de Poisson de moyenne tµ. De la meme facon, si on sait que deux

individus dans le present ont leur plus recent ancetre commun t generations dans le

passe, le nombre de mutations qui les separe suit une loi de Poisson de moyenne 2tµ.


4.2.1 Sites de segregation

Supposons maintenant un echantillon de taille n evoluant selon le modele de Wright–

Fisher. Une fois equipes du processus de mutations a taux constant, on peut decrire la

variable Sn = le nombre de sites de segregation dans un echantillon de taille n.

Par site de segregation on veut dire les sites sur les alleles qui ne sont pas identiques

pour tous les alleles de la population. Comme nous travaillons dans un contexte ou le

nombre de sites est infini et que la probabilite que deux mutations surviennent sur le

meme site est nulle, le nombre de sites de segregation est egal au nombre de mutations

survenues dans la genealogie.

En supposant que la genealogie de l’echantillon soit bien approximee par le n-coales-

cent, il est facile de calculer l’esperance et la variance de Sn. Si on pose θ = 4Nµ, une

convention frequente dans les textes sur le sujet, et si on se souvient qu’une unite de

temps du n-coalescent correspond a 2N generations d’un modele de Wright–Fisher, on

trouve que

E(Sn) = E (E(Sn|Ln))

= E (2Nµ Ln)

= 2Nµ E (Ln)

= 4Nµ

n−1∑

k=1

1

k

= θ

n−1∑

k=1

1

k

et

Var (Sn) = Var (E(Sn|Ln)) + E (Var (Sn|Ln))

= Var (2Nµ Ln) + E (2Nµ Ln)

= (2Nµ)2Var (Ln) + 2Nµ E (Ln)

= (2Nµ)2n−1∑

k=1

4

k2+ 4Nµ

n−1∑

k=1

1

k

= θ2n−1∑

k=1

1

k2+ θ

n−1∑

k=1

1

k.

On a utilise dans le calcul certains des resultats de la section 3.3 concernant la distri-

bution de Ln.


Notons au passage qu’une convention plus generale que celle proposee ici est de

poser θ = 2Neµ ou Ne est la taille effective de la population. Or, la population effective

est definie par rapport au changement d’echelle necessaire pour obtenir la convergence

vers le n-coalescent. Dans le cas du modele de Wright–Fisher, Ne = 2N et on a donc

θ = 4Nµ. Par consequent θ represente le nombre moyen de differences entre deux

individus ayant leur ancetre commun une unite de temps du n-coalescent dans le passe

ou, plus simplement, le double du nombre de mutations sur une lignee en une unite de

temps du n-coalescent.

On peut aussi calculer la distribution exacte de Sn en conditionnant sur la longueur

totale de la genealogie. On a que

P(Sn = k) =

∫ ∞

0

P(S = k|Ln = t) fLn(t) dt

=

∫ ∞

0

(

θt2

)ke−

θt2

k!

n∑

i=2

(−1)i

(

n− 1

i− 1

)

i− 1

2e

−(i−1)t2 dt

=

(

θ

2

)k n∑

i=2

(−1)i

(

n− 1

i− 1

)

i− 1

2

∫ ∞

0

tk e−(θ+i−1)t

2

k!dt

=

(

θ

2

)k n∑

i=2

(−1)i

(

n− 1

i− 1

)

i− 1

2

(

2

θ + i− 1

)k+1

=n∑

i=2

(−1)i

(

n− 1

i− 1

)(

i− 1

θ + i− 1

)(

θ

θ + i− 1

)k

,

en utilisant la densite d’une loi gamma pour faire l’integrale a la troisieme egalite.

Il est interessant de remarquer que pour un echantillon de taille 2 cette formule se

reduit considerablement. On obtient

P(S2 = k) =

(

1

θ + 1

)(

θ

θ + 1

)k

.

On trouve donc une loi geometrique de parametre 1θ+1

. Cela s’explique bien par la lo-

gique suivante. Supposons que l’on remonte le temps en suivant la genealogie de deux

individus. On rencontre periodiquement des evenements de deux types, des mutations

et des coalescences. Chaque evenement rencontre a une probabilite 1θ+1

d’etre une coa-

lescence et le nombre de sites de segregation dans l’echantillon est simplement le nombre

de mutations rencontrees avant de rencontrer une coalescence.

Le resultat est aussi d’une grande utilite en pratique. Il permet par exemple d’estimer

le taux de mutation µ ou encore de verifier si le taux que l’on suppose est vraisemblable.


4.2.2 Differences par paire

On peut aussi decrire une autre variable couramment utilisee pour decrire le degre

de variation genetique d’une population : les differences par paire. Cette variable, habi-

tuellement notee π, donne le nombre de differences que l’on trouvera en moyenne quand

on pige aleatoirement une paire d’alleles dans la population. La definition de la variable

implique que, si kij denote le nombre de differences entre les individus i et j, alors

π =1(

N2

)

∑

1≤i<j≤N

kij

pour une population de taille N .

On pourrait s’attendre a ce que l’esperance de π ait une forme compliquee, mais ce

n’est pourtant pas le cas. On trouve en effet que E(π) = θ. On peut deviner ce resultat

avec un peu de reflexion. Si N = 2, il est assez clair. Il n’y a alors qu’une seule paire

dans la population et le nombre de differences qui distingue les individus est egal au

nombre de mutations survenues entre chacun d’entre eux et leur ancetre commun. Or,

comme le temps moyen de coalescence des deux individus est de une unite de temps du

n-coalescent, cela est egal a θ. Nous allons tout de meme prendre le temps de demontrer

le resultat.

Theoreme

E(π) = θ.

Demonstration

Pour commencer, ecrivons

E(π) =1(

N2

)

∑

1≤i<j≤N

E(kij)

=1(

N2

)

∑

1≤i<j≤N

θ

2E(2τij)

ou τij denote le temps en unite du n-coalescent entre les individus i, j et leur ancetre

commun. On a simplement utilise le fait que l’esperance du nombre de differences entre

deux individus est l’esperance du nombre de mutations sur le trajet qui les separe et

que, comme on a un processus de Poisson, cette esperance est egale a l’esperance de la

longueur du trajet, soit deux fois le temps avant leur ancetre commun, multipliee par

le taux de mutation, θ/2. Si on montre que E(τij) = 1, on aura gagne puisqu’on pourra


continuer en disant que

E(π) =θ(

N2

)

∑

1≤i<j≤N

1

= θ.

Le fait que E(τij) = 1 est intuitivement acceptable, mais pas du tout trivial. Si

la taille de la population est 2, alors τij suit une loi exponentielle de parametre 1 et

le resultat est donne. Cependant, si la population est plus grande, on ne peut pas

dire combien de coalescences il faut remonter dans le passe avant de trouver l’ancetre

commun de i et j. La figure 4.2 montre differentes situations qui peuvent se produire.

Peut-etre que, comme dans le cas a gauche de la figure, i et j trouvent leur ancetre

commun a la premiere coalescence apres un temps exponentiel de parametre(

n2

)

. Peut-

etre que, comme dans le cas a droite de la figure, ce n’est qu’a la derniere coalescence

que cela se produit, apres une somme de temps exponentiels. Peut-etre aussi que l’on a

une situation intermediaire comme celle au centre de la figure.

i j i ji j

Fig. 4.2 – Temps avant l’ancetre commun d’une paire.

Nous devons donc faire la moyenne de toutes ces possibilites. Pour cela, nous allons

conditionner le calcul de l’esperance de τij sur la variable Cij. Cette derniere decrira

laquelle des N − 1 coalescences permet a i et j de trouver leur ancetre commun. On

numerotera les coalescences selon le nombre de lignees presentes dans la genealogie juste

avant la coalescence. Par exemple, dans la figure 4.2, on a Cij = 5 a gauche, Cij = 3 au

centre et Cij = 2 a droite. On peut donc ecrire

E(τij) =N∑

k=2

E(τij |Cij = k) P(Cij = k).


Le calcul devient plus simple car

E(τij|Cij = k) = E

(

N∑

`=k

τ`

)

=

N∑

`=k

E (τ`) =

N∑

`=k

1(

`2

) = 2

(

1

k − 1−

1

N

)

et

P(Cij = k) =N∏

`=k+1

(

1 −1(

`2

)

)

1(

k2

) =2(N + 1)

k(k + 1)(N − 1).

Pour le calcul de P(Cij = k), on a commence par faire le raisonnement suivant. Si i

et j trouvent leur ancetre a la coalescence k, c’est que successivement :

– la paire i, j n’a pas ete la paire choisie a la coalescence N , ce qui arrive avec

probabilite 1 − 1/(

N2

)

,

– la paire formee par les branches contenant i et j n’a pas ete choisie a la coalescence

N − 1, ce qui arrive avec probabilite 1 − 1/(

N−12

)

,...

– la paire formee par les branches contenant i et j n’a pas ete choisie a la coalescence

k + 1, ce qui arrive avec probabilite 1 − 1/(

k+12

)

,

– la paire formee par les branches contenant i et j a ete choisie a la coalescence k,

ce qui arrive avec probabilite 1/(

k+12

)

.

On peut ensuite verifier que

N∑

k=2

E(τij |Cij = k) P(Cij = k) =N∑

k=2

2

(

1

k − 1−

1

N

)(

2(N + 1)

k(k + 1)(N − 1)

)

= 1.

Ceci conclut la preuve du theoreme.

tu

Chapitre 5

Conclusion

Nous avons vu, dans les pages precedentes, les proprietes de base de certains modeles

discrets classiques de la genetique des populations. Nous avons aussi tente de faire une

introduction de qualite au n-coalescent de Kingman, un objet mathematique fascinant

d’une tres grande utilite. Nous n’avons cependant qu’effleure l’ensemble des connais-

sances, theoremes, applications et resultats qui sont disponibles dans la litterature

concernant ces sujets.

Dans ces pages, nous avons tente de garder une saveur mathematique et de ne

pas nous lancer dans une longue discussion des phenomenes biologiques associes a la

genetique des populations. Nous avons prefere laisser cette tache aux vrais experts en

la matiere. Le travail n’a cependant pas ete facile. En effet, le lecteur interesse qui

recherche des articles ou des livres sur la matiere est souvent confronte a deux extremes

qui peuvent le laisser assez perplexe. Il y a d’un cote les articles dans des revues telles que

Genetics qui ne comportent presqu’aucune equation et qui laissent le mathematicien

sur son appetit et, de l’autre, les articles de revues telles que le Journal of Applied

probability qui requierent un niveau mathematique bien plus avance que celui de cet

essai. Il est notre espoir que ces quelques chapitres auront reussi a se situer quelque

part entre ces deux extremes et a fournir au lecteur une expose interessant.

Si une suite a cet essai etait ecrite un jour, son sujet principal serait probablement

l’application des concepts decrits ici d’un aspect probabiliste a des jeux de donnees

et le traitement statistique du n-coalescent. Toutefois, nous sommes confiants que de

meilleurs auteurs sont deja au travail pour rediger des volumes sur la question.

Bibliographie

[1] Balding, D. J. (2003). Handbook of statistical genetics . John Wiley & Sons, Chi-

chester.

[2] Gillespie, John H. (2004). Population Genetics : A Concise Guide (second edition).

The Johns Hopkins University Press, Baltimore.

[3] Gladstein, Keith. (1978). The Characteristic Values and Vectors for a Class of

Stochastic Matrices Arising in Genetics. SIAM Journal on Applied Mathematics,

vol. 34 no 4, 630-642.

[4] Johnson, Norman L., Kotz, Samuel, Balakrishnan, N. (1994). Continuous univa-

riate distributions Volume 2. Wiley, New York.

[5] Hein, Jotun. (2005). Gene genealogies, variation and evolution : a primer in coa-

lescent theory. Oxford University Press, Oxford.

[6] Hudson, Richard R. (1991). Gene genealogies and the coalescent process. Oxford

surveys in evolutionary biology, vol. 7, 1-44.

[7] Kingman, J.F.C. (1982). The coalescent. Stochastic processes and their applica-

tions, vol. 13, 235-248.

[8] Kingman, J.F.C. (1982). On the genealogy of large populations. Journal of applied

probability, vol. 19A, 27-43 .

[9] Provine, William B. (2001). The Origins of Theoretical Population Genetics. The

University of Chicago Press, Chicago.

[10] Ross, Sheldon M. (2003). Introduction to probability models, Eighth edition. Aca-

demic press, San Diego.

[11] Trieb, Gudrun (1992). A Polya urn model and the coalescent. Journal of Applied

Probability, vol. 29, 1-10.

[12] Wakeley, John. (a paraıtre). Coalescent Theory : An introduction. Roberts & Com-

pany Publishers, Greenwood Village.

modèles de wright--fisher et n-coalescent · table des gures 2.1 mod ele de wright{fisher pour une...

Documents