Vous êtes sur la page 1sur 82

Pourquoi étudier la génétique (moléculaire) des populations ?

a. Etude de la biodiversité

i. Recensement des espèces

ii. Reconnaissance des barrières inter spécifiques

Caractérisation des populations de vaches en Afrique pour la FAO

iii. Caractérisation de la diversité génétique des espèces menacées

Guépard d'Afrique, Condor des Montagnes Rocheuses

b. Génétique de la conservation - Gestion des stocks génétiques

i. Elevages d'animaux

Aquaculture (Huîtres), Pisciculture (Saumon, Truite, etc

)

ii. Réintroduction et management d'espèces disparues ou menacées par des espèces proches

Ex: Tortues Caouanne en Méditerrannée, Bouquetin dans les Pyrénées, Lynx en Suisse

iii. Banques de graines des espèces végétales

iv. Détermination d'espèces sauvages souches des espèces domestiques, pour préserver la diversité génétique: Besoin d'identifier quelles sont ces espèces souches.

c. Liens hôtes-parasites

i. Relation entre diversité génétique des hôtes et des parasites

ii. Adaptation des parasites à l'évolution des hôtes

iii. Transmission de facteurs de résistance

iv. Sélection des virus dans les hôtes

Rougeole, HLA en Amérique, HIV

d. Echanges génétiques entre espèces

i. Espèces hybrides

Ex: Fréquent chez les plantes

ii. Zones de tension, zones hybrides

Corneille et Mus musculus en Europe, mais aussi chez les grenouilles et les sauterelles dans les Pyrénées

iii. Transfert horizontal de gènes d'une espèce à l'autre

Leghémoglobine chez les plantes, facteur P entre espèces de Drosophile, vraisemblablement par le biais de vecteurs intermédiaires et transposition.

e. Echanges génétiques entre populations

i. Migrations

ii. Caractérisation des flux migratoires entre populations

iii. Reconstruction de l'histoire du peuplement des espèces

iv. Assignation d'individus à des populations (migrants récents)

f. Barrières génétiques

d'individus à des populations (migrants récents) f. Barrières génétiques Génétique des populations Page 1
d'individus à des populations (migrants récents) f. Barrières génétiques Génétique des populations Page 1

i. Recensement de barrières génétiques

Mise en évidence de sous-espèces (Génétique de la conservation)

o Ex: Myotis myotis au Maroc et en Suisse

ii. Comportementales

iii. Culturelles ou sociales (langues, coutumes).

g. Echanges génétiques entre individus

i. Choix du conjoint

Peut-être pas aléatoire chez l'homme et la souris ou des individus semblent préférer des partenaires possédant des spécificités différentes de leur propre système HLA.

ii. Sytème de reproduction, consanguinité

Maladies génétiques: ex: Rendu Osler

h. Evolution des gènes

i. Recontruction phylogénétiques

ii. Intraspécifiques

Estimation de temps de divergence entre populations

Mise en évidence de migrations

iii. Interspécifiques

Estimation de temps de divergence entre espèces

Mise en évidence de groupes monophylétiques

Taxonomie moléculaire

iv. Intergéniques

Estimation de temps de divergence entre gènes dupliqués

o Gènes de la globine: Apparition de nouveaux gènes au cours de l'évolution, permettant de nouvelles adaptations.

i. Médecine légale

i. Empreintes génétiques

ii. Identification de suspects

j. Localisation de gènes

i. Gènes de maladies

Analyse de liaison dans des familles (linkage analysis)

Cartographie par étude de déséquilibre de liaison (linkage disequilibrium mapping)

ii. Gènes contrôlant des caractères quantitatifs

QTLs

k. Compréhension des mécanismes d'adaptation

i. Clines

quantitatifs  QTLs k. Compréhension des mécanismes d'adaptation i. Clines Génétique des populations Page 2
quantitatifs  QTLs k. Compréhension des mécanismes d'adaptation i. Clines Génétique des populations Page 2

Gènes de résistances. Ex: Moustiques dans le midi

ii. Sélection au niveau moléculaire

Diversité HLA

iii. Spéciation et adaptation

Quelles sont les mutations inpliquées dans des spéciations

l. Démographie historique des espèces

i. Expansions démographiques, bottlenecks

Laissent une signature au niveau moléculaire Ex: Expansions humaines (Pléistocène, Néolithique)

ii. Domestication résultant d'une expansion démographique

Ex: Chèvres, moutons

iii. Invasion virale

Ex: Souches HIV différentes

iv. Bouleversements climatiques et écologiques

v. Mécanismes de colonisation (souvent associées à des expansion depuis des zones refuges)

Types de données moléculaires

a. Séquences d'ADN

o Taux de mutation potentiellement hétérogènes

b. SNPs

o Sites nucléotidiques nécessairement polymorphes

c. Microsatellites

o Modèle de mutation pas à pas avec beaucoup d'homoplasies

d. RAPD - AFLP

o Marqueurs dominants

Statistiques résumant l'information moléculaire

a. Nombre d'allèles (k)

b. Diversité génique (h)- Hétérozygotie (H)

c. Nombre moyen de différences entre paires d'allèles ou d'haplotypes ()

d. Nombre de sites polymorphes (S)

e. Autres

Echantillonnage

a. Taille des échantillons

b. Homogénéité (qualité) des échantillons

Evolution des fréquences alléliques - Dérive génétique

des échantillons Evolution des fréquences alléliques - Dérive génétique Génétique des populations Page 3
des échantillons Evolution des fréquences alléliques - Dérive génétique Génétique des populations Page 3

1. Equilibre de Hardy-Weinberg (HWE)

En absence de forces évolutives telles que la sélection, les mutations ou la dérive génétique, les fréquences génotypiques dépendent uniquement des fréquences alléliques si les individus choisissent aléatoirement leur conjoint pour s'accoupler. Cette union aléatoire des individus implique aussi une union aléatoire de leurs gamètes.

Ainsi, pour un individu diploide, la fréquence attendue du génotype formé des allèles A i et A j ayant comme fréquences respectives p i et p j sera de

comme fréquences respectives p i et p j sera de Si les fréquences attendues des génotypes

Si les fréquences attendues des génotypes sont en accord avec les fréquences observées, alors on dira que la population est en équilibre de Hardy-Weinberg, du nom du mathématicien anglais Hardy et du médecin allemand Weinberg qui ont découvert indépendemment cette relation en 1908 (voir la partie du cours évolution pour plus de détails sur cette dérivation).

S'il y a un trop grand écart entre les fréquences attendues et observées, alors on est en droit de penser qu'une force évolutive, comme la sélection, est en jeu, ou encore que les gamètes de la population ne s'unissent pas au hasard. Mais encore faut-il démontrer que cet écart est significatif, c'est à dire plus grand que ce que l'on attendrait par hasard.

1. 1. Test de l'équilibre de Hardy-Weinberg

Test de Chi-2

La manière classique de comparer des fréquences observées et attendues se fait par un test de Chi-2. Supposons que l'on ait n individus diploïdes dans un échantillon et que l'on observed k allèles à un locus donné. On aura donc potentiellement k(k+1) /2 génotypes différents. Supposons ici que k=3, et que l'on observe les fréquences génotypiques absolues suivantes

 

A

1

A

2

A

3

 

A 1

n

11

   

n

1

A 2

n

21

n

22

 

n

2

A 3

n

31

n

32

n

33

n

3

 

n

1

n

2

n

3

n

Classiquement, le test de Chi-2 consiste à comparer les nombres observés des différents génotypes aux nombres attendus sous l'hypothèse de Hardy-Weinberg, soit

A 1 A 2 A 3

A

1

A

2

A

3

A 1 A 2 A 3
sous l'hypothèse de Hardy-Weinberg, soit A 1 A 2 A 3 Génétique des populations Page 4
sous l'hypothèse de Hardy-Weinberg, soit A 1 A 2 A 3 Génétique des populations Page 4

A

1

A 1     n 1
   

n

1

A 2

A 2   n 2
A 2   n 2
 

n

2

A 3

A 3 n 3
A 3 n 3
A 3 n 3

n

3

 

n

1

n

2

n

3

n

On calculera donc la statistique

1 n 2 n 3 n On calculera donc la statistique qui devrait suivre asymptotiquement une

qui devrait suivre asymptotiquement une loi de Chi-2 à k(k-1) /2 degrés de liberté. On déclarera qu'il y aura un écart significatif à l'équilibre de HW si la probabilité associée au X 2 est inférieur à un certain niveau de confiance alpha prédeterminé, par exemple alpha=0.05.

Vous pouvez vous exercer à calculer la valeur du X 2 sur cette page web et obtenir sa probabilité associée sur celle-ci.

Test exact

Guo et Thompson (1992) ont introduit un test de déséquilibre de HW qui est une extension du test exact de Fisher sur les tables de contingences 2 par 2. Le test exact de Fisher consiste à:

1. Enumérer toutes les tables de contingences possible ayant les même sommes marginales qu'une certaine table de contingence observée.

2. Calculer la probabilité conditionnelle de chacune de ces tables, dont une est forcément celle que l'on a observé. La probabilité de la table originale a été établie par Levene (1949) comme étant égale à

a été établie par Levene (1949) comme étant égale à avec H qui est le nombre

avec H qui est le nombre d'individus hétérozygotes. La probabilité des autres tables s'obtient en changeant la valeur des n ij , les n i ne changeant pas car ce sont précisément les sommes marginales.

3. Calculer la probabilité d'observer une table de contingence plus improbable que celle que l'on observe. Celle-ci s'obtient en sommant les probabilités des tables de contingence plus improbables que celle observée comme

probabilités des tables de contingence plus improbables que celle observée comme Génétique des populations Page 5
probabilités des tables de contingence plus improbables que celle observée comme Génétique des populations Page 5
Pour des petites tables de contingence il est possible d'énumerer de façon exhaustive toutes les

Pour des petites tables de contingence il est possible d'énumerer de façon exhaustive toutes les tables possibles, mais cela devient fastidieux et trop long pour de grandes tables de contingences (grands échantillons et nombre élevé d'allèles et de génotypes). Dans ce cas on n'explore pas toutes les tables possibles mais un grand nombre au moyen d'une chaîne de Markov. On arrive ainsi à une très bonne approximation de la probabilité exacte dans un temps raisonnables qui ne dépend pas de la taille de la table. C'est cette procédure qui est implémentée dans le logiciel Arlequin (voir section "Methodological outlines" pour plus de détails).

Pour de grands échantillons, l'approximation de Chi-2 est souvent très bonne, mais on préférera un test exact lorsque l'on a de petits échantillons avec de faibles fréquences génotypiques attendues < 5.

Dérivation de la formule de Levene

Il est assez informatif de dériver la formule de Levene. Faisons pour le cas simple d'un locus à 2 allèles A et a, où l'on a donc les fréquences génotypiques suivantes dans un échantillon de n individus.

Génotypes

AA

Aa

aa

Fréquences

n

AA

n

Aa

n

aa

Dans la population, les allèles A et a ont des fréquences (inconnues) de p A et et 1- p A . Sous l'hypothèse de HWE, la probabilité d'observer ces fréquences génotypiques suit une loi multinomiale

.
.

Les fréquences alléliques inconnues de la population sont un problème, mais on peut s'en débarrasser en calculant la probabilité des fréquences génotypique conditionnelle aux fréquences alléliques observées n A et n a . Ces fréquences alléliques ont elles-même une probabilité qui suit une loi binomiale

ont elles-même une probabilité qui suit une loi binomiale si bien que la probabilité conditionnelle devient

si bien que la probabilité conditionnelle devient

qui suit une loi binomiale si bien que la probabilité conditionnelle devient Génétique des populations Page
qui suit une loi binomiale si bien que la probabilité conditionnelle devient Génétique des populations Page
ce qui montre bien que cette probabilité conditionnelle est indépendante des fréquences alléliques dans la

ce qui montre bien que cette probabilité conditionnelle est indépendante des fréquences alléliques dans la population.

2. Ecarts à l'équilibre de Hardy-Weinberg

Il y a plusieurs raison pour lesquelles on peut rejetter l'hypothèse de HWE. cela peut être du au fait qu'un génotype donné aura une fréquence observée très différente de l'attendue, auquel cas on pourra penser à un phénomène de sélection qui touche ce génotype. Au contraire, le déséquilibre de HW peut toucher l'ensemble des génotypes, ce qui laisse penser à un problème qui touche le système de reproduction, empêchant une union aléatoire des gamètes et des individus. Une telle situation est courante en cas de consanguinité.

1.2 Consanguinité

Une population est dite consanguine lorsqu'une ceraine proportion d'individus apparentés s'unissent pour produire des descendants dans la population. Dans ce cas, ces descendants de couples consanguins pourront avoir des copies alléliques issues de la même copie d'un de leur ancêtre commun. De ce fait, ils seront donc forcément homozygotes, mais pour une raison indépendante des fréquences alléliques dans la population.

Un marriage entre frère et soeur peut résulter en un individu homozygote avec 2 gènes identiques par ascendance

peut résulter en un individu homozygote avec 2 gènes identiques par ascendance Génétique des populations Page
peut résulter en un individu homozygote avec 2 gènes identiques par ascendance Génétique des populations Page
On s'attend donc intuitivement à ce qu'il y ait un excès d'homozygotes par rapport à

On s'attend donc intuitivement à ce qu'il y ait un excès d'homozygotes par rapport à HWE dans une population consanguine. Cet excès sera d'autant plus grand qu'il y a d'individus qui possèdent des gènes identiques par ascendance dans la population. Wright (1943, 1951) a proposé d'appeller cette proportion d'individus le coefficient de consanguinité de la population et il est généralement noté f. Cette proportion f correspond donc, pour un individu pris au hasard dans la population, à la probabilité que ses deux copies alléliques soient identiques par ascendance. La consanguinité de la population ne provoque pas de modification des fréquences alléliques au cours du temps, mais elle va affecter les fréquences génotypiques uniquement.

Plus formellement, considérons un locus à deux allèles A et a, de fréquences p et 1-p dans une population diploide de taille supposée infinie. Notons P comme étant la fréquence des homozygotes AA, H celle des hétérozygotes Aa et Q celle des homozygotes aa. On va d'abord chercher à déterminer la fréquences des homozygotes AA. On peut être homozygote de deux manières, soit parce que l'on a deux copies de gènes identiques par ascendance, avec la probabilité f, soit car on a hérité de deux allèles de même type mais indépendants de deux parents non-apparentés, et ceci avec une probabilité 1-f. Donc,

non-apparentés, et ceci avec une probabilité 1- f . Donc, On peut raisonner exactement de la

On peut raisonner exactement de la même manière pour les homozygote aa et l'on aura donc

manière pour les homozygote aa et l'on aura donc Pour les hétérozygotes Aa , le raisonnement

Pour les hétérozygotes Aa, le raisonnement est similaire. Il faut juste réaliser que l'on ne peut être hétérozygote que si ses 2 copies ne sont pas identiques par ascendance et donc

ses 2 copies ne sont pas identiques par ascendance et donc On a donc bien un

On a donc bien un déficit d'hétérozygotes en cas de consanguinité. On peut donc exprimer f en fonction de ce déficit d'hétérozygotes. En réarrangeant la dernière équation, on obtient

déficit d'hétérozygotes. En réarrangeant la dernière équation, on obtient Génétique des populations Page 8
déficit d'hétérozygotes. En réarrangeant la dernière équation, on obtient Génétique des populations Page 8
ce qui montre que le coefficient de consanguinité f est égal à 1 moins le

ce qui montre que le coefficient de consanguinité f est égal à 1 moins le rapport de l'hétérozygotie observée sur l'hétérozygotie attendue sous l'hypothèse de HWE.

On peut bien sûr dériver les fréquences attendues des différents génotypes pour plus de 2 allèles, et l'on a, d'une manière générale

de 2 allèles, et l'on a, d'une manière générale On a dit que les fréquences alléliques

On a dit que les fréquences alléliques ne sont pas affectées par la consaguinité. On peut le vérifier en exprimant p en fonction de P, et H. Ainsi

vérifier en exprimant p en fonction de P , et H. Ainsi On peut consulter le

On peut consulter le cours d'évolution sur la consanguinité pour visualiser l'effet du coefficient f sur les fréquences génotypiques.

Consanguinité et corrélation des gamètes

Wright a aussi montré que le coefficient de consanguinité f était égal à la corrélation des deux gamètes d'un individu par rapport à deux gamètes pris au hasard. Voyons cela de plus près et considérons une population où l'on a 2 allèles A et a de fréquence p et 1-p. On a une certaine proportion d'hétérozygotes H o dans cette population. On voit dans la table qui suit que l'on peut exprimer les fréquences génotypiques dans la population en fonction de la fréquences des hétérozygotes H o et des fréquences alléliques, sans faire l'hypothèse de HWE.

Fréquences des différents génotypes dans la population

Gamète 2

A

a

Total

de HWE. Fréquences des différents génotypes dans la population Gamète 2 A a Total Génétique des
de HWE. Fréquences des différents génotypes dans la population Gamète 2 A a Total Génétique des

Gamète

1

Gamète 1 A a Total p 1- p p 1- p 1

A

a

Total

Gamète 1 A a Total p 1- p p 1- p 1
Gamète 1 A a Total p 1- p p 1- p 1

p

Gamète 1 A a Total p 1- p p 1- p 1
Gamète 1 A a Total p 1- p p 1- p 1

1-p

p

1-p

1

On va considérer une variable indicatrice y qui sera égale à 1 si on tire un gamète de type allélique A et à 0 si on tire un a. On voit tout de suite que si l'on répète l'épreuve qui consiste à tirer un grand nombre de gamète, l'espérance de y est égale à

E(y) = p.1 + (1-p) .0 = p

De la même manière, E(y 2 ) = p et la variance de y est obtenue facilement comme

) = p et la variance de y est obtenue facilement comme Pour calculer la corrélation

Pour calculer la corrélation de deux gamètes y 1 et y 2 , il ne nous manque plus que leur covariance cov(y 1 , y 2 ). Celle-ci est obtenue de manière standard comme

cov(y 1 , y 2 ) = E(y 1 y 2 ) - E(y 1 ) E( y 2 )

La simple consultation de la table précédante nous permet d'obtenir facilement cette covariance, car il apparaît que

permet d'obtenir facilement cette covariance, car il apparaît que Ainsi, et Génétique des populations Page 10

Ainsi,

permet d'obtenir facilement cette covariance, car il apparaît que Ainsi, et Génétique des populations Page 10

et

permet d'obtenir facilement cette covariance, car il apparaît que Ainsi, et Génétique des populations Page 10
permet d'obtenir facilement cette covariance, car il apparaît que Ainsi, et Génétique des populations Page 10
On remarque donc que la corrélation de deux gamètes est bien égale à f, le

On remarque donc que la corrélation de deux gamètes est bien égale à f, le coefficient de consanguinité défini un peu plus haut.

La notion de corrélation entre gamètes est intimement liée aux statistiques- F (F-statistics) définies par Wright (1943, 1951) dans le cas de populations subdivisées. Nous y reviendrons par la suite, mais il est important de noter ici que le coefficient de consanguinité est équivalent à la statistique F IS définie par Wright comme la corrélation moyenne des 2 gènes d'un individu par rapport à deux gènes pris au hasard dans une des subdivisions de la population.

Finalement on notera que d'autres systèmes de reproduction causent des écarts à l'HWE, comme l'autofécondation totale ou partielle, ou le choix du conjoint sur la base de son phénotype (assortative mating).

2. Dérive génétique dans des populations de taille finie

Alors que dans des populations de taille infinie les fréquences alléliques sont stables au cours des générations en l'absence de sélection et de mutation, les fréquences alléliques varient aléatoirement dans des populations de taille finie. Cela est du à la variabilité du tirage aléatoire des gènes d'une génération à l'autre.

2.1 Modèle démographique de Wright-Fisher

Pour permettre un traitement mathématique pas trop compliqué, on modélise la transmission des gènes d'une génération à l'autre de façon très schématique. Ce modèle est une simplification considérable du cycle de reproduction des populations naturelles. Il représente à peuprès celui d'une population monoèce pratiquant l'autofécondation, mais avec des générations séparées. Dans ce cas, une population de N individus peut êre représentée par un vecteur de 2N copies alléliques.

Tansmission aléatoire avec répétition des gamètes entre générations séparées

Tansmission aléatoire avec répétition des gamètes entre générations séparées Génétique des populations Page 11
Tansmission aléatoire avec répétition des gamètes entre générations séparées Génétique des populations Page 11
Selon ce modèle, les 2 N gènes des individus d'une certaine génération sont tirés avec

Selon ce modèle, les 2N gènes des individus d'une certaine génération sont tirés avec répétition à partir des 2N gamètes de la génération précédente. Le nombre de copies transmises d'un certain gamète suit donc une loi de Poisson de paramètre =1.

Conséquences:

Un individu peut transmettre plusieurs copies du même gamète à la génération suivante.

Les deux gènes d'un certain individu peuvent être issus du même gène à la génération précédente. Il sont donc dans ce cas identiques par ascendence.

2.2 Evolution des fréquences alléliques sous l'effet de la dérive génétique

Intéressons nous de nouveau à un locus à 2 allèle A et a, où la fréquence de l'allèle A est p dans une population diploide de taille N suivant le modèle de Wright-Fisher.Quelle va être la fréquence de l'allèle A à la prochaine génération. Sur la figure précédente on voit que la nouvelle génération est formée par tirage aléatoire de 2N gènes à partir du pool gamétique de la génération précédente.On considère en général que la taille de ce pool gamétique est infini, du fait que chaque individu produit un nombre considérable de gamètes.

La constitution de la nouvelle génération consite donc à répéter 2N épreuves élémentaires où l'on a à chaque fois une probabilité p de tirer un allèle A et une probabilité 1-p de tirer un allèle a. Le nombre X d'allèle A à la prochaine génération est donc une variable aléatoire qui suit donc une loi binomiale de paramète b(2N, p). La probabilité d'observer r allèles est donnée par

La probabilité d'observer r allèles est donnée par et r peut donc varier de 0 à

et r peut donc varier de 0 à 2N copies, impliquant que p(t+1) peut prendre des valeurs variant entre et comprenant 0 et 1, avec une certaine probabilité donnée par la loi binomiale.

Distribution de probabilité de la fréquence de l'allèle A si la fréquence à la génération prédédente est de p=0.5

de l'allèle A si la fréquence à la génération prédédente est de p =0.5 Génétique des
de l'allèle A si la fréquence à la génération prédédente est de p =0.5 Génétique des
Distribution de probabilité de la fréquence de l'allèle A si la fréquence à la génération
Distribution de probabilité de la fréquence de l'allèle A si la fréquence à la génération
Distribution de probabilité de la fréquence de l'allèle A si la fréquence à la génération
Distribution de probabilité de la fréquence de l'allèle A si la fréquence à la génération

Distribution de probabilité de la fréquence de l'allèle A si la fréquence à la génération prédédente est de p=0.1

la fréquence à la génération prédédente est de p =0.1 L'espérance de X est bien sûr
la fréquence à la génération prédédente est de p =0.1 L'espérance de X est bien sûr
la fréquence à la génération prédédente est de p =0.1 L'espérance de X est bien sûr
la fréquence à la génération prédédente est de p =0.1 L'espérance de X est bien sûr

L'espérance de X est bien sûr donné par E(X) = 2N p, et sa variance par V(X) = 2N p (1-p).

On peut facilement obtenir l'espérance et la variance de p(t+1) comme

obtenir l'espérance et la variance de p ( t +1) comme Comme cela était déjà clair
obtenir l'espérance et la variance de p ( t +1) comme Comme cela était déjà clair

Comme cela était déjà clair sur les figures ci-dessus, l'espérance de la fréquence de l'allèle A à la génération t+1 est sa fréquence à la génération t, et donc de sa fréquence initiale p 0 . Par

fréquence à la génération t , et donc de sa fréquence initiale p 0 . Par
fréquence à la génération t , et donc de sa fréquence initiale p 0 . Par

contre, si l'espérance de la fréquence allélique est constante, sa variance est d'autant plus grande que la population est petite. En d'autres termes, la taille finie de la population provoque une variation aléatoire des fréquences alléliques d'une génération à l'autre. Si l'on part d'une fréquence initiale donnée p 0 , la fréquence de l'allèle A variera aléatoirement au cours des générations, et ceci d'autant plus que la taille de la population sera petite. On peut visualiser ce processus de dérive génétique sur les figures suivantes.

de dérive génétique sur les figures suivantes. Dans une population de 10 individus diploides, on va

Dans une population de 10 individus diploides, on va fixer rapidement un allèle ou un autre en partant de 0.5. Notez aussi la très grande amplitude des changements de fréquence d'une génération à l'autre.

amplitude des changements de fréquence d'une génération à l'autre. Génétique des populations Page 14
amplitude des changements de fréquence d'une génération à l'autre. Génétique des populations Page 14
amplitude des changements de fréquence d'une génération à l'autre. Génétique des populations Page 14

Dans un epopulation de 50 individus, un polymorphisme va pouvoir être maintenu pendant une plus longue période, mais ultimement on aura aussi fixation ou perte d'allèle. Les fréquences alléliques varient toujours fortement d'une génération à l'autre.

toujours fortement d'une génération à l'autre. Avec 250 individus, aucune population n'a fixé

Avec 250 individus, aucune population n'a fixé d'allèles au bout de 150 générations. Les variations de fréquences alléliques sont aussi de plus faible amplitude.

fréquences alléliques sont aussi de plus faible amplitude. Avec 500 individus, les fréquences varient relativement

Avec 500 individus, les fréquences varient relativement faiblement autour de la fréquence initiale. On se rend compte que la moyenne des fréquences alléliques tend vers la fréquence initiale.

compte que la moyenne des fréquences alléliques tend vers la fréquence initiale. Génétique des populations Page
compte que la moyenne des fréquences alléliques tend vers la fréquence initiale. Génétique des populations Page

Vous pouverz aussi aller sur ce site pour essayer d'autres combinaisons de paramètres.

Ces différentes courbes correspondent à des réplications indépendentes du processus d'évolution des fréquences alléliques à partir d'une même fréquence initiale. Cela pourrait correspondre à l'évolution de différents locus dans la même population, ou à l'évolution de différentes populations ayant divergé à partir d'une certaine population ancestrale. Dans ce cas, on se rend compte que la divergence des populations augmente régulièrement au cours du temps.cette divergence est liée à l'augmentation de la variance des fréquences allélique de génération en génération. On peut en effet montrer que l'évolution de la variance au cours du temps est donnée par

de la variance au cours du temps est donnée par Sur la figure suivante, on a

Sur la figure suivante, on a représenté, pour différents nombres de gènes dans la population (2N), l'enveloppe p 0 =0.5 ± (t).

(2 N ), l'enveloppe p 0 =0.5 ±  ( t ). Cette augmentation régulière de

Cette augmentation régulière de la variance des fréquences alléliques peut être utilisée pour calculer le temps de séparation d'un ensemble de populations (sous l'hypothèse qu'elles n'ont pas échangé de migrants). On suppose qu'on observe un ensemble de populations ayant

des fréquences alléliques p 1 , p 2 , p 3 ,

populations va se rapprocher de la fréquence initiale p 0 et on peut ré-écrire l'équation

précédente comme:

p i ,

, p d . La fréquence moyenne sur l'ensemble des

comme: p i , , p d . La fréquence moyenne sur l'ensemble des Génétique des
comme: p i , , p d . La fréquence moyenne sur l'ensemble des Génétique des
comme: p i , , p d . La fréquence moyenne sur l'ensemble des Génétique des

et le temps de divergence exprimé relativement à la taille des populations s'obtient facilement comme

à la taille des populations s'obtient facilement comme Attention : Pour que ce temps de divergence

Attention: Pour que ce temps de divergence ait un sens il faut que les hypothèse de notre modèle soient vérifiées. Si il y a des migrations entre les populations ce temps de divergence sera sous-estimé. Si les populations ne sont pas toutes de même taille, il sera sur-estimé. Enfin, notez que comme D dépend inversément de N, un certain degré de divergence sera obtenu beaucoup plus rapidement pour des petites populations que pour des grandes.

2.3 Consanguinité due à la taille finie des populations

Dans le modèle de Wright-Fisher, il est parfaitement possible que les 2 copies alléliques d'un individu soient identiques par ascendance d'une même copie de la génération précédente, et cet évènement à une probabilité égale à 1/(2N). Dans le cas contraire, il est aussi possible que les 2 copies soient identiques par ascendance mais à une génération antérieure. Le coefficient de consaguinité f de la population à la génération t+1 va donc être égal à

population à la génération t +1 va donc être égal à La consanguinité de la population

La consanguinité de la population va ainsi augmenter au cours du temps du fait de la taille finie de la population. L'hétérozygotie de la population va du même coup diminuer. On a vu plus haut que le coefficient de consanguinité et l'hétérozygotie étaient liés par la relation 1 - f = H / [ 2 p (1 - p) ]. Ainsi, en commançant par ajoutter 1 aux 2 côtés de l'équation précédente, on obtient

1 aux 2 côtés de l'équation précédente, on obtient en ignorant les modifications de fréquences alléliques

en ignorant les modifications de fréquences alléliques dus à la dérive génétique. L'hétérozygotie de la population décline donc à un taux égal à 1/(2N) par génération, et à terme il n'y aura que des homozygotes dans la population du fait du processus de fixation des allèles par dérive génétique. L'hétérozygotie moyenne de la population variera donc au cours du temps selon la relation suivante:

moyenne de la population variera donc au cours du temps selon la relation suivante: Génétique des
moyenne de la population variera donc au cours du temps selon la relation suivante: Génétique des
moyenne de la population variera donc au cours du temps selon la relation suivante: Génétique des
et la consanguinité selon 2.4 Matrice de transition - Chaîne de Markov On a vu

et la consanguinité selon

et la consanguinité selon 2.4 Matrice de transition - Chaîne de Markov On a vu que
et la consanguinité selon 2.4 Matrice de transition - Chaîne de Markov On a vu que

2.4 Matrice de transition - Chaîne de Markov

On a vu que la loi binomiale donnait la probabilité qu'un allèle passe d'une fréquence p à la génération t à la fréquence p' à la génération t+1. Si l'on raisonne en terme de fréquence absolue, on voit que la loi binomiale décrit la probabilité de passer de i copies à j copies en une génération, probabilité que l'on peut noter p ij .

On peut ainsi représenter l'évolution des fréquences alléliques dans une population de taille N comme une marche aléatoire dans un espace où les probabilités de déplacement sont définie par une matrice de transition de taille (2N+1) dont les éléments sont précisément les p ij . Par exemple, pour une population de 10 individus, on peut visualiser la matrice de transition dans la figure suivante.

10 individus, on peut visualiser la matrice de transition dans la figure suivante. Génétique des populations
10 individus, on peut visualiser la matrice de transition dans la figure suivante. Génétique des populations

Matrice de probabilité de transition entre fréquences alléliques dans une population de 10 individus diploides.

alléliques dans une population de 10 individus diploides. La probabilité de passer d'une certain nombre de

La probabilité de passer d'une certain nombre de copies à un autre est exprimé sur l'axe Z.

Cette marche aléatoire peut être assimilée à une chaîne de Markov dont les probabilités de

transitions entre états {0, 1, 2, 3, binomiales

, i,

, 2N-2, 2N-1, 2N}sont définis par les probabilités

, , 2 N -2, 2 N -1, 2 N }sont définis par les probabilités Comme

Comme les états 0 et 2N sont absorbants, le résultats d'une marche aléatoire dans cette chaîne ne peut qu'aboutir à la perte (i = 0) ou à la fixation (i = 2N) d'un allèle. D'autre part, comme pour toute chaîne de Markov, la probabilité d'effectuer une certaine transition ne dépend que de l'état présent et pas des états antérieurs, et donc pas du chemin déjà parcouru. On peut donc théoriquement prédire l'évolution des fréquences alléliques dans une population de n'importe quelle taille, mais pratiquement cette approche matricielle est limitée à des populations de petites taille.

Pour des populations de grande taille, on approxime cette marche aléatoire dans un espace discret par un processus de diffusion dans un espace continu. Cette approche a été principalement introduite par Kimura.

un espace continu . Cette approche a été principalement introduite par Kimura. Génétique des populations Page
un espace continu . Cette approche a été principalement introduite par Kimura. Génétique des populations Page

3. Equilibre mutation-dérive

Dans ce qui a précédé, nous n'avons pas considéré la possibilité d'avoir des mutations qui sont une des forces évolutives. L'apparition de nouveaux mutants va avoir plusieurs conséquences dont la première est de mofifier les fréquences alléliques dans les populations de taille finie, et une autre et d'empêcher la fixation ultime des allèles. Les mutations vont donc interférer quelque peut avec le processus de dérive génétique.

3.1 Modèle des allèles infinis

Dans le modèle des allèles infinis, on fait simplement l'hypothèse qu'une mutation provoque l'apparition d'un nouvel allèle qui n'était encore jamais apparu dans la population. La fréquence initiale de ce nouvel allèle sera bien évidemment de

initiale de ce nouvel allèle sera bien évidemment de Kimura et Crow (1964) ont montré que

Kimura et Crow (1964) ont montré que la probabilité de fixation d'un nouveau mutant neutre était sa fréquence initiale soit 1/(2N). la probabilité qu'il soit ultimement perdu par dérive génétique est donné par la probabilité complémentaire soit, 1-1/(2N).

Kimura et Ohta (1971) ont dérivé le temps moyen de fixation T 1 pour un nouveau mutant neutre comme étant égal à

T 1 pour un nouveau mutant neutre comme étant égal à el le temps moyen de

el le temps moyen de sa perte T 0 comme étant

égal à el le temps moyen de sa perte T 0 comme étant soit un temps

soit un temps beaucoup plus court que sa fixation.

Dans des populations de taille finie et en présence de mutations, de nouveaux allèles vont être introduits par mutation et d'autres seront perdus par dérive. Il peut s'établir un équilibre entre ces 2 forces qui va conditionner le nombre d'allèle qui pourrront être maintenus dans une population de taille donnée.

3.2 Consanguinité et mutation

Nous avons vu plus haut que la taille finie des populations conduisait à une augmentation de la consanguinité de la population. En présence de mutation, cette augmentation de l'homozygotie va être quelque peu freinée par l'introduction de nouveaux allèles. Plus formellement, le changement du coefficient de consanguinité au cours du temps va maintenant être conditioné par le fait que les copies d'un individu ne pourront être

être conditioné par le fait que les copies d'un individu ne pourront être Génétique des populations
être conditioné par le fait que les copies d'un individu ne pourront être Génétique des populations

identiques par ascendance que si elles n'ont pas muté aucours de la dernière génération. Ainsi

pas muté aucours de la dernière génération . Ainsi ou u est le taux de mutation

ou u est le taux de mutation par gène par génération. A l'équilibre mutation-érive, f(t+1) = f(t) = f , si bien que

mutation-érive, f ( t +1) = f ( t ) = f , si bien que

On peut résoudre cette équation pour f pour aboutir à

On peut résoudre cette équation pour f pour aboutir à et si l'on ignore les termes

et si l'on ignore les termes en u 2 on obtient

à et si l'on ignore les termes en u 2 on obtient Dans un modèle avec

Dans un modèle avec mutation le coefficient de consanguinité à l'équilibre mutation dérive est équivalent à l'homozygotie de la population, puisque deux copies alléliques du même type seront obligatoirement issue d'une même copie sans mutation si l'on remonte suffisamment loin dans le passé.

si l'on remonte suffisamment loin dans le passé. Crow et Kimura ont défini le nombre efficace

Crow et Kimura ont défini le nombre efficace d'allèle pouvant être maintenu à l'équilibre mutation-dérive n e comme la réciproque de la consanguinité, soit

n e comme la réciproque de la consanguinité, soit Ce nombre est défini ainsi car il

Ce nombre est défini ainsi car il correspond au nombre fictif d'allèles ayant tous une fréquence identique et qui donnerait lieu à l'hétérozygotie attendue.

Remarque: On représente souvent la quantité 4Nu par la notation , qui correspond donc au produit de la taille de la population par le taux de mutation. Ces 2 quantités sont rarement

la taille de la population par le taux de mutation. Ces 2 quantités sont rarement Génétique
la taille de la population par le taux de mutation. Ces 2 quantités sont rarement Génétique

estimables séparément au vu de la diversité génétique de la population et seul peut être estimé indépendamment.

Introduction à la théorie de la coalescence

1. La coalescence: une approche rétrospective de la génétique des populations

L'approche classique de la génétique des populations consiste à essayer de prédire l'évolution du polymorphisme génétique dans une population sous l'influence de différentes forces évolutives. C'est donc une approche essentiellement prospective. Une fois que l'on a compris ce qui se passe au niveau de la population, il faut encore développer la théorie qui concerne des échantillons tirés de la population, car c'est le matériel que l'on observe. D'autre part, la plupart des résultats obtenus font l'hypothèse que la population que l'on considère est à un état d'équilibre entre différentes forces évolutives, par exemple entre la mutation et la dérive génétique, ou entre sélection et dérive.

Ainsi par exemple on va obtenir, après bien des efforts que le nombre de sites polymorphes S attendus dans un échantillon de taille n est égal à (Watterson 1975)

un échantillon de taille n est égal à (Watterson 1975) Ce résultats est important et permet

Ce résultats est important et permet d'obtenir une estimation relativement bonne du paramètre =4Nu.

La théorie de la coalescence a une approche entièrement différente. Elle part d'un échantillon de gènes observés, et vise à reconstruire l'histoire généalogique de ces gènes, selon une certaine histoire démographique de la population et un certain modèle de mutation, jusqu'à l'ancêtre commun le plus récent de ces gènes. On n'a pas donc pas besoin de modéliser l'ensemble de la population. On se préoccupe uniquement de notre échantillon. C'est une approche essentiellement rétrospective.

2. Généalogie des individus et généalogie des gènes

Considérons tout d'abord une généalogie d'individus diploïdes. Chacun de ces individus va avoir un certain nombre de descendants auxquels il aura transmis une des 2 copies de ses gènes à un locus donné. Certains gènes d'un individu ne seront pas transmis, mais d'autres pourront être transmis en un ou plusieurs exemplaires.

pourront être transmis en un ou plusieurs exemplaires. Génératio n 1 Génératio n 2 Génétique des

Génératio

n 1

Génératio

n 2

être transmis en un ou plusieurs exemplaires. Génératio n 1 Génératio n 2 Génétique des populations
être transmis en un ou plusieurs exemplaires. Génératio n 1 Génératio n 2 Génétique des populations

Génératio

n 3

Le gène représenté par le rond rouge (gène ancêtre de la génération 1) va être transmis à deux enfants différents à la génération 2, et ces enfants le transmettrons eux-mêmes à un de leur descendants à la génération 3. Ces 2 gènes rouges seront donc identiques par ascendance, et ils auront un ancêtre commun 2 générations auparavant.

et ils auront un ancêtre commun 2 générations auparavant. En première approximation on va ignorer le

En première approximation on va ignorer le fait que ces gènes se trouvent dans des individus diploides. Cela revient à dire assimiler notre population diploide de taille N à une population haploide de taille 2N. On va ainsi visualiser plus simplement leurs relations d'une génération à l'autre en représentant uniquement les lignes d'ascendance de ces gènes, ou dit plus simplement les lignages de ces gènes. Lorsque deux lignages se rejoignent chez un gêne ancestral, on dit qu'ils coalescent. Il s'agit donc d'un évènement de coalescence.

La théorie de la coalescence décrit donc simplement le processus de coalescence des gènes d'un échantillon depuis la génération présente jusqu'à l'ancêtre commun de tous les gènes d'un échantillon.

Pour simplifier, considérons une très petite population de taille constante contenant 7 gènes (marqués en bleu) de la figure suivante.

de taille constante contenant 7 gènes (marqués en bleu) de la figure suivante. Génétique des populations
de taille constante contenant 7 gènes (marqués en bleu) de la figure suivante. Génétique des populations
En remontant dans le passé, on voit que les lignages vont progressivement fusionner les uns

En remontant dans le passé, on voit que les lignages vont progressivement fusionner les uns avec les autres par une série de coalescence (marqués en rouge), jusqu'à un seul ancêtre commun, à la génération 6.

Donc tous les gènes de la générations 0 ont un ancêtre commun 6 générations auparavant. Maintenant, si l'on regarde le processus dans le sens du temps, on voit que un des gènes de la génération 6 s'est fixé dans la population à la génération 0. Les autres gènes de la génération 0 se sont perdus, ils n'ont pas été transmis jusqu'à la génération présente. Ce processus de fixation d'un gène et de perte des autres gènes est en fait exactement le processus de dérive génétique. On voit donc que le processus rétrospectif de coalescence est entièrement analogue à un processus prospectif de dérive génétique. Mais il deux avantages principaux par rapport au processus de dérive.

génétique. Mais il deux avantages principaux par rapport au processus de dérive. Génétique des populations Page
génétique. Mais il deux avantages principaux par rapport au processus de dérive. Génétique des populations Page

1. On ne va s'intéres ser qu'aux lignages qui laissero nt des descend ants à la générati on actuelle.

2. On ne va considér er qu'un échantill on tiré au hasard de la populati on, et pas la généalog ie de la populati on entière.

on, et pas la généalog ie de la populati on entière. 3. Démographie et temps de
on, et pas la généalog ie de la populati on entière. 3. Démographie et temps de

3. Démographie et temps de coalescence

la généalog ie de la populati on entière. 3. Démographie et temps de coalescence Génétique des
la généalog ie de la populati on entière. 3. Démographie et temps de coalescence Génétique des

Kingman a formellement décrit le processus de coalescence en 1982 pour un échantillon de taille n tiré d'une population diploide de taille N (ou d'une population haploide de taille 2N). Il s'agit d'une marche aléatoire dans le passé ou l'on va passer par des états successifs avec n lignages, n-1, lignages, n-2 lignages etc, jusqu'à l'ancêtre commun où l'on n'aura plus qu'un seul lignage. Bien entendu, le passage d'un état avec j lignages à un état avec j-1 lignages correspond à un évènement de coalescence. Au cours du processus de coalescence, on va donc séjourner pendant un certain temps T n à un état avec n lignages, puis un temps T n-1 à un état avec n-1 lignages, etc, pour finir par un temps T 2 pendant lequel on n'aura plus que 2 lignages avant l'ultime évènement de coalescence.

Kingman a dérivé la distribution de probabilité de ces temps T j en faisant les hypothèses suivantes:

1. Le modèle démographique sous-jacent correspond au modèle de Wright-Fisher.

2. La taille de l'échantillon est beaucoup plus petit que la taille de la population (n<<N), de telle sorte qu'il ne peut y avoir qu'un seul évènement de coalescence par génération.

On peut dériver ces temps en commençant par s'intéresser à la probabilité d'un évènement de coalescence entre j lignages P(j) à la génération précédente. Si l'on considère une paire de lignages quelconque, c'est la probabilité que ces 2 lignages sont dérivés d'une même copie d'un individu de la génération précédente, c'est à dire qu'ils sont identiques par ascendance à la génération précédente. On a vu que cette probabilité était égale à 1/(2N). maintenant, on doit considérer qu'un lignage peut coalescer avec n'importe quel autre lignage, et ceci avec la même probabilité. Si l'on a j lignages, on peut former j(j-1)/2 paires différentes, ce qui représente le nombre de combinaisons possibles de 2 lignages parmi j. Donc P(j) s'obtient comme

de 2 lignages parmi j . Donc P ( j ) s'obtient comme et donc la

et donc la probabilité qu'il n'y ait aucun évènement de coalescence est 1-P(j). A chaque génération on peut associer une épreuve qui consistera à vérifier s'il y a eu un évènement de coalescence ou non. Le temps de coalescence T j peut être considéré comme le nombre de générations écoulées jusqu'à ce que l'on ait un évènement de coalescence. C'est donc une variable aléatoire qui est le nombre d'épreuves nécessaires pour observer un succès de probabilité P(j). Une telle variable aléatoire suit une loi géométrique qui a la distribution de probabilité suivante:

qui a la distribution de probabilité suivante: Cela revient simplement à dire que pendant t -1

Cela revient simplement à dire que pendant t-1 générations il n'y a pas eu de coalescence et qu'il y en a eu une à la t-ième. L'espérance et la variance d'une telle loi géométrique sont connues et égales à

et la variance d'une telle loi géométrique sont connues et égales à Génétique des populations Page
et la variance d'une telle loi géométrique sont connues et égales à Génétique des populations Page
Approximation continue Comme on fait l'hypothèse que la taille de la populations est grande, on
Approximation continue Comme on fait l'hypothèse que la taille de la populations est grande, on

Approximation continue

Comme on fait l'hypothèse que la taille de la populations est grande, on peut considérer que la longueur d'une génération est presque négligeable par rapport à la longueur totale de la généalogie. Dans ce cas, on peut utiliser la version continue de la loi géométrique qui est la loi exponentielle qui a comme densité de probabilité

la loi exponentielle qui a comme densité de probabilité Cela n'a pas d'effet sur l'espérance, mais

Cela n'a pas d'effet sur l'espérance, mais la variance des temps de coalescence est simplifié. L'espérance s'obtient comme

est simplifié. L'espérance s'obtient comme et la variance est donnée par Standardisation On peut

et la variance est donnée par

s'obtient comme et la variance est donnée par Standardisation On peut aussi, faire abstraction de la

Standardisation

On peut aussi, faire abstraction de la taille de la population en exprimant les temps de coalescence en unité de 2N générations. Dans ce cas, on a simpement

temps de coalescence en unité de 2 N générations . Dans ce cas, on a simpement
temps de coalescence en unité de 2 N générations . Dans ce cas, on a simpement
4. Visualisation des généalogies On peut visualiser l'espérance des temps de coalescence sur une généalogie

4. Visualisation des généalogies

On peut visualiser l'espérance des temps de coalescence sur une généalogie "moyenne" ou les temps de coalescence seraient égaux à leur moyenne.

ou les temps de coalescence seraient égaux à leur moyenne. On remarque que les temps de

On remarque que les temps de coalescence moyens augmentent exponentiellement lorsque l'on remonte dans le passé. Donc dans une population stationnaire (de taille constante) on s'attend à ce que la majorité des évènements de coalescence surviennent relativement tôt et que les derniers soient très espacés. Notamment le temps moyen pour la dernière coalescence est égal à 2N générations, avec toutefois une variance égale à 2N(2N-1), soit près du carré de la moyenne. Le processus généalogique a donc une très forte variabilité. Ceci implique que les généalogies de locus indépendants pourront être très différentes. Cette variabilité peut être visualisée et étudiée empiriquement à partir de cette page. Par exemple on peut représenter les généalogies tirés de 6 échantillons de 5 gènes simulés pour la même population stationnaire, mais pour 6 locus différents.

simulés pour la même population stationnaire, mais pour 6 locus différents. Génétique des populations Page 28
simulés pour la même population stationnaire, mais pour 6 locus différents. Génétique des populations Page 28
La variabilité des topologies est facilement perceptible, mais notez aussi les différence d'échelle entre les

La variabilité des topologies est facilement perceptible, mais notez aussi les différence d'échelle entre les 4 généalogies, ce qui indique aussi des différences considérables de la taille de ces généalogies.

On peut également dériver la taille totale T n de la généalogie, c'est à dire le temps jusqu'à l'ancêtre commun le plus récent (MRCA en anglais) de tout l'échantillon. On a bien évidement

en anglais) de tout l'échantillon. On a bien évidement Lorsque n est grand, on a donc

Lorsque n est grand, on a donc T n 4N , ce qui correspond au temps moyen de fixation d'un nouveau mutant de fréquence initiale 1/(2N) dans une population, un résultat bien connu de la génétique des populations prospective. On voit donc de nouveau la relation entre processus de dérive et processus de coalescence.

On notera aussi que comme la probabilité de coalescence de n'importe quelle paire de lignage est identique, toutes les topologies de généalogies ayant les mêmes temps de coalescence sont équiprobables. Ainsi, la topologie b de la généalogie moyenne ci-dessous est aussi probable que la topologie a de la généalogie que l'on a vu ci-dessus.

probable que la topologie a de la généalogie que l'on a vu ci-dessus . Génétique des
probable que la topologie a de la généalogie que l'on a vu ci-dessus . Génétique des
Généalogie nucléaire Généalogie mitochondriale Enfin, il est important de constater que la taille absolue des

Généalogie nucléaire

Généalogie mitochondriale

Enfin, il est important de constater que la taille absolue des généalogies va dépendre étroitement de l'effectif efficace de la population d'où elles sont issues. Sur la figure ci- dessus, on a représenté côte à côte la généalogie moyenne d'un gène nucléaire pour lequel il existe donc 2N copies dans la population et la généalogie moyenne d'un gène mitochondrial, pour lequel il existe N/2 copies dans la population, car ils'agit d'un système haploide transmis uniquement par les femmes. On s'attend donc à ce que le T MRCA mitochondrial soit beaucoup 4c fois plus récent que le T MRCA nucléaire, et c'est à peu près ce que l'on remarque par exemple chez l'homme, comme le montre la table ci-dessous

Etude

T MRCA

Référence

ADN

160-250'000

 

mitochondrial

ans

Vigilant et al. 1991

 

170-200'000

 

Chromosome Y

ans

Hammer, 1995; Tavaré et al. 1997

 

120-150'000

 

Chromosome Y

ans

Hammer et al. 1998

-globine

800'000 ans

Harding et al. 1997

Chromosome X

>200'000 ans

Zietkewicz et al. 1998

Chromosome X

1'860'000 ans

Harris et Hey 1999

Chromosome X

535'000 ans

Koessmann et al. 1999

4. Coalescence et mutations

Jusqu'à présent, nous n'avons pas parlé de mutations, car pour des gènes neutres, le processus de coalescence ne dépend pas du processus de mutation. On peut les considérer comme totalement indépendants. Donc la longueur des branches d'une généalogie dépendra uniquement du processus démographique et pas du processus mutationnel.

dépendra uniquement du processus démographique et pas du processus mutationnel. Génétique des populations Page 30
dépendra uniquement du processus démographique et pas du processus mutationnel. Génétique des populations Page 30

L'addition de mutations au processus de coalescence s'effectue donc d'une manière très simple. On suppose que, pour une généalogie donnée, les mutations se produisent aléatoirement le long des branches.

Généalogie sans mutation Généalogie avec mutations
Généalogie sans mutation
Généalogie avec mutations

On fait d'habitude l'hypothèse que les mutations se produisent suivant une loi de Poisson de paramètre = ut, où u est le taux de mutation par unité de temps, et t la longueur d'un segment de branche quelconque. Dans la version continue du processus de coalescence, où le temps est mesuré en unité de 2N générations, le paramètre devient

unité de 2 N générations, le paramètre  devient 4.1 Modèle de mutation des sites infinis

4.1 Modèle de mutation des sites infinis

Il convient de bien définir le modèle de mutation que l'on considère. Selon le modèle que l'on va utiliser,le processus de mutation aura différents effets sur la diversité moléculaire observée. Le modèle de mutation le plus simple est le modèle dit des sites infinis a été introduit par Kimura en 1968. Il est en fait l'équivalent du modèle des allèles infinis pour les données moléculaires. Selon ce modèle, toute nouvelle mutation se produit à un nouveau site qui n'a encore jamais été touché par une mutation. Les molécules qui suivent ce modèle ne connaissent donc pas d'homoplasie.

C'est généralement le modèle utilisé pour dériver la plupart des résultats théoriques concernant la variabilité moléculaire des séquences d'ADN. Si la séquence d'ADN considérée est très long et que le taux de mutation est bas, ce modèle constitue une très bonne approximation de la réalité. Il sera donc aproprié pour des molécules d'ADN nucléaire, mais pas très réaliste pour des molécules d'ADN mitochondrial.

nucléaire, mais pas très réaliste pour des molécules d'ADN mitochondrial. Génétique des populations Page 31
nucléaire, mais pas très réaliste pour des molécules d'ADN mitochondrial. Génétique des populations Page 31

Selon ce modèle, la théorie de la coalescence avec mutation peut ainsi tout de suite nous permettre de dériver quelques résultats importants

Nombre de sites polymorphes S dans un échantillon

Sous le modèle des sites infinis, le nombre de sites polymorphes S d'un échantillon est simplement le nombre de mutations s'étant produites dans la généalogie des gènes de l'échantillon. L'espèrance de cette variable aléatoire est simplement fonction de la longueur totale de la généalogie T et du taux de mutation u.

totale de la généalogie T et du taux de mutation u . ce qui a été

ce qui a été obtenu de manière sensiblement plus compliquée par Watterson en 1975. Un relativement bon estimateur de basé sur le nombre observé de sites polymorphes est donc obtenu comme

nombre observé de sites polymorphes est donc obtenu comme Homozygotie attendue L'homozygotie attendue F est la

Homozygotie attendue

L'homozygotie attendue F est la probabilité que lorsque l'on tire 2 gènes (habituellement chez le même individu), ils soient du même type allélique. Bien évidemment, deux copies d'un gène appartiendront à la même classe allélique (seront une copie du même type allèlique) s'ils ne diffèrent l'un de l'autre par aucune mutation. Donc deux gènes seront donc du même type allélique s'il n'y a pas eu de mutation depuis leur ancêtre commun le plus récent. Cela est donc équivalent à la probabilité d'observer 0 sites polymorphes entre 2 gènes tirés au hasard.

Pour un temps de coalescence donné, la probabilité d'observer zéro mutations entre 2 gènes est égale à

donné, la probabilité d'observer zéro mutations entre 2 gènes est égale à Génétique des populations Page
donné, la probabilité d'observer zéro mutations entre 2 gènes est égale à Génétique des populations Page
donné, la probabilité d'observer zéro mutations entre 2 gènes est égale à Génétique des populations Page

car 2 gènes qui coalescent il y a T 2 générations ont été séparés pendant 2T 2 générations. On obtient la probabilité non conditionnelle par rapport à T 2 en tenant compte de tous les temps de coalescence possibles pour T 2 sous l'approximation continue comme

pour T 2 sous l'approximation continue comme L'homozygotie attendue F est donc donnée par et

L'homozygotie attendue F est donc donnée par

comme L'homozygotie attendue F est donc donnée par et l'hétérozygotie attendue H par Coefficient de

et l'hétérozygotie attendue H par

donc donnée par et l'hétérozygotie attendue H par Coefficient de consanguinité dans une population de taille

Coefficient de consanguinité dans une population de taille finie

On réalise que sous ce modèle l'homozygotie attendue F est égale au coefficient de consanguinité f , puisque obligatoirement 2 gènes du même type allélique sont identiques par ascendance.

Changements démographiques et diversité moléculaire

1. Concept d'effectif efficace (effective population size)

Dans les populations naturelles, tous les individus ne participent pas forcément au processus reproductif, si bien qu'en général l'effectif de la population N qui détermine le rythme de la dérive génétique n'est pas égale à l'effectif de recensement de la population. On défini donc l'effectif efficace de la population (ou taille efficace) comme l'effectif d'une population idéale (de type Wright-Fisher) pour laquelle on aurait une fluctuation du polymorphisme équivalente à celle de la population naturelle.C'est donc le nombre d'individus d'une population idéale pour lequel on aurait un degré de dérive génétique équivalent à celui de la population réelle. On note ce nombre comme N e .

Il y a en fait plusieurs types d'effectif efficace, selon à quel effet de la dérive génétique on s'intéresse.

Changement de la consanguinité de la population (inbreeding effective population size).

de la consanguinité de la population ( inbreeding effective population size ). Génétique des populations Page
de la consanguinité de la population ( inbreeding effective population size ). Génétique des populations Page

Dans une population idéale, on a vu que la probabilité que 2 gènes soient identiques par ascendance à la génération précédente était égal à 1/(2N) et que le changement du coefficient de consaguinité d'une génération à l'autre était donné par

d'une génération à l'autre était donné par Donc, dans une population réelle, l'effectif efficace

Donc, dans une population réelle, l'effectif efficace sera celui qui provoquera un changement de consanguinité de même amplitude que dans une population idéale.

de même amplitude que dans une population idéale.  Variance du changement des fréquences alléliques

Variance du changement des fréquences alléliques d'une génération à l'autre (variance effective population size).

Dans une popualtion idéale, on a vu que la variance de la fréquence allélique (V(t+1)) conditionnelle à celle de la génération précédente (p(t)) était donnée par la variance binomiale

précédente (p(t)) était donnée par la variance binomiale Donc l'e ffectif efficace de variance sera donné

Donc l'effectif efficace de variance sera donné par quelque chose de la forme

de variance sera donné par quelque chose de la forme  Changement de l'hétérozygotie de la

Changement de l'hétérozygotie de la population d'une génération à l'autre (eigenvalue effective population size)

Dans une population idéale, on a vu que le changement d'hétérozygotie d'une génération à l'autre était donné par le rapport

génération à l'autre était donné par le rapport qui était égal à Si bien que l'effectif

qui était égal à

l'autre était donné par le rapport qui était égal à Si bien que l'effectif efficace d'une

Si bien que l'effectif efficace d'une population réelle provoquant le même changement d'hétérozygotie que dans une population idéale sera défini comme

changement d'hétérozygotie que dans une population idéale sera défini comme Génétique des populations Page 34
changement d'hétérozygotie que dans une population idéale sera défini comme Génétique des populations Page 34
De manière générale, (mais pas toujours) les trois types de taille efficace donnet des valeurs

De manière générale, (mais pas toujours) les trois types de taille efficace donnet des valeurs identiques. On utilisera une définition ou une autre selon les cas.

1.1 Population avec sexes séparés (dioécie)

Contrairement au modèle de Wright-Fisher, dans une population avec des sexes séparés deux gènes ne peuvent être identiques par ascendance (ibd) que 2 générations auparavant.

par ascendance (ibd) que 2 générations auparavant. Si l'on considère un individu quelconque, il peut avoir

Si l'on considère un individu quelconque, il peut avoir 2 gènes ibd venant de son grand-père ou de sa grand-mère. Considérons qu'il y a N m mâles dans la population et N f femelles. Les parents d'un individu de la génération t peuvent avoir 2 gènes ibd venant d'un mâle (le grand- père) avec une probabilité 1/(2N m ) (en bleu sur la figure ci-dessus). Chaque parent a une probabilité 1/2 de lui transmettre son gène ibd, et donc une probabilité totale de 1/4 que les deux gènes ibd de ses parents lui soient transmis. Il y a donc une probabilité de 1/(8N m ) pour que ses deux gènes soient ibd en provenance de son grand-père. Par le même raisonnement, il y a une probabilité de 1/(8N f ) pour que ses 2 gènes soient ibd en provenance de sa grand- mère. Il y a donc une probabilité totale de 1/(8N m ) + 1/(8N f ) pour qu'il ait 2 gènes ibd.

Or on a vu précédemment que la probabilité qu'un individu d'une population idéale ait 2 gènes ibd était de 1(2N). Il en découle que l'effectif efficace de consanguinité dans une population avec sexe séparé est obtenu en résolvant l'équation

avec sexe séparé est obtenu en résolvant l'équation ce qui donne (p. ex. Kimura and Crow

ce qui donne (p. ex. Kimura and Crow 1963)

est obtenu en résolvant l'équation ce qui donne (p. ex. Kimura and Crow 1963) Génétique des
est obtenu en résolvant l'équation ce qui donne (p. ex. Kimura and Crow 1963) Génétique des
dans le cas ou N f = N m , on a bien N e

dans le cas ou N f =N m , on a bien N e = N, mais lorsque l'on a des nombres de mâles et de femelles différents dans une population, l'effectif efficace de la population va être considérablement réduit, avec un minimum d'environ 4.

Taille efficace en fonction du nombre de mâles dans la population

efficace en fonction du nombre de mâles dans la population 1.2 Gènes liés au sexes, espèces

1.2 Gènes liés au sexes, espèces haplo-diploides

Pour les gènes portés sur le chromosome X ou les espèces haplo-diploides (p. ex. les insectes sociaux), le calcul de l'effectif efficace est un peu différent que pour les espèces à sexes séparés. Là on va utiliser l'effectif efficace de variance, car la notion de consanguinité ne marche pas pour les haploides.

Une population haplo-diploide est généralement composée de mâles haploides et de femelles diploides. Considérons un locus à 2 allèles où la fréquence de l'allèle A est de p m chez les mâles et p f chez les femelles, et celle de l'alèle a de q m et q f chez les mâles et les femelle, respectivement. La variance d'échantillonnage chez les mâles et les femelles sera respectivement de

chez les mâles et les femelles sera respectivement de Or la fréquence de l'alèle A dans

Or la fréquence de l'alèle A dans la population est donné par

de Or la fréquence de l'alèle A dans la population est donné par Génétique des populations
de Or la fréquence de l'alèle A dans la population est donné par Génétique des populations
si bien que la variance de p est obtenue comme A l'équilibre, p m =

si bien que la variance de p est obtenue comme

si bien que la variance de p est obtenue comme A l'équilibre, p m = p

A l'équilibre, p m = p f = p, et donc

comme A l'équilibre, p m = p f = p , et donc Comme dans une

Comme dans une population idéale la variance est donnée par Var(p) = pq / (2N e ), l'effectif efficace de variance est donnée par

), l' effectif efficace de variance est donnée par Pour des gènes liés au sexe avec

Pour des gènes liés au sexe avec autant de mâles que de femelles, on a N e = 2/3 N. Pour les insectes sociaux qui possède une seule reine qui produit tous les individus de la population, N f = 1 et (Wright 1931)

individus de la population, N f = 1 et (Wright 1931) Taille efficace pour les sytèmes

Taille efficace pour les sytèmes haplo-diploides

N f = 1 et (Wright 1931) Taille efficace pour les sytèmes haplo-diploides Génétique des populations
N f = 1 et (Wright 1931) Taille efficace pour les sytèmes haplo-diploides Génétique des populations
1.3 Consanguinité S'il y a de la consanguinité dans la population, l'effectif efficace de la

1.3 Consanguinité

S'il y a de la consanguinité dans la population, l'effectif efficace de la population sera réduite par un facteur proportionnel au coefficient de consanguinité

un facteur proportionnel au coefficient de consanguinité La réduction de taille est donc relativement minime dans

La réduction de taille est donc relativement minime dans les populations faiblement consanguines. Par contre, chez les plantes qui ont un fort taux d'autofécondation et où f est proche de 1, l'effectif efficace peut être seulement la moitié de l'effectif total.

1.4 Variation de l'effectif de la population au cours du temps

Les populations naturelles sont rarement de taille constante au cours du temps. Celles-ci puvent en effet fluctuer fortement de génération en génération, par exemple suite à des changements climatiques, dans des modèles proies-prédateurs ou hôtes-parasites, ou encore par l'action de l'homme. Dans ce cas, l'effectif efficace de la population sera proche de la plus petite taille par laquelle une population a passé au cours de son histroire récente.

L'effectif efficace dans un tel cas se calcule en fonction de l'hétérozygotie (Crow et Kimura 1970). On a vu en effet que dans une population de taille constante

(Crow et Kimura 1970). On a vu en effet que dans une population de taille constante
(Crow et Kimura 1970). On a vu en effet que dans une population de taille constante
dans une population de taille variable, cette relation sera à peu près identique, à cela

dans une population de taille variable, cette relation sera à peu près identique, à cela près que l'effectif de la population sera une variable qui dépendra du temps:

de la population sera une variable qui dépendra du temps: Si l'on étend ce processus sur

Si l'on étend ce processus sur 2 générations on aura

Si l'on étend ce processus sur 2 générations on aura Donc sur un grand nombre de

Donc sur un grand nombre de génération on aura quelque chose de la forme

nombre de génération on aura quelque chose de la forme L'effectif efficace de la population sera

L'effectif efficace de la population sera donc celui d'une population stationnaire qui causerait la même réduction d'hétérozygotie après t générations de dérive génétique, soit

après t générations de dérive génétique, soit Ceci se résout facilement si l'on fait l'hypothèse

Ceci se résout facilement si l'on fait l'hypothèse que les N i sont grands et que l'on utilise l'approximation

i sont grands et que l'on utilise l'approximation si x est petit Après résolution, on aura

si x est petit

Après résolution, on aura donc

l'on utilise l'approximation si x est petit Après résolution, on aura donc Génétique des populations Page
l'on utilise l'approximation si x est petit Après résolution, on aura donc Génétique des populations Page
et l'on se rend compte que l' effectif efficace de valeur propre est égale à

et l'on se rend compte que l'effectif efficace de valeur propre est égale à la moyenne harmonique des effectifs précédents de la population.

On peut appliquer cette formule à différentes situations:

Effectif efficace de l'espèce humaine:

On fait l'hypothèse que l'espèce humaine a commencé un cycle de croissance exponentielle il y a 100'000 ans passant de 10'000 individus à 10 milliards. Avant on fait l'hypothèse que l'effectif de la population était constante à 10'000 individus depuis -200'000 ans. En comptant une génération tous les 20 ans, on arrive à une moyenne harmonique de 18'648 individus pour les 200 derniers millénaires. Dans ces conditions, on s'attend donc à ce que la variabilité génétique et moléculaire de l'espèce humaine soit à peuprès comparable à celle d'une population idéale d'environ 20'000 individus.

population idéale d'environ 20'000 individus.  Bottlenecks périodiques : On suppose qu'une

Bottlenecks périodiques:

On suppose qu'une population d'insecte décuple sa taille en 2 générations pendant l'été et qu'ele retourne à sa taille initiale pendant l'hiver. Elle passera donc par un cycle de N, 10N et 100N individus chaque année. Quelle sera sa taille efficace? Réponse: 2.7N seulement, et pas 36.7 N comme l'indiquerait la moyenne arithmétique des tailles de population.

36.7 N comme l'indiquerait la moyenne arithmétique des tailles de population. Génétique des populations Page 40
36.7 N comme l'indiquerait la moyenne arithmétique des tailles de population. Génétique des populations Page 40
1.5 Structure par âge Lorsque la population est structurée en classes d'âges, avec des individus

1.5 Structure par âge

Lorsque la population est structurée en classes d'âges, avec des individus qui ne se reproduisent pas encore ou plus, l'effectif efficace de la population sera inférieur à l'effectif de recensement. Dans ce cas il y a plusieurs façons de calculer l'effectif efficace et Nei et Imaizumi (1966) suggèrent que l'effectif efficace est donné par

(1966) suggèrent que l'effectif efficace est donné par où T est l'âge moyen à la reproduction

T est l'âge moyen à la reproduction (le temps de génération) et N a est le nombre moyen d'individus nés chaque année qui vont arriver à l'âge de reproduction. A partir des données démographiques d'Amérique du Nord, Felsenstein (1971) a calculé que l'effectif efficace de la population était environ 34% de l'effectif de recensement, ce qui correspond grossièrement au tiers de la population, soit à la proportion des gens féconds de la population.

1.6 Variabilité du nombre de gamètes transmis par individu

Dans le modèle de Wright-Fisher, on fait l'hypothèse que le nombre de gamètes transmis par individu suit une loi de poisson de paramètre =2. Cependant, dans des populations naturelles de taille constante, le nombre de gamètes transmis k peut avoir une plus grande variance que celle d'une loi de Poisson (p. ex dans des population animales avec harems) ou bien une variance plus petite (p.ex chez des oiseaux qui contrôlent le nombre d'oeufs par nid). Dans ce cas, l'effectif efficace d'une population de taille constante qui a une variance V k du nombre de gamètes transmis par individu est donné par

a une variance V k du nombre de gamètes transmis par individu est donné par Génétique
a une variance V k du nombre de gamètes transmis par individu est donné par Génétique
a une variance V k du nombre de gamètes transmis par individu est donné par Génétique

Losqu'il y échantillonnage aléatoire des gamètes d'une génération à l'autre, la probabilité qu'un certain individu transmette un de ses gamètes est de p=1/N à chacun des 2N tirages pour former la génération suivante. Ce nombre suit exactement un loi binomiale de paramètre b( p, 2N) que l'on approxime par une loi de poisson de paramètre = 2Np =2. La variance du nombre de gamète transmis par individu selon une loi binomiale est donc

transmis par individu selon une loi binomiale est donc et dans ce cas, l'effectif efficace est

et dans ce cas, l'effectif efficace est donc bien de N e = N.

Lorsque l'effectif de la population n'est pas constant, Kimura et Crow (1963) suggèrent d'utiliser l'expression plus générale

suggèrent d'utiliser l'expression plus générale ou E k est l'espérance du nombre de gamètes

ou E k est l'espérance du nombre de gamètes transmis par individu.

Donc d'une manière générale,

Une variance du nombre de gamètes transmis plus grande que la moyenne va entraîner une diminution de l'effectif efficace de la population. ceci revient à dire que la dérive génétique dans une telle population sera plus forte que dans une population ou l'espérance et la variance de k sont identiques.

Une faible variance du nombre de gamètes transmis peut paradoxalement conduire à une taille efficace plus grande que l'effectif de recensement. Ainsi, si V k = 0, N e = 2N- 1, presque le double de l'effectif de recensement. Bien sûr, ce phénomène indique juste que le rythme de la dérive génétique est diminué de moitié par rapport à une population de type Wright-Fisher.

Dans une population en expansion, le nombre de gamètes transmis est généralement plus important que dans une population stationnaire. Mais lorsque l'expansion est généralisé à tous les membres de la population, la variance de k est souvent faible et dans ce cas aussi, on a une taille efficace plus grande que l'effectif de recensement. Donc pendant des périodes de croissance de population, on a une réduction de la dérive génétique dans la population.

Exemples:

on a une réduction de la dérive génétique dans la population. Exemples : Génétique des populations
on a une réduction de la dérive génétique dans la population. Exemples : Génétique des populations

Chez l'homme, Crow et Morton (1955) ont trouvé que l'effectif efficace était réduit de 5 à 30% selon les populations de part la grande variance du nombre de gamètes transmis.

Dans une population humaine polygame ou la variance du nombre d'enfants par individus serait 2 fois plus grande chez les hommes que chez les femmes, soit V km = 4 et V kf = 2, on s'attendrait à avoir une taille efficace pour l'ADNmt qui soit d'environ N/2, mais seulement de N/3 pour le chromosome Y.

2. Modèles démographiques de changement de taille de population

Les populations naturelles sont rarement stationnaires et elles peuvent passer par des périodes d'augmentation ou de réduction d'effectif. Il existe des modèles simples de croissance de population qui approximent assez bien les phénomènes réels.

2.1 Croissance ou décroissance exponentielle

On admet que l'on a une population dont l'effectif est augmenté d'un certain facteur r à chaque génération, soit

d'un certain facteur r à chaque génération, soit Dans l'exemple de croissance exponentielle de la

Dans l'exemple de croissance exponentielle de la population humaine qui aurait passé de 10'000 à 10 milliards d'individus en 100'000 ans, le facteur d'accroissement r est égal à 0.00276, soit un accroissement de 2.76 pour mille par génération

De la même manière, on peut avoir une population qui décroit exponentiellement

on peut avoir une population qui décroit exponentiellement 2.2 Croissance logistique Le modèle de croisance ou

2.2 Croissance logistique

Le modèle de croisance ou décroissance exponentielle n'est pas toujours réaliste car les conditions de croissance ou décroissance d'une population vont varier au cours du temps. Par exemple, des ressources abondantes vont permettre à une populatin de mieux se nourrir et de croître rapidement, mais au fur et à mesure de la croissance, chaque individu aura une moins grande proportion des ressources limitées à disposition. On va donc introduire la notion de capacité de soutien K (carrying capacity) d'un certain environnement, qui exprime l'effectif maximal d'une population dans un environnement donné. Ainsi, l'évolution de la population dans un milieu à ressource limité est modélisé par une croissance logistique de la forme

à ressource limité est modélisé par une croissance logistique de la forme Génétique des populations Page
à ressource limité est modélisé par une croissance logistique de la forme Génétique des populations Page
à ressource limité est modélisé par une croissance logistique de la forme Génétique des populations Page

On voit que cela ressemble à de la croissance exponentielle, mais que le facteur d'accroissement dépend maintenant du rapport de l'effectif à la génération précédente et de la capacité de soutien. Le rythme de croissance sera d'autant plus faible que l'effectif de la popuilation sera proche de la capacité de soutien. L'équation peut être exprimée en fonction de N(0) en résolvant une équation différentielle en approximation continue, ce qui donne

différentielle en approximation continue, ce qui donne Croissances exponentielles et logistiques On notera que

Croissances exponentielles et logistiques

ce qui donne Croissances exponentielles et logistiques On notera que d'autres modèles de croissance logistique

On notera que d'autres modèles de croissance logistique ont été développés, où le fateur d'acroissement est un peu différent de celui exposé ici.

3. Effet des expansions démographiques sur la diversité moléculaire

On a vu que la probabilité de coalescence à une génération donnée dépend de l'effectif de la population, si bien que pour des populations de taille constante, la longueur des branches d'une généalogie est directement proportionnelle à l'effectif de la population (voir différence entre généalogie moyenne pour des gènes nucléaires et mitochondriaux tirés de la même population).

Le même raisonnement peut s'appliquer à des populations de taille variable. Richard Hudson et Montgomery Slatkin (1991) ont montré que des populations qui étaient entrées en expansion exponentielle récemment présentaient des arbres en étoile (star-like trees) ou en peigne. Alan Rogers et Henry Harpending (1992) on ensuite montré que des expansions instantanées récentes étaient de bonnes approximatins de croissances de type logistiques ou exponentielles. Ces expansions démographiques laissaient une signature au niveau moléculaire au niveau de la distribution du nombre de différences par paires. Ces

moléculaire au niveau de la distribution du nombre de différences par paires. Ces Génétique des populations
moléculaire au niveau de la distribution du nombre de différences par paires. Ces Génétique des populations

distributions mismatch présentent en effet une allure unimodale avec une forme de courbe en cloche.

On peut le comprendre aisément en s'intéressant à la généalogie d'un échantillon tiré d'une population ayant connu une croissance démographique récente.

On représente ici le profil démographique d'une population ayant eu une augmentation instantanée de taille d'un facteur 100, passant d'une taille N 0 de 1'000 individus (ici haploides) à une taille N 1 de 100'000 individus. Ceci s'est passé il y a t générations.

A la génération actuelle, on est donc dans une grande population, où la probabilité de coalescence d'une paire de lignage à chaque génération est de 1/ N 1 . Comme cette probabilité est petite, les évènements de coalescence sont rares. Au temps t, la population passe de N 1 à N 0 et la probabilité de coalescence devient 100 fois plus grande. C'est donc à ce moment que vont se produire la majorité des coalescences.

moment que vont se produire la majorité des coalescences. Processus de mutation superposé au processus de

Processus de mutation superposé au processus de coalescence

des coalescences. Processus de mutation superposé au processus de coalescence Génétique des populations Page 45
des coalescences. Processus de mutation superposé au processus de coalescence Génétique des populations Page 45
La généalogie d'une population ayant connu une expansion récente sera donc typiquement en forme de

La généalogie d'une population ayant connu une expansion récente sera donc typiquement en forme de peigne, avec de longues branches terminales et de courtes branches internes.

Comme les mutations se produisent au hasard le long des branches de l'arbre, elles auront plus de chances de survenir sur les branches longues que sur les branches courtes. Il s'ensuit que la majorité des mutations vont se produire après l'expansion, lorsque l'effectif de la population est grand, et l'on va observer très peu de mutations qui se sont produites avant l'expansion

Distribution du nombre de différences par apires (distribution mismatch).

Le fait que les mutations se produisent sur les longues branches de l'arbre et que ces longues branches aient à peu près toutes la même longueur a une conséquence sur la diversité moléculaire observée. Lorsque l'on ompare deux à deux tous les gènes d'une population, ils vont présenter à peu près le même nombre de différences. Ceci est du au fait que les temps de coalescences de toutes les paires de l'échantillons sont très corrélées, et datent d'une brève période précédant l'expansion.

très corrélées, et datent d'une brève période précédant l'expansion. Génétique des populations Page 46
très corrélées, et datent d'une brève période précédant l'expansion. Génétique des populations Page 46

La forme caractéristique d'une distribution mismatch dans population qui a connu une expansion récente sera donc une courbe en cloche.

une expansion récente sera donc une courbe en cloche . Le mode de la distribution est

Le mode de la distribution est un indicateur du temps de l'expansion. En effet, si on a eu une expansion importante il y a t générations, le temps de coalescence moyen de deux gènes tirés au hasard sera d'un peu plus de t générations. Ces deux gènes auront donc été séparés par environ 2t générations. Si l'on a un taux de mutation u par génération, alors ces deuc gènes devraient présenter en moyenne = 2tu mutations. Il en découle que

Le mode de la distribution nous donne une idée approximative du temps de l'expansion

Ce temps d'expansion est exprimé en unité de 2u générations.

Si l'effectif de la population avant le bottleneck était déjà assez importante, les temps de coalescence entre paires de liganges seront moins corrélés et la distribution sera plus dispersée. L'estimation du temps de l'expansion sera plsu imprécise.

La distribution mismatch attendue après une expansion instantanée a été dérivée par Li 1977 et redérivée par Rogers et Harpending en 1992, sous le modèle des sites infinis. La probabilité d'observer S différences va dépendre du temps de l'expansion et de l'effectif de la population avant et après l'expansion, ces paramètres étant exprimés en unités de 2u générations, et donc égaux respectivement à = 2tu, = 2N 0 u , et = 2N 1 u. Elle dépend est donnée par

 = 2 N 0 u , et    = 2 N 1 u
 = 2 N 0 u , et    = 2 N 1 u
où F S (  ) est la probabilité que deux gènes présentent S mutations

F S () est la probabilité que deux gènes présentent S mutations dans une population stationnaire de taille . et qui a été donnée par watterson (1975) comme

 . et qui a été donnée par watterson (1975) comme Il semble donc possible d'estimer

Il semble donc possible d'estimer ces paramètres d'expansion démographique à partir de la distribution mismatch observée dans une population, par exemple par la méthode des moindres carrés, encherchant les paramètres qui minimisent l'écart entre les points de la distribution mismatch observée et attendue.

Exemples de distributions mismatch observées pour la région HV1 de l'ADN mitochondrial humain.

Distribution mismatch dans des populations européennes

Distribution mismatch dans des populations européennes Distribution mismatch dans des populations africaines

Distribution mismatch dans des populations africaines

des populations européennes Distribution mismatch dans des populations africaines Génétique des populations Page 48
des populations européennes Distribution mismatch dans des populations africaines Génétique des populations Page 48
Temps d'expansions relatif estimés pour diverses populations humaines Génétique des populations Page 49

Temps d'expansions relatif estimés pour diverses populations humaines

Temps d'expansions relatif estimés pour diverses populations humaines Génétique des populations Page 49
Temps d'expansions relatif estimés pour diverses populations humaines Génétique des populations Page 49
Temps d'expansions relatif estimés pour diverses populations humaines Génétique des populations Page 49

Seuls les secteurs noirs représentent des expansions significatives

La référence est la population Turkana du nord Kenya, pour laquelle la date d'expansion la plus ancienne a été trouvée (=2tu=0.036). Il existe une polémique importante sur le taux réel de mutation de l'ADN mitochondrial humain. Les estimations varient de 7% de différence par million d'années de divergence à plusde 150%. Nos propres estimations donnent des chiffres d'environ 7%, ce qui daterait l'expansion démographique des Turkana à environ 500'000 ans, avec un intervalle de confiance à 95% de 332'000 à 627'000 ans. Des taux de mutations plus élevés donneraient des temps d'expansion plus récents. Toutefois, les dates d'expansion humaines semblent indiquer qu'elles ont connu pour la plupart une forte expansion démographique au Pléistocène, et pas au Néolithique.

Bien que les démographes et les archéologistes nous disent que la population humaine a connu une forte expansion au Néolithique, celle-ci n'aurait pas laissé de trace au niveau moléculaire, car l'effectif de la population humaine était déjà trop important avent cette expansion. On voit donc uniquement la trace d'une expansion qui fait passer une population d'une très petite taille à une grande taille, et les expansions ultérieures sont plus difficiles à déceler.

expansions ultérieures sont plus difficiles à déceler. Population subdivisée - Modèles de migration 1.

Population subdivisée - Modèles de migration

1. Populations subdivisées

Les populations naturelles ne peuvent pas toujours être considérées comme des populations panmictiques où les gamètes s'unissent au hasard. On a déjà vu un effet de l'écart à la panmixie qui est le fait que des individus apparentés s'unissent pour avoir des descendants:

la consanguinité. Sa conséquence est que les deux gènes à l'intérieur d'un individu sont plus corrélés que deux gènes pris au hasard dans la population ou entre deux individus. On peut

que deux gènes pris au hasard dans la population ou entre deux individus. On peut Génétique
que deux gènes pris au hasard dans la population ou entre deux individus. On peut Génétique

donc considérer qu'un premier niveau de subdivision est le compartiment formé par l'individu diploide qui contient deux copies d'un certain gène.

Dans les populations naturelles, les individus ne peuvent pas toujours s'unir aléatoirement sur l'ensemble de leur aire de répartition, du fait de contraintes géographique ou environnementales. Les populations seront donc presque toujours subdivisées géographiquement avec des individus qui s'unissent plus souvent avec des individus géographiquement proches qu'avec des individus éloignés. Les unités à l'intérieur desquelles les individus s'unissent le plus souvent sont appelées des dèmes. Ces dèmes peuvent être plus ou moins isolés les uns des autres, former des unités discrètes ou il peut y avoir une certaine continuité (génétique) entre dèmes voisins. Cependant, la dérive génétique va agir différemment dans chaque dème, et les dèmes vont progressivement se différencier les uns des autres.

Ces dèmes peuvent être eux-mêmes organisés en groupes dont les individus de différents s'unissent occasionnellement. On peut ainsi imaginer une espèce comme une poupée russe ayant différents degrés de subdivisions imbriqués les uns dans les autres.Donc pour la génétique des populations, une espèce est une grande population subdivisée.

Population hiérarchiquement subdivisée

subdivisée. Population hiérarchiquement subdivisée Ces dèmes peuvent maintenir des contacts entre eux par

Ces dèmes peuvent maintenir des contacts entre eux par l'échange de gènes véhiculés par des migrants. La migration va donc maintenir un certain niveau de cohérence génétique entre ces dèmes.

1.1 Effet Wahlund: Excès d'homozygotes dans les populations subdivisées

On n'a pas toujours conscience que la population que l'on étudie est subdivisée. Cependant la non prise en compte de cette subdivision a comme effet un écart à l'équilibre de Hardy- Weinberg qui se traduit par un excès du nombre d'homozygotes observés par rapport aux fréquences alléliques calculées.

d'homozygotes observés par rapport aux fréquences alléliques calculées. Génétique des populations Page 51
d'homozygotes observés par rapport aux fréquences alléliques calculées. Génétique des populations Page 51

Pour un locus à 2 allèles qui ont des fréquences p et (1-p), la proportion d'hétérozygotes H S observés sur l'ensemble des subdivisions peut être exprimé simplement comme l'hétérozygoite moyenne

exprimé simplement comme l'hétérozygoite moyenne Si on a l'équilibre de Hardy-Weinberg à

Si on a l'équilibre de Hardy-Weinberg à l'intérieur de chaque dème, alors H Sk = 2 p k (1-p k ) et on a donc

alors H S k = 2 p k (1- p k ) et on a donc

En se souvenant que var(X)=E(X 2 )-E(X) 2 , on a

se souvenant que var( X )=E( X 2 )-E( X ) 2 , on a On

On voit donc que la fréquence observée des hétérozygotes dans l'ensemble des subdivisions est égale à la fréquence attendue sous l'équilibre de Hardy-Weiberg en considérant la fréquence moyenne p sur l'ensemble des d dèmes moins deux fois la variance des fréquences alléliques sur l'ensemble des dèmes. En ignorant la présence de subdivisions, on va observer un déficit d'hétérozygotes, et donc un excès d'homozygotes par rapport aux fréquencs alléliques observées. Cet effet Wahlund est une conséquence directe de la présence de subdivisions à l'intérieur d'une population, et il sera d'autant plus prononcé que les populations sont plus différenciées.

Conséquence: Lorsque l'on mesure un excès significatif d'homozygotes, on peut légitimement se demander si la population étudiée n'est pas subdivisée ou amalgamé, c'est à dire qu'elle le fruit d'un rassemblement d'individus provenant de populations en équilibre de Hardy-Weinberg mais qui présentent des différences de fréquences alléliques.

2. Modèles de subdivisions avec migration

Nous allons maintenant passer en revue différents modèles de population subdivisée, dontles dèmes échangent des migrants.

subdivisée, dontles dèmes échangent des migrants.  Modèle de populations en îles ( Wright's island
subdivisée, dontles dèmes échangent des migrants.  Modèle de populations en îles ( Wright's island
subdivisée, dontles dèmes échangent des migrants.  Modèle de populations en îles ( Wright's island

Dans le modèle de populations (dèmes) arrangés en îles indépendantes, comme dans un archipel. On considère que les d dèmes peuvent échanger des migrants avec tous les autres dèmes, habituellement avec la même probabilité m/(d-1). Les dèmes sont donc interconnectés par des flux de gènes identiques. Ce modèle n'est guère vraisemblable dans les populations naturelles, mais il conduit à un traitement mathématique très simple.

Modèle de 5 populations échangeant toutes une même proportion m/4 de migrants par générations

une même proportion m /4 de migrants par générations Le processus de migration va donc interférer

Le processus de migration va donc interférer avec le processus de dérive à l'intérieur des dèmes. Du fait des migrations, le processus de dérive génétique ne sera plus indépendant dans chaque population, et de nouveaux allèles pourront être introduits dans des dèmes où

un autre allèle s'était fixé. Cela va aussi affecter la probabilité d'identité par ascendance. Ainsi

la variation du coefficient de consanguinité entre générations sera donnée par

de consanguinité entre générations sera donnée par A l'équilibre, où la perte d'allèle par dérive

A l'équilibre, où la perte d'allèle par dérive est compensée par l'introduction de nouveaux

allèles par migration, f (t+1) = f (t) =f et

allèles par migration, f ( t +1) = f ( t ) = f et En

En résolvant pour f on arrive à

+1) = f ( t ) = f et En résolvant pour f on arrive à

ce qui montre que si m>0, l'homozygotie attendue à l'intérieur de chaque dème ne tend

plus vers 1, comme dans une population de taille finie, et donc on ne va plus obligatoirement fixer d'allèles.

de taille finie, et donc on ne va plus obligatoirement fixer d'allèles. Génétique des populations Page
de taille finie, et donc on ne va plus obligatoirement fixer d'allèles. Génétique des populations Page

On a vu précédemment que f pouvait être considéré comme un coefficient de corrélation. Dans notre cas, il exprime la corrélation entre 2 gènes tirés de la même subdivision (dème) par rapport à 2 gènes tirés au hasard dans la population totale. On note cette corrélation par F ST , et donc l'espérance de la valeur de F ST dans un modèle en île est donné par:

de F S T dans un modèle en île est donné par: Le produit Nm est

Le produit Nm est important car il représente le nombre absolu de migrants arrivant dans chaque dème par génération. En effet, m représente la probabilité pour un gène donné de migrer dans un dème, mais aussi la probabilité pour un gène donné qu'il soit un nouvel immigrant. A l'équilibre et en admettant que la taille de dèmes soit constante au cours du temps, le produit Nm représente donc bien la fraction attendue des gènes d'un dème qui sont de nouveaux immigrants.

L'homozygotie attendue à l'intérieur des dèmes diminue rapidement avec Nm

Nm

E( F ST )

0.25 (un migrant toutes les 4 générations)

0.50

0.5 (un migrant toutes les 2 générations)

0.33

1 (un migrant par génération)

0.20

2 (deux migrants par génération)

0.11

La valeur de Nm est importante pour savoir comment vont évoluer un ensemble de populations. Moran (1962) a montré que le taux de diminution de l'hétérozygotie dans une population structurée en île et comprenant d dèmes était à peu près comparable à celui d'une population non-structurée de taille Nd si Nm >> 1. Ce résultat ne concerne que la variation du taux d'hétérozygotie. On a abusivement interprété ce résultat en disant qu'une population subdivisée où Nm est > 1 se comportait comme une seule grande population panmictique. Cela est faux pour divers aspect de la diversité génétique. C'est rassurant car on peut donc parvenir à distinguer différentes structures génétique par l'observation de la diversité génétique à l'intérieur et entre les dèmes.

On utilise souvent la relation entre Nm et la valeur de F ST à l'équilibre pour le modèle en île pour estimer Nm. En faisant cela, on fait bien sûr l'hypothèse que les dèmes que l'on observe sont bien arrangés en île et que nous sommes à l'équilibre migration-dérive. Ainsi,

nous sommes à l'équilibre migration-dérive. Ainsi, Chez l'homme, à l'échelle mondiale la valuer de F

Chez l'homme, à l'échelle mondiale la valuer de F ST est d'environ 0.1, ce qui donne une valeur de Nm de 2.25 . On a donc un degréd e différentiation entre les populations humaines qui est celle que l'on attendrait si toutes les populations étaient stationnaires et qu'elles échangeaient 2.25 migrants par génération en moyenne. Nous verrons plus tard comment on estime ces valeurs de F ST .

en moyenne. Nous verrons plus tard comment on estime ces valeurs de F S T .
en moyenne. Nous verrons plus tard comment on estime ces valeurs de F S T .

L'effectif efficace d'une population subdivisée est en fait plus grande que celui d'une population panmictique (Whitlock et Barton 1996), et elle est dépend du degré de différentiation des dèmes comme

est dépend du degré de différentiation des dèmes comme Ce résultat est dû au fait que

Ce résultat est dû au fait que l'effectif de chaque dème est fixe, et donc que les gènes d'individus d'un certain dème vont obligatoirement avoir des représentants à la génération suivante, et vont donc contribuer à diminuer la variance du nombre de descendants par rapport à une population panmictique. On s'attendra donc à maintenir plus de diversité génétique dans une population subdivisée que dans une population panmictique de même taille de recensement.

Modèles de populations en treillis 1D-2D (Kimura's stepping-stone models)

Kimura (1953) a introduit des modèles de migration entre dèmes plus réalistes que le modèle en île. Il a en effet voulu tenir compte du fait que l'on échangeait plutôt des migrants entre dèmes géographiquement proches les uns des autres, et pas ou rarement entre dèmes éloignés. C'est donc un modèle spatialement structué. Kimura a introduit ces modèles par analogie avec les dalles permettant de circuler dans les jardins japonais. Il a donc qualifé ces modèles en anglais de steping-stone models.

Migration en treillis en 1 dimension

steping-stone models . Migration en treillis en 1 dimension Dans ce cas, les migrations se font

Dans ce cas, les migrations se font selon un axe principal, le nombre de populations pouvant être arbitraire. Un dème va échanger des gènes avec ses deux dèmes voisins à un taux m/2.

Migration en treillis en 2 dimensions

avec ses deux dèmes voisins à un taux m /2. Migration en treillis en 2 dimensions
avec ses deux dèmes voisins à un taux m /2. Migration en treillis en 2 dimensions
Dans ce cas, les dèmes sont arrangées selon deux axes, et un dème échangera des

Dans ce cas, les dèmes sont arrangées selon deux axes, et un dème échangera des gènes avec ses 4 plus proches voisins à un taux m/4.

Pour éviter des effets de bord, Maruyama (1971) a introduit un modèle en une dimension mais circulaire, et un modèle en deux dimension où les dèmes sont à la surface d'un torre.

Modèle avec taux de migration arbitraires (Migration matrix model)

Dans ce modèle, les taux de migrations entre les dèmes sont complétements arbitraires et pas forcément symétriques. les modèles en îles et en treillis sont bien sûr des cas particuliers de ces modèles matriciels.

Les taux de migrations sont ici symétriques et proportionnels à l'épaisseur des flèches

migrations sont ici symétriques et proportionnels à l'épaisseur des flèches Génétique des populations Page 56
migrations sont ici symétriques et proportionnels à l'épaisseur des flèches Génétique des populations Page 56
D'une manière générale, la variabilité génétique sera plus importante dans une population avec des taux

D'une manière générale, la variabilité génétique sera plus importante dans une population avec des taux de migrations très variables entre dèmes, car il y aura des dèmes très isolés où la dérive génétique sera forte et conduira rapidment à l'élimination de certains allèles.

Modèle d'isolement par la distance (Isolation by distance model)

Les modèles de migration en treillis sont des modèles discrets d'isolement par la distance, où l'on s'attend à ce que les dèmes soient d'autant plus proches génétiquement qu'ils sont proches géographiquement. Malécot (1950) a introduit des modèles où les dèmes sont situés dans un espace continu. Les individus migrent dans un certain dème situé à une certaine distance avec une probabilité inversément proportionnelles à la distance géographique séparant ces dèmes. On tient donc compte de la distribution des distances entre le lieu de naissance des individus et de leurs descendants. D'une manière générale, que ce soit dans un espace discret ou continu, la corrélation attendue entre gènes décroit exponentiellement avec la distance.

Modèle de méta-populations

Les modèles de méta-populations ont été introduits pour mieux coller à la réalité, et tenir compte de la nature dynamique des populations et des dèmes. Il y a en effet beaucoup de situations où les dèmes ont des tailles variables et peuvent même disparaître temprairement avant d'être crées à nouveau par de nouveaux migrants venant d'une population voisine et réoccupant le nouveau territoire. Ces propriétés sont assez typiques de petites populations, et ont donc d'importantes applications en génétique de la conservation.

Cycle d'extinction et de recolonisation dans un modèle de métapopulations

1. Taille de dèmes variables et taux de migration arbitraires

2. Un dème disparaît (extinction)

variables et taux de migration arbitraires 2. Un dème disparaît ( extinction ) Génétique des populations
variables et taux de migration arbitraires 2. Un dème disparaît ( extinction ) Génétique des populations
3. Un processus de recolonisation à partir d'un autre dème reconstitue ce dème 4. Le

3. Un processus de recolonisation à partir d'un autre dème reconstitue ce dème

à partir d'un autre dème reconstitue ce dème 4. Le nouveau dème reprend des échanges avec
à partir d'un autre dème reconstitue ce dème 4. Le nouveau dème reprend des échanges avec

4. Le nouveau dème reprend des échanges avec les autres dèmes

nouveau dème reprend des échanges avec les autres dèmes D'une manière générale, des dèmes de tailles

D'une manière générale, des dèmes de tailles inégales sont plus différenciés que des dèmes de tailles sensiblement équivalentes, car la dérive génétique sera surtout plus forte dans les petites populations. Les extinctions de dèmes contribuent aussi à augmenter la variabilité globale de la population, en éliminant certains allèles. Enfin, les recolonisations sont souvent accompagnées d'effets fondateurs, qui entraîne de grandes perturbation de fréquences alléliques, et qui vont donc aussi contribuer à l'augmentation de la variabilité génétique entre dèmes par rapport à un ensemble de populations arrangées en îles.

Whitlock et McCauley (1990) ont montré que la différentiation génétique des dèmes sera plus grande que celle d'une population arrangée en île si

grande que celle d'une population arrangée en île si où k est le nombre moyen d'individus

k est le nombre moyen d'individus qui colonisent de nouveaux dèmes, N est la taille des populations qui subsistent, m est le taux de migration entre dèmes et est la probabilité que deux gènes colonisateurs viennent du même dème source. Dans la plupart des métapopulations, cette relation est vérifiée. Si le degré de différentiation entre dèmes est plus faible que dans le cas d'une population en île cela implique que la taille efficace d'une telle population sera plus faible que dans le cas en île (voir Hedrick et Gilpin 1997 pour voir

sera plus faible que dans le cas en île (voir Hedrick et Gilpin 1997 pour voir
sera plus faible que dans le cas en île (voir Hedrick et Gilpin 1997 pour voir

l'influence de différents facteurs sur la taille efficace, comme le nombre de subdivisions, les taux de colonisation et d'extinction. la capacité de soutien ou le nombre de fondateurs).

3. Processus de coalescence dans les population subdivisées

Subdivisions sans migration: Fission de populations

Les populations peuvent être structurées de part leur histoire. Des fissions successives de populations vont créer de nouvelles populations qui vont se différencier progressivement les unes des autres. A partir du calcul de distances génétiques entre populations, on va essayer de reconstituer ce processus de fission (voir cours d'Alicia sanchez-Mazas). Il faut toutefois noter qu'il est difficile, voire impossible, de faire la différence entre une série de fissions de populations et une population subdivisée présentant différents taux de migrations entre dèmes (Felsenstein 1982).

taux de migrations entre dèmes (Felsenstein 1982). Admettons cependant que 4 populations se sont

Admettons cependant que 4 populations se sont progressivement différenciées à partir d'une population ancestrale, comme montré ci-dessus. On va s'intéresser aux évènements de coalescences se produisant entre les différents gènes provenant de populations identiques ou différentes. Selon la taille des populations et leur temps de séparation, il se peut que la plupart des évènements de coalescence ne se produisent pas dans les populations les plus dérivées mais dans des population ancestrales. Ainsi, des gènes de différentes populations pourront très bien avoir des temps de coalescence plus petit que des gènes de la même population. Tajima (1983) a même calculé que l'on ait 95% de chance pour que les gènes de la même population coalescent avant deux gènes de populations différentes, il fallait que ces populations aient été séparées par environ 6N générations.

fallait que ces populations aient été séparées par environ 6 N générations. Génétique des populations Page
fallait que ces populations aient été séparées par environ 6 N générations. Génétique des populations Page

Conséquence: Lorsque l'on étudie la diversité moléculaire des populations d'une espèce, on ne verra à peu près jamais une correspondance parfaite entre la localisation géographique des gènes et leur position sur une phylogénie.

Phylogénie de 56 haplotypes de restriction de l'ADN mitochondrial humain (Excoffier et al. 1992)

de l'ADN mitochondrial humain (Excoffier et al. 1992) Cependant il existe quand même un certain degré

Cependant il existe quand même un certain degré de cohérence géographique entre la répartition spatiale des gènes et leur position phylogénétique. Ceci est à la base des de la phylogéographie (Avise et al. 1987) qui se réfère à l'étude des processus gouvernant la distribution géographique des lignages généalogiques au niveau intra et inter spécifique. C'est véritablement l'étude de John Avise en 1979 sur le polymorphisme de l'ADN mitochondrial des gaufres de poche qui a lancé cette discipline.

de l'ADN mitochondrial des gaufres de poche qui a lancé cette discipline. Génétique des populations Page
de l'ADN mitochondrial des gaufres de poche qui a lancé cette discipline. Génétique des populations Page
Phylogénie de 87 gaufres de poche (pocket gophers) d'àprès Avise et al. (1979). Les diférents

Phylogénie de 87 gaufres de poche (pocket gophers) d'àprès Avise et al. (1979). Les diférents haplotypes mitochondriaux (représentés par des lettres sont reliés les uns aux autres par un réseau parcimonieux.

Subdivisions avec migration

Lorsqu'il y a des migrations entre populations qui ont eu une histoire de fission, on s'attend à encore moins de cohérence entre localisation géographqie des gènes et relations généalogiques.

cohérence entre localisation géographqie des gènes et relations généalogiques. Génétique des populations Page 61
cohérence entre localisation géographqie des gènes et relations généalogiques. Génétique des populations Page 61
Généalogie de gènes dans des populations échangeant des migrants et ayant une histoire de fission

Généalogie de gènes dans des populations échangeant des migrants et ayant une histoire de fission à partir de populations ancestrales.

5. Estimation du degré de subdivision

5.1 Statistiques F (F-statistics)

On estime souvent le degré de subdivision d'une population au moyen de statistiques F (F- statistics) définies par Wright (1943). Ces statistiques correspondent aux corrélations de gènes pris à un certain niveau de subdivision par rapport à des gènes pris à un niveau supérieur de subdivision. On a a déjà vu que le coefficient de consanguinité f =F IS pouvait être exprimé comme la corrélation de deux gènes à l'intérieur d'un individu par rapport à deux gènes pris au hasard dans une subdivision (dans un dème). On peut définir des corrélations similaires pour des niveaux de subdivision supérieurs. On défini ainsi F ST comme la corrélation de deux gènes pris dans une subdivision par rapport à deux gènes pris au hasard dans la population totale, et F IT comme la corrélation de deux gènes d'un individu par rapport à deux gènes pris au hasard dans la population totale.

On avait vu que la proportion observée d'hétérozygotes à l'intérieur d'une subdivision H est une fonction de la probabilité que les deux gènes d'un individu sont identiques par ascendance, soit

d'un individu sont identiques par ascendance, soit Bien que cette relation avait été dérivée dans le

Bien que cette relation avait été dérivée dans le cas où les 2 gènes se trouvaient dans le même individu, celle-ci peut s'étendre plus généralement à deux gènes pris au hasard à n'importe quel niveau de subdivision, et par exemple à deux gènes pris au hasard dans un des dèmes de la population. Donc par extension, on a la relation

au hasard dans un des dèmes de la population. Donc par extension, on a la relation
au hasard dans un des dèmes de la population. Donc par extension, on a la relation
où H S est la proportion observée des hétérozygotes dans l'ensemble des subdivisions que l'on

H S est la proportion observée des hétérozygotes dans l'ensemble des subdivisions que l'on a déjà vue plus haut. S'il existe d subdivisions, H S peut aussi être considérée comme la probabilité moyenne d'être hétérozygote sur l'ensemble des d subdivisions. En remplaçant H S par la valeur trouvée par Wahlund on obtient la relation classique

trouvée par Wahlund on obtient la relation classique qui montre que la statistique F S T

qui montre que la statistique F ST est également la variance observée des fréquences alléliques sur la variance attendue.

Si l'on considère un modèle où l'on part d'une seule population qui se subdivise instantanément en plusieurs dèmes tous de même taille et possédant tous les même fréquences alléliques, la variance de p sera donc nulle au dèpart du processus. Ensuite, sos l'effet de la dérive génétique, les dèmes vont peu à peu se différencier les uns des autres pour leurs fréquences alléliques. En l'absence de migrations et de mutation, un allèle ou l'autre va aller se fixer dans chaque population, et la variance de p entre les popualtion sera égale à un maximum. Dans ce cas la valeur de F ST sera égale à 1. On voit donc que F ST traduit en quelque sorte le degré de différentiation des dèmes dans le processus de fixation des fréquences alléliques sous l'effet de la dérive génétique. C'est pourquoi ces statistiques F sont parfois appelées des indices de fixation (fixation indexes).

D'une manière générale, les statistiques F sont reliées les unes aux autres par la relation (p.ex. Wright 1969)

les unes aux autres par la relation (p.ex. Wright 1969) La barre sur le F I

La barre sur le F IS indique qu'il s'agit du coefficient de consanguinité moyen calculé sur l'ensemble des subdivisions.

Nei (1977) a montré comment calculer les statistiques F pour un nombre arbitraire d'allèles, car elles peuvent être exprimées simplement en fonction des hétérozygoties observées et attendues comme

fonction des hétérozygoties observées et attendues comme avec H o étant l'hétérozygotie observée
fonction des hétérozygoties observées et attendues comme avec H o étant l'hétérozygotie observée
fonction des hétérozygoties observées et attendues comme avec H o étant l'hétérozygotie observée

avec H o étant l'hétérozygotie observée dépendant des fréquences P kii des homozygotes A i A i dans les subdivisions

fréquences P k i i des homozygotes A i A i dans les subdivisions Génétique des
fréquences P k i i des homozygotes A i A i dans les subdivisions Génétique des
fréquences P k i i des homozygotes A i A i dans les subdivisions Génétique des

H S et H T étant des hétérozygoties attendues ne dépendant pas des fréquences génotypiques, mais uniquement des fréquences alléliques dans les subdivisions p ki

des fréquences alléliques dans les subdivisions p k i et bien sûr 5.2 Estimation des corrélations
des fréquences alléliques dans les subdivisions p k i et bien sûr 5.2 Estimation des corrélations

et bien sûr

alléliques dans les subdivisions p k i et bien sûr 5.2 Estimation des corrélations par l'analyse

5.2 Estimation des corrélations par l'analyse de variance

Cockerham (1969, 1973) a montré que les corrélations entre gènes similaires aux statistiques F pouvaient être estimées par une analyse de variance des fréquences alléliques. Une telle analyse consiste à partitionner la variabilité génétique totale en divers composants de variances qui expriment la proportion de la variance totale attribués à différents niveaux de subdivision de population, soit

aux différences entre gènes à l'intérieur des individus (2 w ),

aux différences entre individus à l'intérieur des dèmes (2 b )

aux différences entre dèmes (2 a )

La variance totale étant égale à la somme des composant de variance

Source de

Espèrance des

variabilité

d.l.

Somme des carrés

Carrés

carrés moyens

 

moyens

Entre

Entre
Entre
Entre

dèmes

d-1

Entre

 

individus à

individus à
individus à
individus à

l'intérieur

n-d

des dèmes

 

Entre gènes

Entre gènes  
 

à l'intérieur

à l'intérieur
à l'intérieur

des

n

individus

 

Total

2n-

1

  à l'intérieur des n individus   Total 2 n - 1 Génétique des populations Page
  à l'intérieur des n individus   Total 2 n - 1 Génétique des populations Page
  à l'intérieur des n individus   Total 2 n - 1 Génétique des populations Page
Cockerham a aussi monté que les statistiques F pouvaient être estimées par les relations Ces

Cockerham a aussi monté que les statistiques F pouvaient être estimées par les relations

statistiques F pouvaient être estimées par les relations Ces estimateurs diffèrent quelque peu des estimateur de

Ces estimateurs diffèrent quelque peu des estimateur de Nei à partir des hétérozygoties observées et attendues, et sont relativement moins biaisés, surtout lorsque le nombre de dèmes est la taille des échantillons est petit.

Nous avons ensuite montré (Excoffier et al. 1992) comment cette analyse de variance des fréquences alléliques pouvait être étendue pour incorporer la diversité moléculaire des gènes. On procède ainsi à une analyse de la variance moléculaire des échantillons (Analysis of MOlecular VAriance: AMOVA).

5. Mesures d'identité par ascendance et temps de coalescence

5.1 Différences entre statistiques F estimées par la méthode de Nei et par la méthode de Cockerham

La méthode de Nei par la mesure des hétérozygoties obsevées et attendues et celle de Cockerham par l'analyse de variance fournissent des estimateurs légèrement différents. Sans trop rentrer dans les détails, cela tient au fait que les deux méthodes n'estiment pas exactement les mêmes paramétres au niveau de la population.

Si l'on définit

Q 0 comme la probabilité que deux gènes du même individu soient identiques

Q 1 comme la probabilité que deux gènes d'individus différents du même dème soient identiques

Q 2 comme la probabilité que deux gènes de dèmes différents soient identiques

alors les corrélations des gènes calculées par l'analyse de variance de Cockerham sont données comme

l'analyse de variance de Cockerham sont données comme avec  0 = F I S ,

avec 0 = F IS , 1 = F IT , et 2 = F ST .

 0 = F I S ,  1 = F I T , et 
 0 = F I S ,  1 = F I T , et 

Pour les statistiques F estimées par la méthode de Nei on a les relations

F estimées par la méthode de Nei on a les relations où les probabilités d'identités suivantes

où les probabilités d'identités suivantes sont définies:

comme la probabilité que deux gènes du même dème soient identiques.

comme la probabilité que deux gènes de la population totale soient identiques.

5.2 Expression des statistiques F en fonction des temps de coalescence moyen des gènes

Montgomery Slatkin a montré la relation entre les probabilité d'identité Q définies plus haut et les temps de coalescence (Slatkin 1991; Slatkin et Voelm, 1991). Deux gènes seront identiques si, depuis leur ancêtre commun le plus récent (MRCA), il n'y a pas eu de mutations sur aucun des 2 lignages. Supposons que cet ancêtre commun vivait il y a t générations. Dès lors, si l'on admet encore que les mutations se produisent à un rythme u par génération, la probabilité qu'aucune mutation n'est survenue pendant les 2 t générations de séparation des deux gènes est donnée par

générations de séparation des deux gènes est donnée par Mais bien sûr on ne connait pas

Mais bien sûr on ne connait pas ce temps de coalescence, si bien que la probabilité non conditionnelle d'identité et obtenu en considérant tous les temps de coalescence possibles:

en considérant tous les temps de coalescence possibles: où P ( t ) est la probabilité

P(t) est la probabilité que deux gènes coalescent au temps t et qui suit une loi géométrique comme nous l'avons vu précédemement. Si u est petit, on a la relation approximative

. Si u est petit, on a la relation approximative où est simplement le temps de

. Si u est petit, on a la relation approximative où est simplement le temps de

est simplement le temps de coalescence moyen de deux gènes.

On peut utiliser cette relation pour reformuler n'importe quelle statistique F en fonction de temps de coalescences moyens. Ainsi, la statistique F ST estimée par l'analyse de variance devient

Ainsi, la statistique F S T estimée par l'analyse de variance devient Génétique des populations Page
Ainsi, la statistique F S T estimée par l'analyse de variance devient Génétique des populations Page
et où même dème et deux gènes tirés de dèmes différents. sont respectivement les temps
et où même dème et deux gènes tirés de dèmes différents. sont respectivement les temps

et

et où même dème et deux gènes tirés de dèmes différents. sont respectivement les temps de

même dème et deux gènes tirés de dèmes différents.

sont respectivement les temps de coalescence moyens de deux gènes tirés du

Ces reformulations en termes de temps de coalescence moyens permettent d'obtenir facilement les valeurs attendues des statistiques F dans différents modèles de subdivision (Slatkin 1991; Rousset 1996, 1997, 2000).

Exemple: F ST dans un modèle de pure fission avec tailles de population constantes

Slatkin (1995) a considéré un modèle de populations subdivisées sans migrations mais avec des fissions historiques. On supose qu'il y a T générations, un ensemble de dèmes ont divergés les uns des autres et sont restés séparés depuis cette période. Il suffit de trouver les

expressions pour

populations diploides et

et
et
de trouver les expressions pour populations diploides et et pour ce modèle démographique. On a déjà

pour ce modèle démographique. On a déjà vu que

= N pour les populations haploides de taille N.

= 2N pour les

Maintenant, considérons des gènes de dèmes différents. On sait que les dèmes sont restés séparés pendant T générations. Donc il n'y a pas pu y avoir de coalescence pendant cette période. Ensuite, les lignages se sont tous trouvés dans la population ancestrale de taille N. A partir de cet instant, le temps moyen de coalescence de 2 lignages était à nouveau de 2N

générations (pour des population diploides. Donc,

de 2 N générations (pour des population diploides. Donc, = T + 2 N , si

= T + 2N, si bien que

des population diploides. Donc, = T + 2 N , si bien que Dans ce cas,

Dans ce cas, on peut estimer le temps de divergence entre les dèmes à partir du F ST mesuré comme

le temps de divergence entre les dèmes à partir du F S T mesuré comme Génétique
le temps de divergence entre les dèmes à partir du F S T mesuré comme Génétique
On notera que ce temps est relatif à la taille des dèmes et de la

On notera que ce temps est relatif à la taille des dèmes et de la population ancestrale, et qu'il ne dépend pas du nomre de dèmes dans la subdivision. On peut donc utiliser cet estimateur comme une mesure de distance génétique entre 2 populations.

Tests de neutralité sélective

1. Qu'est-ce que la neutralité sélective ?

Pour mettre en évidence des mécanismes de sélection au niveau génétique et moléculaire, il importe de définir auparavant ce que l'on attend en absence de sélection. Si les observations ne peuvent être expliquées sous un modèle d'évolution neutre, alors seulement on pourra invoquer l'action de la sélection.

On a donc paradoxalement besoin de définir des modèles d'évolution neutralistes avant d'étudier l'effet de la sélection. Il existe plusieurs modèles de sélection comme la sélection directionnelle, balancée ou diversifiante. Cependant, la simple compréhension de ces phénomènes sélectifs ne nous permet pas décider si le polymorphisme observé (p. ex. la distribution des fréquences alléliques) est compatible ou non avec la théorie neutraliste.

Plusieurs auteurs se sont donc attachés à définir la distribution de différentes quantités observables sous l'hypothèse neutraliste, afin de permettre de décider de la vraisemblance du modèle neutraliste. Il est aussi important de noter la plupart de ces dérivations ont été obtenues sous l'hypothèse supplémentaire de stationarité démographique de la population. Ces test de neutralités sont donc plus exactement des test de neutralité sélective et d'équilibre des populations. Un écart significatif à l'attendu pourra donc être dû à un phénomène de sélection ou à un écart à l'équilibre démographique de la population, comme à un bottleneck ou une expansion.