Vous êtes sur la page 1sur 64

Gntique des Populations

Master GGS

Illustration de couverture : Haak et coll, Ancient DNA from European Early Neolithic Farmers Reveals Their Near Eastern Afnities, PLOS Biology (2010)

1 quilibre de Hardy-Weinberg

1.1 Population
Une population est un groupe dindividus qui vivent dans une aire gographique assez restreinte pour que chacun des membres de cette population ait la possibilit de se reproduire avec un autre membre de sexe oppos. Cette dnition est parfois bien adapte aux espces animales : les animaux domestiques dun mme levage forment une population ; un groupe dhirondelles qui se reproduit danne en anne dans la mme petite valle isole galement. Il est souvent ncessaire de diviser une population en sous-populations, en petites units reproductives qui ne sont pas isoles les unes avec les autres. Quand on en vient la gntique humaine, lagrgation en villes, rgions, nations, rend la dnition plus problmatique. Il y a cependant des populations humaines assez isoles, pour des raisons gographiques (les, hauts plateaux ou valles isoles) ou sociale (juifs Ashknazes, Huttrites, Amish).

1.2 Modle de l'urne gamtique


On considre une population idale dindividus diplodes avec une reproduction sexue (mission de gamtes qui fusionnent pour produire un nouvel individu). Les gnrations sont spares et non-chevauchantes, cest--dire que les individus arrivs maturit sexuelle se reproduisent avec les individus de leur propre gnration exclusivement. On considre le cas dun locus di-alllique A/a. On suppose que les gamtes produits reprsentent dlement la composition gntique de la population. Supposons qu la reproduction, les gamtes sont mis dans lenvironnement et quils sapparient au hasard : cest le modle de lurne gamtique, qui est ralis pour des espces vgtales (mission du pollen dispers au hasard dans lenvironnement), des champignons, certains animaux (coquillages). Dans ce cas, si p est la proportion des gamtes portant lallle A et q = 1 p est celle des gamtes portant lallle a, la fusion de deux gamtes produit

un individu AA avec probabilit f AA = p 2 un individu Aa avec probabilit f Aa = 2pq un individu aa avec probabilit f aa = q 2

la gnration suivante, les individus AA sont donc en proportion p 2 , les Aa (resp. aa) en proportion 2pq (resp. q 2 ). Dans les gamtes mis par cette nouvelle gnration, les gamtes A sont nouveau prsents en proportion f AA + 1 f Aa = p 2 + pq = p, et les gamtes a en proportion q : la composition de lurne gamtique 2 ne change pas, et les proportions gnotypiques donnes ci-dessus sont donc constantes de gnration en gnration : cest lquilibre de Hardy-Weinberg.

1 quilibre de Hardy-Weinberg Notons quon a bien f AA + f Aa + f aa = p 2 + 2pq + q 2 = (p + q)2 = 1, en vertu dune identit remarquable bien connue ! Revenons au cas dune population ayant une reproduction par accouplement. Cette situation est quivalente au modle de lurne gamtique, deux conditions : le choix du partenaire se fait au hasard (on parle de panmixie ; la population est dite panmictique) et que les gamtes mis par ces partenaires sapparient ensuite au hasard (pangamie). Dans le calcul, il na pas t ncessaire de supposer que les gnotypes des individus de la gnration t taient dans les proportions p 2 , 2pq, q 2 ; ds lors que le modle de lurne gamtique sapplique, ces proportions sont ralises la gnration suivante.

1.2.1 Les conditions de validit


Nous avons utilis plusieurs hypothses, parfois implicites. Tout dabord, pour que les gnotypes des individus prsents une gnration soient en proportions gales a la probabilit des unions des gamtes de lurne gamtique de la gnration prcdente, il faut supposer la condition suivante : Population innie Pour que la composition des gamtes rete dlement la composition alllique des individus : Pas de fertilit diffrentielle Pas de mutations de novo Pas de distortion de sgrgation miotique Pour avoir un tirage au hasard des gamtes dans lurne : Panmixie : formation des couples au hasard Pangamie : lors de la fcondation, les gamtes sunissent au hasard ; pas de slection gamtique. Enn, pour que la composition de la population ne change pas entre la fcondation et la reproduction : Pas de slection zygotique Pas de migration Bien sr ces conditions ne sont jamais vries. Lquilibre de Hardy-Weinberg concerne une population idale, en ralit on nest jamais tout fait lquilibre. Cependant, dans beaucoup de situations et des chelles de temps sufsament faibles (quelques gnrations), cela reste une description satisfaisante de la ralit. Mme pour quand on tudie des gnes soumis une forte slection, comme dans le cas dune maladie rcessive ltale, si on considre la population avant lge o la slections sopre, pourvu que la population parentale soit panmictique on observera les proportions de Hardy-Weinberg (voir galement section 1.5).

1.3 Locus multi-alllique


Dans le cas dun locus multi-alllique avec allles A1 , . . . , An de frquences respectives p 1 , . . . , p n , le mme raisonnement dans le modle de lurne gamtique montre que les frquences gnotypiques sont

f Ai A j = 2p i p j (avec i = j )
2 f Ai Ai = p i

1.4 Cas des htrosomes La somme de ces frquences vaut bien 1 ; comme dans le cas di-alllique, les valeurs de frquences gnotypiques correspondent au dveloppement du carr (p 1 + + p n )2 . L encore, une gnration dans les conditions de validit du modle suft tablir ses frquences, mme si elles ntaient pas vries la gnration prcdente. On dnit le taux dhtrozygotie en un locus comme tant la frquence des htrozygotes dans la population. Pour un locus di-alllique, cest H = 2pq = 1 p 2 q 2 ; dans le cas gnral cest H = 1
i 2 pi .

1.4 Cas des htrosomes


Les htrosomes ou gonosomes sont, chez lhomme et chez la plupart des mammifres, les chromosomes X et Y. Pour les locus situs sur le chromosome Y, la frquence des allles ports par les spermatozodes Y dans lurne gamtique est videmment gale leur frquence chez les mles, qui reste inchange au l des gnrations. Reste le cas du chromosome X. On se restreint au cas dun locus di-alllique A/a. Notons p m,t et p f ,t les frquences de lallle A chez les mles et les femelles la gnration t . On note q m,t = 1 p m,t et q f ,t = 1 p f ,t . Un mle de la gnration t + 1 na quun X, reu de sa mre, donc p m,t +1 = p f ,t , (1.1)

et chez les mles de la gnration t + 1, le gnotype A a pour frquence p m,t +1 = p f ,t et le gnotype a a pour frquence q m,t +1 . Une femelle de la gnration t + 1 reoit un X de chacun de ses parents, donc 1 p f ,t +1 = (p m,t + p f ,t ), 2 (1.2)

et chez les femelles de la gnration t + 1, le gnotype AA a pour frquence p m t p f ,t , le gnotype Aa a pour frquence p m t q f ,t + q m t p f ,t et le gnotype aa q m t q f ,t .

Si la frquence alllique est la mme chez les mles et les femelles


On en dduit immdiatement que si p m,0 = p f ,0 = p, alors toutes les gnrations suivantes, p m,t = p f ,t = p, et chez les femelles on a les proportions dHardy-Weinberg p 2 , 2pq, q 2 .

Cas gnral : volution vers l'quilibre


Dans le cas gnral, la diffrence des frquences allliques chez les deux sexes volue selon lquation 1 p f ,t +1 p m,t +1 = (p f ,t p m,t ), 2 obtenue en retranchant lquation 1.1 de lquation 1.2. On a donc p f ,t p m,t = et cette diffrence tend trs vite vers 0. Dautre part, 2p f ,t +1 + p m,t +1 = 2p f ,t + p m,t et donc la limite commune de p f ,t et p m,t est p =
1 3

1 2

(p f ,0 p m,0 ),

2p f ,0 + p m,0 .

1 quilibre de Hardy-Weinberg

1.0

frquences de A

0.6

0.8

mles femelles

q q q q q q q q q q

0.0

0.2

0.4

3 gnrations

1.5 Application l'estimation de frquences allliques


1.5.1 Dominance et codominance
Il y a des exemples de gnes di-allliques dont les allles sont codominants : ainsi, le systme de groupes sanguins MN, dtermin par un gne dallles m et n 1 selon la table 1.1. Gnotype Groupe mm M mn MN nn N

TABLE 1.1: Dterminisme des groupes sanguins MN Un autre exemple est donn par la couleur de certaines eurs, dtermine par un gne di-alllique A/a, o les eurs AA sont blanches, les eurs Aa sont roses, et les aa sont rouges. Pour dautres gnes, un allle est dominant sur lautre : cest le cas de la drpanocytose, ou anmie falciforme (en anglais : drepanocytosis ou sickle cell disease), une maladie du sang due une mutation du gne de la -globine, un des constituants de lhmoglobine 2 . On considrera deux allles de la -globine, S et A . La drpanocytose est une maladie rcessive : les individus atteints sont tous de gnotype S S . Chez les individus atteints, la -globine cre de longues chanes de polymre, donnant aux globules rouges une forme caractristique de faucille ; les symptmes principaux sont une anmie chronique et des crises vaso-occlusives (obstruction des vaisseaux sanguins capillaires par les globules rouges anormaux). Les htrozygotes S A ne prsentent pas les symptmes de la maladie, la majorit de leurs globules rouges tant normaux. Cependant lobservation du sang des htorygotes au microscope met en vidence la prsence de quelques globules rouges en faucille. On parle dans ce cas de phnotype SA (en anglais, sickle cell trait ou sicklemia). Ainsi, selon la manire dont on dcide dobserver le phnotype, on a dominance de A sur S , ou codominance des deux allles.

1.5.2 Estimation des frquences allliques


Reprenons lexemple des groupes sanguins MN. Si on observe le groupe sanguin dans un chantillon de 100 personnes, comme dans la table 1.2, on peut directement estimer les frquences allliques par comptage des allles m et n. En effet, chacun des 21 individus de groupe M porte deux allles m, et chacun des individus
1. La notation standard pour ces allles est LM et LN . 2. Lhmoglobine est un ttramre , cest--dire quelle est forme par lunion de 4 molcules, deux -globines et deux -globines.

1.5 Application lestimation de frquences allliques Groupe Effectifs M 21 MN 60 N 19

TABLE 1.2: Effectifs pour le groupe MN

MN en porte un ; cela fait en tout 2 21 + 60 = 102 allles m, sur un total de 200 allles observs (deux par individu), donc une frquence alllique f m = 102 = 0.51. 200 Cependant, dans le cas dominant ou rcessif, on ne peut plus procder ainsi. Par exemple, dans la table 1.3 on dnombre les cas de mucoviscidose dans un effectif de 25000 personnes. La mucoviscidose est une Phnotype Effectifs Sain 24989 Atteint 11

TABLE 1.3: Effectifs pour la mucoviscidose maladie rcessive, due une mutation du gne CFTR. Si on note A lallle normal et a lallle mutant, tous les individus atteints sont de gnotype aa ; les individus sains sont AA ou Aa. Faute de pouvoir sparer les htrozygotes des homozygotes AA, on ne peut pas compter les allles. On peut obtenir une estimation des frquences allliques en supposant que les frquences gnotypiques sont dans les proportions de Hardy-Weinberg. Cette hypothse parat audacieuse, car le trait est soumis slection ; cela se traduira pas un changement des frquences allliques au l des gnrations. Cependant, il suft que la population soit panmictique pour qu la naissance (avant que la slection nopre) les proportions de Hardy-Weinberg soient respectes. On peut donc estimer les frquences p et q de A et a en supposant que les individus sains sont en proportion p 2 + 2pq et les atteints en proportion q 2 . On a donc q 2 = 11/25000, do on tire q 0.021. Les tables 1.4 et 1.5 donnent des exemples de calculs de frquences des allles morbides (allles causant la maladie) pour quelques maladies dominantes et rcessives.

Maladie Mucoviscidose Phnylctonurie Drpanocytose

Frquence f 1/2500 1/16000 1/25 (Afrique)

Frquence de lallle morbide q= f 0,02 0,008 0,2

TABLE 1.4: Maladies rcessives. Les individus atteints sont aa, les individus sains sont AA ou aa. La frquence de AA est q 2 , donc q = f

1 quilibre de Hardy-Weinberg

Maladie Huntington Achondroplasie Rtinoblastome

Frquence f 1/10000 1/20000 1/30000

Frquence de lallle morbide q = 1 1 f 5 105 2,5 105 1,7 105

TABLE 1.5: Maladies dominantes. Les individus atteints sont Aa ou aa, les individus sains sont AA. La frquence de AA est p 2 , donc p = 1 f et p = 1 q = 1 1 f .

2 Modle deux locus

Introduction
On se place dans ce chapitre dans le modle de Hardy-Weinberg (panmixie, pangamie, absence de slection, de mutation, de migration, population innie, gnrations spares...). En considrant un locus multialllique A1 , . . . ,An , ce modle permet de montrer que les frquences p 1 , . . . , p n de ces allles sont constantes au l des gnrations ; on montre galement quun individu tir au hasard dans la population est de gnotype 2 Ai A j avec probabilit 2p i p j si i = j , et de gnotype Ai Ai avec probabilit p i .

2.1 Recombinaison
2.1.1 Les lois de Mendel l'preuve
Au dbut du XXe sicle, en soumettant des drosophiles des agents mutagnes, Thomas Hunt Morgan et ses collaborateurs ont obtenu des caractres rcessifs anormaux , gouverns par des allles A/a : le caractre napparat que chez les individus aa. On appelle a lallle mut, et A lallle sauvage (on rencontre parfois ce vocabulaire en gntique humaine). Considrons deux caractres rcessifs, correspondant des locus gntiques distincts, dallles A/a et B/b.

F IGURE 2.1: Modle modlien ou chromosomique naf ?

Morgan a ralis lexprience suivante (appele double backcross ) : on croise une souche sauvage AA, BB (individu P1 ) avec un mutant aa, bb (individu P2 ). On obtient un individu I1 dihybride de phnotype normal (sauvage), de gnotype Aa au premier locus et Bb au second.

2 Modle deux locus On croise cet individu avec son parent mutant (do le nom de backcross ) ou tout autre mutant aa, bb (individu I2 ). Quels seront les phnotypes des descendants ? Lindividu I2 nmet que des gamtes ab. Daprs les lois de Mendel, on a sgrgation indpendante des caractres : lindividu I1 doit mettre 4 types de gamtes en quantit gales, des gamtes AB, Ab, ab, et aB. Une autre possibilit, envisageable dans une thorie chromosomique nave , est la co-transmission par I1 des caractres reus de P1 ou P2 ; auquel cas les gamtes mis seront pour moiti AB, et pour moiti ab. Lobservation du phnotype des descendants de I1 et I2 permet de trancher : en fait le phnotype de chacun des descendants de I1 et I2 permet de connatre le type du gamte quil a hrit de I1 . Lexprience donne des rsultats du type de ceux rapports dans la table 2.1. Gamte AB ab Ab aB Total Effectifs 1339 1195 151 154 2839

TABLE 2.1: Une exprience de Morgan

Que sest-il pass ? Majoritairement, on a des gamtes AB et ab, donc co-transmission des caractres reus de P1 ou P2 ; cependant, quelques 305 descendants ont reu des gamtes Ab ou aB. Ce phnomne est appel recombinaison. On parle galement dindividus ou de gamtes recombinants. Ici on a 308/2839 = 10,7% de recombinants.

a b

A b

A B

A B

a B

a b

Individus diplodes

gamtes haplodes

F IGURE 2.2: Gamtes recombinants

Ces observations ont contribu faire admettre la thorie chromosomique, selon laquelle les chromosomes sont les supports matriels de lhrdit, tout en mettant en vidence le phnomne de la recombinaison, qui sexplique par lexistence de crossovers lors de la mose.

2.2 Distance gntique


2.2.1 Dnition de la distance gntique
Plus deux locus sont physiquement distants sur un chromosome, plus il est probable quun crossover ait lieu entre eux lors dune mose. Ceci conduit dnir une unit de distance gntique, le Morgan.

2.2 Distance gntique

Une distance dun Morgan en deux locus correspond une moyenne dun crossover par mose entre ces deux locus.

On utilisera le plus souvent le centiMorgan (abrg cM), qui correspond un crossover toutes les 100 moses, en moyenne. Notons que si on suppose que les crossovers sont indpendants les uns des autres, cette dnition conduit une distance additive : pour trois locus polymorphes A/a, B/b et C/c se trouvant dans cet ordre sur le gnome, le nombre moyen de crossovers entre a et c est gal la somme du nombre moyen de crossovers entre a et b, et du nombre moyen de crossovers entre b et c : d (a,c) = d (a,b) + d (b,c).

2.2.2 Taux de recombinaison


On ne peut pas mesurer directement la distance, parce quon ne peut pas compter les crossovers. Ce quon mesure est la probabilit quil y ait eu un nombre impair de crossover ; si il y a eu un double crossover, on nobserve pas de recombinaison. On appelle cette probabilit taux de recombinaison, quon notera ab ou simplement . Cest une mesure de la distance gntique entre locus ; plus est lev, plus les locus considrs sont loigns. Si = 0, les deux locus sont si proches quaucune recombinaison na lieu entre eux (ils ne sont pas pour autant confondus). lautre extrme, il y a le cas o les deux locus sont sur des chromosomes diffrents. Cette fois, les caractres sgrgent indpendament. On na pas, au niveau molculaire, de crossover, mais du point de vue de la transmission du matriel gntique reu du parent on a une probabilit de recombinaison 1 = 2 . Cest la plus grande probabilit possible. Une valeur plus leve signierait que la recombinaison est plus probable que la co-transmission.

2.2.3 Distance de Haldane


Sous lhypothse dindpendance des crossovers, on montre que le nombre N de crossovers entre deux locus distance d suit une loi de Poisson de paramtre d . Le taux de recombinaison est alors la probabilit que N soit impair :

= P(N = 1) + P(N = 2) + P(N = 5) + d1 d3 d5 + + + e d 1! 3! 5! 1 = e d e d e d 2 1 = 1 e 2d 2 = On en dduit que le taux de recombinaison est bien toujours plus petit que 1 0 . 2
1 2

2 Modle deux locus On peut galement reformuler le lien entre la distance et le taux de recombinaison comme ceci : 1 d (a,b) = log(1 2ab ). 2

Cette expression de la distance entre deux locus en fonction du taux de recombinaison est due JBS Haldane ; on parle de distance de Haldane .

Pour ab petit, on a d (a,b) ab ; une distance dun centiMorgan correspond un cross-over en moyenne toutes les 100 moses, et (environ) un recombinant en moyenne toutes les 100 moses.

La distance gntique est en premire approximation proportionnelle la distance physique : pour le gnome humain, on utilise gnralement un centimorgan un million de paires de bases , soit 1cM 1Mb.

Additivit de la distance de Haldane


Une autre faon de motiver lintroduction de la distance de Haldane est la non-additivit des taux de recombinaison. Pour les petites distances, la probabilit de faire plus dun crossover est trs faible : par exemple, si on observe une recombinaison entre deux locus toutes les 100 moses, on en dduit quon a un crossover toutes les 100 moses, et que ces deux locus sont 1 cM lun de lautre ; ce qui revient poser d (a,b) ab . Dans leurs travaux, Morgan et ses collaborateurs ont utilis les taux de recombinaison comme unit de distance. Il supposaient en particulier ladditiv : pour trois locus polymorphes A/a, B/b et C/c se trouvant dans cet ordre sur le gnome, ils considraient ac = ab + bc . Cette galit est peu prs vraie pour des petits taux de recombinaison. Ceci permet la cartographie des chromosomes, lobservation des valeurs de ac , ab et bc permettant de savoir dans quel ordre les trois locus sont disposs sur un chromosome. Dans la suite nous continuons les supposer dans lordre a, b, c. Ds que les taux de recombinaison sont importants (autrement dit, ds que les locus sont loigns), cette proprit dadditivit est en dfaut : en effet, si il y a eu recombinaison entre a et b, puis entre b et c, on nobserve pas de recombinaison entre a et c ! (Cest ce que nous disions plus haut : les doubles crossovers ne comptent pas ). On observe une recombinaison entre a et c si il y en a eu une entre a et b et quil ny en a pas eu entre b et c, ou si il ny en a pas eu entre a et b et quil y en a eu une entre b et c, soit : ac = ab (1 bc ) + (1 ab )bc . En retravaillant un peu cette identit, on en tire (1 2ac ) = (1 2ab )(1 2bc ). On alors log(1 2ac ) = log(1 2ab ) log(1 2bc ) d (a,c) = d (a,b) + d (b,c). Ce qui montre que la distance de Haldane est bien additive, au contraire des taux de recombinaison.

10

2.3 quilibre et dsquilibre gamtique

2.2.4 Distance de Kosambi


La distance de Kosambi tient compte de lexistence dinterfrences : chez les humains, juste aprs un crossover, il y a une lgre diminution de la probabilit den observer un nouveau. Damodar Dharmanada Kosambi, se basant sur des donnes empiriques, a propos la distance d K (a,b) = 1 1 + 2ab . log 4 1 2ab

Elle est parfois utilise en analyse de liaison, cest--dire quand on cherche localiser des gnes impliqus dans une maladie sur le gnome. Il faut galement signaler que les recombinaisons sont plus frquentes chez les femmes que chez les hommes : en toute rigueur on doit utiliser des cartes diffrentes selon le sexe.

2.3 quilibre et dsquilibre gamtique


On considre toujours deux locus diallliques A/a et B/b, dans une population respectant les conditions de Hardy-Weinberg. Notons f A (respectivement f B ) la frquence de lallle A (respectivement B) et f a = 1 f A (respectivement f b = 1 f B ) la frquence de lallle a (respectivement b). Si on tire au hasard un gamte mis par la population, il peut tre de type AB, Ab, aB ou ab ; quelles sont les frquences f AB , f Ab , f aB ou f ab de ces 4 types dallles ? Si on a f AB f aB = = fA fB fa fB f Ab f ab = = fA fb fa fb

alors on dit quon a quilibre gamtique entre les locus considrs. Dans le cas contraire, on est en prsence dun dsquilibre gamtique. Si on observe sur un gamte, au premier locus, un allle A, alors le second locus porte lallle B avec la probaf bilit fAB . En labsence de dsquilibre gamtique, on voit que cette probabilit est gale f B , la probabilit B a priori quun gamte porte lallle B ; lobservation du premier locus na apport aucune information sur le second. Si au contraire il y a dsquilibre gamtique, lobservation du premier locus apporte une information sur le second. On parlera de dsquilibre maximal quand seulement trois des quatre gamtes possibles sont prsents : par exemple, f ab = 0. Dans ce cas, lobservation de lallle a au premier locus sera toujours accompagne de lobservation de lallle B au second locus ; inversement, lobservation de lallle b au second locus sera toujours accompagne de lobservation de lallle A au premier locus. On parlera de dsquilibre complet quand seulement deux des quatres gamtes possibles sont prsents : par exemple, f Ab = f aB = 0. Dans ce cas, lobservation de lallle prsent un des deux locus suft dterminer entirement lallle prsent lautre locus.

2.4 Mesures usuelles du dsquilibre gamtique


Il y a trois mesures utilises, toujours notes D, D et r 2 .

11

2 Modle deux locus

2.4.1 Le dsquilibre D
On pose D = f AB f A f B . On a D = 0 si, et seulement si, on a quilibre gamtique. Remarque 1 La dnition de D semble dpendre du choix arbitraire quon a fait pour les allles A/a et B/b. En fait, on a f aB f a f B = D f f A f b = D Ab f ab f a f b = D, donc D est bien dni au signe prs. On notera que cest galement la covariance des variables alatoires X et Y dnies par X = 1 (respectivement X = 0) si le gamte porte lallle A (respectivement lallle a), et Y = 1 (respectivement Y = 0) si le gamte porte lallle B (respectivement lallle b). Remarque 2 On peut galement remarquer que connatre f A , f B et D suft retrouver toutes les frquences gamtiques : on a par exemple f AB = f A f B + D, f Ab = f A f b D = f A (1 f B ) D, etc. Remarque 3 En utilisant f A = f AB + f Ab et f B = f AB + f aB , on obtient galement D = f AB f ab f Ab f aB .

2.4.2 Le dsquilibre D de Lewontin


valeurs xes pour f A , f B , les valeurs minimales et maximales que peut prendre D sont Dmin Dmax Lewontin a suggr de renormaliser D ainsi : D Dmax D = D Dmin = = max( f A f B , f a f b ), min( f A f b , f a f B ).

si D 0, si D 0.

Lavantage de D , cest quil prend des valeurs entre 0 et 1 ; il prend la valeur 1 quand le dsquilibre est maximal.

2.4.3 Le coecient de corrlation r 2


Enn, on utilisera trs souvent la mesure r 2 , qui est un coefcient de corrlation : D2 . fA fa fB fb

r2 =

Les valeurs prises par r 2 sont galement entre 0 et 1. On a r 2 = 1 quand le dsquilibre est complet.

12

2.5 volution au l du temps Le dsquilibre gamtique entre locus est souvent reprsent dans des diagrammes comme celui de la gure 2.3, o chaque carr reprsente le dsquilibre entre deux locus ; ici la couleur est dautant plus sombre que la valeur de r 2 est leve ; la valeur inscrite est 100 fois la valeur de r 2 . On lit par exemple que le quentre les SNP rs4512434 et rs4740848 on a r 2 = 0,32, entre rs4512434 et rs2274874, r 2 = 0,05, etc. Les carrs noirs correspondent r 2 = 1.

2.4.4 Calcul pratique du dsquilibre gamtique


En pratique, on nchantillonne que rarement des gamtes : on observe la plupart du temps des donnes gnotypiques, qui peuvent tre rsums dans une table comme celle-ci : BB AA Aa aa 100 40 4 144 Bb 60 112 20 192 bb 9 30 25 64 169 182 49 400

Sur un total de 400 individus, on a observ par exemple 169 individus de gnotype AA parmi lesquels 100 individus de gnotypes AA et BB, etc. Peut-on se servir de ces donnes pour estimer les frquences gamtiques ? Quand on est face ce problme, on parle galement des frquences haplotypiques, un haplotype tant lensemble des allles ports par un chromosome. Si un individu est, par exemple, de gnotypes AA et Bb, il a t form dun gamte AB et dun gamte Ab ; un de ces chromosomes porte lhaplotype AB et lautre lhaplotype Ab. On pourra utiliser la notation abrge : un individu AA, Bb est AB + Ab. Ainsi, les individus AA, BB sont AB + AB, on compte donc 200 haplotypes AB ; les 40 individus Aa, BB sont AB + aB, on compte donc 40 haplotypes AB et 40 haplotypes aB, etc. Si on tente de procder aisni un dnombrement complet des haplotypes, on a un problme avec les doubles htrozygotes Aa, Bb : sontils AB + ab ou Ab + aB ? Cette ambigut rend impossible lestimation des frquences gamtiques et du dsquilibre gamtique par simple comptage : il faut utiliser une estimation par maximum de vraisemblance ; voir dtails en encadr.

2.5 volution au l du temps


On a considr jusqu prsent les frquences gamtiques dans une population un temps t donn. On va voir comment ces frquences varient au l des gnrations. On considre deux locus en dsquilibre gamtique dans les gamtes mis par la gnration 0 ; on note D0 = f AB f A f B . On va sintresser aux gamtes mis par la gnration suivante. On note toujours = ab le taux de recombinaison entre les deux locus considrs. Rappelons quon est lquilibre de Hardy-Weinberg, donc les frquences f A et f B sont constantes dune gnration lautre. Tirons un gamte au hasard parmi les gamtes mis par la gnration 1. Quelle est la probabilit f AB quil soit AB ? Il y a deux faon dobtenir un tel gamte :

13

2 Modle deux locus

F IGURE 2.3: Reprsentation du dsquilibre gamtique pour 96 SNP dans le gne GLDC

14

2.5 volution au l du temps

(gure ralise avec Haploview, donnes HapMap pour la population europenne)

15

2 Modle deux locus

Estimation du dsquilibre par maximum de vraisemblance Avec des observations comme celles-ci : BB AA Aa aa 100 40 4 144 Bb 60 112 20 192 bb 9 30 25 64 169 182 49 400

on veut estimer la valeur du dsquilibre, cest--dire en fait les frquences haplotypiques. Notons dabord que f A , f B , f a et f b peuvent tre estims partir des effectifs de chacun des gnotypes : fA fB = =
1 800 (2 169 + 182) = 0,65 1 800 (2 144 + 192) = 0,6

f a = 1 f A = 0,35 f b = 1 f B = 0,4.

On peut maintenant crire la frquence de chacun des haplotypes en fonction du dsquilibre gamtique, qui est un paramtre inconnu que nous noterons ici d : f AB f aB = = f A f B + d = 0,39 + d f a f B d = 0,21 d f Ab = f A f b d = 0,26 d f ab = f a f b + d = 0,14 + d

On utilise lhypothse de panmixie de la population : les proportions gnotypiques sont les proportions de Hardy-Weinberg, et sont donc : BB AA Aa aa
2 f AB

Bb 2 f AB f Ab 2 f AB f ab +2 f aB f Ab 2 f aB f ab

bb
2 f Ab

2 f AB f aB
2 f aB

2 f Ab f ab
2 f ab

2 La vraisemblance dobserver un individu de gnotypes AA, BB est donc f AB , celle dobserver un individu de gnoype AA Bb est 2 f AB f Ab , etc. La vraisemblance de la totalit de nos observations est le produit des vraisemblances de chacune delles ; et la log-vraisemblance est la somme des log-vraisemblances, qui valent 2 log( f AB ), log(2 f AB f Ab ), etc. En reprenant les effectifs qui sont dans notre table dobservations, on crit que la log-vraisemblance est

(d )

= + +

100 2 log f AB 40 log 2 f AB f aB 4 2 log f aB

+ + +

60 log 2 f AB f Ab 112 log 2 f AB f ab + 2 f aB f Ab 20 log 2 f aB f ab

+ + +

9 2 log f Ab 30 log 2 f Ab f ab 25 2 log f ab .

Reste remplacer les frquences par leur valeur en fonction de d ; on obtient


(d ) = 100 2 log ((0,39 + d )) + + 40 log (2(0,39 + d )(0,21 d )) 4 2 log ((0,21 d )) + + + 60 log (2(0,39 + d )(0,26 d )) 112 log (2(0,39 + d )(0,14 + d ) + 2(0,21 d )(0,26 d )) 20 log (2(0,21 d )(0,14 + d )) + + + 9 2 log ((0,26 d )) 30 log (2(0,26 d )(0,14 + d )) 25 2 log ((0,14 + d )) .

16

2.5 volution au l du temps

Il reste chercher le maximum de la fonction (d ). Notez quelle nest dnie que pour d ] 0,14; 0,21[. Voici les graphes de la log-vraisemblance (d ) et de la vraisemblance L(d ) = exp (d ).

1000 900

800

1400

1200

L(d) 0.15 0.10 0.05 0.00 0.05 d 0.10 0.15 0.20 0

l(d)

5.5e325

0.06

0.08

0.10 d

0.12

0.14

Graphes de (d ) et de L(d ) = exp (d ).

Les deux fonctions atteignent leur maximum en d = 0.11. Cette valeur du dsquilibre gamtique permet de calculer les frquences haplotypiques : Haplotype AB Ab aB ab Frquence f A f B + d = 0,50 f A f b d = 0,15 f a f B d = 0,10 f a f b + d = 0,25

On peut galement sintresser la proportion de doubles htrozygotes Aa, Bb qui sont AB + ab ; cest 2 f AB f ab = 0,89. 2 f AB f ab + 2 f Ab f aB Note On pourra vrier que les effectifs gnotypiques prsents dans cet exemple sont parfaitement en accord avec les frquences quon peut calculer partir des frquences haplotypiques calcules ci-dessus ; cest une situation un peu articielle, en pratique bien entendu un petit cart subsistera.

17

2 Modle deux locus cest un gamte AB de la gnration prcdente (probabilit f AB ) qui na pas recombin (probabilit 1 ) ; cest un gamte form aprs une recombinaison (probabilit ) entre un gamte portant dune part lallle A (probabilit f A ) et dautre part lallle B (probabilit f B ). On a donc f AB = (1 ) f AB + f A f B . On en dduit immdiatement que le dsquilibre gamtique la gnration suivante, not D1 , est D1 = = = f AB f A f B (1 )( f AB f A f B ) . (1 )D0

Et ainsi, aprs n gnrations, le dsquilibre gamtique est Dn = (1 )n D0 .

On voit quentre deux locus non lis, cest--dire quand = 1 , le dsquilibre gamtique est divis par 1 = 2 1 chaque gnration. Ainsi, dans une population panmictique, un dsquilibre gamtique qui existerait 2 un moment donn dans la population entre deux locus non lis sestomperait en quelques gnrations. Au contraire, si est petit, par exemple = 0,01 (les locus sont une distance dun centimorgan lun de lautre), le dsquilibre gamtique peut perdurer pendant des gnrations ; on a 0,99110 = 0,33, cest--dire que pour des locus distants dun centimorgan il faut 110 gnrations, et donc environ 2750 ans pour diviser le dsquilibre par 3.

On parle de dsquilibre de liaison (DL), en anglais linkage disequilibrium (LD) quand on a dsquilibre gamtique entre deux locus gntiquement lis.

2.6 Gense d'un dsquilibre gamtique


Voyons maintenant quels vnements peuvent crer un dsquilibre gamtique.

2.6.1 Mlange de populations


On considre une population dont tous les individus sont de gnotypes AA et BB, quon mlange avec une autre population dont tous les individus sont de gnotypes aa et bb. Dans la nouvelle population obtenue, la premire gnration, tous les gamtes sont soit AB, soit ab : on a un dsquilibre complet ! Si la nouvelle population est panmictique, il sestompera au l des gnrations, plus ou moins rapidement selon la distance gntique qui spare des deux locis. De faon plus gnrale, si on mlange deux populations chez lesquelles aucun dsquilibre gamtique nexiste entre les locus considrs, il suft quil existe une diffrence de frquences allliques f A et f B entre ces deux populations pour que dans la nouvelle population forme il y ait dsquilibre gamtique. Le cas considr plus haut est celui o f A = 1, f B = 1 dans une population, et f A = 0, f B = 0 dans lautre.

18

2.7 Implications en pidmiologie gntique

2.6.2 Mutation
Considrons une population dans laquelle existe un polymorphisme di-alllique A/a ; chez un individu donn, en un locus jusqualors monomorphe B, apparat une mutation b. Si cet individu est de gnotype AA au premier locus, il contribuera lurne gamtique par des gamtes AB et Ab. Aucun gamte aB ne sera observ dans lurne gamtique ; on est prsence dun dsquilibre maximal. Ce dsquilibre sestompera nouveau selon la formule Dn = (1 )n D. Notons que lallle mut b pourrait disparatre trs vite, ou du moins rester trs rare ; le mcanisme dcrit sera dautant plus efcace pour crer un dsquilibre que la population sera petite, que lallle b sera soumis slection positive, etc.

2.6.3 Slection, drive, eet fondateur...


De faon gnrale, les mcanismes de pression volutive , qui tendent modier les frquences allliques en population, peuvent crer ou amplier un dsquilibre gamtique.

2.7 Implications en pidmiologie gntique


2.7.1 Analyse de liaison
Mme si on ne peut pas procder aux mmes expriences sur les humains que sur les drosophiles, lobservation de caractres mendliens (dominant/rcessifs) et de polymorphismes de sites de restriction a permis dtablir les premires cartes du gnome humain. Lanalyse de liaison permet dutiliser des donnes familiales (gnalogies avec de multiples atteints) pour placer le ou les locus morbides sur une telle carte.

2.7.2 Dsquilibre de liaison : LD mapping


Le dsquilibre gamtique permet dobtenir une information sur un locus polymorphe X simplement en considrant un ou plusieurs locus en dsquilibre avec X. Mme si le polymorphisme en X est inconnu de lexprimentateur, il peut esprer dtecter son existence en observant, dans une population de cas et de tmoins, des locus en dsquilibre de liaison avec X. Ceci peut permettre de localiser avec prcision la rgion du gnome, voire prcisment le gne au sein duquel existe un polymorphisme dont un ou plusieurs allles sont impliqus dans une maladie. Le projet HapMap a tabli une carte des SNP les plus frquents et du DL qui existe entre eux. On peut lutiliser pour choisir un ensemble de SNP le plus petit possible, tel que tous les SNP cartographis sont en DL avec , r 2 > 0,80 (ou un autre seuil arbitraire) avec un des SNP choisis ; on parle alors de tag SNP Sur la gure 2.4, on . peut voir un choix de tag SNP pour les premiers SNP du gne GLDC ; par exemple les SNP 38 et 55 sont en r 2 = 0,84, on peut donc ne conserver que le SNP 55, qui tague le SNP 38. Cependant, nous lavons vu, le dsquilibre gamtique peut exister entre des locus non lis, par exemple sil y a un mlange de population dans la population considre. Dans ce cas, le dsquilibre peut crer de fausses associations.

19

2 Modle deux locus

F IGURE 2.4: Tag SNP pour les premiers SNP du gne GLDC (en rouge)

2.8 Exercices
Exercice 1 On considre deux locus di-alliques A/a et B/b, avec frquences f A = 0,6, f a = 0,4, f B = 0,3, f b = 0,7. En supposant quil y a quilibre gamtique, calculer la frquence des gamtes AB, Ab, aB et ab. Quelle est la valeur minimale que peut prendre le dsquilibre D ? Et la valeur maximale ? Exercice 2 On considre 1000 individus gnotyps en deux locus di-allliques A/a et B/b. On a les effectifs suivants : Gnotype AA Effectifs Aa aa Gnotype BB Bb Effectifs bb

300 490 210

100 420 480

1. Sil y a quilibre gamtique, quelles sont les frquences des gamtes AB, Ab, aB, et ab ? 2. Les frquences gamtiques sont donnes dans la table suivante. Calculer D, D , r 2 . Gamte AB Ab aB ab

Frquences 0,04895 0,49605 0,26105 0,19365 Exercice 3 On considre une population forme par un mlange 50% de la sous-population S 1 et 50% de la sous-population S 2 . On a deux locus di-allliques A/a et B/b, en quilibre gamtique dans les deux sous-populations. Les frquences des allles dans les sous-population sont donnes par la table suivante : Population S1 S2 fA fa fB fb

0,2 0,8 0,5 0,5 0,6 0,4 0,3 0,7

1. Quelles sont les frquences allliques dans la population globale ?

20

2.8 Exercices 2. La population globale est elle lquilibre gamtique ? Calculez D, D , r 2 . Exercice 4 On considre une petite population et un locus di-alllique A/a, avec f A = 0,6 et f b = 0,4. En un locus pour lequel nexistait quun allbe B, un allle mutant b apparat chez un individu de gnotype AA, qui met donc des gamtes Ab. On suppose que dans lurne gamtique de cette gnration, on a les frquences suivantes :

f AB

f Ab

f aB

f ab

0,59 0,01 0,40 0,00

1. Pourquoi ny a-t-il aucun gamte ab dans cette urne ? 2. Calculez les valeurs de D, D et r 2 pour ces deux locus. 3. On suppose que le taux de recombinaison entre les deux locus est = 0,1. Quelle est la valeur de D attendue aprs 5 gnrations ? Quelle sont alors les frquences gamtiques attendues ?

21

3 Consanguinit et populations structures


Nous aborderons ici les consquences de deux modes dcart la panmixie, qui ont tout deux pour consquence que les deux allles ports par un individu en un locus autosomal sont positivement corrls : il sagit de la consanguinit, dune part, et du cas des populations structures en sous-populations, dautre part.

3.1 Forme gnrale des frquences gnotypiques


On considre un locus autosomal di-alllique A/a. On note p la frquence de lallle A, q = 1 p la frquence de lallle a, et f AA (respectivement f Aa , f aa ) la frquence du gnotype AA (resp. Aa, aa).
Aa Posons F = 1 2pq , de sorte que f Aa = 2pq 2Fpq ; F mesure lcart lquilibre de Hardy-Weinberg .

Nous allons crire f AA et f aa en fonction de p, q et F. On a p = f AA + 1 f Aa et donc 2 f AA = p 1 f Aa 2 1 = p 2pq 2Fpq 2 = p pq + Fpq = p(1 q) + Fpq = p 2 + Fpq et de mme on a f aa = q 2 + Fpq. Daprs ce qui prcde, si on observe un cart aux proportions de Hardy-Weinberg dans une population, on peut toujours dnir un paramtre F tel que f AA = p 2 + Fpq f Aa = 2pq 2Fpq f aa = q 2 + Fpq

Il est intressant deffectuer la rcriture suivante : p 2 + Fpq = p 2 + Fp(1 p) = p 2 + Fp Fp 2 = (1 F)p 2

23

3 Consanguinit et populations structures Ainsi les frquences gnotypiques peuvent scrire f AA = (1 F)p 2 + Fp f Aa = (1 F)2pq f aa = (1 F)q 2 + Fq

On appellera F lindice de xation de la population. On dnit galement le taux dhtrozygotie, qui est H = f Aa pour un locus di-alllique. On a H 2pq

F = 1

3.1.1 Indice de xation et corrlation


On tire un individu au hasard dans la population, et on observe lallle (A ou a) port par chacun des deux chromosomes homologues de lindividu. Dnissons deux variables alatoires X 1 et X 2 , une pour chacun des deux chromosomes, par 0 si lallle est A Xi = 1 si lallle est a Dans tous les cas, chaque X i suit une loi de Bernoulli B(q) o q est la frquence de lallle A. Considrons X = X 1 + X 2 , le gnotype cod additivement. Dans les conditions de Hardy-Weinberg, X 1 et X 2 sont indpendantes, et X est une variable binomiale Bin(2,q). Les carts aux proportions dHardy-Weinberg sont donc interprtables comme une dpendance entre X 1 et X 2 . Calculons la covariance de X 1 et X 2 en fonction de p, q et F. E(X 1 X 2 ) = P(X 1 = 1 et X 2 = 1) = P(X = 2) = f aa = q 2 + Fpq, do cov(X 1 , X 2 ) = E(X 1 X 2 ) E(X 1 )E(X 2 ) = q 2 + Fpq q q = Fpq Dautre part var(X 1 ) = var(X 2 ) = pq, et donc cor(X 1 , X 2 ) = cov(X 1 , X 2 ) var(X 1 )var(X 2 ) =F

Cest avec cette dnition que Wright (en 1922) a dabord introduit cet indice.

24

3.2 Consanguinit

3.1.2 Le signe de F
Bien sr F peut tre positif ou ngatif. Dans ce chapitre, nous considrerons des cas o F est positif : on a un dcit dhtrozygotes, qui traduit un appariement prfrentiel entre apparents, ou au sein de souspopulation. Si il y a un appariement prfrentiel entre individus de gnotypes diffrents, ce quon appelle htrogamie, cela se traduira par un excs dhtrozygotes, et par un indice de xation F ngatif.

3.2 Consanguinit
Commenons dabord par considrer le cas des individus consanguins avant de nous pencher sur la notion de consanguinit moyenne de la population. La gure 3.1 montre lexemple de lunion entre cousins germains.

F IGURE 3.1: Enfant issu de cousins germains

Lenfant I peut avoir reu deux copies dun mme gne anctre ; par exemple, une mme copie dun gne de la grand-mre A peut lui tre transmise travers D et G, ou travers F et H. On parle alors en anglais dIdentity By Descent (IBD) et en franais didentit par descendance 1 . Labrviation IBD est trs largement utilise. Il est important de faire la diffrence entre IBD et IBS, Identity By State, identit par tat : que les deux gnes homologues portent le mme allle (ils sont IBS) nimplique pas quils drivent dun anctre commun. Une diffrence notable est que quand deux individus sont IBD en un locus prcis du gnome, alors ils seront IBD sur tout un segment de chromosome stendant de part et dautre de ce locus (voir galement la gure 3.5).

1. Il sagit dune mauvaise traduction : descent a pour dnition derivation from an ancestor : on traduirait mieux par identique par origine voire par ascendance

25

3 Consanguinit et populations structures

3.2.1 Coecients de parent et de consanguinit


Dnitions
Dnissons dabord quelques termes. Deux individus sont apparents sils ont un anctre commun ; un individu est consanguin si ses parents sont apparents ; le coefcient de parent de deux individus A et B est la probabilit AB que deux gnes homologues tirs au hasard, lun chez A, lautre chez B, soient identiques par descendance (IBD) ; le coefcient de consanguinit dun individu I est la probabilit f I que deux gnes homologues de lindividu soient identiques par descendance (IBD). Une consquence immdiate de la dnition est que le coefcient de consanguinit dun individu I est gal au coefcient de parent de ses parents P et M : f I = PM . Le coefcient de parent dun individu I avec lui-mme est li son coefcient de consanguinit par 1 1 1 + f I = (1 + f I ); 2 2 2

II =

en effet, deux gnes homologues tirs au hasard chez lindividu I sont, soit le mme gne (proba 1 ), soit les 2 deux copies distinctes portes par lindividu (proba 1 ) qui sont alors IBD avec probabilit f I . 2

Calcul par la mthode des boucles


Reprenons lexemple de lenfant de cousins germains. Nous supposons ci-dessous que les individus C et F ne sont pas apparents entre eux ni avec A et B, et, dans un premier temps, que A et B ne sont pas consanguins.

F IGURE 3.2: Calcul du coefcient de consanguinit Considrons les transmissions partir de lanctre A. Il y a une probabilit 1 que A transmette un mme gne 2 D et E. Si D et E ont reu le mme gne de A, D le transmet G avec probabilit 1 et E le transmet H avec 2

26

3.2 Consanguinit
1 probabilit 2 . Si enn G et H ont reu de la sorte le mme gne de A (ce qui arrive avec probabilit 1 ), ils le 8 1 1 transmettent I chacun avec probabilit 2 ; I reoit donc un gne IBD de A avec probabilit 32 . 1 Le mme rsultat vaut pour les transmissions partir de B : I reoit un gne IBD de B avec probabilit 32 . Pour nir, I pouvant recevoir ses deux gnes IBD de A ou de B, le coefcient de consanguinit de I vaut 1 1 1 32 + 32 = 16 .

Si A et B sont consanguins, il faut tenir compte du fait que mme sils ont transmis deux gnes diffrents, ces deux gnes peuvent tre IBD. Reprenons la premire boucle de consanguinit , cest--dire les transmissions partir de A. Si A transmet chacune de ses deux copies du gne considr D et E (probabilit 1 2 ), ces deux copies peuvent quand-mme tre IBD avec probabilit f A ; elles sont ensuite transmis I avec 1 1 probabilit 16 . Donc au nal la probabilit pour I davoir un gne IBD reu de A est 32 (1 + f A ). Cest la mme chose pour lautre boucle, et pour nir fI = 1 1 f A + fB 1 (1 + f A ) + (1 + f B ) = + 32 32 16 32

Cet exemple permet de comprendre la formule gnrale de Wright : fI =


A anctre commun

1 2

n A +m A +1

(1 + f A )

o la somme se fait sur toutes les boucles de consanguint, n A et m A sont les nombres de mioses entre dune part le pre de I et lanctre A, et dautre part la mre de I et lanctre A. La longueur totale de la boucle est donc n A + m A + 2. Signalons enn que pour mieux voir les boucles, on dessine souvent les pedigrees ainsi.

F IGURE 3.3: Autre reprsentation des pedigrees

La table 3.1 rcapitule quelques coefcients de parent classiques, quand les anctres ne sont ni consanguins, ni apparents entre eux. La vrication de ces valeurs est faire en exercice. Ces valeurs donnent galement les coefcients de consanguinit des enfants ns dunion entre individus ayant cet apparentement. Notez lemploi de germain , qui veut dire frre ou soeur (en anglais : sib ou sibling). On a inclu le coefcient de parent dun indidividu avec lui-mme pour le cas de lautogamie (possible et mme frquentes chez certaines plantes, par exemple les pois chers Mendel).

27

3 Consanguinit et populations structures Relation Identit Parent/enfant Germains Demi-germains Oncle/nice Cousins germains
1 2 1 4 1 4 1 8 1 8 1 16

TABLE 3.1: Coefcients de parent classiques

Calcul pratique par rcurrence


Il y a une mthode plus mcanique, peut-tre un peu fastidieuse mais sans doute plus sure quand les gnalogies sont compliques. Il sagit de calculer faon systmatique les coefcients de parent, en remontant larbre. On a les relations suivantes : 1 II = (1 + f I ) 2 Si P est le pre de I et M est la mre de I, 1 1 1 + f P + PM 4 4 2 1 1 1 MI = + f M + PM 4 4 2 PI =

Et enn, si I et J ne sont pas parent lun de lautre, et si PI , MI , PJ , MJ sont leurs parents respectifs,

IJ =

1 PI J + MI J 2 1 = I PI + I MJ 2 1 = PI PJ + PI MJ + MI PJ + MI MJ 4

Cette dernire relation reste valable si PI = PJ ou MI = MJ ou les deux (auquel cas I et J sont germains). En appliquant ces relations de faon rptitive, on arrive calculer les coefcients de parents entre deux personnes quelconques de larbre, et donc les coefcients de consanguinit. Exemple des cousins germains Reprenons lexemple de la gure 3.2. On a f I = GH ; pour calculer GH , on crit GH = 1 (CE + CF + DE + DF ) 4 1 = DE , 4

28

3.2 Consanguinit car C et E ne sont pas apparents, ni C et F, ni D et F. On a ensuite DE = 1 (AA + AB + BA + BB ) 4 1 = (AA + BB ) 4 1 = 2 + f A + fB 8

et enn f I = GH =

1 16

1 + 32 ( f A + f B ).

Exemple et exercice Calculez le coefcient de consanguinit de lindividu A dans le pedigree de la gure 3.4.

I II
1 1 1

1 2

2 3 2 2 3 2 1 1 A 4 3 2 5 4 4

III IV V VI VII

F IGURE 3.4: Un pedigree complexe

3.2.2 Probabilit des gnotypes chez un individu consanguin


On considre un individu dont le coefcient de consanguinit f est connu. un locus donn, lindividu a deux gnes IBD avec probabilit f , et deux gnes ayant une provenance distincte avec probabilit (1 f ). Dans le premier cas, il a gnotype AA avec probabilit p, et aa avec probabilit q ; dans le second cas, il a gnotype AA avec probabilit p 2 , Aa avec probabilit 2pq et aa avec probabilit q 2 . Pour nir, P(AA| f ) = (1 f )p 2 + f p P(Aa| f ) = (1 f )2pq P(aa| f ) = (1 f )q 2 + f q

29

3 Consanguinit et populations structures

3.3 Consanguinit dans une population


On considre une population o une partie des unions se fait entre apparents (mariage prfrentiel entre cousins, entre oncle et nice). On peut dnir un coefcient F de consanguinit moyen de la population, qui sera la probabilit que les deux gnes ports par un individu quelconque soient IBD. On a alors, dans cette population, les frquences gnotypiques suivantes : f AA = (1 F)p 2 + Fp f Aa = (1 F)2pq f aa = (1 F)q 2 + Fq

3.3.1 Exemple : population partiellement autogame


Cet exemple est pertinent pour des plantes telles que le pois, qui se reproduiront partiellement en rgime autogame, partiellement en rgime panmictique. Notons la probabilit quun individu soit issu dune autofcondation. On calcule le taux dhtrozygotie la gnration t +1. Si lindividu est issu dune autofcondation (proba ), pour quil soit htrozygote il faut que son gniteur soit lui-mme htrozygote (proba H t ) et quil transmette les deux allles distincts quil porte (proba 1/2) ; si il est issu dune union panmictique, il est htrozygote avec probabilit 2pq (on sait que les frquences allliques ne varient pas). On a donc Ht +1 = 1 Ht + (1 ) 2pq. 2

Quand la population est lquilibre, le taux dhtrozygotie vrie 1 H = H + (1 )2pq, 2 et donc H =


2(1) 2 2pq.

On calcule la consanguinit moyenne lquilibre : F = 1 = H 2pq

Dans le cas particulier o = 1 (autogamie totale), on a Ht +1 = 1 Ht : le taux dhtrozygotie dcrot rapide2 ment et lquilibre, F = 1 et tous les individus sont homozygotes.

30

3.4 Populations structures

3.4 Populations structures


Nous considrons prsent une population structure en sous-populations isoles.

3.4.1 Eet Wahlund : mlange de populations panmictiques


Commenons par un exemple numrique. Supposons quon a deux sous-populations panmictiques S 1 et S 2 de sorte que lquilibre de Hardy-Weinberg y est ralis. La frquence de A dans la premire population est 0,2, et 0,6 dans la seconde. La population totale est constitue dun mlange de S 1 et S 2 en proportions gales. La table suivante donne les frquences gnotypiques dans les deux sous-populations et dans la population totale. Population p S1 S2 Globale 0,2 0,6 0,4 f (AA) f (Aa) f (aa) 0,04 0,36 0,20 0,32 0,48 0,40 0,64 0,16 0,40

TABLE 3.2: Mlange de deux populations lquilibre de Hardy-Weinberg On constate que dans la population totale, on nest pas lquilibre de Hardy-Weinberg ; il y a un dcit dhtrozygotes.

Formalisation
On considre n sous-populations S 1 , . . . , S n , en proportion 1 , . . . , n dans la population totale. On suppose que chacune des sous-populations est lquilibre de Hardy-Weinberg, et que lallle A a frquence p i dans la sous-population S i ; on pose q i = 1 p i . On tire un individu au hasard dans la population totale ; la probabilit quil soit pris dans la sous-population 2 i est i . Dans ce cas, son gnotype est AA (resp Aa, aa) avec probabilit p i (resp. 2p i q i , q i2 ). Dans la population totale, la frquence de A est p = On a donc P(AA) =
i 2 i p i i

i p i , et la frquence de a est q = 1 p =

i q i .

P(Aa) =
i

i 2p i q i i q i2

P(aa) =
i

On dnit une variable alatoire qui prend les valeurs p 1 , . . . , p n avec probabilit 1 , . . . , n . Le processus peut tre r-interprt ainsi : on tire dabord une valeur de selon cette loi, puis un gnotype AA, Aa, aa, avec probabilits 2 , 2(1 ), (1 )2 . Lesprance de est la frquence de A dans la population totale : E() = et la variance de est var() = i p i = p
2 i p i p 2 .

31

3 Consanguinit et populations structures La variance de quantie la faon dont la frquence alllique varie entre les sous-populations. Reprenons alors lcriture de P(AA) : P(AA) =
i 2 i p i 2 i p i p 2

= p2 +
i

= p 2 + var() Comme var() = var(1 ), on a galement var() = i q i2 q 2 , do on tire

P(aa) = q 2 + var(). On en dduit enn P(Aa) = 1 P(AA) P(aa) = 1 p 2 q 2 2var() = 2pq 2var(). On peut galement le vrier par un calcul direct, plus compliqu mais peut-tre rassurant : i p i q i =
i i

i p i (1 p i )
2 i (p i p i ) 2 i p i

=
i

=
i

i p i
i

= p var() + p 2 = p p 2 var() = pq var() Il est donc naturel de poser FST = var() pq

pour retrouver les critures classiques des frquences allliques en fonction des paramtres p, q, FST .

3.4.2 Statistiques F de Wright


On reprend ici le cadre du mlange de n populations S 1 , . . . S n , mais on ne suppose plus que ces souspopulations sont lquilibre de Hardy-Weinberg. Pour chaque sous-population on a un indice de xation Fi propre la sous-population , de sorte que dans la sous-population S i , les frequences de gnotypes AA IS 2 (resp. Aa, aa) sont p i + Fi p i q i (resp. 2p i q i 2Fi p i q i , q i2 + Fi p i q i ). IS IS IS Ce coefcient FIS peut tre d par exemple une consanguinit, ou mme une division de chacune des sous-populations en units plus petites. On conserve les notations prcdentes, notament p = E() =
i

i p i et var() =

2 i p i p 2 = pqFST .

32

3.5 pidmiologie gntique On tire un individu au hasard, on considre son gnotype. On suit la mme dmarche que prcdemment : P(AA) =
i 2 i p i + Fi p i q i IS 2 i p i +

=
i

i p i q i Fi IS i p i q i FIS
i

= p 2 + var + o on a pos FIS =


i

i p i q i Fi IS
i

i p i q i

Cest un indice de xation moyen. Si tous les Fi sont gaux FIS , alors FIS = FIS . IS Retournons P(AA), en nous souvenant que
i 1 i p i q i = 2 P(Aa) = pq var(), puis que var() = pqFST :

P(AA) = p 2 + var() + pq var() FIS = p 2 + pqFST + pq pqFST FIS = p 2 + pq FST + (1 FST ) FIS On pose FIT = FST + (1 FST ) FIS , de sorte que P(AA) = p 2 + pqFIT Le mme calcul mnera P(aa) = q 2 + pqFIT , et comme prcdemment on en dduit P(Aa) = 2pq 2pqFIT . Lindice de xation global est donc FIT , dni ci-dessus ; de la dnition dcoule une relation plus esthtique, (1 FIT ) = 1 FIS (1 FST )

Signication des indices Les indices qui dcorent les divers indices de xation sont des abrviations : FIS , Individu dans la Sous-population FST , Sous-population dans le Total FIT , Individu dans le Total Cette formule permet de sparer, dans lindice de xation global, ce qui provient de la structure spatiale en sous-population (FST ), et ce qui provient deffets internes propres aux sous-populations (FIS ).

3.5 pidmiologie gntique


3.5.1 Maladies rcessives et consanguinit
Considrons une maladie rcessive dans une population globalement panmictique, avec de rares cas dunion 1 entre apparents, par exemple entre cousins germains ( = 16 ). On suppose que la frquence de lallle morbide est q. Un enfant qui nat dune union panmicitique a une probabilit q 2 dtre atteint. Si ses parents sont apparents avec un coefcient de parent , cette probabilit devient q 2 + pq > q 2 .

33

3 Consanguinit et populations structures Prenons lexemple de la mucoviscidose, o q = 0,02. Le risque en population est q 2 = 1/2500 ; = calcule q 2 + pq = 1/615, soit une multiplication du risque par 4 environ.
1 16 ,

on

Dans le cas de la phnylctonurie, q = 0,008 et q 2 = 1/16000, et le risque pour un enfant issu de cousins germains est de q 2 + pq = 1/1800, soit un risque multipli par 9. Le risque relatif est q 2 + pq p = 1+ ; q2 q plus q est petit, plus ce risque relatif est important. Dans le cas de certaines maladies trs rares, la plupart des atteints seront issus de familles consanguines 2 . Remarque Ces considrations remettent naturellement en cause le calcul des frquences allliques sur la seule base des prvalences, en supposant lquilibre de Hardy-Weinberg ; il faudrait distinguer les enfants issus dune union entre apparent des autres enfants, et disposer dune estimation de la frquence des unions entre apparents dans la population.

3.5.2 Homozygosity mapping


Comme on la dit, quand un individu consanguin a reu deux allles IBD en un locus, il est IBD sur tout un segment de chromosome de part et dautre de ce locus. La gure 3.5 illustre ce fait en faisant apparatre les recombinaisons sur un chromosome (de longueur approximativement 1 cM).

F IGURE 3.5: Calcul du coefcient de consanguinit On voit que lindividu a reu deux allles IBD au locus 3, et sur tout un segment de chromosome. Ceci peut permettre de localiser un gne impliqu dans une maladie rcessive rare, qui sera essentiellement prsente chez des individus consanguins, lindividu ayant reu deux allles morbides du gne impliqus dun anctre commun. Ce gne se trouve donc dans une rgion IBD du gnome. On gnotype les atteints en une famille de marqueurs couvrant le gnome ; les segments IBD sont dtectables car tous les marqueurs dans ces rgions sont homozygotes. Une longue srie de marqueurs homozygotes (un run of homozygosity) est donc lindice dune rgion IBD. Cette mthode appele homozygosity mapping a t propose par Lander et Botstein en 1987 ; elle fait encore lobjet de dveloppements mthodologiques aujourdhui.
2. Garrod avait dj remarqu en 1902 que ctait le cas pour les enfants atteints de phnylctonurie

34

4 Drive gntique
Dans ce chapitre nous examinons les consquences de labandon dune des hypothses du modle de HardyWeinberg : la taille innie de la population. Les frquences gnotypiques observes la cration dune nouvelle gnration ne sont alors plus gales leur esprance ; il y a une petite uctuation, une uctuation dchantillonage , au l des gnrations. Supposons quon prenne, dans des conditions contrles (en laboratoire), une centaine de populations compose chacune de 16 drosophiles htrozygotes Aa ; des expriences de ce type ont t menes notament par Buri en 1956, et avant lui par Kerr et Wright en 1954. Les allles A et a sont choisis codominants, de faon ce quon puisse dterminer les effectifs allliques partir des phnotypes 1 . La frquence de A, note p, vaut donc p = 0,5 au dbut de lexprience. On les laisse se reproduire de gnration en gnration, en maintenant la taille gale 16 individus. Aprs une vingtaine de gnrations, dans 5 1 certaines populations la frquence de A vaut p = 0, dans dautres p = 1, et enn dans dautres p = 32 , 32 , 21 , 32 etc. Ainsi, la frquence a vari avec le temps, et elle na pas vari de la mme faon dans toutes les populations ; ceci met en vidence le rle jou par le hasard.

4.1 Modle de Wright-Fisher


4.1.1 Dnition du modle
Dans ce modle on suppose toujours que la taille de lurne gamtique est innie, et que sa composition rete dlement la composition de la gnration qui se reproduit (pas de slection, pas de distortion de sgrgation) ; on suppose galement quon a panmixie et pangamie, cest--dire que les gamtes sapparient au hasard. La taille de la population sera suppose constante, gale N. On se restreint au cas dun locus autosomal di-alllique A/a ; 2N tirages sont raliss dans lurne parentale chaque gnration. Appelons X t le nombre de copies de lallle A la gnration t ; X t est entre 0 et 2N. On peut supposer que X 0 = x 0 est une constante connue ; tous les autres X t (t > 0) sont des variables alatoires. Lurne gamtique contenant les gamtes mis 1 par la gnration t contient lallle A en proportion p t = 2N X t . On notera au besoin q t = 1 p t . Chacun des 2N chromosomes ports par les N individus de la gnration t + 1 est tir au hasard dans cette urne gamtique : si X t est x, X t +1 , le nombre de copies de lallle A parmi ces 2N chromosomes, suit donc une loi binomiale : 1 X t +1 |X t Bin 2N, p t = Xt . 2N Cette relation permet de simuler lvolution dune telle population (X 0 est suppos connu, on tire X 1 au hasard selon la loi Bin(2N, p 0 ), puis X 1 , etc). La gure 4.1 montre lvolution de la frquence p t au l des gnrations dans des populations de taille 10, 50 et 100. On voit que plus la population est petite, plus la frquence varie vite, et plus il est probable quaprs un nombre donn de gnrations un des allles ait disparu.
1. Buri a choisi les allles bw1 et bw75 qui dterminent la couleur des yeux et ne sont pas (a priori) sujettes slection

35

4 Drive gntique

200

200

150

150

10 populations, 2N = 1000

10 populations, 2N = 100

10 populations, 2N = 20

gnrations

gnrations

150 0 0.0 0.2 frquence alllique 0.4 0.6 0.8 1.0 50 gnrations 100

100

50

F IGURE 4.1: 10 trajectoires typiques de la frquence alllique au l du temps dans des populations de taille de plus en plus grande (2N = 20, 2N = 100 et 2N = 1000). Plus la population est grande, moins les variations de frquences sont rapides.

36

50

100

200

0.0

0.2

frquence alllique

0.4

0.6

0.8

1.0

0.0

0.2

frquence alllique

0.4

0.6

0.8

1.0

4.1 Modle de Wright-Fisher

F IGURE 4.2: volution de la probabilit que X t = k dans une population de 10 individus, avec k entre 0 et 20 et t variant de 1 15, et X 0 = 10. Pour t = 1, on a une distribution binomiale Bin(20, 0,5) ; plus t grandit, plus cette distribution stale, et on voit trs vite crotre la probabilit que X t = 0 (disparition de A) et celle que X t = 20 (xation de A).

37

4 Drive gntique Hypothses implicites du modle Le modle suppose une population dindividus diplodes et hermaphrodites. Pour une population dindividus sexes spars, il faudrait distinguer la taille de la population masculine et celle de la population fminine ; cela sera fait plus tard. On peut expliciter les probabilits conditionnelles P(X t +1 = |X t = k) : P(X t +1 = |X t = k) = = p t (1 p t )2N k 2N 1 k 2N
2N

2N 2N

En utilisant de faon itrative ces relations (et avec laide de la formule des probabilits totales, voir la parenthse technique ci-dessous) on peut calculer les P(X t = k) pour tout t et tout k. Voir la gure 4.2 pour un reprsentation de ces valeurs pour N = 10, k allant de 0 20 et t de 1 15. Parenthse technique Si on note T = [t k ] R(2N+1)(2N+1) la matrice des probabilits de transition t k = P(X t +1 = |X t = k)
(t et (t ) = ((t ) , . . . , (t ) ) le vecteur (ligne) des k ) = P(X t = k), on peut crire 0 2N+1

(t +1) = P(X t +1 = ) =
k

P(X t +1 = |X t = k)P(X t = k)
(t k ) t k

=
k

et donc, en notation matricielle, (t +1) = (t ) T. Ceci permet dobtenir de proche en proche de faon trs simple toutes les valeurs des P(X t = k). tats absorbants On remarque facilement que si X t = 0, lallle A a disparu, et ne peut rapparatre : P(X t +1 = 0|X t = 0) = 1 ; on dit alors que lallle a sest x (A a disparu). De mme, P(X t +1 = 2N|X t = 2N) = 1, et lallle A sest x (a a disparu). Dans ce modle, tous les allles se xent, tt ou tard.

4.1.2 Esprance et variance des frquences allliques


Les frquences allliques p t sont des variables alatoires : si on recommence la mme exprience, elles prendront des valeurs diffrentes. Seule la valeur de p 0 est xe. On peut facilement calculer lesprance des p i : 1 1 E(X t +1 |p t ) = 2Np t = p t 2N 2N Et donc, de proche en proche on a pour tout t , E(p t +1 |p t ) = E(p t ) = p 0

Le calcul de la variance par cette mthode est plus complexe. Il aboutit au rsultat suivant : 1 2N
t

var(p t ) = p 0 q 0 1 1

p 0 q 0 1 exp

t 2N

38

4.1 Modle de Wright-Fisher

Calcul de la variance de p t
2 On commence par calculer E(p t ). On a toujours E(X 2 ) = var(X) + E(X)2 , donc on crit 2 E(p t +1 |p t ) = var(p t +1 |p t ) + E(p t +1 |p t )2

1 2 var(X t +1 |p t ) + (p t )2 2N 1 2 = p t (1 p t ) + p t 2N 1 1 pt + 1 p2 = 2N 2N t = Donc
2 E(p t +1 ) =

1 1 2 E(p t ) + 1 E(p t ) 2N 2N 1 1 2 = E(p t ) p0 + 1 2N 2N

2 On trouve la valeur limite de E(p t ) en rsolvant

x=

1 1 x p0 + 1 2N 2N

dont la solution est x = p 0 . On exprime ensuite E(p t +1 ) p 0 en fonction de E(p t ) p 0 :


2 E(p t +1 ) p 0 =

1 1 2 p0 + 1 E(p t ) p 0 2N 2N 1 2 = 1 E(p t ) p 0 2N

Do
2 E(p t ) p 0 = 1

1 2N 1 2N 1 2N

2 E(p 0 ) p 0 2 p0 p0

= 1 = 1

p 0 (p 0 1)
t

= 1 Calculons maintenant var(p t ) :

1 2N

p 0 q0

2 var(p t ) = E(p t ) E(p t )2

= p0 1

1 2N

2 p 0 q0 p 0 t

= p 0 q0 1 et pour nir

1 2N

p 0 q0

var(p t ) = p 0 q 0 1 1

1 2N

39

4 Drive gntique Le calcul est prsent en encadr. Nous verrons plus loin comment retrouver ce rsultat plus simplement (section 4.1.5). On remarque donc que quand t grandit, var(p t ) sapproche de p 0 q 0 .

4.1.3 Htrozygotie moyenne


Il est clairant de calculer lhtrozygotie moyenne au temps t , Ht = E(2p t q t ).

Ht = E(2p t q t )
2 = 2E(p t p t ) 2 = 2 E(p t ) E(p t )

= 2 p 0 var(p t ) E(p t )2 = 2 p 0 p 0 q0 1 1 1 2N
t 2 p0

= 2 p 0 q0 p 0 q0 + p 0 q0 1 = 2p 0 q 0 1 1 2N
t

1 2N

2p 0 q 0 exp Ainsi, lhtrozygotie tend vers 0.

t 2N

On peut dnir une demi-priode , cest--dire un nombre T de gnrations aprs lequel le taux dhtT rozygotie sera (en moyenne) divis par 2 : il suft de rsoudre lquation exp 2N = 1 dont la solution est 2 T = 2N log(2) 2N 0,7. On en dduit quaprs un temps assez long, il y a toujours xation dun des allles. On a E(p t ) = p 0 , et aprs xation on a p t = 0 ou p t = 1, donc la valeur 1 est prise avec probabilit p 0 et la valeur 0 avec probabilit 1 p 0 = q0 .

Aprs un temps assez long, il y a toujours xation dun des deux allles ; cela sera lallle A avec probabilit p 0 et lallle a avec probabilit q 0 .

4.1.4 Temps de xation


On peut montrer (nous ne le ferons pas) que le temps moyen (en nombre de gnrations) avant que lallle A soit x est q0 t 1 (p 0 ) = 4N log q 0 . p0 Le temps moyen avant que lallle A disparaisse est donc : t 0 (p 0 ) = 4N p0 log p 0 q0

(il suft de permuter p 0 et q 0 , la disparition de A tant quivalente la xation de a). On a enn le temps moyen de persistence, cest--dire le temps moyen avant xation dun allle ou lautre : t (p 0 ) = p 0 t 1 (p 0 ) + q 0 t 0 (p 0 ) = 4N p 0 log p 0 + q 0 log q 0

40

4.1 Modle de Wright-Fisher La variance des temps de persistence, de xation ou de disparition est importante, comme lillustrent les histogrammes des gures 4.3 et 4.4, obtenus en simulant lvolution de 100 000 populations de taille N = 50.
persistence
0.000 0.002 0.004 0.006

Density

100

200

300 t

400

500

600

F IGURE 4.3: Distribution des temps de persistence (N = 50, p 0 = 0.5)


persistence
0.025

disparition
0.005

fixation

0.020

0.025

0.015

0.020

Density

Density

0.015

0.010

Density 0 50 100 t 150 200

0.005

0.010

0.000

0.000

0.005

50

100 t

150

200

0.000

0.001

0.002

0.003

0.004

100

200

300 t

400

500

600

F IGURE 4.4: Distribution des temps de persistence, de xation et de disparition (N = 50, p 0 = 0.9)

4.1.5 Augmentation rcurrence de la consanguinit


On considre ici une population diplode hermaphrodite, avec possible autogamie. Soit Ft la probabilit que les deux copies dun gne ports par un individu de la gnration t proviennent dun anctre commun (soient IBD, pour Identical By Descent) ; on dira que cet individu est homozygote par origine, ou par descendance , (HBD, pour Homozygous By Descent). Nous allons calculer Ft +1 en fonction de Ft . Notons que Ft est une probabilit, donc une quantit dterministe. On peut galement dnir A t , la proportion dindividus HBD la gnration t : cest une variable alatoire dont lesprance est Ft . Il y a deux faons pertinentes de dnir F0 : 1. F0 = 0. On considre que personne nest HBD dans la population t = 0, et on sintresse la perte de diversit dans les gnrations qui suivent. 2. F0 = 1 2p 0 q 0 . On considre que tous les allles A ont un anctre commun, de mme que tous les allles a ; dans ce cas seuls les htrozygotes ne sont pas HBD. Le statut HBD se confond avec le statut dhomozygote, et Ft est gal 1 Ht . Considrons donc les deux copies dun gne port par un individu de la gnration t + 1. Avec probabilit 1 2N , ces deux copies sont issues dune seule des 2N copies prsentes la gnration t (auquel cas il y a eu 1 autogamie) ; et avec probabilit 1 2N , ces deux copies sont issues de deux copies distinctes la gnration prcdente, qui sont IBD avec probabilit Ft . Donc Ft +1 = 1 1 + 1 Ft 2N 2N (4.1)

41

4 Drive gntique

F IGURE 4.5: On ne reprsente que les 2N = 10 allles, de gnration en gnration. Les points reprsentent les allles, et les segments la transmission dun allle dune gnration lautre ; certains allles nont pas de descendant tandis que dautres en on un ou deux. gauche, la gnration 15, tous les allles prsents descendent du mme anctre (ils sont IBD). droite, si on suppose qu la gnration 0 tous les allles A ont un anctre commun, alors ds la gnration 10 tous les allles prsents sont IBD.

42

4.1 Modle de Wright-Fisher On pourrait raisonner plus rigoureusement sur A t : lesprance de A t +1 , sachant A t , est prenant lesprance de cette expression on retrouve lquation ci-dessus. On trouve la limite de Ft en rsolvant lquation x = ensuite Ft +1 1 en fonction de Ft 1. On a
1 2N 1 2N + 1 1 2N A t , et en

1 + 1 2N x, qui a pour solution x = 1 ; on calcule

Ft +1 1 = 1 do Ft 1 = 1

1 (Ft 1) 2N
t

1 2N

(F0 1)

et donc si on a choisi F0 = 0, Ft = 1 1 Ft et si F0 = 1 2p 0 q 0 , Ft = 1 2p 0 q 0 1
1 et on retrouve Ht = 1 Ft = 2p 0 q 0 1 2N t

1 2N

1 exp

t 2N

1 2N

ce qui est une faon simple de retrouver la valeur de var(p t ).

Attention, les Ft calculs par ces formules sont des valeurs moyennes ; la proportion dallles IBD dans une population une gnration donne varie autour de cette valeur, selon les uctuations dchantillonage. La gure 4.6 illustre ces variations.
10 populations, 2N = 100
1.0 consanguinit moyenne 0.0 0.2 0.4 0.6 0.8

50

100 gnrations

150

200

F IGURE 4.6: Proportion dindividus portant deux allles IBD dans 10 populations de taille N = 50

Contrairement ce qui se passe dans une population scartant du rgime panmictique, on ne doit pas constater dcart important lquilibre de Hardy-Weinberg dans une petite population ; le dcit en htrozygotes est par rapport aux frquences dans la population dorigine, au temps t = 0, mais dans une population donne il saccompagne dune modication des frquences allliques. Il est plus facile dinterprter Ft comme un FST de structure : si on divise une population homogne en un grand nombre de (petites) sous-populations quon isole les unes des autres, et quon les laisse se reproduire pendant plusieurs gnrations, alors Ft est le FST attendu pour la population totale.

43

4 Drive gntique

4.2 Taille ecace


4.2.1 Sexes spars
Nous avons jusqu prsent restreint la discussion une population diplode hermaphrodite, avec possibilit dautogamie. On nexcluait donc pas quun individu puisse tre form par la fusion de deux gamtes provenant dun mme individu, ce qui permet une modlisation simple du tirage dans lurne gamtique. Nous allons ici considrer une population avec Nm garons et N f lles, et tablir une quation analogue lquation 4.1. la gnration t , on note t lapparentement moyen entre deux individus, et Ft la probabilit quun individu soit HBD (sa consanguinit). On a Ft = t 1 .

GP

GM

I
F IGURE 4.7: Flux des gnes dans une population sexes spars Les grands-parents sont considrs comme pris au hasard dans la population t 2. Les deux gnes prsents chez lindividu I peuvent provenir : de ses deux grands-pres avec probabilit
1 4

; ces deux grands-pres nen sont quun avec probabilit


1 2 (1 + Ft 2 )

1 Nm

quand cest le cas, la probabilit que I soit HBD est (le grand-pre peuvant tre HBD avec probabilit Ft 2 ) ; 1 dune mme grand-mre avec probabilit 1 N , auquel cas I est HBD avec probabilit 1 (1 + Ft 2 ) ; 4 2
f

1 1 de grands-parents diffrents avec probabilit 1 4Nm 4N , auquel cas I est HBD avec probabilit t 2 = f Ft 1 .

On a donc Ft =

1 1 1 1 (1 + Ft 2 ) + (1 + Ft 2 ) + 1 Ft 1 8Nm 8N f 4Nm 4N f

En rorganisant les termes, on a 1 1 1 1 + (1 + Ft 2 ) + 1 + 8Nm 8N f 4Nm 4N f 1 1 (1 + Ft 2 ) + 1 Ft 1 , 2Ne Ne

Ft =

Ft 1

o on a dni la taille efcace de la population Ne comme la moyenne harmonique de 2Nm et 2N f , cest-dire que Ne vrie lgalit suivante : 1 1 1 1 = + Ne 2 2Nm 2N f

44

4.2 Taille efcace On peut montrer quon a alors Ft 1 exp t 2Ne

Ainsi, la taille efcace (ou effectif efcace) de la population est la taille dune population idale dindividus hermaphrodites dans laquelle la drive est de mme ampleur que celle observe dans la population relle. Nm N f 1 5 50 100 Ne

100 1,98 100 9,52 100 66,67 100 200,00

TABLE 4.1: Taille effective pour diffrentes valeurs de Nm et N f

4.2.2 Taille variable


On considre une population effectifs variables, N0 , N1 , . . . , Nt . On considre nouveau le modle des individus hermaphrodites. On a Ft 1 = 1 1 1 1 2Nt 1 2N1
t

1 (F0 1) 2N0

1 Pour retrouver une quation du type Ft 1 = 1 2Ne

(F0 1) il faut dnir Ne tel que 1 1 2N0

1 2Ne

= 1

1 1 1 2Nt 1 2N1

1 En passant au logarithme et en utilisant lapproximation log 1 2N

1 2N , on obtient

1 1 1 1 1 = ++ + Ne t Nt 1 N1 N0 et donc Ne est la moyenne harmonique des effectifs.

(4.2)

4.2.3 Autres causes de variation de l'eectif ecace


Parmi les causes de variation de leffectif efcace, il y a lvitement de linceste ou plus gnralement des unions entre apparents ; et aussi, les carts observs lhypothse que chaque individu a une chance gale davoir des enfants survivants la gnration suivante, ce qui se traduit par le fait que le nombre denfant par individu suit une loi de Poisson. Tous ces facteurs se traduisent par un effectif efcace plus petit que la taille de la population. Citons encore le cas des locus situs sur le chromosome X, pour lesquels leffectif efcace est Ne = 9Nm N f 4Nm + 2N f

Enn, si la population est divise en sous-populations entre lesquelles subsiste une migration non nulle, on peut galement dnir un effectif efcace, qui sera plus grand que leffectif total de la population ; en effet, lisolement relatif des sous-populations rend plus difcile la disparition dun allle, car la drive peut aller dans des directions diffrentes selon les sous-populations.

45

4 Drive gntique

4.3 Coalescence
Le modle de Wright-Fisher est une faon de penser les petites populations en allant de lavant , en modlisant la faon dont une gnration engendre la suivante. La thorie de la coalescence prend le parti pris oppos de remonter le temps , en sintressant aux anctres des allles pris dans une gnration donne, et en supposant incidemment la population trs ancienne (et mme inniment ancienne). Dans une telle population, tous les allles sont IBD ; le seul moyen de conserver de la diversit est de considrer des modles avec mutation (ce que nous ne ferons pas ici).

4.3.1 Coalescence de deux allles


La premire question pose par la thorie de la coalescence est la suivante : tant donns deux allles (deux copies dun gne) pris au hasard dans une population, combien de gnrations faut-il remonter pour que ces deux allles aient un anctre commun ? La probabilit que deux allles pris au hasard dans une population de taille constante gale N (et donc 1 comptant 2N allles) aient le mme anctre la gnration prcdente est 2N (une fois lanctre du premier allle choisi, il y a une chance sur 2N de choisir le mme anctre) ; et la probabilit quelles aient des anctres 1 distincts la gnration prcdente est donc 1 2N . On dit alors quil y a eu (ou quil ny pas eu) un vnement de coalescence. Calculons la probabilit que 2 allles aient un anctre commun exactement t + 1 gnrations plus tt : la 1 t probabilit quil ny ait pas eu dvnement de coalescence pendant t gnrations est 1 2N , et quil y 1 ait eu coalescence dans la gnration immdiatement prcdente est 2N . La probabilit que le temps de coalescence T2 soit gal t + 1 est donc 1 1 1 2N 2N
t

P(T2 = t + 1) =

1 On reconnat une loi gomtrique de paramtre p = 2N . Son esprance est E(T2 ) = 2N et sa variance var(T2 ) = 2 2 2 4N 2N 4N = E(T2 ) . On peut galement faire lapproximation par une loi exponentielle, P(T2 = t + 1) 1 t 2N exp 2N .

4.3.2 Premier vnement de coalescence pour k allles


On peut gnraliser la question prcdente, comme suit : tant donns k allles pris au hasard dans une population de taille 2N, combien de gnrations faut-il remonter pour que ces k allles naient plus que k 1 anctres ? On montrer, en raisonnant sur des base similaires et au prix de quelques approximations que si on nomme Tk ce temps, on a E(Tk ) var(Tk ) 4N k(k 1) E(Tk )2 .

46

4.4 Quelques points dintrt pour lpidmiologie gntique

F IGURE 4.8: Temps de coalescence pour 6 allles

4.3.3 Plus rcent anctre commun


On peut enn rpondre la question tant donns k allles pris au hasard dans une population de taille 2N constante, combien de gnrations faut-il remonter pour que ces k allles naient plus quun anctre ? Cest T = Tk + Tk1 + + T2 , dont lesprance vaut 1 k

E(T)

4N 1

Il faut donc en esprance environ 4N gnrations avant que tous les allles aient un anctre unique, ce qui est tonnamment peu ; et la moiti de ce temps est d T2 , le temps pour faire coalescer les deux derniers anctres (cf gure 4.8).

4.4 Quelques points d'intrt pour l'pidmiologie gntique


4.4.1 Bottleneck et eet fondateur
Une consquence de la formule 4.2 est quil suft de quelques gnrations o la population a eu un petit effectif pour que leffectif efcace soit considrablement diminu. Cest le cas en particulier quand la population passe par un goulot dtranglement dmographique ou bottleneck (cas particuliers de population animale ayant frl lextinction ou de populations humaines isoles passant par des phases de disette, pidmies, etc).

47

4 Drive gntique Un autre cas est celui de leffet fondateur, quand une petit population stablit dans un nouvel habitat et y reste isole (cas de la population qubecoise, des Amish, des Huttrites, etc). Cela peut avoir pour consquence que la drive favorise des allles morbides, et que certaines maladies gntiques soient beaucoup plus frquentes dans ces populations que dans la population humaine gnrale ; cest le cas par exemple de la rtinite pigmentaire Tristan Da Cunha, ou des mutations BRCA1 et BRCA2 chez les juifs ashknazes.

4.4.2 Dsquilibre gamtique


De mme que les frquences allliques changent sous leffet de la drive, les frquences gamtiques changent : du dsquilibre gamtique peut tre cr entre des locus en quilibre gamtique. Si ces locus sont lis, ce dsquilibre persistera au l des gnrations. En consquence, dans les petites populations, ou dans les populations qui sont passes par un effet fondateur ou un goulot dtranglement, les motifs du dsquilibre liaison tendent tre diffrents de ceux observs dans la population totale ; en particulier ils stendent sur une distance gntique plus importante. Ceci, ainsi que la moindre diversit alllique dans ces populations, peut augmenter la puissance statistique de la recherche des mutations (Terwilliger 1998, Drift mapping).

48

5 Mutation et migration

5.1 Mutation
Ici on abandonne une autre des hypothses du modle de Hardy-Weinberg : labsence de mutation. Nous ne considrerons quun modle trs simple, un seul locus. On considre un gne dialllique dallles A et a, et on suppose quune mutation puisse transformer un allle en lautre : A

tant la probabilit quun allle A mute vers a, et la probabilit quun allle a mute vers A. On notera p t la frquence de lallle A la gnration t .

5.1.1 volution au l des gnrations


Lhypothse de panmixie restant valide, on peut utiliser le modle de lurne gamtique. Quelle est la probabilit quun gamte tir au hasard dans lurne contenant les gamtes mis par la gnration t porte lallle A? Soit on a tir un allle A de la gnration parentale (probabilit p t ) qui na pas mut (probabilit 1 ), soit on a tir un allle a (probabilit q t = 1 p t ) qui a mut (probabilit ), et donc, pour nir, la frquence de lallle A dans la gnration suivante est p t +1 = (1 )p t + q t . On trouve le point dquilibre en rsolvant p e = (1)p e +q e = (1)p e +(1 p e ), ce qui mne p e = On calcule ensuite p t +1 p e : p t +1 p e = (1 )p t + q t p e = (1 )p t + q t (1 )p e + q e = (1 )(p t p e ) + (q t q e ) = (1 )(p t p e ) Do pour nir p t = p e + (1 )t (p 0 p e ) On a nouveau une demi-priode : ma distance entre p t et p e est multiplie par (1 ) chaque g log(2) 0,7 nration, cest--dire quelle est divise par 2 toutes les log(1) + gnrations ; lapproximation donne est valide quand le taux de mutation + est petit, ce qui est gnralement le cas. La demi-priode est alors trs longue.
+ .

49

5 Mutation et migration

5.1.2 Cas d'une population nie


Probabilit de xation d'un nouvel allle
Si un nouvel allle apparat dans une population de taille efcace Ne , la premire gnration sa frquence 1 1 est 2Ne ; la probabilit quil se xe est alors 2Ne , et le temps moyen de xation est environ 4Ne .

Modle nombre inni d'allles


Si le locus considr est un gne en entier, pratiquement chaque mutation fait apparatre un nouvel allle (un nouvel haplotype). On peut supposer que le taux de recombinaison dans le gne est ngligeable, ou encore considrer quune recombinaison fait apparatre un nouvel allle et est donc modlisable comme une mutation. Si toutes ces mutations sont neutres (cest--dire non soumises slection), on sattend trouver un grand nombre dallles dans une population ; les allles identiques seront trs probablement IBD, et les individus 1 homozygotes seront rares. On peut montrer quils sont en proportions 1+4Ne o est le taux de cration de nouveaux allles. On montre galement dans ce modle que si on chantillonne n allles, alors le nombre moyen dallles diffrents parmi ces n allles est k = 1+ + ++ +1 +2 +n 1 o on pose = 4Ne . Si est trs petit (peu de cration dallles) k est proche de 1, alors que si est grand, chacun des termes de la somme est proche de 1 et k est proche de n. Comme ce modle utilise lhypothse que le locus nest pas soumis slection naturelle, il fournit des tests pour dtecter les locus soumis slection ; lide sous-jacente tant que si on observe un allle trs frquent et beaucoup dallles rares, cela peut tre expliqu par le fait que lallle frquent est positivement slectionn.

5.2 Migration
Nous nenvisagerons que le modle une le : une petite population (sur lle) reoit, via un processus de migration, un ux de gnes dune trs grande population (sur le continent). La trs grande population est suppose lquilibre de Hardy-Weinberg. On considre donc un locus di-alllique A/a, et on note p t et q t leur frquence la gnration t . On note p c et q c leur frquence sur le continent, et m le taux de migration, cest--dire la probabilit quun allle une gnration donne vienne du continent. Un allle de la gnration t + 1 peut venir de lle (probabilit 1 m), il est alors A avec probabilit p t ; il peut venir du continent (probabilit m) il est alors A avec probabilit p c . On a p t +1 = (1 m)p t + mp c , do p t +1 p c = (1 m)(p t p c ), et pour nir p t = p c + (1 m)t (p 0 p c )

50

5.2 Migration lquilibre, les frquences allliques sont devenues gales celles du continent ; la vitesse du processus est log 2 donne par le terme (1 m)t , do une demi-priode T = m = 0,7 . m Dans ce modle, les consquences de la migration sont comparables celles de la mutation ; cependant, les taux de migration peuvent tre beaucoup plus importants que les taux de mutation.

51

6 Slection

Introduction
On va sintresser ici aux consquences de labandon de lhypothse dabsence de slection dans le modle de Hardy-Weinberg. On conserve les autres hypothses, notament la panmixie, labsence de slection gamtique, les gnrations spares, et la population de taille innie. On ne sintresse donc quau cas o les individus qui composent une gnration donnes ont des chances ingales de transmettre leurs gamtes la gnration suivante ; ceci peut tre d des diffrences de mortalit avant lge reproductif, ou encore une fcondit rduite.

6.1 Modle
6.1.1 Valeur slective
On considre un locus diallllique dallles A et a, soumis slection, cest--dire que la fcondit des individus dpend de leur gnotype en ce locus. On notera p t la frquence de lallle A la gnration t (pour pallier toute ambigut due la possibilit dune mortalit dpendant du gnotype, on conviendra quil sagit de la frquence la naissance, voire la formation des zygotes). On note q t = 1 p t la frquence de lallle a. Notons r, s et t les valeurs slectives des trois gnotypes : Gnotype : Valeur slective : AA u Aa v aa w

On pourrait dnir les valeurs slectives comme la probabilit quun gamte mis par un individu de gnotype donn soit prsent la gnration suivante ; en fait, il suft que u, v et w soient proportionnels ce nombre ; seules les valeurs slectives relatives importent, cest--dire les proportions u : v : w. En labsence de slection, on a u = v = w.

6.1.2 L'urne gamtique


Lhypothse de panmixie restant valide, on peut utiliser le modle de lurne gamtique. Quelle est la probabilit quun gamte tir au hasard dans lurne contenant les gamtes mis par la gnration t soit A ? Notons tout dabord que la gnration parentale considre tant elle-mme issue dune population panmic2 tique, les gnotypes des individus qui la composent sont dans les proportions de Hardy-Weinberg (p t , 2p t q t , 2 q t ) ; seule la population des reproducteurs peut en dvier.
2 2 Posons T = p t u + 2p t q t v + q t w. La probabilit quun gamte tir au hasard ait t mis par un individu AA 1 2 1 1 2 (respectivement Aa, aa) est T p t u (respectivement T 2p t q t v, T q t w).

53

6 Slection Si ces galits ne sont pas intuitives, on peut les obtenir par une probabilit conditionnelle : P(AA|reprod.) = = P(reprod.|AA)P(AA) P(reprod.|AA)P(AA) + P(reprod.|Aa)P(Aa) + P(reprod.|aa)P(aa)
2 u pt 2 u p t + v 2p t q t 2 + w qt

La probabilit quun tel gamte soit A est 1 quand lindividu est AA, 1 quand il est Aa, et 0 quand il est aa. 2 Finalement, la probabilit quun allle tir au hasard soit A, qui est aussi la frquence de A dans la gnration suivante, est p 2u + p t qt v . p t +1 = 2 t 2 p t u + 2p t q t v + q t w Posons f (p) = pour p [0,1]. La frquence de A la te gnration sobtient par la relation p t = f (p t 1 ). Lvolution de cette frquence dpend entirement de f , que nous devons donc tudier. Notons tout dabord quelques rsultats issus de calculs simples. Les points xes de f (cest--dire les valeurs de p pour lesquelles f (p) = p) sont les tats dquilibre du systme. Si p 0 est un tel point xe, ou aura pour tout t , p t = p 0 : la frquence nvolue pas au l du temps. On a les rsultats suivants : v si w = 0, f admet 0 comme point xe, et f (0) = w ; v de mme, si u = 0, f admet 1 comme point xe, et f (1) = u ; f peut admettre un troisime point xe p e : pe = w v , u 2v + w p 2 u + p(1 p)v p 2 u + 2p(1 p)v + (1 p)2 w

si cette quantit est entre 0 et 1. La drive en ce point xe est (v u)(v w) . v 2 uw Au l des sections suivantes, nous allons considrer un un tous les cas possibles. Auparavant, liminons le cas simple o il ny a pas de slection : u = v = w. Il est facile de vrier qualors f (p) = p. La frquence de A reste constante au cours du temps, comme on sy attendait. f (p e ) = 1

6.2 Allle A favorable :

u>v w

ou

uv >w

6.2.1 Premier cas : u > v w > 0


Ici, le gnotype AA a une meilleure valeur slective que Aa, qui lui-mme a soit une meilleure valeur slective que aa (co-dominance), soit une valeur slective gale celle de aa (dominance de a). Dans ce cas, f a deux points xes, 0 et 1. Lallure du graphe de f est visible gure 6.1, et lvolution de p t au l du temps gure 6.2 On voit que p t tend vers 1 et q t vers 0 : lallle favorable A va se xer dans la population. On peut estimer v t la vitesse de convergence : passes les premires gnrations, la suite q t tend vers 0 peu prs comme u ,

54

6.2 Allle A favorable : u > v w ou u v > w

f(p) 0.0 0.0 0.2 0.4

0.6

0.8

1.0

0.2

0.4 p

0.6

0.8

1.0

F IGURE 6.1: Graphe de f

1.0

1.0

q q

0.8

0.8

0.6

f(p)

0.4

pn 0.4

0.6

0.2

0.2
q

0.0

0.0

0.2

0.4 p

0.6

0.8

1.0

0.0

10 n

15

20

F IGURE 6.2: Graphe de f et volution de p t

55

6 Slection cest--dire que toutes les demi-priodes log(2) log(u) log(v) 0,7 log(u) log(v)

T=

la frquence de lallle a est divise par deux. Le point dquilibre p = 0 est possible, mais il est instable : ds quune petite proportion dallles A apparat (par mutation, migration), la suite des p t va tendre vers 1.

Variante :

u>v

et

w =0

Il sagit du cas o le gnotype aa est ltal (ou encore : les individus aa sont striles). Ce cas est peu diffrent du prcdent, part pour lallure du graphe de f en 0 ; voir gure 6.3.

1.0

1.0

q q

0.8

0.6

0.6

0.8

f(p)

0.4

pn 0.2 0.2
q

0.0

0.0

0.2

0.4 p

0.6

0.8

1.0

0.0

0.4

10 n

15

20

F IGURE 6.3: Graphe de f et volution de p t

6.2.2 Second cas, dominance u = v > w > 0


Dans ce cas, les gnotypes AA et Aa ont la mme valeur slective : A est dominant. Le comportement gnral est le mme, comme illustr gure 6.4. Cependant, comme on le voit sur la gure, du fait quon a f (1) = 1, la vitesse de convergence est plus lente : u la frquence de lallle a, q t = 1 p t , se comporte peu prs comme (uw)t .

Variante :

u=v

et

w =0

Ici, on a dominance de A, et aa est ltal : cest par exemple le cas de certaines maladies rcessives. Ce cas est donc trs pertinent en pratique. Son traitement mathmatique est peu diffrent du prcdent, part pour lallure du graphe de f en 0 (gure 6.5). Ici la rcurrence prend une forme simple : p t +1 = pt 1 = , p t (p t + 2q t ) 1 + q t

56

6.2 Allle A favorable : u > v w ou u v > w

1.0

1.0

0.8

0.8

q q q q q

0.6

0.6

f(p)

pn

0.4

0.4

0.2

0.2
q

0.0

0.0

0.2

0.4 p

0.6

0.8

1.0

0.0

10 n

15

20

F IGURE 6.4: Graphe de f et volution de p t

1.0

1.0

0.8

0.8

q q q

0.6

0.6

f(p)

0.4

pn

0.2

0.2
q

0.0

0.0

0.2

0.4 p

0.6

0.8

1.0

0.0

0.4

10 n

15

20

F IGURE 6.5: Graphe de f et volution de p t

57

6 Slection et donc q t +1 = 1

1 qt = . 1 + qt 1 + qt
q0 t +q 0 .

On peut calculer exactement la valeur de p t et q t en fonction de n : on a q t =

6.3 Allle A dfavorable :

u<v w

ou

uv <w

Il suft dchanger les rles de A et a dans la section prcdente ! Pour a, il faut permuter u et w. On aura dans tous les cas xation de lallle favorable a, avec la mme discussion sur les vitesses... La gure 6.6 illustre le cas 0 < u < v < w.
1.0 1.0 0.8 0.6
q

0.6

0.8

f(p)

0.4

pn 0.4

0.2

0.2

0.0

0.0

0.0

0.2

0.4 p

0.6

0.8

1.0

10 n

15

20

F IGURE 6.6: Graphe de f et volution de p t .

6.4 Avantage de l'htrozygote :

u<v >w

Ici, lhtroygote a une meilleur valeur de slection que les deux homozygotes ! On parle de superdominance. Dans ce cas, on a, en plus des points xes ventuels en 0 et 1 (selon que v et w sont nuls ou non), un point xe en w v pe = . u 2v + w La gure 6.7 montre lvolution de p t , selon que p 0 < p e , en bleu, ou p 0 > p e , en vert : Dans tous les cas, p t tend vers cette valeur dquilibre p e . Notons en passant que la pente de f en p e est toujours plus petite que 1, et quon pourrait l encore calculer une demi-priode pour lvolution des frquences ds lors quon est assez proche de lquilibre. Lexemple classique de ce cas est la drpanocytose, ou anmie falciforme. Cette maladie rcessive (dj dcrite au premier chapitre) est due une mutation S du gne de lhmoglobine, dont lallle normal est not A . Les individus S S , porteurs de deux copies de cette mutation ont une maladie trs grave qui diminue considrablement leur esprance de vie. Cependant, les htrozygotes S A ne sont pas touchs par la maladie. De plus, ils sont favoriss par rapport aux homozygotes A A car ils sont moins vulnrables au paludisme une maladie cause par un parasite qui colonise les globules rouges.

58

6.5 Dsavantage de lhtrozygote : u > v < w

1.0

1.0
q

0.8

0.8

0.6

0.6

q q

f(p)

pn

q q

q q

q q

0.4

0.4

0.2

0.2
q

0.0

0.0

0.2

0.4 p

0.6

0.8

1.0

0.0

10 n

15

20

F IGURE 6.7: Graphe de f et volution de p t

Cest cet avantage de lhtrozygote qui explique que lallle a se maintienne une frquence leve (jusqu 20% dans certaines rgions). On a galement voqu un possible avantage de lhtrozygote pour expliquer la frquence leve de la mutation responsable de la mucoviscidose, qui permettrait, selon les auteurs, de mieux rsister au cholra, la tuberculose, etc. Aucune hypothse ne fait lunanimit.

6.5 Dsavantage de l'htrozygote :


On a de nouveau un point dquilibre pe =

u>v <w

Ici, lhtrozygote est lindividu ayant la plus mauvaise valeur slective. w v , u 2v + w

mais cette fois il sagit dun quilibre rpulsif : toute dviation de ce point entraine la frquence vers 0 ou 1. La gure 6.8 montre lvolution de p t , selon que p 0 < p e , en bleu, ou p 0 > p e , en vert.
1.0 1.0

q q

0.8

0.8

0.6

0.6 pn 0.4

f(p) 0.4

0.2

0.2

0.0

0.0

0.0

0.2

0.4 p

0.6

0.8

1.0

10 n

15

20

F IGURE 6.8: Graphe de f et volution de p t

Cette fois, le processus est divergent ; on parle de slection diversiante. Cela peut conduire des populations spares, issues dune mme population, xer des allles diffrents, ou contribuer couper une popula-

59

6 Slection tion vivant dans une mme aire reproductive en deux sous-populations de phnotypes diffrents. Lexemple classique est celle des diffrences de caryotype. Les individus porteurs dun caryotype quilibr mais hybride mettent en effet une certaine proportion de gamtes dsquilibrs. On pense par exemple quun tel processus a pu tre luvre dans la population ancestrale des humains (46 chromosomes) et des chimpanzs (48 chromosomes). lheure actuelle, des diffrences de caryotypes existent par exemple au sein des populations de porcs, de cercopithques, sans empcher linterfcondit des individus.

6.6 Des modles plus gnraux


Le modle prsent ici est trs rudimentaire. Il est possible de lenrichir de plusieurs faons. On pourrait notament envisager des environnements multiples : la valeur slective dun gnotype peut dpendre de lenvironnement. Ceci peut contribuer maintenir la diversit dans une population qui occupe un espace gographique important. Un autre phnomne prendre en compte est lavantage des variants rares . Prenons par exemple le cas dun papillon dont les ailes peuvent avoir des couleurs diffrentes ; les prdateurs prennent lhabitude de reprer les papillons qui ont la couleur la plus frquente, et les papillons qui ont une couleur rare sont avantags, mme si par ailleurs elle offre de moins bonnes possibilit de camouage. La mme chose vaut pour la rsistance aux agents pathognes, qui ne ne se rpandent en grande quantit que sils sadaptent de faon infester les individus porteur des gnotypes majoritaires. Pour tenir compte de ce phnomne, on est conduit introduire des valeurs slectives qui dpendent de la valeur de p, ce qui peut faire apparatre de nouveaux points dquilibres.

6.7 Cas d'une population nie


On peut modier le modle de Wright-Fisher pour une population nie pour ladapter au cas o la valeur slective dpend du gnotype. La frquence p t calcule dans le cas de la population innie est alors interprter comme lesprance de la frquence ralise dans une population nie donne.
1 Si on pose u = 1 + s, v = 1 + 2 s et w = 1, on montre que la probabilit de xer lallle A est

1 e 4Ne sp 0 1 e 4Ne s

6.8 quilibre slection-mutation


La slection tend faire disparatre les allles dfavorables qui peuvent tre crs par des mutations rcurrentes. Les deux processus allant en sens inverse lun de lautre, leur superposition doit amener un point dquilibre. Nous nous restreindrons au cas dun allle a causant une maladie rcessive ltale : les valeurs slectives sont u = v et w = 0. Nous ngligerons galement la probabilit dune mutation a A qui restaure un allle fonctionnel. Nous notons la probabilit dune mutation de A a. Aa

60

6.8 quilibre slection-mutation

F IGURE 6.9: Constitution de lurne gamtique

On reprend le raisonnement sur lurne contenant les gamtes mis par la gnration t . La conversion dallle A en allle a conduit modier lquation dvolution en p t +1 =
2 (1 )p t + (1 )p t q t

2 p t + 2p t q t (1 )p t (p t + q t ) = p t (p t + 2q t ) 1 = . 1 + qt

La gure 6.9 rcapitule le raisonnement. On se contente de chercher le point dquilibre : 1 1 + qe 1 1 qe = 1 + qe pe =


2 1 qe = 1 2 qe =

Ainsi, lquilibre, la frquence de lallle morbide est q e = 2 de mutation : q e =

, et lincidence de la maladie est gale au taux

6.8.1 Cas d'une population consanguine


Considrons prsent le cas dune population consanguine. Les frquences gnotypiques sont f AA = (1 F)p 2 + Fp f Aa = (1 F)2pq f aa = (1 F)q 2 + Fq. Ceci conduit modier lquation dvolution en p t +1 = =
2 (1 )((1 F)p t + Fp t ) + (1 )(1 F)p t q t 2 (1 F)p t + Fp t + (1 F)2p t q t

(1 ) p t (1 F)p t + F + (1 F)q t

p t (1 F)p t + F + (1 F)2q t 1 = . 1 + (1 F)q t

61

6 Slection lquilibre on a 1 1 + (1 F)q e 1 1 qe = 1 + (1 F)q e pe =


2 1 + (1 F)q e q e (1 F)q e = 1 2 (1 F)q e + Fq e =

On a montr que la frquence des homozygotes aa est gale . L encore, lincidence de la maladie est gale 2 au taux de mutation : f aa = (1 F)q e + Fq e = . Si on est lquilibre slection-mutation, lincidence dune maladie rcessive ltale est gal au taux de mutation, indpendament de la consanguinit de la population. Il nen reste pas moins vrai que dans une famille donne, la probabilit de voir apparatre une maladie rcessive est plus importante quand les parents sont apparents que quand ils ne le sont pas. Dans ce modle, la consanguinit de la population ne pose pas problme de sant publique. Attention toutefois au cas dune population consanguine qui reoit par immigration un ux de gnes dune population panmictique. On a vu que le taux de migration peut tre peru comme un analogue du taux de mutation, mais quil est gnralement plus lev : cela conduira une incidence leve de la maladie. En effet si la population panmictique est lquilibre slection-mutation, la frquence de lallle morbide a y est gal ; les allles a imports dans la population par immigration, puis soumis un rgime consanguin, sont la cause dune augmentation de lincidence.

62