Vous êtes sur la page 1sur 5

Prparation lagrgation Epreuve de modlisation

Anne 2009-2010 Probabilits-Statistiques

Estimation de la distance gntique entre deux espces

Mots-cls : chane de Markov, estimateur du maximum de vraisemblance, mthode delta.

Introduction
Linformation gntique des organismes vivants est porte par les molcules dADN. Cette information se transmet de gnration en gnration, mais peut subir au cours de ces transmissions des variations dues des erreurs de transcription, variations qui sont lorigine de lvolution des espces. Ltude de lADN permet donc de mesurer cette volution, en particulier destimer la distance sparant des espces actuelles distinctes dont on suppose quelles ont eu dans le pass un anctre commun. On sintresse plus prcisment dans ce texte deux espces drivant par mutations dun anctre commun partir duquel elles ont volu indpendamment lune de lautre. Le but de ltude est destimer le temps coul depuis cette divergence, sachant quon ne peut observer que les espces prsentes et non lanctre commun dont on ne sait a priori rien.

1. Le modle
Une molcule dADN est compose de squences de nuclotides, caractriss par un type de base azote. Il existe quatre types de bases azotes distinctes, notes A (adnine), C (cytosine), G (guanine), T (thymine). Un brin dADN peut donc tre vu comme une suite de sites en lesquels gurent des lettres, prises parmi A, C, G, T. Ces molcules se reproduisent de gnration en gnration, permettant ainsi la transmission de linformation gntique. Les mutations sont dues principalement des erreurs lors de la rplication de ces squences (ajout, dltion ou substitution de nuclotides). On ne sintressera dans ce texte quau cas des substitutions. Le modle le plus simple consiste supposer qu chaque rplication la probabilit dune substitution en un site donn est constante, gale un rel > 0, la mutation seectuant avec quiprobabilit vers lune des trois autres bases indpendamment de tout le pass du processus. On supposera de plus que les processus de substitution en des sites distincts sont indpendants. Le but est dtudier la distance gntique entre deux espces relativement proches A et B dont on pense quelles ont eu dans le pass un anctre commun partir duquel elles ont diverg une certaine poque, voluant ensuite indpendamment lune de lautre. On ne sait rien de cet anctre ni du temps de divergence (cest prcisment lui quon veut estimer).

On observe pour cela deux squences dADN fonctionnellement homologues de lespce A et de lespce B, par exemple : A T T C . . .G A A pour A et G T T C . . .G A T pour B, et on se propose destimer partir de cette comparaison le temps sparant chacune de ces espces de leur anctre commun (si beaucoup de mutations se sont produites, on peut penser que cette distance est grande).

2. Une chane de Markov temps discret


On sintresse dans cette partie la variation de la base en un site donn. On discrtise le temps et on note Xn la base en ce site linstant n. Les hypothses introduites au dbut du texte amnent considrer la suite (Xn )n0 comme une chane de Markov homogne despace dtats E = {A, C, G, T } (quon peut aussi prendre gal {1, 2, 3, 4} en numrotant ces tats) et de matrice de transition 1 /3 /3 /3 /3 1 /3 /3 . P = /3 /3 1 /3 /3 /3 /3 1 Cette chane est irrductible apriodique. Elle admet une unique probabilit invariante , qui est la loi uniforme sur E. Elle est de plus rversible, i.e. vrie i Pi,j = j Pj,i pour tout couple (i, j) dtats. Cette rversibilit traduit la rversibilit temporelle du processus de mutation : elle quivaut P (X0 = i0 , X1 = i1 , . . . , Xn = in ) = P (Xn = i0 , Xn1 = i1 , . . . , X0 = in ) pour tout entier n et tout (n + 1)-uplet (i0 , i1 , . . . , in ) dtats, o lon a not P la probabilit pour la chane stationnaire, i.e. de loi initiale . La matrice P est diagonalisable, et on vrie aisment que sa puissance n-ime P n , qui reprsente la matrice de transition en n pas de la chane, est de la forme r(n) s(n) s(n) s(n) s(n) r(n) s(n) s(n) Pn = s(n) s(n) r(n) s(n) s(n) s(n) s(n) r(n) o s(n) = 1 1 4 n 1 . 4 4 3 La probabilit P(Xn = X0 ) que la base ait chang au site considr entre les gnrations 0 et n est pn = 3 s(n), do on tire 4 ln 1 pn 3 n= 4 ln 1 3 do lapproximation, pour petit : n 4 3 ln 1 pn 4 3 2 .

Lesprance du nombre de substitutions au site considr au cours des n premiers pas de la chane est K = n, do lapproximation, pour petit : 3 4 K ln 1 pn 4 3 .

Si on observe, non plus seulement un site, mais un grand nombre N de sites, en supposant que les (k) processus de substitutions Xn (k = 1, . . . , N ) en ces dirents sites sont indpendants et suivent tous la mme loi, on peut estimer pn par la frquence Fn = 1 1X (k) =X (k) dobservation dune n N 0 k=1 substitution en ces N sites et ainsi obtenir un estimateur de K en remplaant pn par Fn dans la formule prcdente. On remarque en particulier que si les squences aux instants 0 et n sont proches (Fn petit), K est proche de Fn comme on pouvait sy attendre.
N

3. Du temps discret au temps continu


Si la probabilit de substitution en un pas en un site donn est faible, mais si on observe la chane sur une grande chelle de temps, on peut approcher le processus en temps discret par une chane de Markov temps continu. Plus prcisment, si on suppose que = pour un n certain rel > 0, et si on sintresse aux transitions sur un temps nt, i.e. pour nt pas, o x dsigne la partie entire de x, on voit que les transitions se font de i vers i avec une probabilit 1 tendant vers (1 + 3e4t/3 ) et de i vers un tat distinct j avec une probabilit tendant vers 4 1 (1 e4t/3 ) quand n tend vers linni. 4 On est ainsi amen introduire la matrice 1 1/3 1/3 1/3 1/3 1 1/3 1/3 Q = 1/3 1/3 1 1/3 . 1/3 1/3 1/3 1 La matrice de transition P nt est alors proche, (t) (t) P (t) = etQ = (t) (t) quand n est grand, de (t) (t) (t) (t) (t) (t) (t) (t) (t) (t) (t) (t)

1 1 o (t) = (1 + 3e4t/3 ) et (t) = (1 e4t/3 ). 4 4 On peut voir ainsi lvolution au cours du temps de la base en un site donn : les temps de substitution sont les instants de saut dun processus de Poisson dintensit et chaque instant de saut de ce processus de Poisson, le saut seectue avec quiprobabilit vers un des trois types possibles, indpendamment de tout le pass du processus. Ici encore la probabilit uniforme sur E est lunique probabilit stationnaire pour la chane temps continu, i.e. lunique probabilit vriant Q = 0. La chane temps continu est elle aussi rversible, ce qui signie que i qi,j = j qj,i pour tout couple (i, j) dtats, et traduit la rversibilit temporelle du processus de substitution.

4. Estimation de la distance gntique


On revient la situation dcrite dans lintroduction. On dispose dchantillons dADN de deux espces A et B dont on pense quelles ont eu dans le pass un anctre commun. On fait lhypothse que ces deux espces ont volu indpendamment lune de lautre partir de cet anctre commun et on voudrait estimer leur distance gntique en observant deux squences dADN fonctionnellement homologues de longueur N de ces deux espces. En prenant comme origine du temps linstant de divergence, on considre donc pour chaque (k) (k) (k) (k) site k deux processus (Xt )t et (Yt )t temps continu vriant X0 = Y0 qui voluent indpendamment suivant la loi dcrite dans la partie 3. On a donc, pour tout couple (i, j) dtats (k) (k) (k) (k) (k) (k) et tout site k, P(Xt = j | X0 = i) = P(Yt = j | Y0 = i), et on suppose que X0 = Y0 suit la loi stationnaire . On suppose de plus que les processus correspondant des sites dirents sont indpendants. On dnit la distance gntique entre A et B comme K = 2t
iE

i qi = 2t

o qi = qi,i est le taux de substitution, i.e. le nombre moyen de substitutions par site et par unit de temps, et t linstant prsent. Le nombre K reprsente donc le nombre moyen de substitutions par site entre A et B quand on commence par remonter larbre gnalogique de A vers lanctre commun, puis quon le redescend de cet anctre commun vers B. On peut observer pour chaque site son tat actuel dans les espces A et B et donc, pour tout couple (i, j) dtats, la variable alatoire
N

Ni,j =
k=1

1{i} (Xt ) 1{j} (Yt

(k)

(k)

reprsentant le nombre de sites dans ltat i pour A et dans ltat j pour B, et donc la variable alatoire Ni,j DN =
i=j

reprsentant le nombre de sites en lesquels les bases sont direntes pour les deux espces. La variable alatoire DN suit la loi binomiale de paramtres N et 3 3 p = (1 e8t/3 ) = (1 e4K/3 ) . 4 4 On a donc P(DN = d) = N d p (1 p)N d d

pour tout entier d {0, . . . , N }. Lestimateur KN du maximum de vraisemblance pour K est alors 3 4DN KN = ln 1 4 3N .

Cet estimateur est convergent : KN converge presque srement vers K quand N tend vers linni. On peut montrer de plus quil est asymptotiquement normal : sa loi est approximativement normale quand N est grand. Cette normalit rsultera de la proposition suivante, appele en statistique mthode delta : 4

Proposition : Soit (Yn )n une suite de variables alatoires relles, un rel et (rn )n une suite de rels positifs tendant vers linni tels que rn (Yn ) converge en loi vers une variable alatoire suivant la loi normale N (0, 2 ). Alors, pour toute fonction g de R dans R drivable en , rn (g(Yn ) g()) converge en loi vers une variable alatoire suivant la loi normale N (0, g ()2 2 ). Dmonstration : Lhypothse implique que Yn converge en probabilit vers . Soit alors h la fonction de R dans R dnie par g(x) = g() + (x ) g () + (x ) h(x) pour x = , h() = 0. La fonction h est continue en ; il en rsulte que h(Yn ) tend en probabilit vers 0. Par ailleurs, rn (Yn ) g () converge en loi vers une variable alatoire suivant la loi normale N (0, g ()2 2 ). En appliquant successivement la forme multiplicative, puis la forme additive du lemme de Slutsky, on en dduit que rn (Yn ) h(Yn ) converge en loi (ou en probabilit) vers 0, puis que rn (g(Yn ) g()) converge en loi vers une variable alatoire suivant la loi normale N (0, g ()2 2 ). En appliquant la proposition avec YN = DN /N , rN = N , 2 = p (1 p) et g(x) = 3 4x ln 1 , on obtient que KN suit approximativement la loi normale de moyenne K et de 4 3 9 p (1 p) variance . N (3 4p)2

Suggestions de dveloppements
On pourra dtailler les proprits de la chane de Markov de la partie 2, en particulier la rversibilit, justier le calcul de P n et prciser les proprits asymptotiques de cette chane. On pourra simuler la chane de Markov de la partie 2 pour diverses valeurs de n et comparer la frquence Fn de substitution observe et le nombre total de substitutions au cours des n premiers pas pour les N sites observs. Si N est grand (de lordre de 1000, par exemple) et si on tire chaque pas un site au hasard sur lequel on eectue une substitution alatoire, les processus de substitutions en les dirents sites ne sont plus indpendants ; la formule reste-t-elle approximativement valable dans cette situation ? Dtailler le passage du temps discret au temps continu esquiss dans la partie 3, en expliquant en particulier lintervention du processus de Poisson dans ce modle. Expliciter, pour le modle temps continu de la partie 3, la loi de Xt en fonction de la loi de X0 et de t. Justier linterprtation de K donne dans la partie 4. Expliciter le calcul de lestimateur du maximum de vraisemblance KN . Implmenter lestimateur de K pour le modle temps discret ou pour le modle temps continu. Vrier la normalit asymptotique de la loi de KN en eectuant un grand nombre de simulations.

Rfrences :
S. Tavar, Some probabilistic and statistical problems in the analysis of DNA sequences, Lectures on Mathematics in the Life Sciences, 17, 1986. M. Cristianini, M.W. Hahn, Introduction to computational genomics : a case studies approach, Cambridge University Press, 2007.

Vous aimerez peut-être aussi