Vous êtes sur la page 1sur 258

Avertissement la version lectronique

La publication du livre La Reconstruction phylogntique. Concepts et Mthodes (Masson, 1993), a connu un certain succs, si lon en juge par le rapide puisement des stocks. Les mauvaises langues insinueront que les raisons de ce succs tiennent davantage la prudente politique ditoriale de lditeur qui na risqu quun tirage fort parcimonieux, plutt qu une vritable popularit du livre lui-mme. Pourtant il semble bien que plusieurs gnrations dtudiants aient su mettre profit les performances des photocopieuses pour pallier une pnurie vite manifeste Depuis la date de parution de ce livre, les mthodes phylogntiques ont connu un dveloppement considrable. Il sagit dune discipline qui nest plus seulement rserve aux chercheurs avertis. Elle sadresse galement aux tudiants ds les premiers cycles et sillustre mme, avec plus ou moins de bonheur, dans les manuels scolaires des classes terminales. Paralllement cet largissement rapide du public, les revues scientifiques internationales ou nationales, comme dailleurs les journaux de vulgarisation, ne craignent plus de publier des arbres phylogntiques. Cest mme devenu une ncessit mthodologique impose par lengouement rcent pour les sciences de lvolution. On assiste galement une vaste diversification des applications, qui quittent parfois le domaine traditionnel de la biologie pour saventurer vers ceux, peut-tre plus incertains, de la linguistique, de lthologie ou de la science des textes. Enfin, de multiples ouvrages, pdagogiques ou savants (voir liste ci-dessous ; nous ne conseillons pas tous ces ouvrages au mme titre, au lecteur den tirer le meilleur parti), ont t publis ces 10 dernires annes, au point quil nexiste que lembarras du choix pour celui qui voudrait tancher sa soif de nouveauts dans le domaine des analyses phylogntiques. Compte tenu de cette floraison bibliographique, il nous a quand mme sembl utile de remettre disposition un livre qui conserve encore, aux dires de certains, quelques vertus pdagogiques, malgr ses dix ans dge, mme si cette qualit sapplique plutt aux single malts quaux manuels de phylogntique. Bien quil soit maintenant incomplet ou dpass sur plusieurs points, il garde cependant lavantage dtre le seul ouvrage crit en franais ce jour

Cette version lectronique de La Reconstruction phylogntique. Concepts et Mthodes reste, sur le fond, la copie du livre paru en 1993. Il ne sagit pas dune nouvelle dition mise jour. Seules quelques coquilles ont t corriges. Il est donc de notre devoir davertir le lecteur daujourdhui quil ne trouvera rien sur les dveloppements les plus rcents, quil sagisse dapproches probabilistes (mthodes baysiennes) ou de cladistique structurale (analyse--trois-taxons). Cette version en ligne a bnfici du travail ddition de Yann Bertrand et Rgis Debruyne et de laccueil de la Socit Franaise de Systmatique sur son site Web. Quils soient tous chaleureusement remercis. Pierre Darlu et Pascal Tassy Avril 2004

1994. Scotland R.W., Siebert D.J., Williams D.M. Models in phylogeny reconstruction. The Systematics Association Publication, special volume n52 Clarendon Press, London. 1996. Harvey P.H., Leigh Brown A.J., Maynard Smith J., Nee S. New uses for new phylogenies. Oxford University Press. 1996. Swofford D.L., Olsen G.J., Waddell P.J., Hillis D.M. Phylogenetic inference. In: Molecular systematics, Hillis D.M., Moritz C., Mable B.K. Eds. Sinaueur Associates Inc. Publishers. 1998. Page R.D.M., Holmes E.C. Molecular evolution. A phylogenetic approach. Blackwell Science. 1998. Kitching I.J., Forey P.L., Humphries C.J., Williams D.M. Cladistics, Second Edition; The Theory and Practice of Parsimony Analysis. The Systematics Association Publication N11, Oxford Science Publication, Oxford University Press. 2000. Nei M., Kumar S. Molecular evolution and phylogenetics. Oxford University Press. 2001 Hall B.G. Phylogenetic trees made easy. A How-to Manual for Molecular Biologists. Sinauer Associates, Inc. 2003. Semple C., Steel M. Phylogenetics. Oxford Lecture Series in Mathematics and its Applications n24 Oxford University Press. 2004. Felsenstein J. Inferring phylogenies. Sinauer Associates Inc. Publishers.

LA RECONSTRUCTION PHYLOGNTIQUE
Concepts et mthodes

P. DARLU P. TASSY

ISBN : 2-225-84229-9 ISSN : 0754-4405

Peut-on se mettre d'accord sur une ressemblance ? Et, d'abord, qu'est-ce que la ressemblance ? ... La ressemblance se dpare de l'inessentiel. Elle est l'essentiel rintroduit dans le circuit des formes, des ides, des mtaphores et des alliances essentiel conserv des rapports entre objets et parents d'objets. Edmond Jabs Le Livre des Ressemblances, 1976.

TABLE DES MATIRES


(see contents page X)
Avertissement la version lectronique ....................................................................................... VII TABLE DES MATIRES ............................................................................................................. IX CONTENTS ....................................................................................................................................X AVANT-PROPOS......................................................................................................................... XI I. DE LA GNALOGIE LA PHYLOGNIE.............................................................................1 1. De Lamarck Haeckel...............................................................................................................1 2. L'arbre phylogntique...............................................................................................................6 3. Quelques dfinitions majeures ...................................................................................................7 3.1. Les sommets ................................................................................................................7 3.2. Les liens.......................................................................................................................8 3.3. Rseaux et arbres .........................................................................................................8 3.4. Varits d'arbres.........................................................................................................10 4. Combien d'arbres ?...................................................................................................................11 II. LA PROBLMATIQUE PHYLOGNTIQUE .......................................................................15 1. Le triple paralllisme .........................................................................................................16 1.1. L'anatomie compare .................................................................................................16 1.2. L'ontognie ................................................................................................................17 1.3. La palontologie ........................................................................................................18 2. Le concept de ressemblance.....................................................................................................19 III. LES OBJETS DE LA PHYLOGNTIQUE : CARACTRES ET TAXONS .......................23 1. Les caractres...........................................................................................................................23 2. Les taxons ................................................................................................................................26 2.1. L'espce et les taxons infra-spcifiques .....................................................................27 2.2. Taxons supra-spcifiques...........................................................................................29 IV. LA MTHODE CLADISTIQUE .............................................................................................31 1. Qu'est-ce que l'analyse cladistique ? ........................................................................................31 1.1. Apomorphie, plsiomorphie et groupes naturels .......................................................31 1.2 Images cladistiques.....................................................................................................35 1.3. Cladogramme et arbre phylogntique ......................................................................35 1.4. Anctres .....................................................................................................................37 2. Homologie et orthologie ..........................................................................................................38 2.1. Dfinition et critres de l'homologie..........................................................................38 2.2. Alignement et mutations multiples ............................................................................40 3. Une mthode hypothtico-dductive........................................................................................41 3.1. Le principe de parcimonie .........................................................................................42 3.2. La notion de congruence............................................................................................44

4. Les critres d'identification du sens de transformation des caractres .....................................45 4.1. Le critre de comparaison extra-groupe.....................................................................46 4.1.1. Combien d'extra-groupes ? .....................................................................................46 4.2. Le critre ontognique ...............................................................................................50 4.3. Les critres palontologique et chorologique ............................................................57 4.4. Polarisation et construction cladistique.................................................................................63 V. LES PROCDURES DE PARCIMONIE .................................................................................69 1. La recherche de l'arbre le plus court ........................................................................................69 1.1. Modles de parcimonie..............................................................................................70 1.2. Algorithmes exacts et heuristiques ............................................................................72 1.3. Longueur de l'arbre, longueur des branches et optimisation des caractres...............86 2. Les caractres : codage, optimisation, pondration..................................................................89 2.1. Caractres binaires et tats multiples .........................................................................89 2.2. Polymorphisme ........................................................................................................102 2.3. Pondration des caractres et des transformations...................................................104 3. L'enracinement de l'arbre .......................................................................................................113 3.1. Racine et anctre......................................................................................................113 3.2. Racine et extra-groupe(s).........................................................................................113 3.3. Racine : dichotomie et trifurcation ..........................................................................115 4. Mesures de l'homoplasie et comparaisons d'arbres ................................................................117 4.1. Mesures de l'homoplasie..........................................................................................117 4.2. Les arbres de consensus...........................................................................................120 4.3. Pondration successive ............................................................................................123 4.4. Les mthodes de r-chantillonnage........................................................................128 5. Les invariants .........................................................................................................................131 5.1. Les invariants de Cavender......................................................................................132 5.2. Les invariants de Lake .............................................................................................133 6. L'volution est-elle parcimonieuse ?......................................................................................138 VI. LA MTHODE DE COMPATIBILIT.................................................................................145 1. La mthode.............................................................................................................................145 2. Compatibilit et parcimonie...................................................................................................148 3. Compatibilit et cladisme.......................................................................................................150 VII. LES MTHODES PHNTIQUES .....................................................................................153 1. Historique...............................................................................................................................154 2. Similitude et distance .............................................................................................................155 2.1. La notion de similitude et de distance......................................................................156 2 .2. Indices de similitude et de distance fonds sur des attributs..................................157 2.3. Indices de distances fondes sur des donnes quantitatives.....................................161 3. Distances patristique, observe, estime ................................................................................163 3.1.Distance patristique ou phyltique............................................................................163 3.2. La distance observe................................................................................................164 3.3. Distance estime ......................................................................................................168 4. Mthodes phntiques de construction d'arbres .....................................................................171 4.1. Les mthodes agglomratives ..................................................................................171 4.2. Les mthodes d'ajustement ......................................................................................178 4.3. Les mthodes de parcimonie....................................................................................188 5. Remarques et conclusions propos des mthodes phntiques .............................................191

VIII. LES MTHODES PROBABILISTES ................................................................................195 1. Introduction............................................................................................................................196 1.1. Gnralits ...............................................................................................................196 1.2. Exemple ...................................................................................................................198 1.3. Conclusions .............................................................................................................203 2. Modle d'volution de caractres quantitatifs ........................................................................204 2.1. La solution de Felsenstein (1973b) ..........................................................................206 2. 2. La mthode du Treeness (Cavalli-Sforza et Piazza, 1975) .....................................209 3. Modle d'volution de caractres discrets..............................................................................211 3 .1. Gnralits ..............................................................................................................211 3.2. Modle d'volution de type Poisson, fonction du temps..........................................213 3.3. Modle d'volution indpendant du temps ..............................................................215 4. Parcimonie et vraisemblance..................................................................................................215 5. Parcimonie, vraisemblance et consistance .............................................................................219 6. Conclusions............................................................................................................................223 CONCLUSION.............................................................................................................................225 RFRENCES BIBLIOGRAPHIQUES......................................................................................230 INDEX..........................................................................................................................................242

CONTENTS

Forewords ...................................................................................................................................... XI I. FROM GENEALOGY TO PHYLOGENY...................................................................................1 1. From Lamarck to Haeckel..........................................................................................................1 2. The phylogenetic tree.................................................................................................................6 3. Some important definitions ........................................................................................................7 4. How many trees ?.....................................................................................................................11 II. THE PHYLOGENETIC PROBLEM.........................................................................................15 1. The threefold parallelism .........................................................................................................16 2. The concept of similarity .........................................................................................................19 III. THE OBJECTS OF PHYLOGENETICS: CHARACTERS AND TAXA ...............................23 1. Characters ................................................................................................................................23 2. Taxa .........................................................................................................................................26 IV. THE CLADISTIC METHOD...................................................................................................31 1. What is cladistic analysis ? ......................................................................................................31 2. Homology and orthology .........................................................................................................38 3. A hypothetico-deductive method .............................................................................................41 4. The criteria of character transformation polarity .....................................................................45 V. PARSIMONY PROCEDURES .................................................................................................69 1. Finding the shortest tree...........................................................................................................69 2. Characters: codage, optimization, weighting ...........................................................................89 3. Rooting the tree......................................................................................................................113 4. Mesuring homoplasy and comparing trees.............................................................................117 5. Invariants ...............................................................................................................................131 VI. THE COMPATIBILITY METHOD ......................................................................................145 1. The method ............................................................................................................................145 2. Compatibility and parsimony.................................................................................................148 3. Compatibility and cladism .....................................................................................................150 VII. PHENETIC METHODS .......................................................................................................153 1. Historical account ..................................................................................................................154 2. Similarity and distance .......................................................................................................155 3. Patristic, observed, and estimated distance ............................................................................163 4. Constructing a tree with phenetic methods ............................................................................171 5. Phenetic methods: remarks and conclusions..........................................................................191 VIII. PROBABILISTIC METHODS............................................................................................195 1. Introduction............................................................................................................................196 2. Evolutionary models of quantitative characters .....................................................................204 3. Evolutionary models of discrete characters ...........................................................................211 4. Parsimony and likelihood.......................................................................................................215 5. Parsimony, likelihood and consistency ..................................................................................219 6. Conclusions............................................................................................................................223 CONCLUSION.............................................................................................................................225 REFERENCES .............................................................................................................................230 INDEX..........................................................................................................................................242

AVANT-PROPOS

La construction phylogntique est l'une des disciplines en plein essor des sciences de l'volution. Depuis une vingtaine d'annes elle s'est constitue comme branche autonome. Assurment, la construction d'arbres gnalogiques est aussi vieille que la recherche volutionniste elle-mme. Mais, longtemps intuitive, elle est aujourd'hui formalise et repose le plus souvent sur une base mathmatique, ou, tout le moins, algorithmique. Ce livre est n de notre exprience en matire de recherche d'abord, exprience de phylognticien pour chacun de nous, plutt de gnticien pour l'un et de palontologue pour l'autre ; mais aussi et surtout, en matire d'enseignement, tant dans le cadre universitaire que dans le cadre de stages de formation permanente du CNRS. Il est vite apparu qu'il restait crire un ouvrage pdagogique en langue franaise accessible aux tudiants, aussi bien qu'aux systmaticiens, biologistes, gnticiens et palontologues qui s'intressent, plus gnralement, aux questions d'volution. Nombreux sont les ouvrages traitant d'un aspect prcis de la recherche phylogntique : manuels de systmatique volutionniste, manuels de taxinomie numrique, manuels de cladistique comme le rcent The Compleat Cladist (Wiley et al., 1991). Plus rares sont les manuels de synthse qui apportent une initiation aux diffrentes approches phylogntiques actuellement pratiques. L'ambition du prsent volume est d'offrir un panorama de ces mthodes, ainsi qu'une discussion de leurs particularits, de leurs performances et de leurs limites. Le lecteur trouvera non seulement une introduction aux mthodes cladistique et phntique de construction d'arbres, qui sont parmi les plus rpandues, mais aussi une introduction aux approches probabilistes, moins frquemment utilises et discutes. En somme, la fonction de ce livre est d'initier le lecteur aux pratiques phylogntiques par le concret - par l'exemple -, mais aussi en l'informant sur le

Avant-propos

fond, c'est--dire sur les principes et modles qui sous-tendent chaque mthode. Ainsi devraient tre plus claires les raisons de choisir telle ou telle mthode, plus argumentes en tout cas que le choix de telle d'entre elles parce que c'est ce qui se fait dans la maison . Cet ouvrage n'est pas une introduction aux diffrents logiciels de construction d'arbres existant sur le march. Nanmoins l'usage de l'outil informatique a fortement transform la pratique quotidienne du phylognticien. Nous avons donc cherch intgrer au cours des dveloppements conceptuels touchant chaque mthode, les procdures spcifiquement informatiques. Traditionnellement, la construction d'arbres phylogntiques ressortit au vaste domaine de la systmatique, de la taxinomie. Toutefois nous n'avons pas cherch approfondir la question des liens entre classification et phylognie. Les livres sur la question sont nombreux (voir par exemple le tout rcent ouvrage de Panchen, 1992) et figurent en tout tat de cause dans la bibliographie en fin de volume. C'est vritablement la spcificit de la construction de l'arbre, c'est--dire l'tablissement des liens phylogntiques, qui fait le sujet du prsent livre. Qu'est-ce qui diffrencie la construction d'arbres phylogntiques de celle de simples graphes arborescents ? En quoi se distinguent les diffrentes approches et mthodes ? Qu'est-ce qui distingue une analyse de distance d'une analyse cladistique, ou bien une analyse de parcimonie d'une analyse probabiliste ? Pourquoi donnent-elles ventuellement des rsultats divergents partir des mmes donnes de dpart ? Pourquoi utiliser telle mthode plutt qu'une autre ? Quel est le rapport des constructions phylogntiques la thorie de l'volution en gnral et aux modles sur les processus volutifs en particulier ? Quelle est l'originalit des mthodes probabilistes ? Nous esprons avec ce livre apporter quelques rponses ces questions (et bien d'autres), ainsi que des lments de rflexion propos des nombreux problmes qui persistent aujourd'hui dans le champ de la recherche phylogntique, tant dans le domaine dit traditionnel des recherches morphologiques qu'en biologie molculaire. Ce livre s'adresse aux tudiants de 2e et 3e cycles en biologie volutive, palontologie incluse, en esprant leur faciliter la tche dans le dpouillement et la comprhension de la littrature phylogntique aussi abondante et diversifie que parfois hermtique. Il s'adresse aussi aux chercheurs non phylognticiens qui souhaitent avoir en main un ouvrage sur la question, tant aujourd'hui il est difficile d'apporter des informations volutives indpendamment de toute construction d'arbre. De nombreux points abords dans ce livre sont actuellement discuts voire controverss. Certains sont des sujets de recherches en cours. Nous nous sommes efforcs de ne pas les esquiver, en restant toutefois trs succinct. C'est le cas, par exemple, de nouveaux indices et tests relatifs l'estimation de la robustesse des arbres qui ont t publi durant l'anne 1992 et dont l'efficacit fait l'objet de travaux actuels. C'est le cas galement des constructions d'arbres rticuls incluant des changes gniques. Le plus souvent, nous n'avons donc dvelopp que les mthodes les plus rpandues.

Avant-propos

XI

Cet ouvrage est divis en huit chapitres. Les trois premiers forment une manire d'introduction historique et conceptuelle des thmes de la recherche phylogntique : concepts de gnalogie, d'arbre, de ressemblance, de caractre, d'homologie, de taxon. Les trois suivants (IV,V et VI) appartiennent, en gros, la sphre du cladisme : la mthode cladistique proprement dite, les procdures de parcimonie et la mthode de compatibilit ; approches cladistique et de compatibilit peuvent en effet tre regroupes en ce sens qu'il s'agit d'analyses de caractres. Le chapitre IV prsente la mthode cladistique la fois dans ses principes et dans sa pratique, sous un angle plutt naturaliste. Le chapitre V est lui aussi en grande partie consacr l'approche cladistique - mais sous un angle plus informatique , en ce sens qu'y sont dveloppes les procdures en usage dans les logiciels dits de parcimonie. Nous esprons que les redondances dans les chapitres IV et V seront plus comprises comme des correspondances que comme des rptitions. Le chapitre V contient en outre d'autres procdures de parcimonie non cladistiques au sens strict. Le chapitre VI est consacr la mthode de compatibilit. Le chapitre VII dtaille les mthodes phntiques que l'on rassemble souvent sous le vocable de taxinomie numrique . Quoique ces approches se ressemblent dans la mesure o elles sont toutes des analyses de distance, elles se distinguent les unes des autres notamment par leurs diffrents prsupposs relatifs aux processus volutifs, c'est--dire par les critres de conversion d'arbres de distances en arbres phylogntiques. Le chapitre VIII est consacr aux mthodes probabilistes, mthodes encore marginales dans le domaine de la recherche phylogntique mais dont on peut attendre une expansion prochaine. Nous tenons remercier Herv Le Guyader sans qui nous n'aurions jamais crit ce livre. Merci galement Josu Feingold pour le soutien qu'il nous a toujours apport au sein de l'Unit INSERM U155 et Michle Aosaka, Vronique Barriel, Jean Pierre Bocquet-Appel, Daniel Goujet, Herv Philippe, Dominique Visset pour leurs conseils, suggestions, critiques et aides diverses.

CHAPITRE I

DE LA GNALOGIE LA PHYLOGNIE

1. De Lamarck Haeckel
Le terme phylognie fut invent par Ernst Haeckel en 1866 pour dfinir l'enchanement des espces animales et vgtales au cours du temps. Jusqu'alors le concept tait exprim par le terme gnalogie . Ce n'est que dans la dernire dition de l'0rigine des espces (1872) que Charles Darwin introduisit le mot phylogeny avec la dfinition suivante : les lignes gnalogiques de tous les tres organiss. Le mot est rest. Nous dfinirons la phylognie comme le cours historique de la descendance des tres organiss . Haeckel lui-mme avait dfini la phylognie comme l'histoire du dveloppement palontologique des organismes par analogie avec l'ontognie ou histoire du dveloppement individuel. Les termes dveloppement et volution sont tous deux issus de l'embryologie. Pour qualifier les transformations organiques situes dans le temps gologique, le mot volution supplanta progressivement la fin du XIXe sicle celui de dveloppement Haeckel fut l'un des artisans de ce succs qui se fit au dtriment de transformisme , terme synonyme d' volutionnisme et qui reste le plus souvent associ luvre de J.-B. Monet de Lamarck, quoique ce dernier ne l'utilist jamais. Lamarck, en mme temps qu'il conut les bases de la thorie de l'volution, publia dans sa Philosophie zoologique (1809) un schma de filiation des animaux qui empruntait sa forme l'image classique de la gnalogie qui se lit de haut en bas (figure I-1). Ce schma est prsent comme la distribution gnrale des animaux. Ce concept lamarckien exceptionnellement fcond s'oppose explicitement la classification et se veut une construction qui doit exprimer l'ordre reprsentant le plus possible celui mme de la nature, c'est--dire l'ordre qu'elle a suivi dans la production des animaux et qu'elle a minemment caractris par les rapports qu'elle a mis entre les uns et les autres . Les rapports qu'voque Lamarck sont les parents entre les corps vivants .

De la gnalogie la phylognie

FIGURE I.1. La filiation des animaux selon Lamarck (1809, vol.2, p.463). Lamarck crit aussi que la distribution doit former une srie et non une ramification rticulaire ; cette srie devant tre une vritable chelle relativement aux grandes masses, c'est--dire les grandes subdivisions du monde animal, les espces (formant) souvent autour des masses dont elles font partie des ramifications latrales dont les extrmits offrent des points vritablement isols . Le concept de phylognie est donc bauch chez Lamarck. Contre la lgende qui fait de Lamarck un incompris qui fut ignor de son temps, il convient de souligner la force de ces bauches lamarckiennes. En outre, c'est un naturaliste lamarckien, Frdric Grard, tardivement reconnu, qui conut en 1845, soit quinze ans avant l'Origine des espces, l'expression thorie de l'volution des tres organiss dans son sens moderne, preuve, s'il en est, de la fcondit de luvre de Lamarck. Nanmoins c'est dans l'Origine des espces de Darwin (1859) qu'on trouve la fois l'ide de phylognie comme cours historique unique suivi par l'volution et l'image de l'arbre phylogntique. Renversant la lecture de la gnalogie, la phylognie est reprsente sous la forme d'un arbre avec un tronc, des branches, des rameaux qui se lit de bas en haut. La seule illustration incluse dans l'Origine des espces est une image de filiation entre espces hypothtiques situes dans un contexte stratigraphique : le temps gologique se lit de bas en haut (figure.I-2). Les premires phylognies jamais publies se lisent de cette faon, qu'il s'agisse de la phylognie du monde vivant par Haeckel (1866) o l'chelle du temps n'est qu'implicite (figure I.3) ou de celle par Albert Gaudry (1866) intgrant divers mammifres actuels et fossiles et o l'chelle du temps est explicite (figure I.4).

De Lamarck Haeckel

FIGURE I.2. Le modle de la descendance avec modification selon Darwin (1859, tableau face p.117). A-L : espces ; I-XIV : tages gologiques.

De la gnalogie la phylognie

FIGURE I.3. L'arbre phylogntique des tres vivants selon Haeckel (1866, vol.2, pl.1).

De Lamarck Haeckel

FIGURE I.4. L'volution des proboscidiens selon Gaudry (1866). Toutefois, donner diffrents taxons leur dimension stratigraphique en les situant dans l'chelle des temps gologiques ne revient pas construire un arbre phylogntique. Agassiz publia par exemple, ds 1844, une gnalogie de la classe des poissons situe dans un cadre stratigraphique o les positions respectives des diffrents groupes reconnus peuvent voquer un arbre. Mais aucune connexion entre ces groupes n'est indique. La raison en est que, selon Agassiz, cette gnalogie n'implique pas de lien volutif : Agassiz tait fixiste.

De la gnalogie la phylognie

2. L'arbre phylogntique
L'arbre phylogntique est une construction-cl dans l'histoire de la biologie et de la gologie. Son succs oprationnel ne s'est jamais dmenti. Imaginons que nous retracions l'histoire de trois espces choisies arbitrairement (actuelles ou fossiles). En remontant le temps, nous pouvons esprer relier les deux espces qui drivent de la mme espce ancestrale ; en remontant plus loin encore, nous rencontrons l'espce ancestrale des trois espces. Le dessin en deux dimensions de ces relations de parent est un arbre compos d'une succession de branchements. Au reste, on n'a jamais trouv meilleure faon d'illustrer, en deux dimensions, les relations de parent entre espces ou groupes d'espces, en fonction du temps (verticalement) et de la diversit taxinomique (horizontalement). Dans le cas de la diversit, de faon conventionnelle et le plus souvent symbolique, la dimension horizontale permet aussi une reprsentation du degr de divergence morphologique de deux branches partir du point de branchement, ce que Darwin nomme la somme des modifications .

FIGURE I.5. Classification des oiseaux fissirostres selon Wallace (1856).

Quelques dfinitions majeures

L'arbre phylogntique rompt suivant en cela les anticipations lamarckiennes avec la tradition des reprsentations en rseaux hrites du XVIIIe sicle qui influenaient encore fortement les naturalistes volutionnistes. Les rseaux, comme les arbres, visent relier linairement des groupes selon leurs degrs d'affinits. Cependant la lecture d'un rseau n'impose nullement un point de dpart oblig : il n'y a pas de souche la base du schma. Nelson et Platnick (1981) ont dj fait remarquer que A.-G. Wallace l'autre pre de l'volutionnisme fournit en 1856 un schma de ce type propos des affinits des oiseaux de l'ordre des fissirostres. Il nous manque dans un tel schma qui s'apparente un arbre non enracin, l'indication d'un itinraire : le cours historique (figure I.5). Avec l'arbre phylogntique, l'itinraire nous est donn par le point de dpart oblig : la racine de l'arbre. Le temps gnalogique tant irrversible, l'histoire de la descendance est unique. Le problme de reconstruction d'un fait historique n'admettant qu'une seule solution, l'un des buts de la science volutionniste du XXe sicle fut et reste l'laboration et le perfectionnement des mthodes de reconstruction phylogntique.

3. Quelques dfinitions majeures


Le vocabulaire propre aux phylognticiens prsente quelques particularits, mais aussi quelques ambiguts dans la mesure o il rsulte d'un mlange de termes issus de la thorie des graphes, et dont l'usage n'est pas toujours correct, et d'autres termes, gnralement plus imags, hrits de la tradition volutionniste remontant au XIXe sicle. Quelques claircissements sont donc ncessaires. Partant de dfinitions de la thorie des graphes, nous expliquerons les termes consacrs maintenant par l'usage, en levant toute ambigut. Les relations entre divers objets (populations, espces, taxons, units volutives) peuvent tre reprsentes selon un diagramme assez gnral tel que celui de la Figure I.6a. On y distingue des sommets et des liens, appels aussi arcs ou artes, reliant ces sommets.

3.1. Les sommets


On distingue les sommets internes ou nuds (figure I.6 : N5, N6, N7, N8) et les sommets externes ou feuilles (T0, T1, T2, T3, T4). Dans le contexte phylogntique, ces derniers, pour lesquels on dispose de donnes observes, sont les extrmits ou taxons terminaux, ou units volutives (UE). Les nuds constituent gnralement des taxons ou des UE hypothtiques (UEH) dans la mesure o leur existence n'est pas fonde sur l'observation de caractres mais rsulte seulement du processus de reconstruction lui-mme.

De la gnalogie la phylognie

3.2. Les liens


La relation entre deux sommets constitue un lien appel souvent segment ou branche. Deux nuds internes sont relis par un lien interne (l65, l68, l76, l78 et l85) tandis qu'un nud et une feuille sont relis par un lien externe, dsign gnralement comme une branche terminale ou priphrique (l50, l16, l27, l37, l48). A chacun des liens, on peut associer une mesure, comme par exemple une distance, gntique ou autre, une dure, une quantit d'volution ou un nombre de mutations. On peut galement y associer un poids qui peut tre une vitesse d'volution, un effectif, un taux de mutation, un cot quelconque etc. Un poids nul le long d'un lien entre deux UE revient supprimer ce lien, donc fusionner deux UE. Par ailleurs un lien peut tre orient, c'est--dire avoir une mesure et/ou un poids diffrent selon que la relation est parcourue dans un sens ou dans un autre. Un poids nul le long d'un lien orient signifie que l'orientation est univoque, d'un nud vers un autre et non en sens inverse. C'est le sens classique en phylogntique. On dira que le premier nud est l'anctre par rapport au second dfini comme descendant. Une autre caractristique concerne le nombre de liens attachs un sommet : ce nombre peut varier d'un sommet un autre. Dans le cas de la figure I.6a (liens non orients), il est gal 1 pour un sommet externe (T0 T4), 3 pour N5, 4 pour tous les autres. Dans la figure I.6b (liens orients univoques), il faut distinguer le nombre des liens pointant vers le sommet de ceux qui en partent. La figure I-6 montre deux types de relations entre UE : dans la premire (a) aucun sens d'volution n'est explicite puisque les liens sont non orients. En revanche, dans la seconde (b) les liens sont orients depuis T0 (UEH ancestrale) jusqu'aux taxons terminaux (T1 T4). Dans les deux cas, la longueur des liens peut tre reprsente proportionnellement la mesure reliant les taxons entre eux, ou, au contraire, n'avoir aucune signification autre que de dcrire les relations entre les nuds.

3.3. Rseaux et arbres


Il est ncessaire de distinguer d'abord entre rseaux et arbres, ces derniers pouvant tre non enracins ou enracins. 3.3.1. Le rseau Il s'agit d'un graphe connexe (il existe au moins un chemin entre chaque paire de sommets) et cyclique (c'est--dire assimilable une chane dont les extrmits concident).

Quelques dfinitions majeures

9
T0 l50 N5 l 85 N 8 T4 l48 l65 N6 l16 l68 l78 N 8 T4 l 48

T0 l50 N5 l 85 l65 T1 l16 l76 N7 l 27 T2 l37 T3 T2 l78 l76 N7 l27 N6 l68

T1

l 37 T3

a)

b)

FIGURE I.6. Schma des liens non orients (a) ou orients (b) entre 5 sommets terminaux ou branches (T0 T4) et 4 nuds (N5 N8) (a) ou orients (b). 3.3.2. L'arbre 1) L'arbre non enracin (unrooted tree) est un graphe connexe non cyclique. Il n'existe donc pas de boucle, c'est--dire qu'un seul et unique chemin permet de passer d'un sommet un autre. Il n'y a qu'une faon de joindre entre elles deux UE. De ce fait, les sommets terminaux (les feuilles) ne sont relis aux nuds internes que par un seul lien non orient (branche). Cela revient en fait attribuer un poids nul aux branches qui permettraient un cycle. Par exemple, sur la figure I.6, le lien l68 entre les nuds N6 et N8 et le lien l78 entre les nuds N7 et N8 sont supprims dans la figure I.7. Le terme de rseau (network) est souvent considr comme synonyme d'arbre non enracin, bien que cet usage ne correspondent pas au vocabulaire de la thorie des graphes (Barthlmy et Gunoche, 1988). Dans la mesure du possible, on vitera d'utiliser ce terme, sauf cas particuliers comme celui o il existe des mlanges entre UE diffrents niveaux de l'arbre. 2) L'arbre enracin comporte une contrainte supplmentaire par rapport l'arbre non enracin dans la mesure o on est amen dfinir une origine appele souvent racine ou anctre. Les liens sont alors orients de manire univoque de telle faon qu'un seul lien se dirige sur un sommet tandis que deux liens (dichotomie ou bifurcation) ou plusieurs liens (polytomie ou multifurcation) peuvent en partir. C'est le cas de la figure I.7b, dduite de la figure I.6b en supprimant les liens l68 et l78, et o l'anctre est T0.

De la gnalogie la phylognie

10
T0

T0

T4

T1

a)

b)

T2

T3

T1

T2

T3

T4

FIGURE I.7. Schmas des liens non orients (a) ou orients (b) quand les liens l68 et l78 de la figure I.6a et I.6b ont un poids nul. L'arbre (a) est non enracin tandis que l'arbre (b) possde une racine T0 Dans le vocabulaire de la systmatique moderne, un usage regrettable met parfois en synonymie les mots arbre et phylognie. Or, un arbre n'est pas ncessairement enracin alors qu'une phylognie est une histoire et a donc un point de dpart, la racine, et une seule orientation de lecture. L'expression d'arbre phylogntique n'est donc pas redondante, tandis que l'expression phylognie non enracine est proscrire catgoriquement. Par la suite nous rserverons le plus souvent le terme d'arbre pour qualifier un arbre enracin, parlant d'arbre non enracin ou, plus rarement, de rseau pour les autres types d'arbres.

3.4. Varits d'arbres


a Le dendrogramme est un arbre exprimant les liens entre taxons sous la forme d'une succession de branchements. Il ne dsigne rien d'autre qu'un arbre dont les lments terminaux sont les taxons ou UE observs. Ce terme est assez large pour ne rien exprimer quant la procdure utilise pour son obtention. b Le cladogramme est un dendrogramme exprimant les relations phylogntiques entre taxons et construit partir de l'analyse cladistique o les points de branchements (les nuds) sont dfinis par des synapomorphies. Ce mot a t cr la mme anne par Mayr (1965) et par Camin et Sokal (1965) avec des sens un peu diffrents. c Le phnogramme est un dendrogramme produit par la taxinomie numrique o les relations entre taxons expriment les degrs de similitude globale, dfini simultanment par Mayr (1965) et par Camin et Sokal (1965). d Le phylogramme est un dendrogramme exprimant les branchements cladistiques et le degr de divergence adaptative subsquente aux branchements (Mayr, 1969).

Combien d'arbres ?

11

4. Combien d'arbres ?
Il n'existe qu'un seul arbre reliant diffrentes units volutives passes ou actuelles : c'est l'arbre volutif, celui qui raconte l'histoire de la descendance. L'ambition de la reconstruction phylogntique est de distinguer cet arbre vrai parmi l'ensemble des arbres que l'on peut thoriquement reconstruire partir des diffrentes UE observes. Il est donc important de connatre le nombre T de tous ces arbres possibles. Les mthodes dcrites dans ce livre conduisent effectuer un choix, gnralement limit un seul arbre, parmi tous les arbres possibles. Dans le cas simple o le nombre n d'UE est gal 4 (A, B, C, D), la figure I.8 montre que 4 arbres non enracins sont possibles dont trois (Tx, Ty, Tz) possdent deux nuds internes et le quatrime (Tw) un seul nud interne. Ces quatre solutions sont obtenues par l'insertion de la quatrime UE (ici D) sur l'une des trois branches reliant les trois autres UE (A, B et C) ou sur le nud joignant ces trois branches. Pour passer d'un arbre non enracin un arbre enracin, il suffit de placer l'anctre sur l'une quelconque des branches. On supposera que la position de l'origine est distincte des nuds et des UE. Pour chacun des arbres Tx, Ty et Tz, il y aura donc 5 localisations possibles pour cette origine, soit 15 arbres diffrents au total. Avec Tw, 4 positions sont possibles pour cette origine. En conclusion, 19 arbres diffrents reliant entre elles 4 UE seulement peuvent donc tre construits. De la mme faon, si, au lieu de vouloir placer sur un arbre non enracin de 4 UE une origine ou un anctre, on souhaitait agglomrer une cinquime UE, 15 positions seraient galement possibles partir de Tx, Ty et Tz (reprsentes sur la figure I.8) et 4 partir de Tw. Le cas de figure de 4 arbres construits partir de 4 UE sera privilgi par plusieurs mthodes de reconstruction comme la mthode des invariants (Chapitre V.5). Le calcul du nombre total d'arbres non enracins prsentant 3 segments par nuds internes repose sur le raisonnement rcurrent suivant (Edwards et CavalliSforza, 1964 ; Cavalli-Sforza et Edwards, 1967 ; Felsenstein, 1978a) : un arbre non enracin de ce type ayant n UE possde : ni = n 2 nuds internes, si = n 3 segments internes, sn = n segments externes. Il est possible de rajouter une UE supplmentaire sur chacun des segments, internes ou externes, donc en si + sn = 2n 3 endroits possibles. Si le nombre des rseaux diffrents pour n 1 UE est Tn 1, ce nombre sera, pour n UE, gal : Tn = Tn 1 * (2(n 1) 3) Finalement on peut donc crire : Tn = (2k 5)
k=3 n

De la gnalogie la phylognie
A B A B

12

C A C A B A

Tw

D B

Tx

Ty

Tz

B A E B A

Tx 1

D C E

C A

Ty1

D B E

D A

Tz1

C B

Tx 2
E

D C

C A

Ty 2
E

D B

D A

Tz 2
E

C B

B A

Tx3
E

D C

C A

Ty 3
E

D B

D A

Tz 3
E

C B

B A

Tx 4

D C E

C A

Ty 4

D B E

D A

Tz 4

C B E

Tx 5

Ty5

Tz 5

FIGURE I.8. Reprsentation des 15 arbres diffrents non enracins que l'on peut obtenir partir de 5 UE : A, B, C, D, E. Lorsque A est considr comme l'anctre, ces 15 arbres deviennent les 15 arbres diffrents enracins que l'on peut obtenir partir de 4 UE diffrentes (B, C, D et E).

Combien d'arbres ?

13

Le nombre total d'arbres enracins dichotomiques diffrents ayant n UE terminaux s'obtiendrait, par un raisonnement analogue :
' Tn = (2k 3) k=2 n

Le nombre d'arbres devient trs vite lev lorsque n, le nombre d'UE, augmente. Ainsi, avec n = 10 et n = 20, les nombres d'arbres dichotomiques sont respectivement : T'10 = 34 459 425 et T'20 = 8 200 794 532 637 891 559 375 >8*1021 On comprend que la recherche exhaustive de l'arbre le plus parcimonieux ou le plus vraisemblable, par numration de tous les arbres possibles, ne soit ralisable que lorsque n ne dpasse pas la dizaine, mais devienne quasiment impossible ds lors que n la dpasse, mme avec les ordinateurs les plus puissants. Ce rsultat implique que soit mise en application une stratgie de recherche de l'arbre le plus parcimonieux ou le plus vraisemblable qui n'impose pas cette recherche exhaustive. Une telle stratgie doit tre efficace en ce sens qu'elle ne doit laisser que peu ou pas de chance de ne pas trouver l'arbre recherch. Plusieurs algorithmes seront dcrits dans le chapitre V qui permettent de raliser ce travail.

CHAPITRE II

LA PROBLMATIQUE PHYLOGNTIQUE

La construction phylogntique est une entreprise vnrable qui plonge ses racines dans les oeuvres des grands volutionnistes du XIXe sicle, Lamarck, Darwin, Haeckel. Mais ses bases conceptuelles, la rgle du jeu de construction, n'ont que rarement t abordes sur le fond. La construction phylogntique s'appuie sur le concept de base de la descendance avec modification . Quels sont les caractres observs chez deux ou plusieurs espces qui indiquent une proche parent ? Ce sont ceux hrits de leur anctre commun. Le postulat de base est que la ressemblance est intelligible en termes d'ascendance commune. Le problme gnral est donc celui de l'infrence sur l'anctre et sur ses caractres partir de l'observation des caractres des taxons terminaux (figure II.1).

FIGURE II.1. Le domaine de l'observation et de l'infrence dans la construction phylogntique (A, B, C : taxons ; triangles : caractres). Jusqu' luvre de taxinomie fondamentale de l'entomologiste Willi Hennig (1950), la construction phylogntique obissait au principe du triple paralllisme (threefold parallelism), une expression conue par le zoologiste Louis Agassiz (1859) et reprise par Haeckel pour exprimer que l'anatomie compare, l'ontognie et la palontologie fournissent les sources de la reconstruction phylogntique.

La problmatique phylogntique

16

1. Le triple paralllisme
Agassiz, l'un des grands anatomistes du XIXe sicle, n'tait pas volutionniste. Ce fut mme l'un des opposants les plus rsolus au darwinisme. Il ne conut le principe du triple paralllisme que dans la perspective de la classification biologique. Haeckel, darwinien militant, reprit son compte ce principe dans une perspective volutionniste. Ce transfert claire les liens profonds entre classification et phylognie. Selon Agassiz, partisan des crations rptes, tablir les affinits entre les tres organiss et les situer dans leur contexte stratigraphique, c'est faire oeuvre de classificateur. Selon Haeckel et les volutionnistes modernes, une telle pratique relve de la reconstruction phylogntique. On ne s'tonnera donc pas que les diffrentes approches mthodologiques concernant la construction des arbres phylogntiques se sont d'abord opposes au travers des coles de systmatique. Mais quoique les systmaticiens s'affrontrent, et s'affrontent toujours, sur le statut des classifications biologiques et sur la nature des informations qu'elles transmettent, l'accord s'est fait sur nombre de principes d'analyse phylogntique. Il reste que les dbats sur les classifications ne sont pas non plus sans effet sur les pratiques phylogntiques. Nous y reviendrons la fin de ce chapitre. L'anatomie compare, l'ontognie et la palontologie offrirent donc selon Haeckel la triple source des informations phylogntiques.

1.1. L'anatomie compare


L'anatomie compare fournit d'abord des informations collectes sur l'actuel et s'applique naturellement la morphologie. La recherche des homologies similitudes lies la descendance est la base mme de l'anatomie compare. Le critre primordial d'identification des traits homologues est l'identit de position ou principe des connexions d'Etienne Geoffroy Saint-Hilaire repris par Richard Owen : un organe est homologue chez deux espces ou plus si, sous quelque forme ou fonction que ce soit, il a les mmes connexions avec d'autres organes. Dans le bras, l'os impair mince et allong de l'homme, qui s'articule avec l'omoplate et l'avant-bras, est homologue celui de la taupe, plus large que haut et dont l'orientation est diffrente (le coude regarde vers le haut) mais dont les connexions sont identiques : c'est l'humrus. Richard Owen qui, le premier, usa du terme homologie (1845) Geoffroy Saint-Hilaire parlait pour le mme concept d' analogie fut un systmaticien non darwinien qui ne se proccupait que de classification et non de phylognie. La perspective volutionniste explique l'homologie par la descendance. Les espces partageant des traits homologues sont apparentes ; le terme apparent n'a pas qu'une signification classificatoire : il a un sens gnalogique. Si l'on se replace dans le contexte de l'anatomie compare du XIXe sicle, il apparat donc que le critre de reconnaissance de l'homologie est indpendant de la dfinition du concept et de son explication volutionniste. L'identification de l'homologie par l'anatomie compare repose sur le principe structural des

Le triple paralllisme

17

connexions, et conoit la ressemblance dans le cadre d'un rapport de position. Il reste que le critre de ressemblance a toujours pos nombre de problmes aux classificateurs. Diffrents traits jugs homologues chez diffrentes espces indiquaient ventuellement des regroupements diffrents. Par exemple, de nombreuses espces de mammifres possdent un humrus pourvu d'une crte supra-condylienne saillante. D'un point de vue structural cette crte est homologue chez ces espces : elle est toujours situe l'extrmit distale de l'os, sur la face latrale et au-dessus du condyle articulaire. Or les mammifres qui montrent cette crte, comme le blaireau, le phoque ou l'lphant, ne sont pas pour autant troitement apparents. Les systmaticiens du XVIIIe sicle cherchrent rsoudre le problme des contradictions induites par la rpartition des caractres par le principe de subordination des caractres , conu par A.-L. de Jussieu. Les caractres constants sont plus importants que les caractres inconstants . Ce principe, o perce la notion de congruence, fut quelque peu altr au XIXe sicle et transform en un principe de recherche des caractres fondamentaux , les bons caractres, ceux dont on pense a priori qu'ils sont plus importants que les autres. Si elle contribua la conception des grands plans d'organisation des tres vivants, l'application de ce principe ne permit pas de rsoudre parfaitement les contradictions. Le principe d'homologie, vu comme un rapport de position, ne le permit pas non plus. On sait aujourd'hui que la source des contradictions est le processus volutif lui-mme : des caractres identiques du point de vue de la ressemblance sont apparus indpendamment chez diffrentes espces. En ralit, pour tre plus efficace du point de vue de la reconstruction phylogntique, la notion d'homologie doit tre soumise l'application d'un autre principe, celui de congruence. On reprendra cette question dans le chapitre IV, en lui associant la question de l'homologie molculaire. Le cadre gnral de l'application de l'anatomie compare la reconstruction phylogntique est fourni par la notion de complexit. Ce qui est simple est primitif et ce qui est complexe est volu. Il s'agit bien d'un cadre gnral et non d'une loi qui ne souffrirait pas d'exception. En effet, la perte d'un organe peut aboutir un tat plus simple que l'tat initial. Une espce volue peut sembler, certains gards, plus simple que son anctre.

1.2. L'ontognie
L'ontognie fournit une source directe d'observation des transformations. Au cours du dveloppement individuel, des caractres juvniles peuvent se transformer et changer de forme (et mme de fonction) chez l'adulte. L'embryologie fournit une information empirique particulirement fconde : aux premiers stades du dveloppement les embryons appartenant divers grands groupes taxinomiques se ressemblent plus entre eux qu'ils ne ressemblent leurs formes adultes. Autrement dit, au cours du dveloppement, ce qui apparat d'abord est gnral, ce qui se transforme subsquemment est particulier (prcdence ontognique). Le pionnier de l'embryologie compare, K.E. von Baer, nona quelques lois embryologiques dont celle de la prcdence. ontognique. Von Baer, toutefois, n'tait pas darwinien. C'est Haeckel qui interprta la loi nonce par von Baer sous l'expression devenue fameuse,

La problmatique phylogntique

18

quoique vite controverse : l'ontognie rcapitule la phylognie . Autrement dit, ce qui apparat d'abord dans l'ontognie est primitif. De la sorte, les donnes recueillies par l'observation de l'ontognie peuvent tre interprtes des fins de reconstruction phylogntique. La loi de rcapitulation de Haeckel, dite encore loi biogntique fondamentale , ne souffrait, pour son auteur, aucune exception. Or les exceptions, sur lesquelles insistrent notamment au XXe sicle Sir Gavin de Beer (1930, 1958) et Stephen Jay Gould (1977), discrditrent d'une certaine manire, la loi biogntique, d'autant que celle-ci avait t souvent prise au pied de la lettre : au cours du dveloppement, l'embryon tout entier, devrait passer par les stades adultes de ses anctres fossiles, ce qui n'est videmment pas le cas. Nous verrons plus loin que la loi biogntique redfinie au niveau des caractres, et non des organismes tout entiers, garde tout son intrt phylogntique.

1.3. La palontologie
La palontologie fournit des informations directement issues du temps gologique. Les tres fossiliss nous donnent des lments de ce qui a vritablement eu lieu au cours du temps, et sont des fragments de la vie passe. L'interprtation phylogntique des fossiles est subordonne au principe de l'anatomie compare : la mise en vidence des homologies. Mais, depuis Gaudry, la position stratigraphique des fossiles est tenue pour fournir une information primordiale vis--vis de la reconstruction phylogntique. L'anciennet reprsente un lment pour identifier ce qui est primitif. Si, l'poque de la publication de la Philosophie zoologique ou de l'Origine des espces, les archives palontologiques n'taient gure importantes, il n'en est plus de mme aujourd'hui. La ralit des fossiles ne pouvant tre mise en doute, le critre palontologique est devenu au cours du XXe sicle le principal critre phylogntique pour maints biologistes. De ce point de vue, la phylognie des groupes organiques sans archives fossiles, ou pour lesquels l'enregistrement fossile est trs lacunaire, tait considre comme largement spculative. Le rle prminent ainsi accord aux fossiles tait tout entier d la dimension chronologique, mais non la manire de traiter l'information qu'ils transmettent. En ralit, les caractres morphologiques des fossiles taient analyss ni plus ni moins comme ceux des formes actuelles : selon les critres de l'anatomie compare. Simplement, grce aux fossiles, les homologies pouvaient, d'une certaine manire, tre dates . A l'inverse, l'irruption au cours des annes soixante de nouveaux caractres qui ne se fossilisent pas (les caractres biochimiques), allait rapidement se traduire par des phylognies sans fossiles. Celles-ci, par contre-coup, relativisrent l'importance accorde la palontologie. On en vint minimiser l'information apporte par les fossiles : ceux-ci, souvent fragmentaires, n'apporteraient au fond que de faibles renseignements. Une fois encore, c'tait plus la nature des caractres utiliss que la faon d'interprter l'information transmise qui dicta une telle attitude. Aucune de ces trois sources d'infrence phylogntique n'est l'abri de l'erreur d'interprtation. Des traits tenus pour homologues peuvent n'tre que des analogies sans rapport avec la filiation : des similitudes dues aux phnomnes de

Le concept de ressemblance

19

convergence ou de paralllisme, c'est--dire des traits observs chez telle et telle espce mais en fait apparus indpendamment. Convergence et paralllisme sont deux phnomnes identiques. On parle conventionnellement de convergence lorsque ces fausses similitudes sont rencontres chez des espces loignes, et de paralllisme lorsqu'elles sont rencontres chez des espces proches. Nous considrons les deux concepts comme identiques du point de vue de l'analyse des caractres. Dans le cours de l'ontognie, les phnomnes d'htrochronie c'est-dire la variation du tempo de dveloppement peuvent brouiller la reconstruction des tats ancestraux. L'arrt du dveloppement de tel ou tel organe peut aboutir la persistance chez l'adulte d'un caractre non point ancestral mais tout simplement non transform. La palontologie rencontre les mmes difficults que l'anatomie compare puisque l'analyse des fossiles n'est en quelque sorte que cette dernire applique aux formes disparues. Les phnomnes de convergence et de paralllisme sont frquemment rencontrs.

2. Le concept de ressemblance
Les trois coles de systmatique que l'on reconnat gnralement des fins pdagogiques systmatique volutionniste, systmatique phntique et systmatique cladistique peuvent tre aisment caractrises en fonction de leur relation au concept de ressemblance (ou de similitude). Le cadre conceptuel des approches vues au paragraphe prcdent est celui de la similitude. En gros, plus les tres se ressemblent plus leurs parents sont troites. Plus les caractres complexes se ressemblent, plus importantes sont les chances d'tre en prsence de caractres homologues. Enfin on peut penser a priori que des formes globalement similaires qui se succdent stratigraphiquement sont lies par des relations d'anctre descendant. Or la similitude n'est pas donne, elle n'existe pas en soi : elle est interprte. Les critres d'interprtation sont la base des diffrentes mthodes d'analyse phylogntique : les infrences gnalogiques, sous quelque forme que ce soit, sont fondes sur un traitement de la ressemblance. Rien n'est plus controvers que l'interprtation de la ressemblance des fins phylogntiques. Du point de vue de l'analyse des caractres, le concept de similitude peut tre divis en homologie et homoplasie. L'homologie est une similitude hrite d'un anctre commun, tandis que l'homoplasie est une similitude qui n'est pas hrite d'un anctre commun (Simpson, 1961 : 78). Le terme homoplasie a t conu par Lankester (1870) et signifiait l'apparition indpendante de caractres similaires chez des espces proches. Aujourd'hui on subdivise l'homoplasie en convergence et rversion. La convergence est l'apparition indpendante chez deux espces (ou plus) d'un mme caractre. La rversion est l'apparition d'un caractre ayant l'apparence de la morphologie ancestrale. La figure II.2 rsume les diffrentes catgories de similitude. Soit l'arbre (A (BC)). Sur la figure II.2A le caractre x' prsent chez B et C est hrit de l'anctre de (BC) : homologie. Sur la figure II.2B le caractre x' prsent chez A et chez C n'est pas hrit d'un anctre commun (homoplasie) : il est apparu deux fois : convergence. Sur la figure II.2C, le

La problmatique phylogntique

20

caractre prsent chez A et chez C n'est pas hrit d'un anctre commun (homoplasie) : il est ancestral chez A et secondairement transform chez C : rversion. Ainsi, quoique non distinguables, les caractres x' chez A et x' chez C ne sont pas homologues sur la figure II.2B ; de mme que le caractre x chez A et x chez C sur la figure II.2C.

FIGURE II.2. Les diffrentes catgories de ressemblance. 2A: ressemblance due l'homologie ; 2B : ressemblance due la convergence ; 2C : ressemblance due la rversion. A, B, C : taxons ; x x' et x x' x : volution du caractre. Pour les systmaticiens phnticiens, adeptes de la taxinomie numrique (Sokal et Sneath, 1963 ; Sneath et Sokal, 1973), les combinaisons de taxons ne peuvent tre scientifiquement fondes que sur la base de la similitude globale exprime par des calculs de matrices de distances et d'indices de similitude. Simplement rsume, l'approche phntique se fonde sur l'analyse, sous forme quantitative, du plus grand nombre de caractres chez les espces tudies, homologies et homoplasies mles : ce qui se ressemble s'assemble. Pour les systmaticiens volutionnistes (Simpson, 1961 ; Mayr, 1969), la similitude globale seule ne peut fournir la base de la reconstruction phylogntique en raison des fausses similitudes que sont les homoplasies, c'est--dire les convergences et rversions. Dans cette perspective, seule la similitude lie aux traits homologues permet la construction phylogntique. Pour les systmaticiens partisans de la systmatique phylogntique encore dnomme cladisme (Hennig, 1950, 1966 ; Eldredge et Cracraft, 1980 ; Wiley, 1981 ; Nelson et Platnick, 1981 ; Schoch, 1986 ; Matile et al., 1987 ; d'UdekemGevers, 1990), le concept mme d'homologie doit tre raffin et prcis pour que l'on puisse construire des arbres phylogntiques prcis. Il convient d'identifier les tats primitifs (plsiomorphe) et driv (apomorphe) des caractres homologues. Pour Hennig, seul le partage par diffrentes espces de caractres drivs est signe de parent troite. L'argumentation de Hennig est rsume par la figure II.3. Les espces B et C partagent un caractre driv z' hrit d'un anctre commun qui leur est propre : elles sont donc troitement apparentes. En revanche, le fait que les espces A et B partagent deux caractres primitifs x et y n'implique pas qu'elles soient troitement apparentes, mme si les caractres x et y sont des homologies chez A et chez B, en ce sens qu'ils ne sont pas des caractres soumis

Le concept de ressemblance

21

au phnomne d'homoplasie. Les relations de parent entre taxons mises en vidence par le partage de traits drivs sont reprsentes par un schma appel cladogramme (telle la figure II.3). Avec cet exemple on voit l'clatement dfinitif du concept de similitude avec l'introduction des notions d'apomorphie et de plsiomorphie et, corrlativement, celle du cladogramme.

FIGURE II.3. Schma d'argumentation phylogntique selon Hennig. A, B, C : espces ; v v', w w', x x' , y y' , z z' : transformations des caractres (barre blanche : tat plsiomorphe ; barre noire : tat apomorphe). L'interprtation de la similitude, selon qu'elle est globale ou dcoupe en plsiomorphie, apomorphie et homoplasie, fournit la source des approches contradictoires de la phylognie que l'on rencontre actuellement. Aprs des polmiques animes, au cours des annes soixante-dix, systmaticiens volutionnistes et cladistes sont aujourd'hui d'accord sur de nombreux aspects touchant aux bases mthodologiques de la construction phylogntique (Mayr, 1986). Ce n'est que sur le lien entre phylognie et classification que persistent des dsaccords fondamentaux, point qui chappe au sujet de ce livre et que nous n'aborderons pas ici. On trouvera dans Tassy (1986) une illustration des dbats sur la nature des classifications biologiques et dans Tassy (1991) une histoire des constructions phylogntiques. En revanche, propos de reconstruction phylogntique, les points de vue phntique et cladistique se fondent sur des bases opposes. Les approches concurrentes de la construction phylogntique en usage actuellement ressortissent donc essentiellement aux deux conceptions du traitement de la similitude. Ou bien l'on admet, malgr la dmonstration de Hennig (figure II.3) que la phylognie peut tre construite partir de la similitude globale : c'est l'approche phntique. Ou bien l'on admet que seule l'analyse des caractres des fins de partition en plsiomorphie, apomorphie et homoplasie, permet de construire la phylognie: c'est l'approche cladistique.

La problmatique phylogntique

22

Les approches probabilistes (chapitre VIII), s'loignent sensiblement des mthodologies phntique et cladistique. Ces mthodes ncessitent l'adoption pralable et explicite d' un modle d'volution des caractres. Une fois ce modle pos, elles permettent de comparer diffrents arbres et de choisir le meilleur c'est--dire le plus vraisemblable au sens statistique du terme. L'ancien triple paralllisme se trouve infod la problmatique phylogntique gnrale : toutes les analyses des caractres (quels qu'ils soient) ports par tous les taxons (quels qu'ils soient : fossiles ou actuels , espces ou groupes d'espces) reposent sur l'identification des tats de transformations : plsiomorphe apomorphe. Il n'y a pas vritablement d'un ct les phylognies palontologiques ou, plus gnralement, morphologiques, et, de l'autre ct, les phylognies molculaires ; mais plutt des phylognies fondes sur les diffrents traitements de la similitude. Aujourd'hui, les reconstructions phylogntiques sont grandement facilites par l'informatique. Les mthodes informatises de l'analyse phylogntique sont naturellement issues des travaux des coles cladistique et phntique. Paralllement la diffusion de luvre de Hennig au cours des annes soixante, sont apparus des traitements informatiques de la similitude qui se situent dans la sphre des ides cladistiques : c'est ce que l'on appelle les mthodes de parcimonie. Par ailleurs, les techniques de groupements morphologiques sur la base de la similitude globale ont t adaptes des fins phylogntiques au moyen de diverses procdures mathmatiques et d'hypothses sur les processus volutifs. Cet ouvrage est donc subdivis en trois parties principales. L'une consacre l'approche cladistique et aux procdures de parcimonie (chapitres IV et V), avec une place part faite aux analyses dites de compatibilit (chapitre VI). Une deuxime est consacre aux approches phntiques (chapitre VII). Une troisime est consacre une mthode originale qui n'est issue ni des coles cladistique ou volutionniste ni phntique : c'est une approche probabiliste (chapitre VIII). En pralable la prsentation des diffrentes mthodes de constructions d'arbres phylogntiques, le chapitre suivant vise clairer succinctement certains concepts de base de la systmatique en gnral, dj entrevus : les taxons et les caractres.

CHAPITRE III

LES OBJETS DE LA PHYLOGNTIQUE : CARACTRES ET TAXONS

1. Les caractres
On appelle caractre tout attribut observable d'un organisme. En tant que tel, le caractre permet de faire des comparaisons entre organismes. En systmatique, la notion d'observation du caractre est indissociable de celle de sa reprsentation. Le moyen par lequel l'observation du caractre devient reprsentation est le codage, sous quelque forme que ce soit. D'un point de vue pratique, les expressions caractre et tat de caractre seront parfois considrs comme synonymes. Si la couleur des yeux est un caractre, les yeux bleus sont un tat de ce caractre. Dans une comparaison entre organismes qui sont pourvus ou dpourvus de yeux, le caractre discriminant sera la prsence ou l'absence de yeux. Dans une comparaison entre organismes pourvus de yeux, le caractre discriminant pourra tre, ventuellement, la couleur des yeux. D'un point de vue phylogntique, pour exprimer une srie de transformations d'un caractre ayant deux tats a et b, on pourra dire indiffremment que l'tat a du caractre se transforme en l'tat b, ou bien que le caractre a se transforme en caractre b. Prenons l'exemple de la morphologie du radius (figure III.1). Un observateur distingue deux morphologies de l'extrmit distale : l'apophyse stylode est massive ou gracile. Il pourra ainsi comparer des taxons pourvus de l'un ou l'autre des deux types d'apophyse. Afin d'exprimer ces morphologies, il parlera indiffremment du caractre apophyse stylode massive prsent ou absent (dans le second cas, l'apophyse est gracile), ou bien de l'tat massif ou gracile du caractre forme de l'apophyse stylode .

Les objets de la phylogntique : caractres et taxons

24

FIGURE III.1. Caractre et tats de caractre: vue antrieure de l'extrmit distale du radius ( A : carnivore (Panthera leo); B : ongul (Oryx dammah); a.s. : apophyse stylode. L'apophyse stylode se prsente sous deux tats : apophyse stylode massive (A) ou gracile (B). De la mme faon, la prsence ou l'absence de tel nuclotide dans un site donn de la squence d'un gne sera dcrite gnralement comme tant un tat de caractre ou, plus rarement, comme un caractre. La prsence chez un organisme d'une adnine (A) sur un site S est le caractre de cet organisme ; on prfrera cependant dire que l'adnine est l'un des quatre tats possibles du caractre site S , puisque l'adnine est l'une des quatre bases constituant les nuclotides. Un site peut galement correspondre une insertion (I) ou une dltion (D). Dans ce cas il s'agit d'un caractre sous deux tats (figure III.2).
Homme Chimpanz Gorille Orang Macaque Atele ACDGCGACAACAGCGCTDAGIATTACCACTACAIAAAADAATTDTCTICACAGGDTAAAGGCTTADCCGDCGGIG GCDGCGACAACAGCGCTDAGIDTTACCACTACAIAAAADAATTDTCTICACAGGDTCGAGGCTDDATCGDTGGIG ATDGACACAACAGCGTTTAAIATTACCGCTACAIADAAIAADTITCTITACAGADTCGATGCTTAACCGDTGTIG GCIAAGGTGGTGCTACCTGADDCCGTTATAGTGDGDDGIGGDGIGTDDTTTGAGICAADTCGADDDTTTACCTDG GTIAAGGTGGTGCTATCDGDDDCCGTTGTAGTGDGDDGIGGDGIGTDDTTTGAAICGADTCGATTATTTACCTDA GTIAACGTGTDDDDDDDDDDDDCCGTTGTAGTGDGDDGIGGDAIGTDDTCTGGAIGAAGTCGATTATTCACDDDA

FIGURE III.2. Caractres et tats de caractre. Squences de nuclotides composes de 75 sites aligns chez six espces. Chaque site correspond un caractre. Le site 1 prsente deux tats : A (Adnine) ou G (Guanine). Le site 3 prsente deux tats correspondant une insertion I et une dltion D (Sites informatifs de la - Globine ; d'aprs Barriel et Darlu, 1990). On distingue diffrents types de caractres : les caractres intrinsques aux espces tudies et les caractres extrinsques ;

Les caractres

25

les caractres discrets (discontinus) ou continus. Les caractres intrinsques sont les caractres que l'on observe sur les organismes eux-mmes. Ils sont de nature morphologique, chromosomique, biochimique, physiologique, thologique (chant des oiseaux par exemple). Les caractres extrinsques sont les caractres dfinissant le contexte cologique, gographique et gologique dans lequel se situent ces taxons. Ces caractres ne sont pas utiliss dans la construction phylogntique. Pour des raisons qui tiennent l'histoire des sciences naturelles, la construction phylogntique se fonde d'abord sur la recherche des homologies pour des caractres morphologiques discrets. Les caractres morphologiques ont trait la forme au sens le plus large : ce sont les caractres phnotypiques. L'anatomie externe et interne des tres vivants a fourni de tout temps la source du savoir morphologique : squelette externe des arthropodes, coquille, forme des feuilles, forme des organes reproducteurs, constitution du bois, squelette interne des vertbrs, systmes nerveux et vasculaire, systme digestif et caractres myologiques, systme reproducteur et placentation etc. Tous ces caractres peuvent tre transcrits sous la forme de caractres discontinus, discrets, subdiviss en deux tats ou plus (tats multiples). Ils peuvent parfois tre exprims sous forme quantitative, c'est--dire mtrique. Sous ce dernier aspect, l'information morphologique est le plus souvent traite par des mthodes multivaries (analyses factorielles) plutt que par des mthodes phylogntiques. L'apparition, ces trente dernires annes, de caractres biochimiques a ractiv la problmatique phylogntique tout en s'intgrant parfaitement dans le cadre gnral de l'analyse de la similitude. Les caractres biochimiques se traitent diffremment selon qu'il s'agit de caractres discrets ou continus : les squences d'acides amins dans les protines ou les squences de nuclotides dans l'ADN ou l'ARN fournissent des donnes (comparaison des sites) qui sont analyses comme des caractres discontinus, souvent par les mmes mthodes que celles conues pour des caractres discrets morphologiques ; les donnes de ractions immunologiques, d'hybridation d'ADN ou de frquences allliques s'expriment sous forme quantitative : raction immunitaire plus ou moins forte d'une espce par rapport un antisrum, taux d'hybridation plus ou moins lev entre les brins d'ADN appartenant deux espces diffrentes, frquences variables de diffrents allles selon les espces. Ce type de caractre ne peut tre analys, dans une perspective phylogntique, que par des mthodes quantitatives. Le polymorphisme alllique mis en vidence par l'lectrophorse est un exemple de caractre qui peut tre trait comme un caractre discret ou comme un caractre continu. En effet, si l'on ne considre que la prsence ou l'absence de telle forme alllique dans une espce, il s'agit d'un caractre discret (voir chapitre IV, paragraphe 6.2). En revanche si l'on prend galement en considration la frquence de ces formes allliques dans les diffrentes espces, il s'agit alors d'un caractre continu. Cette deuxime faon contient une information plus riche, mme s'il s'avre difficile de la prendre en compte dans une analyse phylogntique.

Les objets de la phylogntique : caractres et taxons

26

2. Les taxons
Un taxon est un groupe d'organismes reconnu en tant qu'unit formelle chacun des niveaux de la classification (Simpson, 1961). Elephas maximus, l'lphant d'Asie, est un taxon de rang spcifique ; Elephas est un taxon de rang gnrique ; les Elephantidae sont un taxon de rang familial ; les Proboscidea sont un taxon de rang ordinal, etc. Le mot taxonomie , sous cette orthographe, est selon son inventeur (Candolle, 1813) construit partir de taxis (arrangement) et de nomos (loi) et signifie la thorie des classifications . L'orthographe fut corrige en taxinomie par Littr. Le mot taxon ne fut invent et introduit dans la nomenclature botanique que 137 ans plus tard (Lam, 1950) ; son premier usage dans la littrature zoologique est plus tardif encore (Mayr et al., 1953). Deux concepts ont t plus rcemment drivs de celui de taxon. Il s'agit de l'UTO : Unit Taxinomique Oprationnelle (OTU, Operational Taxonomic Unit de Sokal et Sneath, 1963) et de l'UTH : Unit Taxinomique Hypothtique (HTU : Hypothetical Taxonomic Unit de Farris, 1970). Selon leurs concepteurs, l'UTO est l'unit pragmatique soumise l'investigation, tandis que l'UTH est l'anctre hypothtique d'un nombre donn d'UTOs, reconstruit en mme temps qu'est reconstruit l'arbre phylogntique. En dernier lieu, l'UE : Unit Evolutive (EU : Evolutionary Unit de Meacham, 1984) est l'organisme tudi dans une analyse phylogntique : il correspond donc l'UTO des phnticiens. Par extension et simplification, on considrera dans ce livre les taxons terminaux comme les lments de base de l'analyse phylogntique, qu'ils soient reconnus formellement, c'est--dire classifis, ou bien qu'ils soient des UTOs ou UEs. Ils correspondent aux taxons liminaux de Dupuis (1988), c'est-dire les feuilles de l'arbre au sens de la thorie des graphes (Barthlemy et Gunoche, 1988 ; d'Udekem-Gevers, 1990). L'espce est gnralement considre comme un taxon part : l'espce seule aurait un statut biologique objectif (paragraphe 2.1). Mais les analyses phylogntiques n'ont pas toutes des espces comme objets directs d'tude. Ces derniers peuvent tre des taxons de rang infra-spcifique : des sous-espces ou des populations ; ou bien de rang supra-spcifique : des genres, des familles, des ordres, etc. Le lien logique qui rassemble ces diffrents objets d'tude est double : il rside d'une part dans la dimension taxinomique des objets, et, d'autre part, dans leur dimension phylogntique. Dimension taxinomique : les taxons sur lesquels s'applique l'enqute phylogntique, c'est--dire ceux dont on essaie de mettre en vidence les relations de parent, sont les taxons terminaux. Ils doivent avoir une identit. Ils doivent tre reconnaissables, ne serait-ce que par un seul attribut qui leur soit propre. Dimension phylogntique : les taxons terminaux doivent reprsenter une section non arbitraire de l'arbre phylogntique. Mais si les taxons sont des groupements d'organismes de rang gnrique ou familial (ou au-del), ils ont eux-

Les taxons

27

mmes une histoire : ils sont composs d'espces dont les relations ont la forme d'un arbre. Ces taxons terminaux doivent tre - en principe - des groupes naturels ou groupes monophyltiques, ou encore monophylons .

2.1. L'espce et les taxons infra-spcifiques


Les mcanismes volutifs oprent au niveau des organismes classs dans la catgorie de base de la hirarchie linnenne : l'espce. Il en ressort a priori que l'espce devrait donc tre l'unit de base de l'arbre phylogntique. Une espce conue dans une perspective biologique est un pool gntique ferm, en cela dissoci des autres espces dfinies semblablement : entre individus appartenant des espces diffrentes existe une barrire empchant l'interfcondit. Le lien objectif invoqu pour justifier le statut privilgi accord l'espce rside dans le critre d'interfcondit. La spciation est la production d'une nouvelle espce (ou plus) partir d'une espce ancestrale (espce mre ou espce souche) ; autrement dit, l'apparition de nouveaux pools gntiques partir d'un pool gntique ancestral. De la sorte, la phylognie est, strictement parlant, l'histoire des spciations depuis la premire forme vivante, il y a prs de quatre milliards d'annes jusqu' la diversit biologique actuelle (2 millions d'espces vivantes recenses, avec probablement 6 12 millions de plus qui restent dcrire, selon les estimations actuelles). Parce qu'il met en vidence les relations de parent entre espces nes de spciations successives, l'arbre phylogntique est une hirarchie. Cette hirarchie est le fruit de l'histoire. Mais au niveau des espces et des populations, c'est--dire au niveau o oprent les mcanismes de la spciation, la phylognie reste largement inconnue. En effet, on est loin de connatre les relations de parent entre les deux millions d'espces vivantes connues. Pour bien des groupes on n'a mme aucune ide des relations phylogntiques entre espces. Les constructions phylogntiques sont des reprsentations partielles, plus ou moins importantes ou exhaustives, de l' arbre de la vie . Ce sont des hypothses mises sur les relations de parents entre espces ou groupes d'espces choisis pour diverses raisons, partir d'un ensemble de donnes observes et interprtes : les caractres. Si du point de vue biologique les individus rangs dans la catgorie espce ont un statut particulier (d l'interfcondit), il n'en est pas tout fait de mme d'un point de vue taxinomique. L'espce elle-mme est en effet un agrgat de populations. Les populations, de tailles fort variables selon les espces, correspondent, si elles sont bien dlimites gographiquement aux sous-espces des nomenclatures zoologiques. En gnral, les populations ne sont pas gntiquement isoles les unes des autres. C'est pourquoi les relations entre populations sont le plus souvent de nature rticulaire et pas seulement hirarchique. La thorie volutionniste fait de la population le lieu des mcanismes volutifs, et, par l-mme, l'unit de l'volution. Dans la mesure o la population, et non l'espce, est cette unit, l'espce elle-mme devient un taxon comme un autre : un regroupement d'units qui lui sont subordonnes. L'examen des relations de parent entre populations ou taxons infra-spcifiques de quelque statut que ce soit, aboutit le plus souvent la

Les objets de la phylogntique : caractres et taxons

28

construction d'un rseau si les units analyses ne sont pas isoles les unes des autres. Les relations intra-spcifiques de ce type sont nommes tokogniques par Hennig (1966) : les relations entre les taxons terminaux ne sont alors pas ncessairement hirarchiques. Si le concept de phylognie se conoit comme l'histoire des ruptures dans les pools gntiques et de l'apparition de pools gntiques nouveaux, isols les uns des autres, l'histoire des parents entre les constituants de ces pools (entre ces populations) sera plutt une tokognie qu'une phylognie. Nanmoins l'usage a prvalu qui maintient le terme phylognie pour des reconstructions d'arbres dont les taxons terminaux sont des populations. Le systme phylogntique a pour but d'mettre des hypothses de parent entre units vues comme des ensembles reconnaissables, isols des autres units dfinies semblablement, et qui constituent donc des ensembles ferms. Ces units peuvent tre des espces, mais en tout tat de cause, elles ne seront pas forcment identiques aux units de l'volution. En effet, l'unit sur laquelle s'expriment les mcanismes volutifs est la population (rduite ventuellement quelques individus), non ncessairement isole des autres populations appartenant la mme espce. Ces units phylogntiques, les plus petits ensembles ferms, ne sont donc pas ncessairement des espces au sens biologique du terme. Mais comme la population n'a pas de statut taxinomique, les phnticiens et les cladistes ont tent de rsoudre le dilemme de deux faons diffrentes. L'une, l'approche des phnticiens, est de nier l'espce biologique tout statut privilgi. La conception de l'UTO des phnticiens est lie ce problme. L'objet des investigations systmatiques, le taxon terminal, est un objet de convention, oprationnel et les groupements de ces objets sont oprs sur la base de la similitude globale exprime au moyen d'indices mathmatiques. Cette approche n'est sujette aucune contradiction logique dans un systme de pure ressemblance globale. Mais elle se heurte deux points de vue. Point de vue phylogntique : la similitude globale n'est pas ncessairement un indicateur de la proche parent. Point de vue biologique : par exemple, chez les espces fort dimorphisme sexuel la simple mesure de la similitude globale n'associe pas toujours mle et femelle dans une mme UTO. L'autre approche s'inscrit dans une perspective phylogntique. Elle vise dfinir l'espce dans un contexte historique. Tel est le point de vue de Hennig (1966) selon lequel une espce n'est qu'un lment de l'arbre phylogntique situ entre deux spciations. Autrement dit l'espce en tant que bio-espce temporelle (time bio-species de Bonde, 1981), est un pool gntique born historiquement par deux ruptures : celle qui lui a donn naissance et celle o il se subdivise son tour. Cette dfinition rsout le dilemme entre espce biologique (achronique) et espce chronologique, dans la mesure o chacune des deux dfinitions d'espces rpond celle de pool gntique ferm. Mais alors un autre paradoxe surgit de cet accord. L'objectivit du concept d'espce biologique rside - en principe - dans le comportement des membres de l'espce vis--vis de la reproduction, et non dans la nomenclature du systmaticien. En revanche, l'espce chronologique ainsi dfinie n'obit qu' une hypothse formule par le systmaticien : celle de la succession des spciations, c'est--dire l'hypothse phylogntique. Rares sont les biologistes qui ont accept la dfinition hennigienne de l'espce. Mais la question de la dimension chronologique de l'espce demeure, et elle seule est pertinente dans le systme phylogntique.

Les taxons

29

Le statut particulier des populations allopatriques (distribues dans des aires disjointes) a men certains cladistes une autre rvision nergique du statut de l'espce : toute population reconnaissable serait une espce. Selon Nelson et Platnick (1981), l'espce est le plus petit ensemble identifiable d'organismes qui se reproduisent entre eux ayant un ensemble unique de caractres. D'aprs cette dfinition la sous-espce est comprise comme une espce. De la sorte, on maintiendrait aux units volutives (les populations) le statut formel d'espce. A vrai dire, peu importe le statut formel des taxons terminaux. Ce qui importe est que les caractres distinctifs soient fixs dans les taxons terminaux, qu'il s'agisse d'espces ou de sous-espces. Mme si les caractres sont polymorphes une telle exigence est acceptable, ds lors qu'une explication volutive de ce polymorphisme est possible. Cela revient dire qu'une hirarchie (une histoire) peut merger de l'tude des variations du polymorphisme.

2.2. Taxons supra-spcifiques


Ces taxons terminaux sont - en principe - des groupes naturels ou groupes monophyltiques. Ces groupes renferment la totalit de la descendance partir d'une espce ancestrale. C'est cette seule condition qu'ils possdent une dimension phylogntique qui est, au sens strict, chronologique : une date d'origine et une date de diffrenciation, voire, ventuellement, une date d'extinction ; cela, pour tous les membres du taxon terminal et a contrario pour aucun des taxons situs hors du groupe en question. La figure III.3 montre les relations de parent entre trois taxons terminaux A, B et C, avec B et C troitement apparents. Ces taxons sont des taxons de rang supra-spcifique dont la figure III.3B montre la composition et l'histoire. Par exemple, le taxon C est compos des espces 5 10. C'est un groupe monophyltique qui rassemble tous les descendants de l'espce ancestrale c, celle partir de laquelle s'est diffrenci le taxon C. Sa date d'origine est aussi celle du taxon B, proche parent de C. L'anctre b du taxon (BC) est ncessairement plus ancien que l'anctre c du taxon C inclus dans (BC). La dimension chronologique des taxons implique que la structure de l'arbre phylogntique est hirarchique. La hirarchie l'embotement des taxons est tributaire du degr d'anciennet des espces ancestrales. Ds lors que les taxons

FIGURE III.3. 3A : relations de parent entre trois taxons terminaux de rang supra-spcifique, A, B et C. 3B : composition et histoire des taxons terminaux B et C dtailles au niveau de l'espce ; a, b, c : anctres.

Les objets de la phylogntique : caractres et taxons

30

de rang supra-spcifique sont des groupes supposs naturels, les phylognies reprsentes au niveau supra-spcifique sont comparables aux phylognies reprsentes au niveau spcifique, la seule diffrence qu'aucun taxon de rang suprieur l'espce ne peut tre tenu pour un anctre naturel. Dans le cadre phylogntique, les caractres sont considrs comme les nouveauts volutives. En tant que tels, dans la mesure o ce sont eux qui sont transmis de gnration en gnration, les caractres sont les units de base de l'volution. Ainsi est gomme la question de l'influence des catgories de classification sur l'analyse phylogntique. Or les approches contradictoires de la construction phylogntique s'opposent toutes vis--vis du statut des caractres et de leur traitement. Selon l'approche phntique, la totalit des caractres (phnotypiques ou gnotypiques) permet seule des infrences phylogntiques. Dans la pratique, cette totalit se limite au plus grand nombre de traits que l'on peut observer et que l'on analyse ensuite par le biais de distances. Dans cette perspective, la similitude globale dment quantifie serait le pralable toute enqute phylogntique (Sneath et Sokal, 1973). Selon l'approche phylogntique (volutionniste aussi bien que cladistique), c'est au contraire l'examen de caractres libres d'voluer indpendamment les uns des autres qui permet de dgager les traits ayant un sens phylogntique : les homologies, les seuls traits tre signes de parent. Bien entendu, toutes les reconstructions phylogntiques ne sont que des hypothses : hypothses sur le statut de groupe naturel des taxons et sur les relations de parent. En tant qu'hypothse scientifique, une construction phylogntique obit des rgles. Chaque rgle s'inscrit dans l'une ou l'autre des approches mthodologiques concurrentes dont l'explication est le but de ce livre. L'hypothse scientifique doit tre testable et heuristique, c'est--dire pouvoir tre soumise rfutation et aider la dcouverte, permettre des prdictions. Il reste que la notion de test pour des constructions historiques est particulirement dlicate. Rien ne ressemble plus une bonne phylognie, qu'une phylognie rfute, c'est--dire mauvaise . Ce point ne sera abord que succinctement dans les chapitres suivants ; il mriterait nanmoins de vastes dveloppements.

CHAPITRE IV

LA MTHODE CLADISTIQUE

1. Qu'est-ce que l'analyse cladistique ?


Les principes de l'analyse cladistique ont t labors par l'entomologiste Willi Hennig, quoique certains concepts et certaines mthodes formaliss par Hennig peuvent tre paralllement rencontrs dans la littrature chez des contemporains (Wagner, 1961), voire de lointains prdcesseurs tel Mitchell (1901) redcouvert par Nelson et Platnick (1981). Les principes de base du cladisme sont noncs dans les ouvrages de taxinomie fondamentale de Hennig (1950, 1966) ainsi que dans sa synthse sur la phylognie des insectes (Hennig, 1969, 1981). Il existe par ailleurs de nombreux manuels de systmatique qui se rclament des principes du cladisme (Eldredge et Cracraft, 1980 ; Wiley, 1981 ; Nelson et Platnick, 1981; Ax, 1984 ; Schoch, 1986). Hennig n'a pas utilis dans ses diffrents ouvrages les termes cladisme , analyse cladistique , cladogramme , ou tout simplement clade , tous drivs de la racine grecque klados (branche). Le cladisme (ou la cladistique) y est dnomme systmatique phylogntique , le cladogramme est un schma d'argumentation phylogntique , le clade est un groupe monophyltique . Le succs du cladisme et des termes associs est d aux auteurs anglo-amricains. Dans le systme cladistique, la phylognie est reconstruite l'aide d'une analyse de caractres qui vise identifier les tats plsiomorphe (= primitif) et apomorphe (= driv). Les parents entre les taxons tudis sont identifies sur la base des seuls tats apomorphes partags par tel et tel taxon, ce que l'on appelle les synapomorphies. Les synapomorphies sont imputes un hritage partir d'une espce ancestrale propre aux taxons qui les possdent. Les groupes ainsi construits sont monophyltiques.

1.1. Apomorphie, plsiomorphie et groupes naturels


Le principe de base de l'analyse cladistique est donc la mise en vidence des sries de transformation des caractres de l'tat plsiomorphe vers l'tat apomorphe, c'est--dire de type a a'. De telles sries sont appeles morphoclines (Maslin, 1952).

La mthode cladistique

32

FIGURE IV.1. A : Relations phylogntiques entre trois taxons terminaux X, Y et

Z. Transformation des caractres : a a', b b', c c', d d', e e', f f'. D1: date d'origine du taxon (Y,Z) ; D2 : date de diffrenciation du taxon (Y,Z). B : mme schma o les longueurs des branches correspondent au degr de divergence morphologique. La figure IV.1 montre les relations de parents entre trois taxons X, Y et Z, construites partir de l'analyse de 6 caractres, ou plus exactement, de 6 sries de transformation de caractres. Les taxons Y et Z sont troitement apparents parce qu'ils partagent le mme caractre transform b' : la mme apomorphie. Ils ont en commun une espce ancestrale qui n'est pas en mme temps l'espce ancestrale de X. L'hypothse fondamentale de l'analyse cladistique est que le mme caractre driv b' observ chez Y et chez Z est hrit de l'espce ancestrale de (Y,Z). Les sries de transformations sont elles-mmes des hypothses qui sont mises partir de critres explors dans le paragraphe 4. Du point de vue de la similitude globale, on peut juger que d'aprs la figure IV.1B, les taxons X et Y se ressemblent plus que chacun d'eux ne ressemble Z (X et Y partage trois caractres non transforms, les plsiomorphies d, e et f, alors que Y et Z ne partagent que le caractre apomorphe b'). De ce cas de figure, on conclue que les partages de caractres non transforms, plsiomorphes, n'indiquent pas une troite parent phylogntique. On nomme symplsiomorphie le partage d'un caractre plsiomorphe par deux ou plusieurs taxons. Le groupe (Y,Z) est dit monophyltique, tandis que le groupe (X,Y) fond sur des symplsiomorphies, est

Quest-ce que lanalyse cladistique ?

33

dit paraphyltique. Un groupe paraphyltique ne renferme pas tous les descendants d'une espce ancestrale et, par consquent, n'a pas d'histoire propre : ce n'est pas un groupe naturel. Sur la figure IV.1 la date d'origine D1 du groupe paraphyltique (X,Y) est aussi celle du taxon monophyltique (Y,Z). On ne peut invoquer de diffrenciation pour le groupe paraphyltique (X,Y) puisque l'mergence de Y est aussi celle de Z. La date de diffrenciation D2 est celle du taxon monophyltique (Y,Z), c'est aussi la date d'origine du taxon Y et du taxon Z. Les groupes monophyltiques de la figure IV.1 sont identifis par la prsence d'au moins une apomorphie ; ici a' pour X, b' pour (Y,Z), c' pour Y et d', e', f' pour Z. La figure IV.1 est appele cladogramme. Les deux taxons troitement apparents Y et Z sont appels groupes frres (ou espces surs si les taxons terminaux sont des espces). Par ailleurs, X est le groupe frre de (Y,Z). Selon la convention cladistique accepte par tous les auteurs, la topologie du cladogramme peut s'crire linairement (X(Y,Z)) ou bien ((Y,Z)X). Les notions d'apomorphie et de plsiomorphie sont des notions relatives. L'expression le caractre apomorphe du taxon T... ne doit pas laisser croire qu'un caractre est en soi apomorphe ou plsiomorphe. La prsence de cinq doigts la main et au pied est une synapomorphie des ttrapodes mais c'est une symplsiomorphie pour les groupes inclus dans les ttrapodes, comme l'homme (primates) et le lzard (squamates). Sur la figure IV-1, le caractre b' est apomorphe pour le groupe (Y,Z) : synapomorphie de (Y,Z). Il est plsiomorphe l'intrieur du groupe (Y,Z) c'est une plsiomorphie pour Y et pour Z. Les caractres prsents dans un seul taxon terminal qui ne permettent pas d'mettre des hypothses de parent entre groupes sont des autapomorphies (par exemple, le caractre d' pour Z, le caractre a' pour X et le caractre c' pour Y). Si un taxon terminal est constitu de groupes d'espces, les autapomorphies de ce taxon sont les synapomorphies des espces qu'il regroupe. Par exemple, les caractres d', e' et f' sont les synapomorphies des espces incluses dans le taxon Z. La figure IV.1 montre que les caractres observs chez chacun des taxons terminaux ne se prsentent pas tous au mme niveau volutif. Chez le taxon Y le caractre b est volu (apomorphe) tandis que les caractres d, e et f sont primitifs (plsiomorphes). Cette constatation est triviale : des caractres se transforment, d'autres pas. Le nombre de doigts la main de l'homme est primitif, tandis que le cortex de son cerveau est driv. Une telle association de caractres dont les niveaux volutifs sont diffrents est dnomme htrobathmie des caractres par Hennig. Le processus volutif responsable de ce type de distribution des tats de transformation vitesses d'volution diffrentes des caractres fut appel volution en mosaque par de Beer (1954), l'occasion de l'tude de l'Archaeopteryx, le clbre oiseau jurassique. A la suite de Hennig et par pure convention, il est frquent de prsenter sur un schma de relations de parent les tats apomorphes sous la forme d'une barre noire et les tats plsiomorphes sous la forme d'une barre blanche (figure IV.2).

La mthode cladistique

34

FIGURE IV.2. Relations de parent chez les proboscidiens lphantiformes. 142: caractres ; barre blanche : tat plsiomorphe ; barre noire : tat apomorphe ; cercle : caractre manquant (d'aprs Tassy, 1982). Dans cet exemple, le problme trait est celui de la monophylie d'un groupe de proboscidiens (Elephantoidea) et des parents de certaines espces rputes primitives (Phiomia serridens et Palaeomastodon beadnelli ). La distribution des caractres drivs montre que le taxon Elephantoidea possde un grand nombre d'apomorphies qui lui sont propres (autapomorphies) de telle sorte qu'est admise l'hypothse de monophylie du groupe. D'autre part, Phiomia serridens se rapproche des Elephantoidea en raison du partage d'au moins six caractres apomorphes rests plsiomorphes chez Palaeomastodon beadnelli. Cet exemple palontologique inclut des espces fossiles (Phiomia sp. et Palaeomastodon beadnelli) chez lesquelles de nombreux caractres n'ont pu tre observs en raison de la fossilisation (restes fragmentaires). Les lacunes d'observation sont

Quest-ce que lanalyse cladistique ?

35

nombreuses (cercles blancs de la figure IV.2). Ces lacunes ne sont pas un obstacle la reconstruction phylogntique. Par exemple, si les hypothses de parent sont justes, on peut prvoir par congruence de caractres et en l'absence d'homoplasie que les traits 7 14 se prsenteront lors de dcouvertes venir sous leur tat apomorphe chez Phiomia sp.. Sur ce cladogramme, l'chelle du temps est implicite : la position relative des anctres au niveau des dichotomies indique la squence chronologique mais les datations ne sont pas inscrites.

1.2 Images cladistiques


La distribution des caractres plsiomorphes et apomorphes sur un cladogramme obit plusieurs symboliques toutes quivalentes. La figure IV.3 rsume quatre faons de reprsenter quatre sries de transformations (w w', x x', y y' et z z') chez trois taxons A, B et C, sachant que l'tat driv v' est partag par les trois taxons. Cette symbolique n'est pas sans connotation sur la narration volutive. Il y a plusieurs faons d'exprimer la mme information phylogntique. Les figures IV.3.A-B et IV.3.C-D diffrent par la manire de placer les tats drivs. Sur la figure IV-3 A-B, ils sont situs sur les branches ; sur la figure IV.3.C-D, ils sont situs sur les nuds en bout de ces branches (nuds internes : anctres ; nuds externes : taxons terminaux). D'un point de vue narratif, partir de la figure IV.3.A-B, on dira plutt que l'tat driv w' est apparu sur la ligne menant au taxon (BC) et que l'tat driv z' est apparu sur la ligne menant au taxon C. Au contraire, partir de la figure IV.3.C-D, on dira plutt que l'tat driv w' est prsent chez le plus rcent anctre du taxon (B,C) ou bien est propre au taxon (BC) et que l'tat driv z' est prsent chez le taxon C. Il y a l deux manires d'exprimer la mme information phylogntique, la premire manire voque plutt le processus, la seconde plus structurale voque le rsultat. Par ailleurs, les figures IV.3 A-D prsentent les diffrents tats primitifs et drivs, tandis que sur les figures IV.3.B-C sont nots les seuls tats drivs.

1.3. Cladogramme et arbre phylogntique


Il est d'usage d'opposer en systmatique volutive le cladogramme et l'arbre phylogntique. Le premier montre la distribution des caractres et les parents entre les groupes tudis qui en sont dduites. Il reprsente la phylognie sous la forme d'une succession de dichotomies (appeles aussi nuds du cladogramme), chacune correspondant un anctre construit partir des synapomorphies de ses descendants. Aucun des taxons terminaux tudis n'est, a priori, tenu comme un anctre au sens strict.

La mthode cladistique

36

FIGURE IV.3 . Images cladistiques : quatre faons de reprsenter quatre sries de transformations de caractres et les parents de trois taxons A, B et C. L'tat driv v' est prsent chez les trois taxons. L'arbre phylogntique apporte les mmes informations que le cladogramme mais, en outre, on peut y adjoindre l'chelle du temps : les taxons terminaux sont inscrits dans l'chelle gologique. La divergence morphologique (le nombre d'autapomorphies) peut tre symbolise par le plus ou moins grand loignement des deux groupes frres partir du point de branchement (reprsentant l'espce ancestrale), c'est--dire par des longueurs de branches ingales ( figure IV.1B). Enfin, un taxon terminal de rang spcifique peut se rvler tre dpourvu d'autapomorphies et avoir les traits d'une espce ancestrale hypothtique (tel nud du cladogramme). Dans un cladogramme, o tous les taxons sont terminaux, ce taxon ancestral apparatra comme apparent de faon gale ses deux descendants, c'est--dire sous la forme d'une trifurcation. Prenons l'exemple de la figure IV.4. Sur l'arbre phylogntique 4A, X est l'espce ancestrale des espces A et B. L'arbre 4B montre la position que prend l'anctre lorsqu'il est pris

Quest-ce que lanalyse cladistique ?

37

comme un taxon terminal. Cette trifurcation rsume trois arbres dichotomiques possibles (X parent de A, X parent de B, X parent de A et B) sachant qu'est nulle la longueur de la branche menant X sur les arbres 4C et 4D, ainsi que la longueur menant de la branche commune (A,B) jusqu' X sur l'arbre 4E. Le cladogramme et l'arbre phylogntique ne sont donc pas des constructions contradictoires mais complmentaires.

FIGURE IV.4. Reprsentation cladistique d'un anctre analys comme un taxon terminal (4A : arbre phylogntique ; 4B, 4C, 4D, 4E : cladogrammes compatibles avec l'arbre 4A).

1.4. Anctres
L'anctre en systmatique cladistique est ncessairement de rang spcifique ou infra-spcifique. Les groupes ancestraux , de rang supraspcifique, ne sont pas des groupes naturels. Ce sont des groupes paraphyltiques dont les membres sont proches parents de divers autres groupes. Dans les cladogrammes, les anctres sont des anctres hypothtiques, appels souvent morphotype ancestral hypothtique , situs aux nuds du schma. Ils sont construits partir de l'analyse des taxons terminaux: leurs attributs sont dduits de ceux de leurs descendants. Le statut de l'espce ancestrale reste un des points les plus controverss de la systmatique mme si cette question ne joue pas un rle fondamental dans les constructions phylogntiques. En effet un anctre au sens strict ne peut avoir comme caractres drivs que ceux partags par ses descendants, c'est--dire des symplsiomorphies l'intrieur du groupe form par l'espce ancestrale et ses descendants. Si un taxon tenu pour un anctre se rvle possder un caractre driv propre (une autapomorphie), c'est un taxon qui a diverg partir de l'anctre. L'anctre ne peut tre que paraphyltique et par consquent non identifiable selon les critres cladistiques. Comme on vient de l'envisager dans le paragraphe prcdent (figure IV.4), il reste qu'un groupe fossile, de rang spcifique, dpourvu d'autapomorphie apparat dans un cladogramme en tant que taxon terminal identique l'anctre qu'il partage avec son espce sur dans un cladogramme. Si son ge est compatible avec une position ancestrale, il est quivalent l'anctre de l'arbre phylogntique. On n'est toutefois jamais assur que ses membres sont troitement apparents puisque seule la synapomorphie permet d'mettre une telle hypothse.

La mthode cladistique

38

2. Homologie et orthologie
Il ressort des pages qui prcdent que l'analyse cladistique est une mthode de reconstruction de la phylognie qui se fonde sur la reconnaissance des homologies leur niveau de synapomorphie. Comme on l'a vu plus haut, le concept d'homologie est n de l'anatomie compare et a t appliqu depuis bientt deux sicles aux analyses morphologiques. Le concept d'homologie s'applique-t-il de faon identique tous les types de caractres ?

2.1. Dfinition et critres de l'homologie


Le savoir zoologique et botanique qui s'est progressivement accumul depuis que les naturalistes observent le monde vivant et fossile, a intgr le concept central d'homologie partir duquel furent mises les hypothses historiques d'arrangement des tres vivants. Mais il convient de rappeler, une fois encore, la distinction essentielle entre la dfinition de l'homologie et le critre de reconnaissance de l'homologie. En morphologie, le principe des connexions permet de reconnatre ce qui est effectivement semblable. La dduction volutionniste d'une telle observation est que la similitude en question est due au phnomne de descendance. Mais on n'observe pas une homologie, on pose une hypothse d'homologie partir d'une observation. L'homologie est une hypothse : une hypothse sur l'ascendance. Comme l'exprime de faon concise Walter Fitch (in Lewin, 1987) : il est important de faire la distinction entre l'observation et la conclusion . La dfinition de l'homologie est simple : est homologue ce qui est hrit d'une ascendance commune. Autrement dit, un trait partag par diffrentes espces est homologue parce qu'il est hrit d'un anctre commun propre ces espces. Or l'ascendance commune est identifie grce la mise en vidence d'une homologie. Comment identifier l'homologie sans connatre a priori la phylognie ? Le critre de reconnaissance de l'homologie est triple (Patterson, 1982, 1987) : critres de ressemblance, de non-coexistence, et de congruence. Le critre de ressemblance, vu au chapitre II, est li au principe des connexions. Le critre de non-coexistence permet de distinguer l'homologie vraie de l'homologie dite srielle : deux caractres gnalogiquement homologues ne peuvent coexister dans un mme organisme. L'exemple plaisant donn par Patterson est celui des anges : la thorie selon laquelle le bras humain et l'aile des oiseaux sont homologues au sens gnalogique, sera rfute lorsqu'on dcouvrira des anges munis la fois de bras et d'ailes. En revanche, le bras et la jambe de l'homme sont une homologie srielle : ils sont construits selon le mme patron ; ils coexistent dans un mme organisme et l'un ne descend pas de l'autre, et inversement. Le critre de congruence permet de superposer les arbres construits partir de diffrents caractres : les caractres homologues sont congruents. Ils permettent

Homologie et orthologie

39

de construire les mmes arbres phylogntiques. Ce point est dvelopp dans le paragraphe IV.3. La confusion largement entretenue entre le critre de reconnaissance de l'homologie et la dduction phylogntique qui en est tire est la source de nombreux dbats sur la signification de l'homologie en dehors du terrain de l'anatomie compare, si frquent qu'il ne recle plus, en apparence, de controverses. Quelle est la nature de l'homologie en matire de biologie molculaire ? Il y a quelques annes, une dizaine de biologistes des molcules rveillrent le vieux dbat sur l'homologie (Reeck et al., 1987), cette fois propos de l'utilisation du mot et du concept dans les travaux de squenage de protines ou d'acides nucliques. Le dbat est exemplaire car il permet d'aborder un point central propre aux analyses molculaires. Reeck et al. s'insurgrent sur l'utilisation frquente en biologie molculaire du terme homologue dans le sens de similaire : si deux squences se ressemblent, il conviendrait de parler de similitude entre squences et non d'homologie . L'homologie ne devrait s'appliquer qu'aux infrences phylogntiques. Fitch (1970) a propos de rserver le terme homologie aux traits morphologiques et a cr le terme orthologie pour qualifier le concept de similitude molculaire due la descendance. Orthologie s'oppose paralogie (autre terme cr par Fitch) qui est la similitude due la duplication de gnes, indpendamment de toute spciation. Dans ce cas, la similitude molculaire est acquise indpendamment d'un anctre commun. Le fond de la question rside nanmoins dans la phase analytique de l'observation qui transfre l'observation de la similitude dans le domaine de son interprtation phylogntique. Ce transfert fait, d'une part, une homologie ou une orthologie, ou d'autre part, une homoplasie. En quoi les donnes morphologiques et molculaires se distinguent-elles ? L'anatomie compare (palontologie incluse) est une discipline ancienne et nombre d'hypothses d'homologies sont aujourd'hui considres comme des faits d'observation car rien n'est venu les infirmer. On reviendra sur la nature de ce rien dans la quatrime partie de ce chapitre. Patterson (1987), en illustrant la solidit de ce savoir morphologique, crit : si l'on compare les crnes, ou les membres, des vertbrs (...) depuis les requins jusqu'aux mammifres, nous pouvons tre srs que nous avons faire de vraies homologies (un crne est un crne et non une ventuelle duplication (...) . L'affirmation de Patterson signifie d'abord qu'un crne de requin ou de mammifre, est construit selon le mme schma. A l'analyse des structures adultes s'ajoute celle de l'ontognie. Mme si un crne de requin ne ressemble gure un crne humain, on est assur que les crnes, tout au moins leurs parties fondamentales, sont homologues. En effet, le crne est d'abord l'enveloppe des centres nerveux suprieurs (encphale, capsules otique, optique, nasale). Dans l'embryon, les prcurseurs de ces enveloppes, autrement dit la construction du crne primordial, sont identiques chez un requin et chez un mammifre quelconque. On en dduit que requins et mammifres descendent d'une espce ancestrale commune : les similitudes crniennes sont dues au phnomne de descendance. D'aprs Patterson, les hypothses

La mthode cladistique

40

d'homologie molculaire les orthologies seraient d'un autre ordre, plus statistique. Mais selon Goodman (1989), les hypothses d'orthologie des squences nucliques sont plus solides que ne le laisse penser Patterson. En dehors des cas o, effectivement, il est difficile de distinguer squences orthologues et paralogues, il n'y aurait que deux sources potentielles d'erreurs dans la construction des arbres molculaires : 1) quand les mutations successives dans un mme site sont frquentes et 2) quand l'alignement des squences se rvle problmatique.

2.2. Alignement et mutations multiples


Les comparaisons des squences molculaires sont dpourvues d'ambigut du point de vue des tats de caractres tudis : une leucine est une leucine, une guanine est une guanine quelle que soit la position taxinomique de son propritaire. Mais la question de l'orthologie se pose au niveau des comparaisons. Prenons l'exemple de la squence d'un gne codant pour une protine. La squence s'exprime sous la forme d'un enchanement de nuclotides. Les squences de ce gne chez diffrentes espces sont plus ou moins longues : des phnomnes d'insertion et de dltion de nuclotides sont responsables de ces diffrences. La comparaison des squences ncessite la ralisation d'un alignement. De cet alignement de squences natront toutes les infrences phylogntiques, notamment la comparaison des nuclotides, site par site. Par exemple, la prsence chez telle et telle espce d'une adnine ou d'une guanine en
UE1 UE2 UE3 UE4 UE5 UE6 UE1 UE2 UE3 UE4 UE5 UE6
UE1 UE2 UE3 UE4 UE5 UE6

ATGAAGGT ATGAAGGT TTAGAAGG TTC..AGG TCCAGGGC TCCCGGGC ATGAAGGT ATGAAGGT TTAGAAGG TTCAG..G TCCAGGGC TCCCGGGC
ATGAAGGT ATGAAGGT TTAGAAGG TTCA..GG TCCAGGGC TCCCGGGC

FIGURE IV.5. Diffrents alignements de 6 squences comprenant 8 sites

nuclotidiques. Les deux premiers alignements conduisent des arbres diffrents de mme longueur minimum (11 pas), tandis que le troisime donne ces deux arbres (l'arbre consensus est reprsent) ; pour tous ces arbres, I.C. = I.R. = 1 (voir chapitre V.4). La pondration diffrentielle des transitions et des transversions (poids de 1 et 2 respectivement) ou des indels (poids de 2) ne modifie pas la conclusion.

Homologie et orthologie

41

un site de la squence, devient le caractre molculaire dont il s'agit de tirer la signification phylogntique. L'innovation volutive est le remplacement d'une adnine par une guanine ou l'inverse -, ou une insertion/dltion chez telles espces. Les hypothses d'homologie et toutes les constructions phylogntiques qui en drivent sont induites par l'alignement des squences dont la qualit rside dans l'apprciation de leur degr de congruence : on aligne les squences de telle manire qu'elles se ressemblent le plus, c'est--dire que leur superposition implique le minimum de diffrences site par site. Les mthodes d'alignement des squences conditionnent donc les hypothses d'orthologie et, consquemment, les constructions d'arbres molculaires. C'est l une difficult propre aux donnes molculaires. La figure IV.5 illustre un cas simple o des alignements diffrents mais quivalents en terme de cot conduisent des arbres diffrents. Une autre difficult rside dans la superposition dans un site donn de mutations semblables. Les vnements volutifs affectant la squence d'un gne reposent, entre autres, sur le remplacement d'une base par une autre. Pour un site donn les tats de caractres sont les quatre bases : prsence d'une adnine (A), d'une guanine (G), d'une cytosine (C) ou d'une thymine (T) dans le cas de l'ADN (ou bien A, G, C, et uracile U dans le cas de l'ARN). Des mutations successives A G A peuvent tre responsables de l'observation dans deux squences d'une mme base A un site donn, alors qu'il n'y aurait pas homologie mais rversion. Les rversions ne sont pas rares en morphologie mais on conviendra qu'avec seulement 4 tats de transformations possibles, les erreurs d'interprtation phylogntique dues aux mutations successives dans la structure des gnes peuvent tre frquentes. Il reste qu'une fois ralis l'alignement des squences, la construction de cladogrammes repose sur les hypothses de synapomorphies. Qu'il s'agisse de donnes morphologiques ou molculaires, quelle que soit la difficult de construire lesdites hypothses, l'analyse cladistique s'applique tout type de caractre discret.

3. Une mthode hypothtico-dductive


L'analyse cladistique est une mthode profondment empirique. C'est en quelque sorte une simple mise en conformit des observations, chaque observation ayant a priori la mme valeur. L'approche cladistique prtend ne faire appel aucun modle sur le processus volutif. Que les caractres voluent des vitesses gales ou des vitesses diffrentes n'influe pas, en principe, sur l'analyse. Toutefois la pondration diffrentielle des caractres permet d'exprimer dans un cadre cladistique des hypothses sur le comportement des caractres. C'est notamment le cas des transformations des nuclotides : ce point sera abord au paragraphe 6 ; des contraintes peuvent tre imposes a priori sur les modes d'volution des caractres dans le cadre d'une analyse de parcimonie (voir paragraphe 5). Mais ces options, qui doivent tre justifies en amont de l'analyse, ne conditionnent pas la mise en pratique de l'analyse cladistique.

La mthode cladistique

42

En rgle gnrale, l'application de la mthode n'exige aucune autre contrainte que l'hypothse selon laquelle les caractres voluent indpendamment les uns des autres. Or cette exigence tient de l'observation empirique. On a observ depuis longtemps que les taxons possdent la fois des caractres rests l'tat primitif et des caractres prsents l'tat driv. L'homme, comme la salamandre et la tortue, a gard 5 doigts au pied alors que les circonvolutions de son cerveau se sont sensiblement transformes. L'ornithorynque pond encore des oeufs mais il a acquis pour nager dans l'obscurit un systme de sonar que n'ont pas acquis la plupart des mammifres vivipares. Nanmoins, l'observation n'est jamais neutre. Des caractres observs comme des traits distincts peuvent en ralit tre lis pour diverses raisons (dterminisme gntique commun, contraintes biomcaniques, etc.). Par exemple des traits ostologiques et des traits myologiques lis la rduction du nombre de doigts ne devraient pas tre compts comme des caractres indpendants. On peut aussi invoquer la thorie volutionniste pour justifier l'hypothse d'volution indpendante des caractres. La spciation vue comme la production d'un nouveau pool gntique n'implique pas que tout le patrimoine gntique et, consquemment, phnotypique, soit transform. Seuls quelques traits divergent et se fixent en raison de la barrire d'interfcondit. Deux espces filles gardent de leur espce mre nombre de caractres inchangs.

3.1. Le principe de parcimonie


L'analyse cladistique peut tre qualifie de mthode hypothtico-dductive. Hypothses sur le sens des transformations de caractres et dductions sur les affinits phylogntiques caractrisent la mthode, qui reste nanmoins, l'inverse des thories scientifiques comme celles de la physique, une mthode historique. L'application de la mthode ncessite le refus des hypothses ad hoc, ou, tout au moins, leur minimisation, c'est--dire l'application du principe de parcimonie. Qu'est ce qu'une hypothse ad hoc en matire de construction phylogntique ? C'est l'hypothse d'une transformation de caractre partage par 2 ou plusieurs taxons et qui n'est pas due une ascendance commune. L'hypothse de base admise par l'analyse cladistique est que le mme caractre driv observ chez deux taxons (ou plus) est d l'hritage partir d'une espce ancestrale propre. Prenons l'exemple de la figure IV.6A. Sachant que le mme caractre driv 1 est observ chez B et C, le cladogramme (figure IV.6A1) montre B et C en position de groupes frres et compte deux hypothses de transformations volutives : une premire hypothse est celle de la transformation du caractre 1 chez l'anctre de (B,C) : cette transformation correspond une hypothse gnalogique. Une seconde hypothse est celle de la transformation du caractre 2 chez C.

Une mthode hypothtico-dductive

43

FIGURE IV.6 Analyse cladistique et principe de parcimonie. A : relations de parent entre 3 taxons A, B et C ; 1-2 : caractres. B: relations de parent entre 4 taxons A, B, C et D ; 1-6 : caractres. Barre noire : tat apomorphe, barre blanche : tat plsiomorphe. L'arbre IV.6A2 n'implique pas que les taxons B et C soient proches parents. Il compte trois hypothses de transformations volutives : aucune ne supporte une hypothse de parent : deux hypothses de transformation du caractre 1 chez B d'une part et chez C d'autre part, et une hypothse de transformation du caractre 2 chez C. Cet arbre implique que le caractre driv partag par B et C n'est pas hrit d'un anctre commun. Plus long que l'arbre IV.6A1 3 pas volutifs (steps au sens de Camin et Sokal, 1965) au lieu de 2 il contient une hypothse ad hoc parfaitement inutile pour rendre compte de la distribution des caractres. La minimisation des hypothses ad hoc permet de lever des contradictions dans les distributions de caractres. Sur la figure IV.6B l'absence de congruence entre les regroupements construits partir des caractres 1, 2, 3 et 4 d'une part, et partir du caractre 5 d'autre part (figures IV.6B1-B2), implique la ncessit d'invoquer des hypothses ad hoc. Le taxon D ne peut tre la fois proche parent de C avec lequel il partage 3 apomorphies (caractres 1, 2 et 3) et de A avec lequel il ne partage qu'une apomorphie (caractre 5). Si les observations sont justes, il convient donc de minimiser le nombre d'hypothses ad hoc. Cette minimisation consiste ne compter qu'une seule transformation pour chacun des caractres 1, 2, 3 et 4 (hypothse gnalogique) et deux transformations indpendantes pour le caractre 5 : soit au total 7 pas pour les 6 caractres. En

La mthode cladistique

44

consquence D est tenu pour proche parent de C et non de A (figure IV.6B1). L'hypothse inverse (figure IV.6B2) implique une seule transformation pour le caractre 5 et deux transformations pour chacun des caractres 1, 2, 3 et 4, soit au total 10 pas pour les 6 caractres : c'est une hypothse moins conomique. Dans le cadre prcis d'observations effectues sur des taxons terminaux, le principe de parcimonie permet, sachant quels sont les tats drivs des caractres, d'valuer la quantit des caractres dus l'ascendance (les synapomorphies) et la quantit des caractres qui ne sont pas dus l'ascendance (les homoplasies : convergences et rversions). Les homoplasies sont les hypothses ad hoc puisque non lies l'ascendance. Ce sont les changements volutifs supplmentaires de d'Udekem-Gevers (1990). Le principe de parcimonie a un rle plus fondamental encore puisque lui seul permet de poser des hypothses de synapomorphie (figure IV.6, A1). Hennig ne fait pas rfrence explicite au principe d'conomie mais il renvoie la notion de congruence qui en est un corollaire. La question de savoir si Hennig a prconis la parcimonie a fait l'objet de controverses (nous y reviendrons propos des analyses de compatibilit). Mais ce point d'histoire des sciences est tout fait secondaire. Sur la nature hypothtico-dductive de la mthode cladistique, Hennig (1966 p.21) crit : La prsence de caractres apomorphes chez diffrentes espces fournit toujours un motif pour suspecter une parent ; leur origine par convergence ne devrait pas tre envisage a priori . Ce point est important, car toute hypothse de synapomorphie peut, en ralit, tre errone et tre du ressort de l'homoplasie. Dans le cas de la figure IV.6B1, le caractre 1 partag par C et D est apparu une fois. Mais en ralit il est peut-tre apparu, indpendamment, une fois chez C et une fois chez D. Le raisonnement par l'absurde peut tre suivi pour chacun des autres caractres qui ont servi la construction de la figure IV.6B1. Dans ce cas, les groupes (A,B) et (C,D) ne sont pas lgitimes ; il n'y a pas d'hypothse sur les parents des taxons. Le mme raisonnement vaut pour le caractre 5 qui a effectivement pu apparatre une fois chez A et une fois chez D (comme le montre la figure IV.6B1). Si chacun des caractres drivs contenus dans la figure IV.6B est tenu pour tre apparu indpendamment chez les taxons qui les portent, aucun schma de relations de parent ne peut tre construit. Naturellement, le choix dans l'infinit des solutions non parcimonieuses, la construction de n'importe quel groupement ou bien l'absence de toute construction sont trangers la dmarche cladistique. Le but de l'analyse phylogntique est la construction d'un schma relationnel qui ne soit pas arbitraire : un tel schma doit pouvoir tre soumis rfutation par l'introduction de nouveaux caractres et/ou de nouveaux taxons. L'arbre le plus court est celui qui permet ce type de contrle.

3.2. La notion de congruence


La dmonstration qui prcde montre que le principe de congruence n'est autre que le principe de parcimonie ou d'conomie d'hypothses. La figure IV.6B implique 7 hypothses de transformations : c'est l'arbre le plus court en nombre de transformations ou pas, compte-tenu de la distribution des caractres. C'est aussi une synthse des phylognies construites caractre par

Les critres didentification du sens de transformation des caractres

45

caractre. La congruence entre chacune des images phylogntiques correspondant aux caractres 1,2,3,4, aboutit l'arbre ((A,B) (C,D)). En revanche, l'image phylogntique donne par le caractre 5, ((A,D),(B,C)), n'est pas congruente avec les trois prcdentes. L'arbre le plus court limine la contradiction entre les diffrentes images phylogntiques et explique la distribution du caractre 5 par une homoplasie (convergence). Une autre faon de rsoudre l'absence de congruence ou de lever la contradiction entre distributions de diffrents caractres est de retourner, l'issue de l'analyse, la dfinition des caractres. Ce retour aux caractres est frquent en morphologie o l'identification du caractre, primordiale, peut toujours tre remise en cause. Le caractre 5 (barre noire) jug comme similaire chez les taxons A et D (figure IV.6B2) est-il rellement similaire ? C'est ce que Hennig (1966) nomme la phase de contrle, correction, nouveau contrle (checking, correcting, and rechecking). Un examen attentif pourrait montrer que la similitude partage par A et D n'est que superficielle : il ne s'agit pas du mme caractre. Les tests de la congruence et de la ressemblance ont alors lev l'hypothse d'homologie pour l'tat apomorphe prsum du caractre 5 chez A et chez D. On peut aussi aboutir au rsultat inverse : le nouvel examen ne permet pas de distinguer le caractre 5 de A du caractre 5 de D ; le test de la ressemblance est pass mais non celui de la congruence. Ce dernier est donc le test le plus svre de l'homologie (Patterson, 1988) ; on admettra alors que le mme trait est apparu indpendamment chez A et chez D. Le partage du mme caractre par A et D n'est pas d une espce ancestrale propre (A,D). Le caractre 5 n'est pas suffisant pour rfuter la distribution des autres caractres. Le principe de congruence dont se rclame Hennig repose donc lui-mme sur le principe de parcimonie ou d'conomie d'hypothses.

4. Les critres d'identification du sens de transformation des caractres


La mthode cladistique de reconstruction phylogntique, qui est fonde sur l'analyse des caractres, quels qu'ils soient, repose sur l'identification du sens de leurs transformations, ou polarit (plsiomorphe apomorphe) et, comme on l'a vu, sur le principe d'conomie d'hypothses (parcimonie). Il est d'usage d'invoquer quatre critres d'identification du sens des transformations de caractres de type a a'. Les deux principaux sont le critre de comparaison extra-groupe et le critre ontognique. Ces deux critres ressortissent au principe de parcimonie. S'y ajoutent deux critres, jugs accessoires dans la mesure o ils ne s'appliquent pas indpendamment des critres prcdents, le critre palontologique et le critre chorologique. Les donnes molculaires ne sont analyses qu'au travers du critre de comparaison extra-groupe.

La mthode cladistique

46

4.1. Le critre de comparaison extra-groupe


Hennig (1966) ne nomme pas ainsi ce critre mais emploie l'expression analyse de groupes apparents due Maslin, (1952 : related groups). Une telle analyse se situe dans ce que Hennig appelle les corrlations de morphoclines . L'expression comparaison extra-groupe (outgroup comparison ) est due Wiley (1976) et l'usage l'a consacre. Le critre se dfinit comme suit : si un caractre observ dans le groupe tudi est galement prsent l'extrieur du groupe (c'est--dire dans le ou les extragroupes), il est plsiomorphe pour le groupe tudi ; s'il n'est prsent qu' l'intrieur du groupe tudi il est apomorphe. Le critre permet d'identifier le degr d'universalit du caractre examin (ou de l'tat du caractre). On a vu prcdemment que les notions d'apomorphie et de plsiomorphie sont des notions relatives. Le critre de comparaison extra-groupe vise identifier le niveau prcis (tel nud du cladogramme) o le caractre est apomorphe. Contrairement ce qui est souvent crit, la comparaison extra-groupe ne doit pas se restreindre au seul groupe frre du groupe tudi (s'il est connu). Si l'on souhaite retirer toute ambigut l'analyse, elle doit tre applique plusieurs groupes extrieurs au groupe tudi (voir notamment Farris, 1982 ; Maddison et al. 1984).

4.1.1. Combien d'extra-groupes ?


Les figures IV.7 IV.11 montrent l'application du critre de comparaison extra-groupe. Le problme est celui d'identifier les parents dans un groupe de 3 taxons (A, B et C) et, accessoirement, de tester la monophylie du groupe form par A, B et C. Dans les exemples illustrs par les figures IV.7 IV.10, il est pos a priori que l'extra-groupe choisi (ou les extra-groupes) n'est pas troitement apparent l'un quelconque des membres du groupe tudi.

FIGURE IV.7. Application du critre de comparaison extra-groupe. A, B, C : taxons analyss ; X : extra-groupe ; a-a', b-b' : caractres.

Les critres d'identification du sens de transformation des caractres

47

FIGURE IV.8. Application du critre de comparaison extra-groupe. A, B, C : taxons analyss ; X, Y : extra-groupes ; b-b' : caractres.

FIGURE IV.9. Application du critre de comparaison extra-groupe. A, B, C : taxons analyss ; X, Y : extra-groupes ; c-c' : caractres.

FIGURE IV.10. Application du critre de comparaison extra-groupe. A, B, C : taxons analyss ; X, Y, Z : extra-groupes ; c-c' : caractres. La figure IV.7 montre l'utilisation d'un seul extra-groupe (X). Deux caractres sont analyss, se prsentant chacun sous deux tats : a-a' et b-b'. L'tat a est prsent la fois dans le groupe tudi (chez A) et l'extrieur du groupe tudi (chez X) : il est plsiomorphe pour le groupe tudi. A contrario, l'tat a' qui n'est prsent qu' l'intrieur du groupe tudi (chez B et chez C) est apomorphe. La transformation a a' reprsente la synapomorphie de (B,C). En revanche, l'interprtation des tats b et b' n'est pas dnue d'ambigut. L'tat b' n'est prsent que dans le groupe tudi. La comparaison ne porte donc que sur deux groupes : l'ensemble form par A, B et C d'une part, et d'autre part l'extra-groupe X. L'tat ancestral des deux groupes peut tre b (la transformation est b b'), auquel cas le groupe (A,B,C) est monophyltique (figure IV.7B) Il peut tout aussi bien tre b', auquel cas la transformation b' b caractrise l'extra-

La mthode cladistique

48

groupe X : le groupe (A,B,C) n'apparat pas comme un groupe monophyltique (figure IV.7C). Cet exemple montre la ncessit d'introduire plusieurs extra-groupes dans l'analyse, si l'on souhaite tester la monophylie du groupe tudi. Ces extragroupes ne doivent pas tre troitement apparents : ils ne doivent pas former un groupe monophyltique, car, dans ce cas, il n'y aurait en fait qu'un seul extragroupe et nous serions ramens au cas de figure prcdent. La figure IV.8 montre l'utilisation de deux extra-groupes (X et Y). L'tat b', qui est absent chez X et Y mais prsent chez tous les membres du groupe tudi, est donc driv pour ce groupe. La transformation est b b'. Cette hypothse est fonde sur le principe de parcimonie : elle ne cote qu'un pas ; la transformation inverse b' b coterait deux pas (chez X et chez Y, qui, rappelons-le, ne sont pas troitement apparents) (Figure IV.8C). Les caractres peuvent tre affects par l'homoplasie, aussi bien chez les membres du groupe tudi que chez les extra-groupes. Prenons l'exemple de la figure IV.9. Les tats c et c', prsents chacun dans le groupe tudi, sont galement prsents chez les extra-groupes : c chez Y et c' chez X. Le critre de comparaison extra-groupe ne permet pas d'identifier la polarit du caractre. La transformation c c' cote deux pas et ne permet pas de construction dichotomique (figure IV.9B). La transformation inverse c' c cote galement deux pas et rsout partiellement l'arbre (figure IV.9C). L'introduction d'un troisime extra-groupe (fig. IV.10A) lve l'ambigut introduite par l'homoplasie et permet d'opter pour l'une ou l'autre des hypothses de transformation. L'tat c est prsent chez Z. La transformation c c' ne cote que deux pas (mais ne permet pas de rsoudre le problme phylogntique (figure IV.10B). La transformation inverse c' c rsout partiellement le problme mais cote un pas de plus : trois apparitions indpendantes de l'tat c (figure IV.10C) : cette hypothse est rejete. On admettra donc que la transformation est c c' et que l'tat c' est apparu indpendamment chez X et chez C (figure IV.10B).

FIGURE IV.11. Application du critre de comparaison extra-groupe. A, B, C : taxons analyss ; X, Y, Z : extra-groupes ayant la libert de s'insrer entre A, B et C ; c-c' : caractres. Ces exemples montrent que l'application du critre de comparaison extragroupe ne permet de polariser les caractres sans ambigut que par l'application du principe de parcimonie.

Les critres d'identification du sens de transformation des caractres

49

En revanche, la qualit d'extra-groupe accorde tel ou tel taxon dpend d'un choix purement empirique ou bien d'une hypothse phylogntique prexistante. Ce choix peut tre erron, comme peut tre errone l'hypothse pralable de la monophylie du groupe tudi. Prenons l'exemple des figures IV.10 et IV.11. Contrairement au postulat qui nous a guid jusqu' prsent, admettons qu'un extra-groupe (ou plusieurs) puisse tre inclus dans le groupe tudi. Cela revient dire que le choix des taxons en tant qu'extra-groupe est erron : tel taxon habituellement considr comme extrieur au groupe tudi (sur des bases de classification traditionnelle ou d'analyse de similitude globale) est en ralit apparent l'un des membres du groupe tudi. La situation de la figure IV.10A peut alors tre illustre plus simplement encore que ne l'indique la figure IV.10B. Les figures IV.11A et IV.11B montrent que les deux transformations c c' et c' c sont possibles (un pas seulement chaque fois) avec des arbres videmment diffrents. Par cet exemple, on voit que l'application du principe de parcimonie conduit rejeter le statut d'extra-groupe choisi a priori pour certains taxons. 4.1.2. Le choix des extra-groupes et les limites d'application du critre Les limites d'application du critre de comparaison extra-groupe sont celles de l'observation. L'hiatus morphologique entre les taxons du groupe tudi et les extra-groupes est parfois tel que la polarisation de nombreux caractres n'est pas concluante. Si, par exemple, la morphologie du 5e mtatarsien est le caractre analys et si le 5e doigt manque chez l'extra-groupe, le critre ne sera pas oprationnel. Les extra-groupes doivent donc possder des caractres pertinents : si l'on veut rsoudre un problme de parents phylogntiques des primates on vitera de choisir comme extra-groupes des salamandres ou des oiseaux ! Morphologie et molcules n'chappent pas cette exigence. La palontologie le montre, l'extinction est responsable des hiatus existant entre des groupes tant actuels que fossiles. Certains groupes fossiles paraissent ainsi totalement isols et il est alors difficile d'identifier des caractres morphologiques permettant des comparaisons. En outre, sachant que de nombreux taxons fossiles ne sont reprsents dans nos archives palontologiques que par certains types de caractres (denture notamment) les lments de comparaison sont rduits d'autant. Le critre de comparaison extra-groupe s'applique tous les caractres discrets, notamment molculaires. Un site donn dans une squence de nuclotides peut tre assimil un caractre. L'tat a de la figure IV.7 peut tre une guanine (G) et l'tat a' une cytosine (C). La polarit est alors G C : substitution d'une cytosine une guanine. Mais les squences des extra-groupes, tant des gnes que des protines, peuvent tre tellement diffrentes de celles des autres groupes qu'il est parfois difficile de les aligner afin de les comparer aux autres squences. Dans ces conditions, l'extra-groupe ne permet pas la polarisation. Par exemple, sur la figure IV.7, si l'extra-groupe X possde une adnine l o A, B et C possdent une guanine ou une cytosine, la polarisation des transformations chez A, B et C est impossible. A l'inverse, les squences peuvent tre tellement semblables (on dit conserves ) qu'elles ne permettent pas de construire une phylognie. L'explication volutionniste de ces deux cas de figure tient la vitesse d'volution des squences tudies. Le taux de mutation de

La mthode cladistique

50

l'ADN mitochondrial, par exemple, est tel qu'il n'est pas possible de comparer les squences pour des taxons ayant diverg depuis longtemps. Le taux de mutation du cytochrome c est si bas, au contraire, que les squences d'acides amins l'intrieur d'un ordre de mammifres comme celui des Primates, sont identiques. En revanche, ce faible taux de mutations permet de comparer les grands embranchements ayant diverg depuis plus d'un milliard d'annes (Fitch et Margoliash, 1967). Dans ce cas, l'loignement des extra-groupes n'entrane plus de difficults. 4.1.3. Extra-groupes et parcimonie Il reste que dans une analyse phylogntique fonde sur de nombreux caractres, la congruence entre les hypothses de polarit permet souvent de lever les ambiguts entranes par l'homoplasie, y compris celles affectant les caractres des extra-groupes. Dans le cas de la figure IV.9, si de nombreux caractres, autres que c, supportent un arbre de configuration (A(B,C)), la polarit du caractre c est c c' (deux pas), la polarit inverse c' c impliquant trois pas. Selon ce point de vue, le critre de comparaison extra-groupe est une analyse structurale et non une analyse des processus ayant mis en place les caractres. Le critre permet la construction d'un schma relationnel (le cladogramme) tir de la seule interprtation parcimonieuse de la distribution des caractres. Ce dernier aspect du critre de comparaison extra-groupe une simple application du principe de parcimonie est rejet par nombre de biologistes pour lesquels la Nature n'a pas se plier une contrainte d'ordre logique. Malgr ces rticences, plus conceptuelles que pratiques, le critre de comparaison extra-groupe, tel qu'il a t dfini ici, est le critre le plus gnralement utilis dans les constructions phylogntiques fondes sur l'analyse des caractres, qu'il s'agisse de traits morphologiques pris sur l'actuel ou le fossile, ou de traits biochimiques.

4.2. Le critre ontognique


Le critre ontognique se situe dans la sphre de la loi biogntique fondamentale ou loi de la rcapitulation : l'ontognie rcapitule la phylognie, autrement dit l'embryon rcapitule lors de son dveloppement la succession des tats ancestraux. Quoique selon Hennig (1966, p.96) un rejet total de la loi biogntique fondamentale est certainement injustifi, il est patent que pour nombre de biologistes, cette loi passe pour infirme, notamment la suite des travaux de Garstang dans les annes vingt, de de Beer partir des annes trente, et plus rcemment de Gould (1977). A l'inverse, la loi biogntique fondamentale reformule rcemment par Nelson (1973a,b, 1978 ; Nelson et Platnick, 1981) est prsente comme le critre primordial de la reconstruction phylogntique. Aussi la question de savoir si la phylognie diffre substantiellement de l'ontognie, le palontologue britannique Colin Patterson n'hsite pas rpondre par la ngative (Patterson, 1983, p.27).

Les critres d'identification du sens de transformation des caractres

51

4.2.1 La reformulation de la loi biogntique La reformulation de la loi biogntique par Nelson (1973b, p.330 ; 1978, p. 327) est la suivante : tant donn la transformation ontognique d'un caractre depuis un tat plus gnral vers un tat moins gnral, l'tat plus gnral est primitif et l'tat moins gnral est volu .

FIGURE IV.12 Application du critre ontognique. X, Y : espces ; a, b : tats du caractre ontognique (a a : mme tat deux phases du dveloppement ; a b : transformation ontognique). A : solution parcimonieuse (une transformation) ; B : solution non parcimonieuse (deux transformations : chez l'anctre, et suppression chez Y). Comparons deux espces X et Y (figure IV.12A) dont l'une (X) montre la transformation ontognique a b d'un caractre et l'autre (Y) ne montre pas de transformation : a a. L'tat a est le plus gnral parce qu'il est prsent la fois chez X et chez Y; il est plsiomorphe. L'tat b prsent une fois (chez X) est le moins gnral : il est apomorphe. Traduits en termes volutionnistes cette affirmation revient considrer que, pour ce qui est du caractre tudi, l'espce Y donne une image de la condition ancestrale. Traduits en termes haeckeliens, en termes de processus, l'affirmation revient dire que l'ontognie du caractre de a vers b rcapitule la phylognie puisque a est plsiomorphe (ancestral) et b apomorphe : cette situation correspond au processus dit de rcapitulation. Un exemple simple que nous paraphraserons ici est celui donn par Nelson (Nelson, 1978, p. 326 ; Nelson et Platnick, 1981, p. 331) propos des poissons plats (soles et limandes). Prenons deux espces X et Y. L'espce Y (une sardine) possde un oeil de chaque ct du crne (caractre a), l'espce X (une sole) possde deux yeux du mme ct (caractre b). Lequel des deux caractres est primitif ? Supposons que l'tude de l'ontognie montre que les embryons des deux espces ont le caractre a, et que durant le dveloppement de l'espce X le caractre a se transforme en caractre b. On peut alors rpondre la question : le caractre a est primitif, le caractre b est driv. On n'a pas observ de transformation volutive. On a observ que le caractre a est plus gnral que le caractre b : a est prsent chez les espces X et Y et b n'est prsent que chez l'espce X (la sole). La rponse faite en termes volutionnistes : a est primitif (c'est--dire ancestral), est fonde sur le degr de gnralit du caractre a et sur l'observation de la transformation ontognique

La mthode cladistique

52

a b. L'infrence phylogntique implique que, pour les caractres tudis, l'espce Y donne une image de l'anctre, de telle sorte qu'on ne retient qu'une seule transformation phylogntique (a b) chez l'espce X (cet exemple est celui illustr par la figure IV.12A). C'est pourquoi le critre ontognique est souvent tenu pour une technique directe d'investigation phylogntique : la transformation ontognique est observe, par opposition au critre de comparaison extra-groupe (anatomie compare et palontologie incluses) o la transformation est infre. L'un des exemples les plus clbres de rcapitulation est celui des poches viscrales (plus communment nommes fentes branchiales, quoique ce terme doit tre rserv au stade adulte) que l'on observe chez les embryons de ttrapodes, dont l'homme, comme chez ceux des poissons. Alors que les poches restent ouvertes chez les poissons, elles se ferment chez l'homme et les ttrapodes. La prsence d'un pharynx chez l'homme est due des transformations ontogniques de la rgion branchiale ; la trompe d'Eustache y est tout ce qui reste des poches viscrales. On sait par ailleurs que l'homme et le chimpanz sont deux espces proches. La descente du larynx qui permet le langage articul chez le jeune humain, ne se produit pas chez le chimpanz. La descente (transformation) est une addition terminale. L'ontognie de la rgion branchiale chez les ttrapodes en gnral et chez l'homme en particulier, rcapitule la phylognie en ce sens que le pharynx (poches fermes) est prcd par des poches ouvertes. Avant d'tre en position basse, le larynx humain, jusqu' l'ge d'un an et demi deux ans, a la mme position que chez le chimpanz, lequel, de ce point de vue, reprsente l'tat ancestral. Du point de vue phylogntique on dira que les poches viscrales qui persistent chez les poissons adultes (fentes branchiales : branchies) sont une symplsiomorphie l'intrieur des chords (Chordata). La fermeture des poches chez l'adulte est une synapomorphie des ttrapodes. Quant au dplacement du larynx, c'est une autapomorphie d'Homo sapiens. La relecture et la reformulation de la loi de Haeckel par Nelson relvent du raisonnement formel. Nelson analyse la seule distribution des caractres de faon en tirer un schma relationnel ; c'est ce que l'on peut appeler une analyse structurale (par opposition une analyse des processus), qu'on pourrait mme qualifier de structuraliste. En effet, Nelson ne fait en aucune manire rfrence un processus de rcapitulation qui tlescoperait au cours du dveloppement d'un individu tous ses tats ancestraux adultes. C'est pourquoi la reformulation de la loi biogntique rappelle par son style les lois du dveloppement de von Baer, dpourvues de perspective volutionniste. Rappelons que les deux premires lois du dveloppement nonces par von Baer (1828) taient formules ainsi : 1) les caractres gnraux d'un grand groupe apparaissent plus tt dans l'embryon que les caractres spciaux; 2) Les caractres moins gnraux se dveloppent partir des caractres plus gnraux. La loi biogntique reformule par Nelson suppose d'abord que l'observation ne nous trompe pas a priori. Elle suppose ensuite que le transfert de la transformation ontognique (observe) dans un contexte de transformation

Les critres d'identification du sens de transformation des caractres

53

phylogntique (infre) peut se faire simplement en minimisant les vnements volutifs. Le raisonnement ressortit au principe de parcimonie. Prenons nouveau l'exemple de la figure IV.12. Si l'absence de transformation est considre comme un tat ancestral, la transformation compte pour une innovation (un pas volutif sur la branche X) et exprime l'tat volu (figure IV.12A). Ce cas de figure correspond au processus de rcapitulation (cas dit de pramorphose). Si, au contraire, la transformation ontognique est tenue pour illustrer l'tat ancestral (figure IV.12B), elle compte pour un pas chez l'anctre. L'absence de transformation est alors une perte de transformation, soit un deuxime pas. Cette situation est une solution moins parcimonieuse, qui postule que la transformation ancestrale (un pas) est prcde dans l'histoire par une absence de transformation, ce qui correspond au premier cas de figure. Choisir une hypothse moins parcimonieuse pour expliquer un mme ensemble de donnes, c'est introduire une hypothse ad hoc : celle-ci ne s'impose qu'en fonction d'autres observations. De la mme faon, les cas de convergence vus dans le paragraphe IV.1, n'apparaissent comme tels qu'en posant a priori les hypothses de synapomorphies. Dans la figure IV.6B il est moins parcimonieux d'envisager 2 pas pour la transformation du caractre 5 chez A et chez D qu'un seul pas chez l'anctre de (A,D). Mais la prise en compte de l'ensemble des 6 caractres montre que l'hypothse la plus parcimonieuse (7 pas au total) implique une distribution non parcimonieuse du caractre 5. L'observation d'une absence de transformation n'est interprte comme le rsultat d'une perte de transformation (signifiant que l'existence de la transformation a prcd gnalogiquement sa disparition) que si d'autres caractres permettent de penser ainsi. En termes de processus, ce cas de figure correspond la paedomorphose c'est--dire la persistance l'tat adulte de caractres juvniles par arrt ou ralentissement du dveloppement somatique (notnie) ou par acclration du dveloppement germinal (prognse). On a vu que dans la comparaison extra-groupe, la ralit de l'homoplasie ne rfutait pas celle de la synapomorphie. Dans le cas du critre ontognique, la paedomorphose rfute-t-elle la loi biogntique reformule par Nelson et aujourd'hui appele rgle de Nelson (Wheeler, 1990) ? 4.2.2 Rfutation et parcimonie De Beer (1958) et Gould (1977) se sont appuys sur les processus non rcapitulatifs (c'est--dire sans addition terminale d'tats de transformation), pour minorer fortement, voire nier, l'importance de la loi biogntique . Il n'est pas question de minimiser ici l'intrt de l'tude des processus et de l'htrochronie, c'est--dire la variation du tempo du dveloppement. Mais les modles de dveloppement mettant en vidence les diffrents rles que joue l'htrochronie (Gould, 1977 ; Alberch et al, 1979) sont fonds sur la reconnaissance pralable de l'tat ancestral : l'apprciation des htrochronies dpend d'hypothses phylogntiques pralables. Or la question qui est pose ici est autre : c'est prcisment celle de l'apport de l'ontognie l'identification de l'tat ancestral. La reformulation de la loi biogntique a pour but l'infrence des tats primitif et driv dans le champ ontognique.

La mthode cladistique

54

Une premire objection faite Nelson est qu'il est impossible de tirer des conclusions phylogntiques partir d'observations obtenues sur deux espces seulement (Kluge, 1985, p.22). L'argument est le suivant et s'applique la figure IV.12 : si une transformation ontognique est prsente chez un anctre (figure 12B), seule l'absence de transformation chez un descendant doit compter pour un pas : de la sorte, l'absence de transformation comme la transformation peuvent tre tenues galit comme deux situations plausibles chez l'anctre (cet exemple se rapporte prcisment aux processus de paedomorphose). Auquel cas, l'argument ontognique seul ne peut tre utilis des fins phylogntiques. A l'inverse, Nelson compte toute transformation pour un pas ; de la sorte, si nous infrons la prsence d'une transformation chez un anctre puis sa suppression chez un descendant (figure IV.12B), nous nous situons donc dans une situation non parcimonieuse dont la validit est justifier l'aide d'autres observations ontogniques ou d'autres observations de caractres. Une seconde objection faite Nelson porte sur la nature rfutable de son nonc de loi biogntique . Un mme modle de comparaison d'espces aux ontognies postules, a t propos par Voorzanger et van der Steen (1982) et par Kluge (1985) afin de dmontrer que la parcimonie ne permettait pas de trancher entre des hypothses contradictoires et que, sur ce plan, la loi n'tait pas de nature rfutable (figure IV.13).

FIGURE IV.13. Un essai de rfutation de la rgle de Nelson . W, X, Y, Z : taxons ; a b et b a sont deux sries de transformations ontogniques contradictoires observes chez X et chez W. Chez les espces Y et Z on n'observe pas de transformation ontognique. Prenons l'exemple de la figure IV.12 et essayons de rfuter l'hypothse 12A l'aide de deux autres espces, Z et W dont nous observons les caractres ontogniques a et b. On obtient la figure IV.13. La transformation observe chez W est b a, alors que Z ne prsente que l'tat b durant son dveloppement. L'application de la rgle de Nelson aux seules espces X et Y aboutirait la conclusion que a est plus primitif que b, tandis que son application aux espces Z et W aboutirait dire que b est plus primitif que a, ce qui est contradictoire. Si l'on considre simultanment les espces X, Y, Z et W, la rfutation n'est pas possible car les deux combinaisons ancestrales contradictoires sont galement possibles : l'anctre possde aussi bien a que b. Cet exemple implique en effet que

Les critres d'identification du sens de transformation des caractres

55

l'ontognie n'est pas oriente et que les deux transformations contradictoires a b et b a coexistent, autrement dit, pour reprendre l'exemple prcdent, le pharynx nat des fentes branchiales aussi bien que les fentes branchiales naissent du pharynx. Nelson (1985, p. 36) ne retient pas cet argument et considre au contraire que ce cas n'a jamais t rencontr et que les relations entre caractres sont universelles . En ralit, des ontognies contradictoires ont t signales chez des arthropodes dont le dveloppement est discontinu, chaque stade ayant sa propre phylognie (acariens du groupe des Oribatida ; Andr, 1988 ; Bonde 1984) cite aussi un exemple signal par Wingstrand chez des mouches, les stratyomids. Dans une telle situation, l'observation ontognique n'est phylogntiquement intelligible que confronte au critre de comparaison extra-groupe. Que de tels exemples soient rares, pour ne pas dire exceptionnels (Andr ne cite qu'un exemple tir de travaux anciens de Grandjean), n'est peut-tre d qu' la raret des travaux sur l'ontognie complexe des arthropodes. Mais ces cas sont remarqus chez des tres dont l'ontognie est discontinue avec des remaniements cellulaires complexes. Nelson fonde au contraire son raisonnement sur des ontognies continues. Il reste qu'il existe une rfutation de l'universalit de la rgle de Nelson sur la base de l'observation empirique. La rgle de Nelson doit tre comprise comme une stratgie de recherche, non une loi biologique. 4.2.3. la paedomorphose et l'exception la rgle Les objections la rgle de Nelson que l'on retiendra dans ce paragraphe sont celles issues de la reconnaissance des processus non additifs, c'est--dire non rcapitulatifs (paedomorphose) : ceux-ci rfuteraient aussi bien la rgle de Nelson que la loi de Haeckel. Ces objections, auxquelles on a dj rpondu en rfrence la parcimonie, tirent d'une certaine manire leur source dans l'histoire de l'embryologie et dans luvre mme de Haeckel. L'exemple classique de paedomorphose, ici de notnie, est celui de l'axolotl. En 1865, le zoologiste franais A. Dumril avait dcouvert le phnomne de notnie en observant la mtamorphose d'un axolotl en salamandre. Chez cet amphibien, la mtamorphose ne se fait pas dans la nature : chez l'adulte c'est-dire l'individu capable de se reproduire persistent des caractres larvaires comme l'existence de branchies. Dans son Anthropognie, Haeckel (1877, p. 392) considre l'axolotl (et d'autres salamandres branchies) comme un reprsentant primitif des amphibiens, au plus bas degr , par opposition aux autres amphibiens dont les branchies disparaissent chez l'adulte . On sait que les branchies de l'axolotl adulte, au contraire, ne font pas de l'axolotl un anctre mais sont la persistance d'un trait juvnile par arrt du dveloppement somatique. De Beer (1958), Gould (1977) et bien d'autres, considrent donc que les phnomnes de paedomorphose rfutent l'argument ontognique tel qu'il est formul par Haeckel ou par Nelson. L'axolotl n'est pas un anctre des amphibiens et la conclusion de Haeckel qui n'admettait pas d'exception sa loi tait errone. On ne pourrait alors chapper la conclusion selon laquelle l'ontognie n'est pas une source fiable d'information phylogntique : ce n'est que grce l'adjonction d'autres types d'observations que nous pourrions esprer comprendre dans un cadre phylogntique les transformations ontogniques.

La mthode cladistique

56

Mais il n'y a pas de paradoxe reconnatre la fois l'erreur de Haeckel et le bien fond de la rgle de Nelson . Nelson se rfre l'ontognie des caractres, non celle des organismes tout entiers. Il n'y a pas d'organismes rcapitulatifs mais rcapitulation dans le dveloppement de tel ou tel caractre. Dans le cas de l'axolotl, bien que l'exemple soit devenu un classique de la littrature volutionniste, ce n'est que tout rcemment qu'a t mene (Kraus, 1988) une analyse empirique de 41 caractres observs chez les salamandres du genre Ambystoma, dont l'axolotl. La conclusion de cette analyse cladistique est sans ambigut : les caractres dus la paedomorphose (34% des caractres) n'ont pas brouill l'image phylogntique fonde sur l'application du principe de parcimonie, mais, surtout, n'ont pu prcisment tre mis en vidence qu' partir de ce principe, c'est--dire, pour ce qui est de l'argument ontognique, la rgle de Nelson . Les prtendus caractres primitifs de l'axolotl, ne psent pas lourd par comparaison avec les caractres de salamandres terrestres, et, plus prcisment, ceux propres au genre Ambystoma, un genre qui ne se situe pas l'origine des amphibiens. Un contre-exemple est toutefois donn par Mabee (1989) propos de la phylognie de poissons osseux perciformes. L'analyse empirique de 63 caractres chez 29 espces de la famille des Centrarchidae a conduit cet auteur conclure trs nettement que le critre ontognique n'est pas un critre phylogntique valable (Mabee, 1989, p.415). La raison en est la suivante : les processus d'addition terminale (qui correspondent la rgle de Nelson ) ne dpasseraient pas 51 % des transformations envisages, et plus vraisemblablement ne reprsenteraient que 33 % des cas, un chiffre qui, d'aprs Mabee, ne permettrait pas de supporter la rgle de Nelson . Mais l'examen attentif de cet exemple montre qu'en fait plusieurs arbres parcimonieux rendent comptent des donnes avec des topologies diffrentes. Autrement dit, le degr de contradiction entre les hypothses de transformations des caractres est tel que le choix d'un arbre parmi d'autres semble relever de l'arbitraire. L'exemple apparat plus comme un cas de non-rsolution d'un problme phylogntique que comme une rfutation de la rgle de Nelson . Il est difficile d'aborder le critre ontognique sans faire la part de l'exprimentation, au cur des analyses de l'ontognie. Que dit l'exprimentation qui rvle le caractre notnique de telle ou telle ontognie ? Que la paedomorphose est un trange falsificateur , au sens de Popper, car elle n'est mise en vidence que lorsqu'elle n'existe plus : lorsque la mtamorphose c'est-dire la transformation a eu lieu. En l'absence d'exprimentation, les caractres notniques ne peuvent tre rvls comme tels qu'en association avec d'autres caractres, non notniques cette fois, qui permettent l'dification de l'hypothse phylogntique. Pour mettre en vidence les exceptions la rgle, il faut appliquer la rgle. Les processus non additifs ne nous autorisent pas liminer l'ontognie du domaine de l'infrence phylogntique, sauf admettre que seules les mthodes dpourvues de risques d'erreur doivent tre appliques, ce qui pose des contraintes extrmes l'activit scientifique, voire l'empche purement et simplement. A ce titre, le critre de comparaison extra-groupe devrait aussi tre limin : pris isolment un caractre peut nous induire en erreur (par exemple les tats b-b' de la figure IV.7 et c-c' de la figure IV.9).

Les critres d'identification du sens de transformation des caractres

57

4.3. Les critres palontologique et chorologique


4.3.1 Le critre palontologique Le critre palontologique appel encore critre de la prcdence gologique est souvent cit comme le premier critre de polarisation des caractres (Hennig, 1966 ; Mayr, 1986). Le critre s'nonce comme suit : si, dans un groupe monophyltique, l'tat d'un caractre est prsent chez les fossiles anciens et l'autre tat est prsent chez les fossiles plus rcents, le premier est l'tat plsiomorphe, le second est l'tat apomorphe. Le critre est opratoire si les parents entre fossiles ne sont pas trop lointaines. C'est pourquoi Hennig a spcifi que le critre s'applique pour les fossiles appartenant un groupe monophyltique. Or le problme phylogntique est bien d'identifier l'troitesse des liens et la monophylie des groupes. C'est pourquoi ce critre est cit comme critre auxiliaire qui ne peut tre appliqu indpendamment des critres principaux (comparaison extra-groupe et ontognie) si l'on veut viter la circularit du raisonnement fond sur l'quation ancien = primitif. On peut citer ce sujet la boutade de Nelson et Platnick (1981) : appliquer sans discernement ce critre revient considrer que les blattes qui infestent les caves des immeubles des grandes villes sont plus volues que les mammouths qui vivaient il y a 15.000 ans : la comparaison des caractres n'a pas de sens. Or, toute ironie mise de ct, il convient de prciser que blattes et mammouths appartiennent bien un groupe monophyltique, les Metazoa (sans mme remonter aux eucaryotes). Tout est donc question de discernement. Ici le discernement ne se conoit pas sans le critre de comparaison extra-groupe. Il apparat ainsi que la position stratigraphique est un caractre extrinsque l'organisme, tout comme sa distribution gographique (voir paragraphe suivant). La primaut des caractres intrinsques en analyse cladistique fait aussi du critre de prcdence gologique un critre auxiliaire. En ralit, dans un groupe monophyltique de faible amplitude (aux caractres moyennement divergents) on peut s'attendre ce que de nombreux caractres des fossiles anciens soient primitifs par rapport ceux des fossiles rcents ou des formes actuelles. Mais il est tout aussi commun de rencontrer des taxons anciens ayant volu leur manire et dont les caractres ont subi des transformations inconnues chez les taxons plus rcents. Ces deux constatations empiriques montrent que le critre, qui ne peut s'appliquer indpendamment de tout autre critre principal, doit tre mani avec prcaution. L'exemple des blattes et des mammouths montre que la multiplicit des branchements (la diversification taxinomique avec acquisition de caractres) est responsable de l'ambigut introduite par l'application du critre de prcdence gologique indpendamment de tout autre critre. L'application stricte du critre n'est possible qu'au niveau spcifique (ou populationnel), dans le cas d'une ligne phyltique. La ligne phyltique est l'enchanement au cours du temps d'anctres et de descendants sans production de

La mthode cladistique

58

diversit taxinomique, c'est--dire sans branchement. Sans branchement, pas de possibilit de divergence avec acquisition de caractres autapomorphes (sauf, bien entendu, pour l'espce terminale). Dans ce cas prcis, ce qui est ancien est ncessairement primitif par rapport ce qui est plus rcent. Une telle ligne est parfois aussi appele ligne anagntique. Lignes palontologiques Le critre de la prcdence gologique est souvent appliqu en palontologie indpendamment de tout autre critre. La superposition stratigraphique est alors tenue comme le rvlateur du sens du morphocline : le morphocline devient un chronocline. Ce type d'approche est judicieusement qualifi de stratophntique par Gingerich (1979) puisqu'il repose sur la reconnaissance de la similitude et sur son orientation selon la stratigraphie. La figure IV.14 montre la phylognie d'un groupe de mammifres fossiles nord-amricains construite partir d'un caractre : le logarithme de la surface occlusale de la premire molaire infrieure. Le choix de ce caractre est d au fait que, gnralement, la taille moyenne des individus d'une espce est lie celle de la surface occlusale de la molaire. Les chantillons ont t recueillis dans un seul bassin sdimentaire et sont situs selon l'axe des ordonnes en fonction de leur position stratigraphique. On constate augmentation ou rduction de taille, au cours du temps. En fonction des divergences biomtriques, des espces phyltiques sont reconnues, c'est--dire des enchanements d'espces sans branchement (par exemple Pelycodus trigonodus, de petite taille, et Pelycodus abditus, son descendant postul, de plus grande taille). Des espces apparues par division (cladognse) sont galement reconnues, cette fois lorsque deux populations contemporaines sont distingues sur des bases statistiques (par exemple, Pelycodus frugivorus contemporain de P. jarrovii, et significativement plus petit). Ce modle phylogntique implique que l'enregistrement fossile ne souffre pas d'hiatus, que l'volution s'est faite sur place : aucun vnement phylogntique n'a impliqu, dans d'autres bassins sdimentaires, les espces dont on a recueilli les dents. Enfin, l'volution du caractre est tenue pour une phylognie d'organismes : la surface occlusale de la premire molaire infrieure doit reflter l'volution des espces elles-mmes. Par exemple, si Pelycodus trigonodus est considr comme l'anctre de P. abditus, on admet que tous les autres caractres de ces deux espces voluent de concert. Cet exemple montre donc les limites de la mthode, lorsque celle-ci ne tient compte d'aucun autre critre.

Les critres d'identification du sens de transformation des caractres

59

FIGURE IV.14. Un exemple de stratophntique. Extension stratigraphique et parents des primates de la famille des Adapidae (genres Pelycodus et Copelemur) dans l'Eocne ancien du Bassin de Big Horn en Amrique du Nord. Abscisses : logarithme de la surface de la premire molaire infrieure. Ordonnes : section stratigraphique. Lignes horizontales : amplitude de variation de l'chantillon ; barres verticales : moyenne ; sections en gras des lignes horizontales : erreur standard sur la moyenne ; lignes de tirets : parents postules. D'aprs Gingerich (1979). Dans la plupart des cas (comme dans la figure IV.14), de telles constructions phylogntiques expriment l'volution au cours du temps d'un caractre choisi pour sa pertinence (notamment la facilit de fossilisation et, en consquence, le nombre lev d'chantillons), ou bien d'un indice qui rsume plusieurs caractres. Dans le premier cas, la phylognie est en fait une phylognie de caractres. Dans le second cas, des combinaisons contradictoires de caractres dues au fait que l'ancien n'est pas ncessairement primitif, sont gommes par l'utilisation d'un seul indice. Celui-ci ne fait que rsumer grossirement l'volution des caractres. Il reste que le modle de la ligne phyltique, le seul o s'appliquerait strictement le critre palontologique implique que l'enregistrement fossile est complet : les organismes anciens appartiennent la population-mre et les organismes rcents appartiennent aux populations-filles.

La mthode cladistique

60

Lignes et cladogrammes La ligne phyltique de la figure IV.15A est construite partir de trois sries de transformations tandis que celle de la figure IV.16A est construite partir d'une seule srie. Elles sont respectivement compatibles avec les cladogrammes IV.15B et 16B. Les cladogrammes reprsentent la mme distribution des caractres et des transformations que les lignes phyltiques, mais toutes les espces sont tenues pour des taxons terminaux. En revanche, les reprsentations en lignes phyltiques indiquent que les anctres et les descendants sont identifis. Elles reprsentent un systme ferm qui implique que la totalit de l'information est obtenue : il n'y a pas de lacune dans les archives fossiles qui permettrait de renverser la polarit du caractre tablie selon le chronocline. Les cladogrammes sont, au contraire, des systmes ouverts . Des populations non encore dcouvertes peuvent s'intgrer dans les cladogrammes sans altrer les transformations de caractres. L'espce D peut, par exemple, avoir un anctre commun avec C et tre contemporaine de C dans un autre bassin sdimentaire que celui qui a livr les espces A, B, C, D des figures IV-15A ou IV-16A. La figure IV.17 montre un cas extrme o les lacunes de l'enregistrement fossile masquent le processus volutif de telle faon que l'volution est l'inverse de celle suppose partir de la superposition stratigraphique. Le chronocline est a a' a'' a'''. Le morphocline est en fait a''' a'' a' a. Une telle situation peut tre identifie si d'autres fossiles apparents ce groupe sont dcouverts avec, outre leurs caractres propres, les caractres les rapprochant de l'ensemble A, B, C, D, notamment le caractre a''' ; autrement dit, par l'application du critre de comparaison extra-groupe.

FIGURE IV.15. Le critre palontologique. 1-4 : tages gologiques ; A, B, C, D : espces ; a a', b b', c c' : sries de transformations des caractres . 15A: ligne phyltique ; 15B : cladogramme (arbre dichotomique).

Les critres d'identification du sens de transformation des caractres

61

FIGURE IV.16. Le critre palontologique. 1-4 : tages gologiques ; A, B, C, D : espces ; a a' a'' a''' : srie de transformations du caractre. 16A : ligne phyltique ; 16B : cladogramme (arbre dichotomique).

FIGURE IV.17. Rfutation du critre palontologique. 14 : tages gologiques ; A, B, C, D : espces ; a''' a" a' a : srie de transformations du caractre. La squence gologique (chronocline) est l'inverse de celle de la srie de transformation (morphocline). Pour conclure, il convient de rappeler que le critre de la prcdence gologique, n'a t discut que dans le but de polariser les caractres, ce pourquoi il est conu. L'usage ou le non-usage des donnes palontologiques des fins de construction phylogntique est un tout autre problme. Ne pas utiliser des donnes palontologiques, ou les relativiser en raison des hiatus qui persistent dans les archives fossiles, revient refuser de l'information, ce qui ne peut tre lgitim.

La mthode cladistique

62

4.3.2. Le critre de progression chorologique La chorologie est la distribution gographique des tres vivants. On admet que lorsqu'une espce X se subdivise en deux espces Y et Z, l'tat transform a' apparat chez l'espce Z qui s'est le plus loigne gographiquement de l'espce initiale (figure IV.18). La consquence de ce point de vue est que la distribution gographique permet d'tablir des hypothses phylogntiques.

FIGURE IV.18. Subdivision d'une espce X en deux espces Y et Z avec divergence d'un caractre a vers a' chez l'espce loigne gographiquement de l'espce initiale. X et Y sont prsents dans la mme rgion gographique.

FIGURE IV.19. Progression chorologique d'Ouest en Est des espces A E impliquant une augmentation corrlative du nombre des synapomorphies en passant du nud 1 au nud 4. Sur la figure IV.19, l'augmentation des synapomorphies depuis l'espce A jusqu' l'espce E est lie au gradient gographique d'Ouest en Est. La mthode est gnralement applique lorsque les donnes morphologiques ne suffisent pas rsoudre un problme de parent et ce, au niveau spcifique. Cependant, la mthode ne se restreint pas ce niveau taxinomique et peut s'appliquer des groupes supra-spcifiques monophyltiques distribus dans des units gographiques bien circonscrites (Hennig, 1966). Dans ce cas particulier, le rang des taxons n'a pas d'importance.

Les critres d'identification du sens de transformation des caractres

63

Le critre de progression chorologique est invoqu le plus souvent comme test des hypothses fondes sur la morphologie. Il est manifeste, la lecture de la littrature cladistique, que ce critre est pratiquement abandonn. Son utilisation des fins de reconstruction phylogntique suppose en effet une hypothse de parent prexistante, partir de laquelle est pose la localisation de la rgion ancestrale : c'est bien par consquent un critre auxiliaire. Actuellement, les distributions gographiques ne sont pas la source d'hypothses cladistiques. Au contraire, l'histoire des distributions gographiques des taxons est entirement dduite des caractres intrinsques : tel est le principe de base de la biogographie historique au sens de Nelson et Platnick (1981). On trouvera chez ces auteurs un expos des mthodes de construction de cladogrammes d'aires partir des cladogrammes de taxons, cette question chappant au sujet du prsent livre.

4.4. Polarisation et construction cladistique


De ce qui prcde, il ressort qu'aucun des critres d'orientation des transformations de caractres n'est absolu. Leur application peut toujours entraner des erreurs sur tel ou tel caractre : toute hypothse de synapomorphie peut tre une erreur, c'est--dire relever de l'homoplasie. La juxtaposition des phylognies de caractres permet d'valuer le degr de congruence des donnes. La phylognie des taxons ne se conoit donc qu'au travers des phylognies de caractres. Plus les caractres, appartenant diffrents systmes biologiques, sont nombreux, plus informatif est le rsultat.

TABLEAU IV.1. Matrice de 11 caractres pour 8 taxons (A-H : groupe tudi) et 2 extra-groupes (X, Y). Chaque caractre est reprsent par deux tats. La polarit est donne par le critre de comparaison extra-groupe : la parcimonie indique que pour chacun des caractres, l'tat barre blanche est plsiomorphe et l'tat barre noire est apomorphe.

La mthode cladistique

64

La figure IV.20 rsume le fonctionnement de l'analyse cladistique au moyen du critre de comparaison extra-groupe. A partir du tableau IV-1 il est possible de construire la phylognie de chacun des caractres (figure IV.20A-I). Sachant que X et Y sont les extra-groupes, la phylognie du caractre 1 permet de regrouper (A,B,C,D,E,F,G,H) (figure IV.20A). Les phylognies des caractres 2 et 3 sont identiques, elles regroupent (B,C,D,E,F,G,H). La phylognie du caractre 4 regroupe (C,D,E,F,G,H) etc. Aucun caractre ne donne seul la phylognie des taxons. Celle-ci est donne par la mise en congruence des neuf images phylogntiques, autrement dit par leur addition. L'addition des phylognies des caractres 1, 2 et 3 permet de construire l'arbre (A(B,C,D,E,F,G,H)) (figure IV.20K) . L'addition des caractres 1, 2, 3 et 4 permet de construire l'arbre (A(B(C,D,E,F,G,H))) (figure IV.20L) etc. La phylognie du caractre 11 correspond l'arbre ((A,C)(B,D,E,F,G,H))) (figure IV.20I). Cet arbre n'est pas congruent avec l'arbre construit partir des caractres 1 10 (figure IV.20Q). Les figures IV.20R et 20S sont les deux compromis possibles. En l'absence de congruence, la parcimonie choisit entre les images phylogntiques et permet de slectionner la figure IV.20 R (12 pas) plutt que la figure IV.20S (14 pas). Les caractres 2, 3 et 4 contredisent le caractre 11 : pour ce caractre, l'hypothse de synapomorphie de (A,C) est une erreur. L'opration de mise en congruence des phylognies de caractres peut tre extrmement laborieuse si les taxons sont nombreux et si les contradictions sont nombreuses (forte homoplasie ou bruit ). Grce l'usage d'algorithmes, l'outil informatique permet de rsoudre, autant que faire se peut, ces situations dlicates.

FIGURE IV.20. (pages suivantes) Analyse cladistique de 8 taxons (A-H), 2 extragroupes (X,Y) et 11 caractres, partir du tableau IV.1. A-I : cladogrammes obtenus pour chacun des caractres 1 11 (20A : caractres 1 ; 20B : caractres 2 et 3 ; 20C : caractre 4 ; 20D : caractre 5 ; 20E : caractre 6 ; 20G : caractres 8 et 9 ; 20H : caractre 10 ; 20I : caractre 11). 20J 20S : combinaisons des cladogrammes 20A 20I (20J : caractres 1 et 2, 20K : caractres 1 3, 20L : caractres 1 4, 20M : caractres 1 5, 20N : caractres 1 6, 20O : caractres 1 7, 20P : caractres 1 9, 20Q : caractres 1 10, 20R : caractre 1 11 (12 pas), 20S : caractre 1 11 (14 pas)).

Les critres d'identification du sens de transformation des caractres

65

La mthode cladistique

66

Les critres d'identification du sens de transformation des caractres

67

CHAPITRE V

LES PROCDURES DE PARCIMONIE

1. La recherche de l'arbre le plus court


La recherche du sens de l'volution des caractres, de l'tat primitif vers l'tat driv revient exprimer la similitude sous une forme binaire : plsiomorphe / apomorphe, barre blanche / barre noire, 0 1 etc. Une telle approche de la ressemblance se prte donc particulirement un traitement informatique. Des algorithmes de recherche de l'arbre le plus court, le plus parcimonieux, ont t conus depuis une vingtaine d'annes afin de rsoudre les problmes complexes de construction phylogntique. Tous sont fonds sur le principe de parcimonie. Certains logiciels y font explicitement rfrence tel PAUP, d D. Swofford, abrviation de Phylogenetic Analysis Using Parsimony. Tous reposent sur l'algorithme dit de Wagner conu par Farris (Kluge et Farris, 1969 ; Farris, 1970). Mais, depuis, de nombreux autres algorithmes plus performants ont t dcouverts, dont certains sont exacts et donnent avec certitude l'arbre le plus court, tandis que d'autres sont heuristiques. Indpendamment de la systmatique phylogntique de Hennig, ds 1963, Edwards et Cavalli-Sforza ont invoqu explicitement le principe de parcimonie propos de gntique des populations : l'estimation la plus plausible d'un arbre volutif est celle qui fait appel la quantit minimale d'volution. Le problme immdiat qui nous occupe ici est celui de prciser et quantifier cette quantit minimale d'volution . Dans les annes soixante surgirent des mthodes se rclamant explicitement ou implicitement du principe de parcimonie tant pour des analyses de distances (voir chapitre VI) (Cavalli-Sforza et Edwards, 1967 ; Fitch et Margoliash, 1967) que pour des analyses cladistiques (Camin et Sokal, 1965 ; Kluge et Farris, 1969). Ce sont ces dernires qui nous intressent ici. L'usage frquent dans la littrature d'expressions telles arbre minimal , arbre le plus court , arbre le plus parcimonieux , a trait des arbres construits selon des mthodes cladistiques aussi bien que phntiques. Aussi ne sera-t-il question dans ce paragraphe que de parcimonie au sens cladistique, celle qui permet de construire un arbre phylogntique minimal (comptant le minimum de transformations) par addition

Les procdures de parcimonie

70

des phylognies de caractres, selon des algorithmes (paragraphe 1.2) qui ralisent la procdure illustre par la figure IV.20, quoique pas ncessairement l'identique dans son droulement.

1.1. Modles de parcimonie


On distingue trois types de parcimonie, selon que l'on impose ou non des contraintes sur les transformations de caractres et selon la nature de ces contraintes. Ces dernires influent sur la topologie, la longueur des branches et la longueur totale des arbres.
1 A B C D E X 0 1 1 1 0 0 2 1 0 0 1 0 0 3 0 1 0 1 0 0 4 0 1 1 1 1 0 5 0 1 1 1 1 0 6 0 0 1 1 1 0 7 0 0 1 1 1 0 8 0 0 1 1 1 0 9 1 0 0 1 1 0

TABLEAU V.1. Matrice de 9 caractres pour 6 taxons (A-E, X tant l'extragroupe). Chaque caractre est reprsent par deux tats cods 0 et 1. 1.1.1. Parcimonie de Wagner Dans ce modle (Kluge et Farris, 1969 ; Farris, 1970) convergences et rversions sont acceptes a priori (0 1 et 1 0 ). La figure V.1A illustre une analyse de parcimonie de type Wagner : c'est l'analyse de parcimonie sans contrainte impose au mode de transformation des caractres. Pour la simplicit de l'expos on admet que A, B, C, D et E forment ensemble un taxon monophyltique. Le cladogramme (13 pas) implique que le caractre 1 se transforme deux fois (homoplasie) : une fois chez l'anctre de (B,C,D,E) : (0 1) et une fois chez E (rversion 1 0). Les caractres 2, 3 et 9 apparaissent chacun deux fois (convergences). La combinaison (D,E) est due un caractre homoplasique (caractre 9) qui est la fois synapomorphie de groupe (D,E) et apomorphie du taxon A. 1.1.2. Parcimonie de Camin-Sokal Ce modle (Camin et Sokal, 1965) n'autorise que les convergences (0 1 ou 1 0 selon l'tat ancestral). Les rversions sont exclues. La connaissance a priori de l'tat ancestral est donc ncessaire. Une telle analyse partir du tableau V.1 interprte le caractre 1 diffremment : l'tat driv est apparu indpendamment chez B, chez C et chez D, autrement dit trois fois. L'arbre a la mme configuration que dans le cas de l'analyse de Wagner mais compte 14 pas, soit un pas de plus

La recherche de larbre le plus court

71

FIGURE V.1. Cladogrammes construits partir du tableau V.1. A : selon le modle de parcimonie dit de Wagner (convergences et rversions admises) : 13 pas. B : selon le modle de parcimonie dit de Camin-Sokal (rversion non admise) : 14 pas. C : selon le modle de parcimonie dit de Dollo (convergence non admise) : 15 pas. Dans tous les cas de figure, on admet que le groupe (A,B,C,D,E) est monophyltique. (figure V.1B). Mais, compte tenu de la contrainte impose (rversion interdite), c'est l'arbre le plus court : si l'on contraignait le groupe (B,C,D) tre monophyltique, sur la base du caractre 1, l'arbre compterait 16 pas. 1.1.3. Parcimonie de Dollo Ce modle (Le Quesne, 1972 ; Farris 1977a) n'accepte que les rversions et exclut les convergences. C'est l'une des applications du concept de caractre driv unique de Le Quesne (1972) (l'autre ressortit l'analyse de compatibilit, voir chapitre VI). Selon Le Quesne, il est plus facile de perdre un caractre (rversion : retour apparent l'tat initial) que d'acqurir en parallle un mme caractre (convergence). L'expression parcimonie de Dollo est trompeuse. La loi de Dollo (du nom du palontologue belge Louis Dollo) implique au contraire que le retour l'tat ancestral est impossible.

Les procdures de parcimonie

72

L'analyse applique au tableau V.1 donne un arbre diffrent des prcdents, dans lequel le groupe (C,E) est monophyltique. L'arbre compte 15 pas (figure V.1C). Dans cet arbre, quatre caractres sont homoplasiques et soumis rversion (1, 2, 3 et 9). Le seul moyen de construire un arbre sans convergence est de situer les caractres 2 et 9 sous leur tat driv la racine de l'arbre ; le caractre 2 est rverse chez B et chez (C,E), tandis que le caractre 9 est rverse chez B et chez C. Les caractres 1 et 3 sont drivs pour (B(D(C,E))), 1 est rverse chez E et 3 est rverse chez (C,E). les rversions 2 et 3 sont les synapomorphies de C et E. Comme on peut le constater avec cet exemple, ce modle accepte des apparitions multiples des mmes rversions (ici les caractres 2 et 9). Autrement dit, des rversions apparaissent par convergence. Mais, la diffrence de la parcimonie de Camin-Sokal, ces convergences impliquent toujours un retour l'tat initial. 1.1.4. Parcimonie, longueur de l'arbre et sens de l'volution Les contraintes apportes au comportement des caractres (parcimonie de Camin-Sokal ou de Dollo) aboutissent des arbres plus longs que celui obtenu lorsque les caractres sont autoriss voluer dans tous les sens . C'est pourquoi le mode de parcimonie dit de Wagner est considr comme celui refltant l'application pure et simple du principe de parcimonie. L'introduction d'options qui excluent les convergences ou les rversions sont le fait d'hypothses ad hoc justifies par d'autres considrations que la simple mise en congruence des phylognies de caractres. Dans le cas de la parcimonie de Wagner, la longueur de l'arbre est indpendante de la position de la racine, mme si l'orientation des transformations dpend du choix de cette racine, c'est--dire du taxon pris comme anctre ou extra-groupe. Dans l'exemple de la figure V.1A, on a choisi X comme extragroupe ; la lecture de l'arbre partir de n'importe quel autre taxon choisi comme point de dpart (par exemple A) ne changera pas le nombre de pas mais changera le sens des transformations. Autrement dit, l'arbre minimal mesure 13 pas quels que soient le ou les taxons terminaux choisis comme point de dpart (voir paragraphe 3 de ce chapitre). Au contraire, l'usage des modles de parcimonie de Camin-Sokal et de Dollo conduit dfinir explicitement l'tat initial des caractres.

1.2. Algorithmes exacts et heuristiques


A partir de n taxons terminaux, on peut construire (2n-3)!/(2n-2(n-2)!) arbres dichotomiques (Cavalli-Sforza et Edwards, 1967). Ainsi, pour 10 taxons terminaux il existe 34.459.425 arbres (voir paragraphe I.4). La comparaison d'un si grand nombre d'arbres afin de dcouvrir l'arbre le plus court est une opration extraordinairement laborieuse. En ralit, la recherche de l'arbre minimal est un problme qui rentre dans le cadre de ce que l'on appelle en algorithmique les problmes NP-complets (NP pour non deterministic polynomial, c'est--dire polynomial non dtermin ). Un algorithme est dit polynomial si son excution demande un nombre minimum d'oprations, born par une fonction polynomiale

La recherche de larbre le plus court

73

de la taille des donnes d'entres. Dans ce cas le problme est traitable. En revanche, pour un problme NP-complet, il n'existe pas d'algorithme polynomial pour le rsoudre, mais on ne peut pas dmontrer non plus qu'il n'est pas traitable (Barthlemy et Gunoche, 1988 ; d'Udekem-Gevers, 1990). Si l'on revient une nouvelle fois la figure IV.20 qui est pourtant un exemple simple et remarquablement cohrent on peut saisir facilement ce qui fait de la recherche de l'arbre le plus court un exercice si difficile. Dans cet exemple, la procdure a t dcoupe en plusieurs tapes, chacune correspondant au cladogramme dfini par un caractre. La superposition de tous les cladogrammes de caractres permet de choisir le cladogramme de congruence optimale qui sera le cladogramme des taxons terminaux, c'est--dire l'arbre le plus court. Les algorithmes de recherche de l'arbre le plus court agglomrent les taxons terminaux les uns aux autres de telle faon qu' chaque insertion d'un taxon supplmentaire, le schma exprime le nombre de pas minimal ncessaire pour rendre compte de la distribution des caractres (le tableau V.2 et la figure V.2 illustrent le mme exemple que la figure IV.20). De la sorte, la longueur minimale finale, dite encore globale , ne dpend pas que des relations locales entre taxons terminaux, mais de toutes les relations possibles entre les taxons terminaux. C'est pourquoi un nombre lev de taxons rend trs vite l'opration vritablement astronomique.

1 A B C D E F G H X 1 1 1 1 1 1 1 1 0

2 0 1 1 1 1 1 1 1 0

3 0 1 1 1 1 1 1 1 0

4 0 0 1 1 1 1 1 1 0

5 0 0 0 1 1 1 1 1 0

6 0 0 0 0 1 1 1 1 0

7 0 0 0 0 1 1 0 0 0

8 0 0 0 0 0 0 1 1 0

9 0 0 0 0 0 0 1 1 0

10 11 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 0

TABLEAU V.2. Matrice de 11 caractres pour 9 taxons (A-H et X pris comme extra-groupe). Chaque caractre est reprsent par deux tats cods 0 et 1

FIGURE V.2. (Pages suivantes) Procdure de l'analyse de parcimonie construite partir du tableau V.2. Le modle de parcimonie est celui dit de Wagner (convergences et rversions admises). Figure 2A: insertion du taxon B sur A en fonction des tats de caractres, sachant que X est l'extra-groupe ; figures 2B-M: insertions des taxons C F. Le cladogramme final (figure 2M) ncessite 12 pas.

Les procdures de parcimonie

74

La recherche de larbre le plus court

75

Les procdures de parcimonie

76

La recherche de larbre le plus court

77

1.2.1 La procdure de parcimonie La figure V.2 illustre la procdure de l'analyse de parcimonie et correspond ce que Kluge et Farris (1969) ont appel la mthode de construction d'arbres dits de Wagner (voir paragraphe suivant). Par rapport la figure IV.20, on a rduit la comparaison extra-groupe au seul taxon terminal X, afin de simplifier la prsentation. La mthode consiste agglomrer dans une premire tape deux taxons terminaux la racine (l'extra-groupe). Ces deux premiers taxons peuvent tre n'importe lesquels parmi ceux tudis. On obtiendrait un mme arbre minimal

Les procdures de parcimonie

78

final en partant de n'importe quel taxon pris comme extra-groupe. Seule la polarisation des caractres changerait. On a ici choisi les deux premiers figurant dans la matrice : A et B (arbre 2A). La deuxime tape est l'insertion d'un troisime taxon terminal, C (arbre 2B). On voit qu'il est plus conomique d'insrer la branche menant C sur la branche menant B (arbre 2B et 2C) que sur la branche menant A (arbre 2D). Une seule topologie parcimonieuse (6 pas) o B et C sont apparents, est donne par deux hypothses diffrentes de transformations des caractres : selon l'arbre 2B le caractre driv 11 (tat 1) est une convergence entre A et C ; selon l'arbre 2C le caractre driv 11 (tat 1) est driv pour (A,B,C) et rverse (tat 0) chez B. L'arbre 2D, o les taxons A et C sont apparents, demande 7 pas. La troisime tape est l'insertion d'un quatrime taxon terminal, D. La solution la plus conomique (7 pas) est celle o D se branche avec C (arbre 2E), l'ensemble (C,D) se branchant avec B. La solution est obtenue partir de l'arbre 2B, celle o le caractre 11 est une convergence entre A et C. L'insertion de D a lev l'ambigut sur le comportement du caractre 11: la rversion est moins conomique (arbre 2F). La proche parent de (B,D) et de C est galement moins conomique (arbre 2G), comme sont moins conomiques les autres solutions : ((A(C,D))B) et ((A,C)(D,B)) (arbres 2H et 2I) qui comptent toutes un ou deux pas de plus que l'arbre 2E. Les 4e, 5e, 6e et 7e tapes, savoir les insertions des taxons terminaux E, F, G et H, confirment les relations de parent entre A, B, C et D, illustres par l'arbre 2E. Comme aucune homoplasie n'affecte les caractres ports par les taxons terminaux E, F, G et H, il n'y a, chaque tape, qu'une topologie parcimonieuse (arbres 2J-M). Cet exemple est simple mais il montre la ncessaire mise en mmoire, pas pas, de toutes les solutions locales possibles, y compris les solutions non parcimonieuses. Si, au cours de l'excution de l'algorithme, le taxon terminal D avait t insr, lors de la troisime tape, partir de l'arbre 2C, le rsultat final aurait t erron en ce sens que l'arbre de longueur minimale n'aurait pas t trouv (l'arbre 2F compte un pas de plus que l'arbre 2E). De la mme faon, admettons que les taxons E H portent des caractres tels que l'arbre de longueur minimale ne puisse tre obtenu qu' partir de l'arbre 2D. Si l'algorithme avait limin les topologies 2D, 2H et 2I pour des raisons locales (l'insertion de C et D), l'arbre de longueur minimale ne pourrait pas tre dcouvert. Pour rpondre au dfi que reprsente la comparaison simultane de tous les arbres possibles, des algorithmes exacts et des algorithmes heuristiques ont t labors. Les algorithmes exacts garantissent la solution optimale (l'arbre le plus court). Cependant, ils ne sont efficaces (c'est--dire quils donnent le rsultat en un temps de calcul raisonnable) qu'avec des donnes restreintes. Les algorithmes heuristiques ne consomment qu'un faible temps de calcul quand les donnes sont importantes (grand nombre de taxons et de caractres) mais ils ne garantissent pas toujours la dcouverte de l'arbre minimal.

La recherche de larbre le plus court

79

1.2.2. Mthode, algorithme et arbre de Wagner Le botaniste W.H. Wagner Jr. conut, paralllement Hennig, une mthode d'analyse des caractres nomme groundplan divergence analysis (Wagner, 1961). Cette mthode, ainsi que les algorithmes qu'elle utilise et les arbres qu'elle produit, sont dits de Wagner dans la prsentation et la formalisation qu'en donnent Kluge et Farris (1969) et Farris (1970). C'est une mthode de construction d'arbre o la distinction entre les tats ancestraux et les tats drivs d'un caractre est fonde sur le critre de comparaison extra-groupe. Wagner (1984) signale que sa mthode fut d'abord informatise par Lellinger en 1965. Ce travail, une thse non publie, passa inaperu, semble-t-il. L'approche de groundplan divergence elle-mme ne fut relativement bien connue qu' partir de la publication du travail de Kluge et Farris (1969) qui y faisait explicitement allusion. L'algorithme de Wagner, tel qu'il a t dcrit par Farris et dont on a dit prcdemment qu'il tait l'origine de tous les logiciels de parcimonie, n'est utilis tel quel dans aucun des logiciels actuellement disponibles (Swofford, 1985). Comme les principes de base de cet algorithme restent cependant toujours valables, ils seront brivement prsents. En revanche, les algorithmes actuellement disponibles, bien que plus performants que l'algorithme de Wagner, ne seront pas dcrits, la plupart n'tant pas communiqus par leurs auteurs. On peut trouver nanmoins en franais dans d'Udekem-Gevers (1990) une prsentation et une analyse de l'algorithme heuristique utilis par le logiciel MIX de Phylip (Phylogeny Inference Package , version 3.1) conu par J. Felsenstein. La mthode de Wagner poursuit conjointement un double objectif : Connecter les UE entre elles, en construisant un arbre de telle faon que le nombre total de transformations de caractres soit minimal. Cet arbre peut tre enracin (Kluge et Farris, 1969) ou non enracin (Farris, 1970). Etablir les tats des caractres aux nuds de l'arbre. Cette infrence est effectue en maximisant les synapomorphies et en minimisant les homoplasies. Les nuds prennent ainsi le statut d'anctre, d' unit taxinomique hypothtique (ou unit volutive hypothtique ) auxquelles sont attribues des informations de mme nature que celles qui dfinissent les UE. L'algorithme prsent ici est celui propos par Farris (1970) pour des arbres non enracins : Soit xAh l'tat du caractre h chez l'UE A. Les tats d'un caractre sont mesurs sur une chelle d'intervalle de telle faon que la diffrence entre deux tats soit un nombre entier qui corresponde au nombre de transformations ncessaires pour passer d'un tat l'autre. Cela peut s'appliquer aussi bien des tats binaires (xAh = 0 ou 1) qu' des tats multiples, additifs ou non (Farris, 1970 ; Fitch, 1971). La diffrence entre deux UE A et B est dfinie par la distance Manhattan (voir Chapitre VII), tablie partir de K caractres : dAB =

h =1

x Ah x Bh

Les procdures de parcimonie

80

Cette diffrence reprsente exactement le nombre de pas ncessaires pour relier l'UE A l'UE B et rciproquement. La procdure d'agglomration est la suivante (figure V.3) : 1) On choisit de connecter les UE entre lesquelles cette diffrence est maximale : A et B par exemple. 2) Une autre UE est ensuite connecte sur la branche AB en un nud Y. Le choix de cette UE se fait sur le critre suivant : il s'agit de l'UE telle que la diffrence entre cette UE (C par exemple) et le nud Y soit maximale. Cette diffrence est estime par : dCY = 1 dAC + dBC dAB 2 3) Les tats des caractres de l'unit volutive hypothtique Y seront dfinis par la rgle suivante. On attribue les tats des caractres aux nuds en leur donnant la valeur mdiane des tats des caractres des 3 UE qui l'entourent : xYh = mdiane (xAh , xBh , xCh ) C'est la rgle qui s'impose puisque c'est elle qui assure le minimum de transformations entre A, B, C et Y. 4) Puisque les tats des caractres sont maintenant connus pour Y, il est possible de poursuivre le processus d'agglomration en choisissant la fois une nouvelle UE et la branche sur laquelle l'insrer, en s'aidant du mme critre que celui dfini en 2).

A D Y C D

A Y' Y''' Y Y'' B 4) D C

B 1)

B 2)

FIGURE V.3. Insertion d'une nouvelle UE (ici C) et d'un intermdiaire (Y) sur une branche AB dj constitue. L'tape suivante consiste insrer une autre UE (D) sur l'une des branches, ici en Y', Y'' ou Y'''.

La recherche de larbre le plus court

81

Par exemple on retiendra l'UE D et le point d'insertion Y''' si la diffrence: 1 dDY''' = dCD + d YD dYC 2 est la diffrence maximale parmi toutes les diffrences envisageables (dDY', dDY'', dDY'''). Notons que cette diffrence se calcule galement en fonction des diffrences entre UE (et non en fonction des diffrences entre nuds et UE) puisque : 1 d + d d AB 2 AD BD 1 dYC = dAC + d BC dAB 2 dYD =

On a donc : dDY''' = 1 1 1 d + d + d BD d +d 2 CD 2 AD 2 AC BC

5) Le processus d'agglomration se poursuit ainsi jusqu' ce que toutes les UE soient agglomres et que les tats des caractres soient infrs aux nuds. Cette mthode heuristique conduit un arbre final qui n'est pas ncessairement l'arbre de longueur minimal, mme s'il tend s'en rapprocher. Il est donc utile de la faire suivre de procdures supplmentaires d'optimisation, par exemple en changeant le point de dpart de l'agglomration ou en effectuant des rarrangements des branches ou branch swapping (paragraphe V.1.2.4). La distribution des tats des caractres aux nuds est galement optimise de faon ce que les tats impliquent, nombre gal d'vnements, un maximum de synapomorphies et un minimum d'homoplasies. L'algorithme tel qu'il a t dcrit ici ne suppose pas l'existence d'un anctre ou l'existence d'une quelconque polarit dans le sens des transformations. Cela peut cependant tre fait : il suffit d'introduire l'anctre, de le considrer comme une UE et de dmarrer l'agglomration partir de lui. L'algorithme initialement dcrit par Kluge et Farris (1969) construit un arbre enracin en connectant les UE rpondant au critre de la plus petite diffrence, et non de la plus grande comme dans le cas d'un arbre non enracin (Farris, 1970). L'tape 3) d'attribution des tats des caractres aux UE hypothtiques fonde l'analogie entre la parcimonie de Wagner et l'approche cladistique. Le calcul des longueurs de branches est li l'estimation des tats des caractres aux nuds (paragraphe V.1.3). Les mthodes d'agglomration dcrites dans le chapitre sur les mthodes phntiques de construction d'arbres (chapitre VII) prsentent quelques analogies avec celles que l'on vient de dcrire mais s'en distinguent notamment par l'absence de cette tape d'estimation des tats ancestraux. En fait c'est cette tape qui constitue toute la diffrence entre procdures de parcimonie et analyses de distances.

Les procdures de parcimonie

82

1.2.3. Algorithmes exacts Les algorithmes exacts garantissent la solution optimale. Ils le font par analyse exhaustive ou par la technique du branch and bound. La recherche exhaustive est l'valuation de tous les arbres possibles. Comme il y a plus de 2x106 arbres pour 9 taxons, une telle recherche n'est gnralement possible qu'au-dessous de la dizaine de taxons. La recherche exhaustive correspond la procdure dcrite dans le paragraphe 4 du premier chapitre (figure I.8). La technique du branch and bound (Hendy et Penny, 1982) est un algorithme exact qui ne ncessite pas une recherche exhaustive. Il donne la solution optimale pour un nombre de taxons dpassant la dizaine (jusqu' vingt trente taxons) selon la qualit de l'implmentation de l'algorithme et la cohrence des donnes : plus l'homoplasie est importante, plus le temps de calcul est lev. Sa description dtaille est donne par Hendy et Penny (1982). La prsentation rsume qui est faite ici (figure V.4) est tire de celle de Swofford et Olsen (1990).

FIGURE V.4. Description simplifie de la technique dite du branch and bound (d'aprs Swofford et Olsen, 1990).

La recherche de larbre le plus court

83

L'originalit de la technique du branch and bound est que la recherche exhaustive est contrle en rfrence un arbre donn, ventuellement pris au hasard, ou calcul par l'algorithme de Wagner ou tout autre algorithme heuristique, arbre dont on calcule le nombre de pas (soit L). Puisqu'un tel arbre existe, l'arbre minimal ne pourra excder la longueur de cet arbre de rfrence. Le point de dpart de la recherche est un arbre qui est le seul arbre possible pour les trois premiers taxons A, B et C. On construit ensuite l'un des trois arbres possibles obtenu en insrant le quatrime taxon (D) : arbre 1 de la figure V.4. Puis, on insre sur cet arbre le cinquime taxon ici le dernier (E) donnant l'arbre 1.1. Ensuite on retourne l'tape prcdente (arbre 1) et on construit un second arbre qui rsulte d'une insertion diffrente du taxon E sur l'arbre 1 (arbre 1.2). Quand tous les arbres possibles ont t construits par l'insertion de E sur l'arbre 1 (arbres 1.1 1.5), on remonte l'arbre de dpart et on insre le taxon D selon l'arbre 2. Puis l'on construit les cinq arbres possibles par insertion de E sur cet arbre 2 (arbres 2.1 2.5). De nouveau on retourne vers l'arbre initial et l'on insre le taxon D selon l'arbre 3 partir duquel on recommence l'opration d'insertion du taxon E (arbres 3.1 3.5). De la sorte ont t construites toutes les topologies possibles (recherche exhaustive). Lorsqu'on se dplace le long des diffrents chemins possibles issus de l'arbre initial et dcrits ci-dessus, si l'on rencontre un arbre plus long que L, alors on ne progressera pas plus dans ce chemin : on le quitte pour en explorer un autre. Si l'on rencontre un arbre aussi long que L, l'arbre est un possible arbre optimal. Si l'on rencontre un arbre plus court, cet arbre est le meilleur obtenu et devient la nouvelle rfrence. Si l'on rencontre rapidement un arbre nettement plus court 12 10 8 6 4 2 0 100 120 140 160 180 200 220 240

FIGURE V.5. Histogramme des longueurs de tous les arbres possibles construits partir de la matrice de la figure III.2 o le macaque et l'atle sont les extragroupes. L'arbre minimal fait 110 pas.

Les procdures de parcimonie

84

que l'arbre de rfrence, cela permet de terminer d'autant plus rapidement l'examen des autres chemins. Quand l'ensemble des chemins a t explor, tous les arbres de longueur minimale s'il en existe plusieurs ont t identifis. La technique du branch and bound est une solution lgante et efficace au problme NP-complet, puisqu'elle garantit la dcouverte de l'arbre de longueur minimale. Swofford et Olsen (1990) justifient nanmoins l'usage de la recherche exhaustive quand c'est possible, dans la mesure o elle seule permet de connatre le nombre d'arbres plus ou moins proches de l'arbre minimal, ou bien la position d'un arbre de topologie donne par rapport l'arbre minimal. La figure V.5 montre un exemple de distribution des longueurs d'arbres audel d'un arbre minimal. Ces arbres ont t construits partir des donnes de la matrice de la figure III.2. Seuls les arbres ayant le macaque et l'atle comme extra-groupes ont t pris en considration. Au-del de l'arbre le plus parcimonieux (110 pas), les deux arbres les plus proches ont 115 et 116 pas. Les arbres suivants prsentent au moins 10 pas de plus que l'arbre le plus parcimonieux. 1.2.4. Algorithmes heuristiques Lorsque la matrice des donnes est trop importante pour l'usage d'algorithmes exacts (nombre lev de taxons et de caractres), des algorithmes heuristiques permettent d'obtenir un rsultat en un temps de calcul raisonnable. Mais la dcouverte de l'arbre optimal n'est pas toujours garantie. Les algorithmes dits d'addition pas--pas (stepwise addition ) sont comparables la procdure illustre par la figure V.2. Le rsultat est sensible l'ordre d'introduction des taxons terminaux. Pour pallier autant que faire se peut cette difficult, il existe plusieurs stratgies heuristiques dites de rarrangement des branches (branch swapping). L'amlioration d'un arbre initial est opre par dplacement des branches. Si un rarrangement donne un arbre plus court, ce dernier devient le sujet d'un nouveau rarrangement. A force de rarrangements, l'arbre minimal peut tre trouv. Les options de balayage des branches sont locales ou globales, cette dernire tant plus coteuse en temps de calcul : Le rarrangement local est expliqu par la figure V.6. Il s'agit d'un change du voisin le plus proche entre 4 taxons X, Y, Z et W. Les taxons X et Y sont permuts selon les trois arbres possibles.

FIGURE V.6. Rarrangement local. La branche inter-nuds (dsigne par la flche) dfinit une configuration locale de trois arbres . Les rarrangements possibles dplacent X vers W, Y vers X ou associent X et Y.

La recherche de larbre le plus court

85

FIGURE V.7. Rarrangement global. L'ensemble (W,X) est dplac et connect toutes les branches de l'arbre .

FIGURE V.8. Rarrangement par bisection et reconnexion. Le groupe (V,W,X) est dplac puis connect de telle faon que chaque branche soit connecte sur les branches de l'autre sous-arbre (Y,Z). Le rarrangement global est expliqu par la figure V.7. Il est tel que chaque sous-arbre possible, ici le groupe (W,X), est retir de l'arbre puis rinsr toutes les autres positions possibles (Swofford, 1985). Le rarrangement par bisection et reconnexion (tree bisection and reconnection de Swofford et Olsen, 1990) est expliqu par la figure V.8. L'arbre est dcoup en sous-arbres. Chaque sous-arbre est connect successivement par chacune de ses branches aux autres branches de l'arbre. L'exprience montre que les algorithmes de rarrangement des branches fonctionnent bien, quoique ne donnant pas toujours tous les arbres de longueur minimale lorsqu'il en existe plusieurs. La difficult est du mme ordre que celle

Les procdures de parcimonie

86

rencontre dans l'addition pas--pas : si l'obtention d'un arbre minimal par suite de rarrangement ncessite le balayage d'un ancien arbre qui tait plus coteux en pas (et limin pour cette raison), l'arbre optimal n'est pas trouv. Pour viter cet cueil, il faut que les rarrangements s'appliquent galement, au cours de la procdure, aux arbres non parcimonieux.

1.3. Longueur de l'arbre, longueur des branches et optimisation des caractres


L'arbre retenu l'issue d'une analyse de parcimonie est l'arbre de longueur minimale L, L tant le nombre total de transformations (pas). Les transformations sont distribues sur les branches internes (branches inter-nuds) et sur les branches terminales. Les transformations distribues sur les branches internes sont les synapomorphies des deux groupes frres issus du nud de rang le plus haut. Sur la figure V.9 les branches ont des longueurs ingales. L'explication cladistique est que les apomorphies ne sont pas distribues de faon gale sur les branches de l'arbre. La longueur de la branche menant du nud 2 au nud 4 correspond au nombre de synapomorphies de (A,B). Les transformations distribues sur les branches terminales sont les autapomorphies du taxon terminal issu du nud immdiatement ancestral. La longueur de la branche menant du nud 2 au taxon terminal C correspond aux autapomorphies de C. Elles sont plus nombreuses que les synapomorphies de (A,B).

FIGURE V.9. Arbre o les longueurs des branches correspondent la quantit de transformations des caractres.

1.3.1. Localisation des homoplasies A l'issue d'une analyse de parcimonie il n'est pas rare d'obtenir plusieurs arbres minimaux ayant des configurations diffrentes. L'homoplasie est responsable d'un tel rsultat. On a vu aussi dans un exemple prcdent (figure V.2B-2C) qu'une mme configuration parcimonieuse peut tre obtenue avec des hypothses diffrentes de transformations des caractres. Dans ce cas galement l'homoplasie est responsable de cette situation.

La recherche de larbre le plus court

87

CARACTERES : 1 TAXONS 1 A 1 B 1 C 1 D 1 E 0 ANC

10 11 12 13 14 15 16 17 18 19 20

1 1 1 0 0 0

1 1 1 0 0 0

0 0 0 1 1 0

0 0 0 1 1 0

0 0 0 1 1 0

0 0 0 1 0 0

0 0 0 0 1 0

0 0 0 0 1 0

1 1 0 0 0 0

1 1 0 0 0 0

1 1 0 0 0 0

1 1 0 0 0 0

1 0 1 0 0 0

1 0 1 0 0 0

1 0 1 0 0 0

1 0 0 0 0 0

0 1 0 0 0 0

0 0 1 0 0 0

0 0 1 0 0 0

TABLEAU V.3. Distribution de 20 caractres chez 5 taxons terminaux (A-E) et un anctre (anc). Dans l'exemple du tableau V.3 et de la figure V.10, le mme arbre de longueur minimale (23 pas) dont la topologie est (((A,B)C)(D,E)), correspond deux des histoires possibles des trois caractres homoplasiques (14, 15 et 16). Ces deux arbres 10A et 10B ne se distinguent que par les longueurs des branches affectes par les transformations de ces caractres, c'est--dire les branches reliant les taxons A, B et C et les branches terminales des taxons A et C.

FIGURE V.10. Les deux arbres parcimonieux (23 pas) de mme configuration issus du tableau V.3. Les deux arbres ne diffrent que par la distribution des caractres 14, 15 et 16 : convergents chez A et chez C (arbre 10A) ou apomorphes pour (A,B,C) puis rverses chez B (arbre 10B). Dans ces deux arbres, les longueurs des branches affectant le groupe ((A,B)C) sont donc diffrentes.

Les procdures de parcimonie

88

Dans une situation telle que celle illustre par la figure V.10, il est ncessaire d'optimiser la distribution des homoplasies sur les branches si l'on ne s'intresse pas qu'aux relations de parent, mais aussi et surtout l'histoire des vnements volutifs. Ces vnements sont les transformations de caractres qui correspondent aux apomorphies distribues sur l'arbre. Leur nombre reprsente la quantit d'volution affectant les diffrents segments de l'arbre. Chacun des caractres 14, 15 et 16 se transforme deux fois. Pour chacun d'eux, il peut se produire deux apparitions indpendantes (deux fois 0 1) (figure V.10A), ou bien une apparition suivie d'une rversion (0 1 0 ; figure V.10B). Ces deux cas de figure sont aussi parcimonieux l'un que l'autre. Dans toutes les situations o un mme arbre, ou une portion d'arbre, est compatible avec des volutions de caractres diffrentes, on peut choisir systmatiquement trois options : 1) privilgier les convergences (figure V.10A) : les traits 14, 15 et 16 sont sur la branche A et sur la branche C. C'est l'option dite delayed transformation ( deltran ) (Swofford, 1985). 2) privilgier les rversions (figure V.10B) : les traits 14, 15 et 16 se transforment sur la branche menant (A(B,C)) (0 1) puis, par rversion sur la branche B (1 0). C'est l'option dite de Farris ou accelerated transformation ( acctran ) (Swofford, 1985). On peut justifier l'optimisation dite de Farris ou acctran en soulignant qu'elle renforce le nombre des caractres dus la descendance puisqu'elle ajoute des caractres l'anctre hypothtique de A, B et C. 3) dplacer les transformations vers les branches terminales, autrement dit maximiser les autapomorphies. C'est l'option minimisant l'indice f de Farris (Farris, 1972) dite minf (Swofford, 1985). Ici l'optimisation minf donne le mme rsultat que l'optimisation deltran (figure V.10A) : les caractres 14, 15 et 16 sont rejets vers les branches terminales (autapomorphies respectives de A et de C), plutt que de figurer la base du groupe (A,B,C) comme dans la figure V.10B). Ce dernier choix est fond sur l'ide de ne pas alourdir plus qu'il n'est ncessaire des branches internes, c'est--dire les attributs des anctres reconstruits : c'est l'option inverse de l'option dite de Farris ou acctran . On voit que ces optimisations, sans effet sur la topologie et la longueur globale de l'arbre influent fortement sur les calculs des quantits d'volution de certaine portions. Sur la figure V.10A, le taxon A a plus volu (4 pas) que son groupe frre B (1 pas). C'est l'inverse sur la figure V.10B. Le taxon C a plus volu sur la figure V.10A (5 pas) que sur la figure V.10B (2 pas). A partir de la racine, le groupe ((A,B)C) diverge peu sur la figure V.10A (2 pas), beaucoup plus sur la figure V.10B (5 pas). Les taxons les plus loigns sont spars par 15 pas sur la figure V.10A (taxons A et E) et par 18 pas sur la figure V.10B (taxons B et E). Plus qualitativement (contextes biogographique et cologique, scnarios adaptatifs), l'histoire volutive du taxon C n'est pas la mme s'il a hrit les caractres 14, 15 et 16 de l'anctre qu'il partage avec A et B, ou s'il a acquis ces mmes caractres, indpendamment de A.

Les caractres : codage, optimisation, pondration

89

On a considr ici que les caractres 14, 15 et 16 partageaient la mme histoire. Mais, pour des raisons ad hoc, l'histoire de chacun de ces caractres peut tre dissocie des autres et donner autant de combinaisons (ici 8) affectant les longueurs des branches impliques dans l'origine et la diffrenciation de A, B et C. Autrement dit, dans les cas tels que ceux illustrs par la figure V.10, les estimations prcises des quantits d'volution fondes sur la transformation des caractres observs obissent des modles volutifs extrieurs l'analyse de parcimonie.

2. Les caractres : codage, optimisation, pondration


2.1. Caractres binaires et tats multiples
Les caractres, au sens que l'on a donn ce terme dans le chapitre III, sont cods de telle faon qu'ils puissent donner lieu des analyses comparatives. La spcification des tats plsiomorphe et apomorphe passe par un codage en deux tats : 0 1, ou a b, etc., dit codage binaire. L'un des deux tats est ncessairement plsiomorphe, l'autre apomorphe. Des tats multiples peuvent aussi tre cods, tel : 0 1 2, a b c, etc. Quand un caractre est exprim en tats multiples, il renferme dj une hypothse phylogntique qui est celle des relations existant entre ces tats. 2.1.1. Caractres binaires Les caractres binaires cods sous la forme 0 1 ou a b etc., n'indiquent pas a priori une orientation particulire du morphocline. Dans ce cas, les transformations a b ou b a sont toutes deux galement possibles et elles comptent chacune pour un pas. En revanche, si les tats a et b sont lis de telle faon que la transformation s'effectue, par exemple, de a vers b , le binme a b est dit orient ou dirig . 2.1.2. Caractres tats multiples Les relations entre les tats multiples d'un caractre peuvent tre de plusieurs types. Elles peuvent tre non ordonnes ou, au contraire, tre ordonnes. Dans ce dernier cas on parle de srie de transformations du caractre. Cette srie peut tre linaire (au sens de sans bifurcation) ou non linaire (avec bifurcation). Les caractres dont les tats sont ordonns seront galement appels additifs. relations non ordonnes Chaque tat peut se transformer directement en tout autre tat, chaque transformation ne comptant que pour un pas. On parle galement d'une srie non additive. Ces relations sont ncessairement non linaires.

Les procdures de parcimonie

90 c ou

a b d

La transformation a b compte pour un pas, aussi bien que les transformations b a, a c ou c b, etc. Ce cas de figure correspond la procdure de pondration minimale de Fitch (1971). Il s'applique aux analyses de squences de protines ou de nuclotides. Ici les quatre tats peuvent tre les 4 bases A, C, G, T (ou A, C, G , U), o chacune des bases peut tre remplace de manire quivalente par toute autre. Relations ordonnes ou additives Elles correspondent des sries de transformations linaires ou non linaires, orientes ou non orientes : srie linaire non oriente : abcd Un caractre tats multiples est dit linaire (donc galement additif) quand on peut passer successivement d'un tat un autre. Chaque transformation valant un pas, cela implique ncessairement que le passage d'un tat extrme (ici a) l'autre (ici d) demande autant de pas qu'il y a d'tats moins un : le passage de l'tat a l'tat d (ou l'inverse) demande ici 3 pas. srie linaire oriente (ou dirige) : a b c d

La srie linaire additive oriente correspond au morphocline au sens de Maslin (1952) et la srie de transformations de Hennig (1966) : b est apomorphe par rapport a et plsiomorphe par rapport c. Il convient de ne pas faire de confusion entre caractres ordonns (concernant l'ordre des transformations) et caractres orients (concernant le sens des transformations). srie non linaire non oriente: La srie non linaire prsente les relations entre tats multiples sous forme d'un arbre. Toutes les transformations ne comptent pas toutes pour un mme nombre de pas. Par exemple la srie :

Les caractres : codage, optimisation, pondration

91 d

c comprend au total 3 transformations, mais elle implique diffrentes transformations qui comptent 2 pas (transformations de a vers c et c vers a, de a vers d et d vers a, de c vers d et d vers c) tandis que d'autres comptent un seul pas (transformations de b vers a, c ou d et transformations de a, c et d vers b). srie non linaire oriente : a b d

c Une telle srie peut ventuellement tre reprsente sous la forme d'un cladogramme de caractre : a b c d

b a Si la srie est dirige sous la forme suivante :

d le cladogramme du caractre est : c b d a

b c Toutes ces reprsentations des transformations, ou codages, ne sont pas neutres , puisque l'on code une hypothse phylogntique qui est immdiatement apparente grce la forme arborescente du graphe de transformations des tats du caractre.

Les procdures de parcimonie

92

2.1.3. Codage binaire des sries de transformations (factorisation) Les logiciels d'analyse de parcimonie lisent les caractres binaires, les sries non additives et les sries linaires additives. Certains d'entre eux ncessitent toutefois un recodage sous forme binaire, la main ou l'aide d'autres logiciels. En revanche, les sries additives non linaires ncessitent toujours un recodage, en tout ou partie binaire. Un tel recodage a pour rsultat de faire clater le caractre tats multiples additifs (linaires ou non linaires) en plusieurs caractres tats binaires ou tats multiples linaires. Le problme rsoudre est celui d'un nouveau codage qui respecte la hirarchie suppose des tats multiples. On appelle factorisation le codage sous forme binaire de caractres tats multiples. Exemple 1: La srie linaire additive a 000 b se code 100 110 111 c d

Trois caractres binaires (cods 01) suffisent rendre compte de cette srie linaire de transformation. Le passage 000 111 (ou 111 000) compte 3 pas (un par nouveau caractre), comme le faisait le passage de a vers d (ou de d vers a). Une telle reprsentation des transformations, ou codage, n'est pas neutre , puisque l'on code une hypothse phylogntique qui est immdiatement apparente grce la forme arborescente du graphe de transformation des tats du caractre. Exemple 2. La srie non linaire additive a b d se code 000 100 101

110

Ici le passage 000 vers 101 (anciens tats a et d) compte 2 pas. Si 4 taxons W, X, Y et Z prsentent chacun respectivement l'un des quatre tats a, b, c et d, cods de la faon prcdente, ces tats sont introduits dans la matrice des caractres sous la forme de 3 caractres indpendants 1, 2 et 3. Chaque cladogramme obtenu contient 3 pas. Dans le cas o l'anctre a les caractres du taxon X (100), l'arbre n'est pas rsolu. Dans les trois autres cas, les cladogrammes partiellement rsolus restituent les branchements de la srie non linaire additive.

Les caractres : codage, optimisation, pondration


W
000

93
X
100

caractres : 123 W 000 X 100 Y 101 Z 110


W
000

Y
101

110

100 X Z W

X
100

Y
101 100 000

Z
110

101

100

110 100

000

110

100

Y 101
100

W 000

101

110

Exemple 3 : caractre morphologique tats multiples La figure V.11A-E montre un caractre morphologique tats multiples : la rgion naso-prmaxillaire des primates hominodes. Chaque taxon (A-E) prsente une morphologie diffrente. Cette morphologie peut tre conue comme une srie d'tats multiples (a-e) qui rsume les rapports entre maxillaire et prmaxillaire

FIGURE V.11. Sections sagittales de la rgion naso-prmaxillaire chez les hominodes. A: Hylobates ; B : Gorilla ; C : Pan ; D : Pongo ; E : Homo. 1 : fosse incisive ; 2 : processus palatin du prmaxillaire ; 3 : foramen incisif ; 4 : canal incisif ; 5 : processus palatin du maxillaire (d'aprs Ward et Kimbel, 1983, modifi par Barriel, 1992).

Les procdures de parcimonie

94

(traits anatomiques 2 et 5 de la figure V.11) ainsi que la taille et l'orientation du canal incisif (trait anatomique 4) avec la forme de la fosse et du foramen incisifs (traits 1 et 3). Chaque tat (a, b, c, d, e) correspond une combinaison des diffrents traits anatomiques. Chacun d'eux est spcifique d'un taxon (A-E). La srie et ses deux codages possibles se prsentent sous la forme suivante : a b c e ou 0000 1000 d est cod 000 100 200 210

201 1100 1110

1101 une morphologie (a) associant maxillaire et prmaxillaire loigns au point qu'il n'y a pas de vrai canal incisif (A) est code 000 (ou 0000) ; une morphologie (b) associant maxillaire et prmaxillaire rapprochs avec canal incisif court et large et non vertical (B) est code 100 (ou 1000) ; une morphologie (c) associant maxillaire et prmaxillaire rapprochs avec canal incisif allong et non vertical (C) est code 200 (ou 1100) ; une morphologie (d) associant maxillaire et prmaxillaire rapprochs avec canal incisif non vertical mais trs troit en raison de l'extension vers l'arrire du prmaxillaire (D) est code 210 (ou 1110) ; une morphologie (e) associant maxillaire et prmaxillaire rapprochs avec canal incisif allong et orient verticalement (E) est code 201 (ou 1101). L'hypothse d'additivit du caractre est fonde sur le fait que l'existence du canal commande sa morphologie, qu'il soit allong ou vertical. 2.1.4. Sries de transformations combinant additivit et non additivit Certaines sries de transformations multiples ne peuvent tre codes, mme au moyen des factorisations dcrites au paragraphe prcdent. C'est le cas de l'exemple suivant, o l'on admet deux possibilits pour le passage de b d : soit un seul pas, par une transformation directe de b en d, soit deux pas, par une transformation de b en c puis de c en d (figure V.12) : c a b d FIGURE V.12. Exemple de transformations d'un caractre qui ne peuvent tre factorises.

Les caractres : codage, optimisation, pondration

95

Une faon particulire d'aborder cette difficult consiste dcomposer cette srie en deux sries S1 et S2, qui ont l'avantage de ne pas poser de problme particulier de factorisation (Figure V-13).

S1
a b

c a d

b d a 000 b 100 c 110 d 111

a 000 b 100 c 110 d 101

FIGURE V.13. Exemple d'incertitude entre deux sries de transformations qui s'exprime en codant l'tat d : 1?1. On voit qu'il n'existe qu'une seule diffrence de codage entre ces deux sries S1 et S2, situe sur l'tat d qui est cod soit 101 soit 111. Une faon de traiter cette ambigut est de remplacer ce codage par un nouveau codage 1?1. Le deuxime caractre du triplet sera alors optimis a posteriori selon la topologie de l'arbre final obtenu par parcimonie partir de l'ensemble des donnes. Si le critre de parcimonie impose, dans cet arbre, que ce ? = 0, la srie de transformations sera la srie S1. Elle sera en revanche la srie S2 si le critre de parcimonie impose ? = 1. Admettons l'existence de quatre UE (W, X, Y et Z), codes respectivement 000, 100, 110 et 1?1. Quinze cladogrammes sont possibles. L'optimisation des tats de l'UE Z donnera d = 111 lorsque Y et Z sont en position de groupes frres (trois arbres), produisant la srie de transformation S1. Elle donnera d = 101 dans tous les autres cas, produisant alors la srie de transformation S2. La morphologie fournit des exemples frquents de ces sries alternatives de transformations. C'est le cas quand un caractre peut tre perdu partir de diffrents tats de ce caractre. Imaginons qu'un caractre soit observ sous trois tats a, b et c, comme sur la figure V.13. La perte du caractre peut tre la perte de b (comme dans la srie S1) ou la perte de c (comme dans la srie S2). L'optimisation a posteriori des tats de caractres propose ici n'est pas sans affinit avec un mode de codage des caractres tats multiples appel T.S.A. (Mickevich, 1982). Celui-ci fait l'objet du paragraphe suivant. 2.1.5 Analyse des caractres tats multiples selon la mthode du T.S.A Pour Mickevich (1982), l'analyse cladistique des caractres tats multiples reste un rel problme non encore parfaitement rsolu. Pour ce faire, Mickevich propose un mode d'analyse dit T.S.A. (Transformation Series Analysis) qui a

Les procdures de parcimonie

96

donn lieu rcemment quelques applications partir de donnes morphologiques sur des groupes divers tels les eucaryotes (Lipscomb,1989) ou les lpidoptres tortricids (Pogue & Mickevich, 1990). Il s'agit d'une mthode itrative qui a pour but d'tablir les transformations entre les tats multiples des caractres sous forme d'une srie linaire additive, au moyen du cladogramme construit l'aide de l'ensemble des caractres de la matrice. Dans une matrice quelconque, certains caractres sont prsents sous deux tats et cods de faon binaire, tandis que d'autres peuvent se prsenter sous forme d'tats multiples. On a vu dans le paragraphe 2.1 que les tats multiples d'un caractre s'organisent de manire linaire ou non linaire, de faon additive, ou non additive (optimisation dite de Fitch). Le T.S.A. concerne les sries linaires additives. L'originalit du T.S.A. est que la srie de transformations de chacun des caractres tats multiples de la matrice n'est tablie qu'en fonction de son adquation au cladogramme obtenu par l'analyse de tous les caractres. Le principe du T.S.A. est de se fonder sur le cladogramme pour dduire l'arrangement parcimonieux des tats multiples des caractres sous forme d'une srie linaire o les transformations ont lieu sur les nuds internes du cladogramme (c'est--dire chez les anctres) ; cette recherche s'effectue de telle sorte que l'arrangement soit celui qui correspond la hirarchie du cladogramme (ce que l'on appellera le cladogramme des tats ). Cet arrangement est orient in fine l'aide du critre de comparaison extra-groupe. La mthode La mthode est prsente de faon dtaille dans diffrents articles dus Mickevich et collaborateurs (Mickevich, 1982 ; Lipscomb, 1990 ; Mickevich et Lipscomb, 1991). Nous l'illustrons ici brivement partir d'un exemple simple. On observe chez 7 taxons (A, B, C, D, E, F, X ; X tant l'extra-groupe) N caractres tats multiples dont le caractre K qui se prsente sous la forme de quatre tats : w, x, y, z. Taxons X A B C D E F Etat du caractre K w w x z y y z

Le T.S.A. est conduit en suivant les tapes dcrites ci-aprs : 1) Une forme linaire additive quelconque, choisie arbitrairement ou en fonction d'une hypothse juge convenable pour toute raison possible, est

Les caractres : codage, optimisation, pondration

97

attribue chacun des caractres tats multiples figurant dans la matrice de donnes. 2) Une analyse de parcimonie est ensuite effectue partir de l'ensemble des caractres dont les formes ont t dfinies en 1). Il convient de s'assurer que les diverses formes possibles de cette srie initiale donnent le mme cladogramme, sinon le TSA peut donner des rsultats discordants (Pogue et Mickevich, 1990 ; Buckup et Dyer, 1991). Prenons l'exemple d'un caractre K ayant 4 tats et dont la srie de transformations est ainsi choisie, au dpart de l'analyse : w x y z. Supposons que le cladogramme obtenu par analyse de parcimonie de tous les caractres soit le suivant :

n5 n4 n3 n2 n1
Le cladogramme comporte cinq nuds internes (n1 n5). 3) A partir du cladogramme obtenu en 2) on dduit la srie de transformations de chacun des N caractres tats multiples de la faon suivante. On tablit pour ces caractres la matrice des taxons-voisins et la matrice des tats-voisins partir de laquelle est dduite la srie de transformations de chacun des caractres tats multiples. L'exemple donn sera celui du caractre K. a) Matrice des taxons-voisins La matrice des taxons-voisins est tablie en comptant le nombre de nuds sparant les taxons pris deux deux. Par exemple le nombre de nuds sparant les taxons A et D est de 4 (n1, n2, n3, n4). Les taxons-voisins sont dits adjacents quand ils sont spars par un nombre minimal de nuds internes. Dans la matrice, le nombre minimal de nuds entre taxons-voisins est exprim en gras. La lecture de la matrice des taxons-voisins permet l'identification des taxons-voisins. X X A B C D E F A B C D E

1 2 2 3 3 2 4 4 3 2 5 5 4 3 2 5 5 4 3 2 Matrice des taxons-voisins

Les procdures de parcimonie

98 Etat w w x z y y z Etats-voisins w w w,w,z x,y z,y,z z y

Taxon X A B C D E F

Taxons-voisins A X A, X et C B et D C, E et F F E

Tableau des taxons-voisins et des tats-voisins b) Les tats-voisins Les tats voisins sont les tats adjacents, c'est--dire spars par un nombre minimal de nuds internes lorsque l'on substitue les tats des caractres aux taxons qui les portent dans le tableau des taxons voisins. La diffrence entre le tableau des tats-voisins et le tableau des taxons-voisins est qu'un mme tat peut tre port par diffrents taxons. On peut donc simplifier ce tableau des tats voisins et le reprsenter sous forme d'une matrice des tats-voisins qui indique le nombre de fois ou deux tats sont voisins. Etat w x z y Etat voisin w w et z x et y z w x y z 1 0 0 0 1 2 matrice des tats-voisins.

w x y z Tableau simplifi des tats-voisins et

La rgle suivante doit cependant tre applique : lorsqu'un tat est voisin de lui-mme, il est dit homologue. Ainsi l'tat voisin de w est w puisque le taxonvoisin de X est A. L'tat w de X et l'tat w de A sont homologues. De ce fait w et x n'apparaissent qu'une fois tats-voisins. De mme, x et z sont une fois tatsvoisins, y et z sont deux fois tats-voisins. Les taxons-voisins de D sont C, E et F : les tats-voisins de y sont z, y et z, l'tat y de E tant homologue l'tat y de D puisque D et E sont voisins. En revanche, l'tat z port par F et l'tat z port par C ne sont pas homologues car F et C ne sont pas des taxons-voisins. On peut galement identifier les tats-voisins directement partir du cladogramme. On construit un rseau o les tats remplacent les taxons de telle faon que les tats adjacents soient relis entre eux : w y x w z y z

Les caractres : codage, optimisation, pondration

99

c) La srie linaire additive A partir de la matrice des tats voisins, il devient possible d'tablir une srie linaire : la matrice des tats-voisins montre que x est une fois l'tat-voisin de w et une fois l'tat-voisin de z : tandis que y et z sont deux fois tats-voisins. Ce rsultat suggre la connexion linaire additive : w x z y. Cette srie est diffrente de la srie initiale. Elle implique que le passage de l'tat w l'tat z compte 2 pas, x tant intermdiaire. Dans la srie initiale, le passage de l'tat w l'tat z comptait 3 pas et x et y taient deux intermdiaires entre w et z. Lue sur le cladogramme, cette srie de transformations donne le cladogramme des tats : w x z y z. Cette opration revient comprimer le rseau des tats-voisins obtenus en 3b), de telle faon que les tats-homologues n'apparaissent qu'une fois, ce qui correspond la srie linaire additive : w x z y z. X w A w B x C z D y E y y y z x w 4) On modifie la matrice initiale en donnant aux caractres tats multiples tel que K leur nouvelle forme. On analyse ensuite, par parcimonie, l'ensemble de ces donnes afin d'obtenir un nouveau cladogramme qui peut tre identique ou diffrent du prcdent. Admettons qu'il soit diffrent du cladogramme obtenu en 2). X A B F C D E F z

5) On recommence l'tape 3 partir de ce nouveau cladogramme afin d'obtenir la srie de transformations linaire de chacun des caractres tats

Les procdures de parcimonie

100

multiples correspondant ce cladogramme. Pour le caractre K cette srie est la mme que prcdemment : w x z y. L'optimisation aux nuds partir de cette srie obit la rgle selon laquelle les transformations doivent suivre la hirarchie du cladogramme. La hirarchie du cladogramme est commande par la squence des nuds ; autrement dit, l'optimisation des tats aux nuds doit correspondre la srie obtenue par T.S.A. Le nombre de pas minimal est ici de 3 :

X w

A w

B x

F z

C z

D y y z

E y

z x w
Lue sur le cladogramme, cette srie de transformations donne le cladogramme des tats . Ce cladogramme des tats est : w x z y ; il est en accord avec la srie obtenue par T.S.A. (un cas de dsaccord est dtaill plus loin). L'orientation de la srie de transformations obtenue par T.S.A. est donne par l'extra-groupe (ple plsiomorphe). Dans notre exemple, la srie oriente serait alors w x z y. A ce stade, pour d'autres caractres tats multiples, les sries peuvent tre nouveau diffrentes. Dans ce cas, on recommence l'tape 3 avec introduction pour ces caractres de leur nouvelle srie de transformations. Le processus itratif se poursuit jusqu' ce que les sries de transformations lues sur le cladogramme soient identiques aux sries introduites lors de l'tape prcdente : le T.S.A. est alors achev pour tous les caractres tats multiples. Les sries de transformations retenues pour tous les caractres tats multiples sont celles qui correspondent ce cladogramme final. Les cas d'homoplasie peuvent tre rsolus par le T.S.A. L'homoplasie implique que, sur le cladogramme, plusieurs sries de transformations soient possibles (elles comptent pour un mme nombre de pas). On a vu que le T.S.A. permet de construire une srie de transformations linaire en accord avec la hirarchie du cladogramme (la squence des nuds), c'est--dire avec le cladogramme des tats . Reprenons l'exemple prcdent. Admettons cette fois que le cladogramme obtenu en fin de TSA soit identique celui obtenue l'tape 2, mais que la srie de transformations de K soit celle issue de l'tape 4 (w x z y ). Lue sur le cladogramme, cette srie implique une homoplasie : le cladogramme des tats est en effet : w x z y z. L'tat z port par F et l'tat z port par C ne sont pas homologues. La matrice des taxons-voisins construite l'tape 3 indique en effet que les taxons-voisins de C sont B et D, mais non F.

Les caractres : codage, optimisation, pondration

101

X w

A w

B x

C z

D y

E y y y

F z

z x w
Or il existe une autre possibilit d'optimiser les tats aux nuds partir de la srie w x z y, illustre par le cladogramme ci-dessous (sans mentionner les autres optimisations possibles mais diffrentes de la srie obtenue par T.S.A.).

X w

A w

B x

C z

D y

E y z z

F z

z x w
Cette solution aussi parcimonieuse implique une transformation du caractre K qui, lue sur le cladogramme, ne correspond pas la hirarchie ( la squence des nuds) ; le cladogramme des tats est le suivant : wxzy y Dans ce cas, ce serait l'tat z port par F et par C qui serait homologue ; au contraire, y apparat deux fois, sur les taxons terminaux D et E. Or cette hypothse est rejete par le T.S.A. puisque F et C ne sont pas des taxons-voisins : l'homoplasie se porte sur z, non sur y. Cette limination revient privilgier la transformation compatible avec la hirarchie du cladogramme : le deuxime cladogramme des tats ne reflte pas la hirarchie du cladogramme des taxons. Rejeter les deux transformations z y chez D et chez E, c'est rejeter les transformations non situes aux nuds du cladogramme. On a choisi ici un exemple simple. Mais des situations plus complexes peuvent tre envisages o diffrentes sries sont possibles. De tels cas, et les cas o les transformations ne peuvent tre rsolues sous forme linaire, sont discuts en dtail par Mickevich et Weller (1990). L'exemple ci-dessous donne un autre cladogramme final qui conduit envisager, pour le caractre K, une srie non linaire (3 pas) plutt qu'une srie linaire moins parcimonieuse (4 pas).

Les procdures de parcimonie

102

X w

A w

B x

D y

C z z y

F z

E y

w yx

y
z Cette mthode, dont l'usage est encore marginal et les prsupposs sujets controverses, n'est implmente sur aucun des logiciels actuellement disponibles, mme si Mickevich et Lipscomb (1991) ont publi une marche suivre dans le cadre du logiciel Hennig86 d Farris (1988). Or, si le nombre de caractres tats multiples est important, l'opration peut tre laborieuse. Pour ce qui est des caractres morphologiques, il reste que cette mthode qui considre les sries linaires additives de transformations de caractres en accord avec la structure du cladogramme, est potentiellement comptitive aussi bien vis--vis des options de non-additivit des tats (parcimonie de Fitch) que des sries construites a priori, parfois intuitivement. En morphologie, l'option Fitch, pour sa part, peut masquer des tapes de transformations et, par consquent, de possibles homologies. Nanmoins, son application peut soulever de nombreuses difficults. Le fait que le choix de la srie initiale des tats multiples utilise pour commencer l'analyse puisse influer sur le cladogramme de dpart, et donc sur le rsultat du T.S.A., est un obstacle non ngligeable d'un point de vue pratique. Enfin, d'un point de vue plus gnral, rechercher seulement une srie de transformations linaire compatible avec le cladogramme plutt qu'une srie aussi parcimonieuse mais non linaire, est un choix, qui, en tant que tel, peut se discuter.

2.2. Polymorphisme
Le polymorphisme est un cas particulier car il implique que les tats plsiomorphe et apomorphe (0 et 1) soient prsents dans un mme taxon. Les caractres morphologiques polymorphes peuvent tre cods de faon discrte sous la forme de sries linaires. Dans ce cas, on admet que le passage d'un tat 0 un tat 1 (ou l'inverse) se fait ncessairement par l'intermdiaire d'une combinaison 01 caractrisant l'tat polymorphe. Autrement dit, le caractre est polymorphe chez un taxon dont certains membres ont le morphe 0 et d'autres le morphe 1. Le codage de la srie revient un codage d'un caractre tats multiples : 0 1 2 (o 1 est l'tat polymorphe = intermdiaire). La frquence des morphes 0 ou 1 l'intrieur du taxon n'intervient pas. La question du codage du polymorphisme se pose avec acuit dans le traitement des frquences allliques (lectromorphes). La plupart du temps, les donnes lectrophortiques se prsentent sous forme de frquences et sont analyses par des mthodes de distances (voir chapitre VI). Mais le codage des allles sous forme de caractres discrets est le seul qui soit traitable de faon

Les caractres : codage, optimisation, pondration A Taxons Frquences des allles a b c d e Allles indpendants b c d e f

103

U V W X Y Z

0 0 0 0 0 0,5 0,1 0 0,2 0 0,3 0

1 1 0 0 0 0

0 0 0,5 0 0 0

0 0 0 0 0 0,7

0 0 0 0,9 0,8 0

0 0 0 1 1 1

0 0 1 0 0 0

1 1 0 0 0 0

0 0 1 0 0 0

0 0 0 0 0 1

0 0 0 1 1 0

FIGURE V.14. A : Frquences des allles pour les taxons U Z, avec, droite, le codage sous le modle des allles indpendants. B : Cladogramme issu de A, partir du modle des allles indpendants. On remarque que l'anctre (2) du groupe (W((X,Y)Z)) est dpourvu d'allles. cladistique. Une telle approche revient ne tenir compte que de la prsence ou de l'absence des allles. C'est le modle des allles indpendants (Mickevich et Johnson, 1976; Mickevich et Mitter, 1981). Ce modle a donn lieu des applications satisfaisantes (Patton et Avise 1983), mais il peut aboutir des situations biologiquement aberrantes. Il suffit de considrer le cas de la figure V.14. A la suite d'une rversion, l'anctre reprsent par le nud 2 est dpourvu d'allles. Sous ce modle de prsence/absence, les taxons X et Y, qui ne diffrent que par les frquences des allles partags a et f, sont identiques et identiques leur anctre commun (nud 4). Selon Mickevich et Mitter (1981, 1983) l'application aux donnes lectrophortiques du T.S.A. (voir paragraphe prcdent) permet d'viter ce genre de problmes. Quant la perte d'information qu'implique l'abandon des frquences, elle est considre comme ngligeable par ces auteurs dans la mesure o les frquences allliques sont trs facilement modifies, par exemple par drive, et n'apportent pas ncessairement des informations phylogntiques pertinentes. En outre, dans le cas d'chantillons de tailles trs diffrentes, les estimations des frquences n'ont pas ncessairement la mme prcision. Cet argument joue nanmoins aussi pour le codage en prsence/absence. Le fait qu'un allle n'a pas t observ (par exemple cod 0 par

Les procdures de parcimonie

104

opposition 1) n'est peut-tre d qu' sa frquence basse dans la population au point qu'un petit chantillon de celle-ci n'a pas permis de l'y dtecter. Le traitement automatique du polymorphisme par les logiciels de parcimonie sont des expdients qui ne rsolvent pas vritablement le problme. Dans certains cas (logiciel MIX (option P) de Phylip, l'algorithme ajoute au nombre de transformations contenues dans l'arbre minimal autant de pas qu'il y a d'tats dclars polymorphes. Cet ajout est automatique et indpendant du critre de parcimonie. Dans d'autres (DOLLOP de Phylip le traitement dpend du modle de parcimonie de Dollo (seules les rversions sont admises). Dans ce cas, des anctres peuvent apparatre comme polymorphes, avec perte ultrieure d'un morphe chez les descendants ; mais les taxons terminaux ne peuvent pas tre polymorphes.

2.3. Pondration des caractres et des transformations


Toute matrice de donnes contient des caractres qui, l'issue de l'analyse phylogntique, vont se rvler tre des synapomorphies ou des homoplasies. Le but de la pondration est de privilgier, lors de la reconstruction de l'arbre, les informations phylogntiques pertinentes au dtriment du bruit occasionn par les homoplasies. Dans certains cas, cette pondration s'appuie sur les observations elles-mmes et implique les caractres. Le plus souvent elle ncessite l'introduction d'hypothses ou d'informations extrinsques aux donnes. On abordera dans ce paragraphe les questions de pondration en amont de l'analyse. La pondration successive qui s'apparente, d'une certaine manire, aux comparaisons d'arbres, et qui est une pondration en aval de l'analyse, est discute au paragraphe 4.3. La procdure de pondration peut se concevoir deux niveaux diffrents selon que l'on vise les caractres ou bien leurs transformations. 1) Pondrer un caractre c'est, lui donner a priori une plus ou moins grande importance lors de la recherche de l'arbre le plus parcimonieux. C'est, ventuellement, l'liminer en lui donnant un poids nul. Si on attribue, par exemple, un poids de 2 un caractre, cela revient le rpter deux fois dans la matrice de donnes. Le rsultat phylogntique prvisible d'une telle pondration est d'augmenter les chances pour que les taxons partageant ce caractre artificiellement dupliqu se trouvent troitement apparents. En choisissant de la sorte d'attribuer plus ou moins de poids tel ou tel caractre, on peut obtenir pratiquement le rsultat phylogntique que l'on souhaite. Les critres du choix des pondrations sont donc particulirement importants dfinir pralablement toute analyse phylogntique. Rappelons que la reconstruction phylogntique est fonde sur l'hypothse que les caractres voluent indpendamment les uns des autres. Lorsque ce n'est pas le cas, lorsque deux caractres voluent donc de manire concerte pour des raisons non lies la parent (comme le font par exemple les mutations compenses au niveau de l'ARN ribosomique), alors la recherche de l'arbre le plus court s'effectue avec une pondration implicite de ces caractres.

Les caractres : codage, optimisation, pondration

105

2) Pondrer une transformation c'est estimer a priori que, pour un caractre donn, la transformation d'un tat en un autre est plus ou moins difficile ou rare selon les tats concerns. L'option d'additivit ou de nonadditivit des tats multiples vue au paragraphe 2.1 est une forme de pondration des transformations. Par exemple, pour un caractre ayant trois tats diffrents non additifs (a, b et c), le passage de l'tat a l'tat c constitue, dans l'option de nonadditivit, une transformation de poids gal 1, tandis que lorsque le caractre est additif (srie abc), la transformation ac constitue une transformation de poids gal 2. Dans le cas de caractres tats multiples additifs, toutes les transformations n'ont donc pas le mme poids. 2.3.1. Caractres morphologiques L'analyse cladistique attribue en principe un poids gal tous les caractres. Cette option est nanmoins controverse en raison d'une tradition bien ancre qui consiste construire de manire intuitive des arbres phylogntiques en slectionnant, a priori ou sur la base de l'exprience des spcialistes, les bons caractres au dtriment des mauvais . En fait, cette slection revient pondrer les caractres en donnant un poids nul aux mauvais caractres. Une telle pratique est d'autant plus comprhensible, mme si elle n'est pas justifie, que la phylognie des organismes ne reste dcelable qu'au travers des caractres : il est donc tentant de postuler que des caractres judicieusement choisis doivent reflter la phylognie des organismes. La pondration des caractres morphologiques reste un sujet de discorde entre phylognticiens, notamment en ce qui concerne les caractres adaptatifs souvent considrs a priori comme de mauvais caractres car trop facilement soumis aux phnomnes d'homoplasie : les mmes pressions de slection peuvent en effet aboutir des morphologies comparables chez des organismes non apparents. Mais la question de l'identification des caractres adaptatifs ou non adaptatifs est aussi anciennement dbattue et controverse que celle de la pondration des caractres. La valeur adaptative prte un caractre est souvent conjecturale et, inversement, l'hypothse de non-adaptativit est parfois un aveu d'ignorance. Par ailleurs, on attache souvent une grande importance la signification fonctionnelle d'un caractre ou d'un ensemble de caractres. Pour de nombreux anatomistes (Szalay, 1981a et b), des caractres bien dfinis du point de vue fonctionnel devraient peser d'un poids plus lourd que de simples observations dont l'importance biologique est faible. Cependant il reste que des caractres parfaitement intgrs dans une fonction particulire peuvent galement tre soumis homoplasie. On pourrait mme avancer, linverse, qu'un caractre ayant une fonction importante peut avoir de plus forte chance d'tre le rsultat adaptatif de pressions slectives et donc d'tre soumis homoplasie. On peut penser tout aussi bien que des caractres fonctionnellement neutres d'un point de vue adaptatif, ont moins de chance d'tre homoplasiques et devraient donc avoir un poids plus important. La comprhension de la fonction d'un caractre n'est donc pas garante de sa signification phylogntique. En morphologie, la question de la pondration des caractres surgit notamment en considrant la distribution de leurs tats selon les diffrents taxons, indpendamment mme de la construction de l'arbre, c'est--dire indpendamment

Les procdures de parcimonie

106

de l'obtention de l'arbre le plus court. Certains caractres passent, juste titre, pour apparatre facilement dans diverses lignes. On sait par exemple que dans l'volution des mammifres la perte de prmolaires, ou bien, inversement, la molarisation des prmolaires, sont des phnomnes apparitions multiples. Cependant, ncessairement, l'apparition de ces traits caractrise des groupes monophyltiques, c'est--dire qu'ils sont bien, pour ces groupes, hrits d'un ascendant. Plutt que d'tre supprims, de tels traits pourraient tre pondrs en baisse , par rapport des caractres rencontrs rarement. A cette fin, la prise en compte de la variation intra-taxon et de la variation inter-taxons des caractres permet d'effectuer une telle pondration.

A1 A2

A3 A4

B1 B2 B3

C1

C2 D1 D2

D3 D4

K1 1 K2 1

1 1 0 1

0 0

1 0

1 1 1 0

0 1

0 0

0 0

0 0

0 0 1

Prenons l'exemple de 4 taxons A, B, C et D. Chacun de ces taxons est constitu de plusieurs sous-taxons connus (A1, A2, ...B1, B2 ...). Considrons un caractre K1 dont la distribution est telle que les variations intra-taxons soient faibles : tous les taxons A et B (sauf A4) ont l'tat 1 de ce caractre et tous les taxons C et D ont l'tat 0. La variation intra-taxon est donc faible pour ce caractre K1. En revanche, elle est trs forte pour le caractre K2 qui prend aussi bien l'tat 0 ou 1 l'intrieur de chacun des taxons A, B, C et D. Il est clair que les caractres de type K1 donneront a priori une meilleure information phylogntique que les caractres de type K2. Pour ces derniers, on est en effet oblig d'admettre qu'ils sont extrmement variables, puisqu'ils changent mme l'intrieur d'un taxon et donc que cette variabilit rsulte d'vnements homoplasiques. Le caractre K2, trs variable au niveau intra-taxon, devrait donc se voir attribuer un poids plus faible que le caractre K1, peu ou pas variable. Une pondration envisageable pour ces caractres serait donc l'inverse de la variation intra-taxon (Kluge et Farris, 1969).

Les caractres : codage, optimisation, pondration

107

Il est galement possible de pondrer en fonction de la variation inter-taxons. Un caractre prsent sous le mme tat dans tous les taxons aura une variabilit inter-taxon nulle. De mme, un caractre prsent sous deux tats dont l'un ne serait propre qu' un taxon terminal conduirait une variabilit inter-taxons faible. De tels caractres qui n'apportent aucune ou trs peu d'information sur les parents peuvent donc se voir attribuer un poids faible. Associant ces deux types de pondrations, on peut proposer une pondration unique qui soit fonction du rapport entre la variance inter- et la variance intrataxons (Farris, 1966 ; Goodman, 1969 ; Sneath et Sokal, 1973). Il faut insister sur le fait qu'une telle pondration n'est possible qu' la condition de possder des informations sur le polymorphisme des caractres l'intrieur des taxons. De plus, il faut considrer a priori que les hypothses de parent l'intrieur des taxons (dans l'exemple A, B, C et D) ne sont pas remises en cause. Ce type de pondration peut tre mis en place aussi bien pour des caractres morphologiques que molculaires. 2.3.2. Caractres molculaires La pondration des caractres molculaires vise donner un poids plus ou moins important aux diffrents sites o l'on observe des transformations, qu'il s'agisse de nuclotides ou d'acides amins. La pondration des transformations vise relativiser les diffrentes transformations les unes par rapport aux autres. Acides nucliques Pour les squences alignes d'ADN (ou d'ARN), le site est considr comme un caractre et les 4 nuclotides A, C, G et T (ou U) sont les quatre tats possibles de ce caractre. La pondration des caractres revient donc ici pondrer les sites. - Les sites o se sont exerces de multiples transformations peuvent tre localiss par l'tude de la rpartition des diffrents nuclotides en ces sites. Par exemple, lorsqu'un site montre une rpartition des 4 nuclotides qui correspond la rpartition de chacun d'eux dans l'ensemble des sites tudis et sur l'ensemble des UE tudis, ou qui correspond une rpartition alatoire , il peut tre justifi de considrer ce site comme n'introduisant que du bruit phylogntique. On dit qu'il est satur . La pondration d'un tel site aura comme but d'en diminuer l'impact lors de la reconstruction phylogntique, au point parfois d'tre amen l'ignorer (poids nul). Les sites mutations compenses (lorsqu'une certaine mutation en un site s'accompagne d'une mutation particulire en un autre site) ont une pondration dpendant de leur nombre. Ils apportent en effet tous la mme information phylogntique. En raison de la dgnrescence du code gntique, il est envisageable de pondrer diffremment les sites en fonction de leur place dans le codon. Il est clair que les sites en troisime position contiennent une information phylogntique moindre dans la mesure o les mutations y sont a priori plus nombreuses. En revanche, elles peuvent aussi tre considres comme plus

Les procdures de parcimonie

108

neutres dans la mesure o elles sont le plus souvent silencieuses. La pondration sur ce critre de position est donc particulirement dlicate. La pondration diffrente d'un gne ou d'un pseudogne, d'une squence codante ou non codante, constitue aussi une forme de pondration des caractres puisqu'elle permet de privilgier, dans la reconstruction phylogntique, une source d'information plutt qu'une autre. On peut envisager en effet que les parties codantes qui ont une fonction connue peuvent prsenter des mutations convergentes adaptatives, comme cela peut tre le cas en morphologie. A l'inverse, chez un pseudogne non codant o les mutations seraient neutres , des mutations partages par diffrents taxons ont plus de chances d'tre hrites d'un mme anctre. Purines Pyrimidines

Ad n ine

T,U

ine ym cile Th ra U

ine an Gu

Cy tos ine

Transversions Transitions FIGURE V.15. Diffrentes transformations entre bases puriques (Adnine et Guanine) et pyrimidiques (Thymine ou Uracile et Cytosine) de lADN ou de lARN. Les transitions se font entre deux purines ou deux pyrimidines et les transversions entre purine et pyrimidine. La pondration des transformations (figureV.15) s'effectue partir d'une distinction entre les diffrents types possibles de transformations (voir notamment Sankoff et Cedergen, 1983). Puisqu'il y a 4 tats possibles (A, C, G, T ou U), 12 transformations diffrentes peuvent tre observes. En premire approximation, on peut rduire ces 12 types 6 types seulement si l'on considre que le sens de la transformation n'est pas pertinent (mme type de transformation lorsque A se change en G ou G en A par exemple). En deuxime approximation, on peut se contenter de distinguer entre les transitions qui sont des transformations d'une purine en purine ou d'une

Les caractres : codage, optimisation, pondration

109

pyrimidine en pyrimidine et les transversions qui sont les changements d'une purine en pyrimidine et inversement. Ceci renvoie aux invariants de Lake , notamment (paragraphe V.5.2). Enfin un autre type de transformation peut tre pris en compte, l' indel : c'est--dire l'insertion et la dltion d'un site, indpendamment ou non de la nature des nuclotides insrs. La pondration peut s'effectuer, par exemple, en raison inverse de la frquence des diffrents types de transformations que l'on vient de dcrire. L'exemple le plus classique se fonde sur l'observation, issue des comparaisons de certaines squences alignes, que les transitions sont plus nombreuses que les transversions (Brown et al, 1982). Dans ce cas il est possible de donner un poids plus lev aux transversions qu'aux transitions. On peut considrer en effet que les transversions, plus rares, apportent une information phylogntique plus solide que les transitions dont la trop grande frquence d'apparition finit par ne produire que du bruit . Cette conclusion doit cependant tre relativise par le niveau hirarchique des UE que l'on compare. En effet lorsque deux UE ont diverg rcemment, les vnements de type transition restent informatifs alors que peu ou pas de transversions seront effectivement observes entre ces deux UE. En revanche lorsque deux UE ont diverg trs tt, seules les transversions seront vraiment informatives, les transitions n'tant que du bruit. Il serait donc pertinent de dvelopper une mthodologie qui permette de modifier les pondrations en fonction du niveau de hirarchie des UE compares. La pondration dite parcimonie des transversions (transversion parsimony sensu Swofford et Olsen, 1990) ignore simplement les transitions. Les 4 nuclotides sont cods de telle faon qu'il n'existe que 2 tats: R (purine) et Y (pyrimidine). Une telle approche revient donner un poids zro aux transitions. Une part d'information est donc limine a priori, ce qui reste un choix discutable puisqu'il revient considrer que les transitions ne sont que du bruit. Une autre approche plus pragmatique consiste rechercher les arbres de longueur minimum ou proche du minimum, en ne spcifiant pas a priori de pondration particulire pour les transformations. Implicitement cela revient en fait admettre un poids identique pour tous les types de transformations. Il convient ensuite de comparer les diffrents arbres retenus et d'examiner les diffrents types de transformations que chacun d'eux implique. Si l'un de ces arbres, T1 par exemple, requiert 8 transformations et un autre, T2, en demande 10, il est clair que le premier est plus parcimonieux en terme de nombre de transformations. Cependant il n'est pas indiffrent de connatre la proportion de transitions et de transversions parmi ces transformations : supposons que l'arbre T1 exige 6 transversions et 2 transitions, alors que l'arbre T2 exige seulement 2 transversions et 8 transitions, on pourrait conclure que T2 est, de fait, plus parcimonieux que le second. Acides amins Dans le cas de squences alignes de protines, chaque position d'acide amin de la chane polypeptidique constitue un caractre et les diffrents tats de ce caractre correspondent aux 20 acides amins possibles constituant les protines.

Les procdures de parcimonie

110

La pondration des caractres revient ici donner certaines positions de la chane polypeptidique une importance plus grande qu' d'autres. On peut par exemple imaginer que les zones prs du site actif d'une enzyme ou les zones qui dterminent sa structure (ponts disulfures par exemple) sont constitues d'acides amins dont l'importance phylogntique est plus grande que ceux des zones priphriques pour lesquels les fonctions sont moins claires. En ce sens les discussions dveloppes propos des caractres morphologiques, en ce qui concerne les convergences adaptatives et la neutralit, peuvent tre transposes ici. Les positions sur lesquelles on observe une grande diversit d'acides amins sont manifestement le rsultat de transformations multiples dont il ne ressort que du bruit. Une telle remarque a t effectue propos des squences d'ADN ou d'ARN. Une diffrence importante tient cependant au fait que l'on a ici 20 tats diffrents au lieu de 4 seulement pour l'ADN. La saturation est donc thoriquement plus lente. En ce qui concerne la pondration des transformations, ici la substitution d'un acide amin un autre, plusieurs approches sont possibles : Considrer que toutes les substitutions ont un poids identique. Cela revient appliquer simplement aux acides amins la parcimonie de Wagner avec optimisation de Fitch (caractres non additifs) (voir paragraphes 1.1.1. et 2.1.2.). Cette simplification ignore la facilit relative de substitution qui dpend des acides amins impliqus. Elle ignore galement le nombre de changements de nuclotides ncessaires pour observer une substitution d'un acide amin par un autre. Pondrer en raison inverse de la frquence de la substitution. Cette mthode revient prendre en compte la frquence avec laquelle un acide amin se transforme en un autre, avec l'ide d'attribuer un poids important aux substitutions rares et un poids faible aux substitutions trs courantes. L'estimation de telles frquences de substitution peut reposer sur l'exploitation de l'ensemble des squences de protines connues, telles qu'elles figurent dans les banques de donnes, issues elles mme de l' atlas of protein sequence and structure de Dayhoff (1972). Ces auteurs proposent d'ailleurs une matrice de frquence de substitution base sur l'observation. Cette matrice carr 20x20, si on la suppose symtrique, ne comprend pas moins de 190 pondrations diffrentes. Mme en effectuant des simplifications, par exemple en regroupant les acides amins en fonction de leurs proprits physico-chimiques, ce systme de pondration reste difficile mettre en place. Il repose, de plus, sur des estimations fondes sur un ensemble de donnes dont il n'est pas toujours facile d'apprcier la reprsentativit. pondrer en fonction du nombre de nuclotides impliqus dans la substitution d'un acide amin en un autre. Cette pondration est donc fonde sur le code gntique. La difficult principale est celle de l'infrence du nombre exact de substitutions de nuclotides impliqus par la substitution d'acides amins. En raison de la dgnrescence du code gntique, cette infrence reste difficile. Deux procdures au moins sont possibles. La premire, celle de Moore et al. (1973), Moore (1976) et Goodman et al. (1978) consiste ne pas effectuer une vritable pondration, mais rechercher directement l'arbre qui minimise le

Les caractres : codage, optimisation, pondration

111

nombre de transformations de nuclotides, en infrant donc simultanment l'arbre et les diffrents nuclotides prsent aux nuds. La figure V.16 montre un exemple de reconstruction de la squence nuclotidique ancestrale partir de l'observation de la distribution des acides amins. La figure V.17 est une analyse des parents de seize des dix-huit ordres de Mammalia actuels partir de sept protines ; ces protines ne sont nanmoins pas toutes squences chez chacun des taxons terminaux et les donnes manquantes sont optimises. Cependant, en raison des multiples combinaisons possibles, l'efficacit de cette procdure fait l'objet de nombreuses controverses. Voir notamment des discussions dans Kimura (1981a), Allard (1990), Goodman (1990).
[AA G A] [AA A G A C G A] [ G ou A [AAT] T]

AA G A Lys Levure

GA G A Glu Drosophile

CA T C His Cheval

CA T C His Boeuf

AAT Asn Homme

FIGURE V.16. Distribution du site 19 de la Super-oxyde-dismutase (Lee et al., 1985). A partir de la distribution des acides amins, on peut tenter d'infrer l'arbre et les squences de nuclotides aux nuds qui ncessitent le nombre minimal de changement de nuclotides. Dans ce cas 3 changements de nuclotides suffisent. La levure est, ici, considre comme extra-groupe. La squence de l'Homme a t tablit par Sherman et al. (1983). La seconde procdure consiste effectuer une pondration base sur le nombre minimum de changements de nuclotides ncessaires pour passer d'un acide amin un autre. Dans ce cas, l'arbre minimum est recherch en n'infrant aux nuds que l'un ou l'autre des acides amins prsents dans les UE qui en descendent, la diffrence donc de la procdure de Moore. Le nombre de pas tenant compte du code gntique est estim ensuite. Considrons le cas simple de trois taxons de la figure V.16 : la drosophile, le cheval et le buf. Le cheval et le buf partagent une histidine (CAT ou CAC) et forment, ensemble, un groupe monophyltiques. La drosophile possde un acide glutamique (GAG ou GAA). Le nombre de transformations minimum pour passer de l'acide amin anctre de

Les procdures de parcimonie

112

FIGURE V.17. Relation de parent de 16 ordres de Mammifres actuels (arbre de consensus de Adams, voir paragraphe 4.2.2.). L'arbre est construit partir de 7 protines ( et hmoglobines, myoglobine, protine A du cristallin, fibrinopeptides A et B, cytochrome C). D'aprs Miyamoto et Goodman (1986). ces trois taxons une histidine (chez le cheval et le buf) est de deux, l'une survenant sur le premier nuclotide et l'autre sur le troisime ; pour passer de la l'acide amin anctre un acide glutamique (chez la drosophile) il faut une transformation sur le premier nuclotide. De faon gnrale, on conoit que la substitution d'acides amins la plus coteuse que l'on puisse envisager correspond celle demandant le changement de 3 nuclotides, comme par exemple celle d'un tryptophane (UGG) en asparagine (GAU ou GAC). Il existe cependant des cas plus complexes, comme le remplacement dune phnylalanine par une glutamine : UUC (ou UUU) CAA (ou CAG). Dans ce cas, au niveau des codons, il y a trois substitutions de nuclotides. En fait, en passant par un intermdiaire, on peut ne compter que deux pas si lon considre que la substitution silencieuse en troisime position est trs facile par rapport aux autres : UUC (Phe) CUC (leucine) CUG (leucine) CAG (glutamine). Si lon suppose que la deuxime transformation CUC (leucine) CUG (leucine) a un poids nul, alors le remplacement dune phnylalanine en glutamine ne demande effectivement que deux transformations et non trois. Cette approche est notamment celle propose par J. Felsenstein (Phylip, programme Protpars) et applicable galement dans PAUP version 3 de Swofford (1990).

Les caractres : codage, optimisation, pondration

113

3. L'enracinement de l'arbre
Les algorithmes de parcimonie, qu'ils soient exacts ou heuristiques, construisent des arbres enracins ou non enracins. La racine de l'arbre le point de dpart peut tre donne par l'introduction d'un anctre dont, par dfinition, les tats des caractres sont plsiomorphes. La racine de l'arbre peut aussi tre indique par l'introduction d'un ou plusieurs extra-groupes.

3.1. Racine et anctre


Dans les cas o la racine de l'arbre est donne par un anctre, celui-ci est toujours un anctre reconstruit. On admettra en effet que l'identification d'un anctre vritable pralablement toute enqute phylogntique est une raret. La polarit des caractres tudis pour les n taxons terminaux d'un groupe dont on cherche reconstruire la phylognie est donne par l'oprateur : l'anctre reconstruit n'a que des caractres plsiomorphes par rapport aux taxons du groupe tudi. Cette option implique gnralement que la monophylie du groupe tudi est admise par l'oprateur et n'a pas tre contrle.

3.2. Racine et extra-groupe(s)


Dans un arbre non enracin, le taxon pris comme extra-groupe donne une orientation aux transformations des caractres et un ordre de lecture de la succession des branchements de l'arbre. La racine se situe sur la branche menant l'extra-groupe et l'arbre se dploie partir de la racine (figure V.18 construite partir du tableau V.4). Le choix de l'extra-groupe est crucial. On a pris comme exemple l'analyse de la phylognie des mammifres au niveau des trois sous-classes : monotrmes, marsupiaux et placentaires. La raison de ce choix est que ce groupe est familier et que le statut de groupe naturel des Mammalia n'est gure sujet polmique. Ajoutons un quelconque sauropside l'analyse. On constate sur la figure V.18 qu' partir de la topologie de l'arbre non enracin (figure V.18A), les monotrmes ne sont le groupe frre des marsupiaux et des placentaires (figure V.18B)
1 saur mono mars plac 0 0 1 1 2 0 1 1 1 3 0 0 1 1 4 0 1 2 3 5 0 0 1 2 6 0 1 1 1 7 0 1 1 1 8 0 1 1 1 9 0 1 1 1 10 0 0 1 1 11 12 13 0 1 0 0 0 0 1 0 0 1 1 0

TABLEAU V.4. Matrice de caractres pour l'analyse de la phylognie des mammifres (saur : sauropsides ; mono : monotrmes ; mars : marsupiaux ; plac : placentaires; 1-13 : caractres).

Les procdures de parcimonie

114

FIGURE V.18. A : arbre non enracin correspondant l'analyse du tableau V.4. La flche indique la racine de l'arbre B o les sauropsides sont pris comme extragroupe. C-E : arbres enracins o les monotrmes, marsupiaux et placentaires sont respectivement pris comme extra-groupes. (autrement dit : les Mammalia sont monophyltiques) que si la racine de l'arbre est place selon la flche de la figure V.18A, c'est--dire si le sauropside ( saur ) est choisi comme extra-groupe. Chacun des quatre taxons terminaux peut tre pris comme extra-groupe ce qui dfinit des parents diffrentes (figure V.18B-E) qui restent toutes compatibles avec la topologie de l'arbre non enracin. Si l'on construit un arbre (figure V.19) o le sauropside est remplac par un taxon hypothtique ( hyp du tableau V.5) dont les caractres sont totalement diffrents de ceux de saur de la figure V.18, la topologie de l'arbre non enracin est diffrente. Par exemple, marsupiaux et monotrmes sont deux groupes frres si hyp est pris comme extra-groupe : ils ne le sont pas dans la figure V.18. Cet exemple simple montre que 1) le choix de l'extra-groupe dtermine, par ses caractres, la structure de l'arbre le plus parcimonieux, et 2) on ne peut identifier les groupes frres que si le point de dpart de l'arbre est connu.
1 hyp mono mars plac 1 0 1 1 2 1 1 1 1 3 1 0 1 1 4 3 1 2 3 5 2 0 1 2 6 1 1 1 1 7 1 1 1 1 8 1 1 1 1 9 1 1 1 1 10 1 0 1 1 11 12 13 1 1 0 0 1 0 1 0 1 1 1 0

TABLEAU V.5. Matrice de caractres pour l'analyse de la phylognie des mammifres avec un extra-groupe hypothtique hyp .

Lenracinement de larbre

115

FIGURE V.19. A : arbre non enracin correspondant au tableau V.5. La flche indique la racine de l'arbre B. B : arbre enracin partir de hyp comme extra-groupe.

3.3. Racine : dichotomie et trifurcation


Dans la plupart des cas, les analyses o un seul extra-groupe est introduit impliquent que la monophylie du groupe tudi est considre comme acquise. Par exemple, dans le cas de la figure V.18, on sait que les mammifres sont monophyltiques et l'on introduit un extra-groupe non mammalien (un lzard, ou un crocodile, ou un oiseau, ou encore une tortue, autrement dit un sauropside) afin de mettre en vidence les parents entre les trois taxons terminaux, c'est--dire les branchements l'intrieur des mammifres. Mais il n'y a pas ici de test de la monophylie du groupe tudi : les Mammalia. Les synapomorphies au nud 2 de la figure V.18B ne sont pas identifis avec certitude. L'analyse de parcimonie ne fait que proposer deux solutions. L'tat driv des caractres 2, 4, 6, 7, 8, 9 (tableau V.4) peut effectivement dfinir le nud 2 : l'tat driv est 1 ( (sens de la transformation 0 1). L'tat driv des caractres 2, 4, 6, 7, 8, 9 peut tout aussi bien dfinir (autapomorphies) le taxon saur : l'tat driv est 0 (sens de la transformation 1 0). Autrement dit, partir des seules donnes du tableau V.4, la polarisation de ces caractres est impossible. Pour cette raison l'analyse de parcimonie de ce tableau conduit la figure V.20 o la monophylie des Mammalia n'est pas atteste, bien que saur soit choisi comme extra-groupe. C'est pourquoi la racine est reprsente sous forme d'une trifurcation.

FIGURE V.20. A : arbre enracin construit partir du tableau V.4. saur tant choisi comme extra-groupe, la racine est une trifurcation. B et C : les deux cladogrammes possibles du caractre 2 (un pas chacun).

Les procdures de parcimonie

116

Si un seul extra-groupe est introduit, la trifurcation sur la figure V.20A souligne l'ambigut de la dfinition du groupe tudi. Enraciner l'arbre par une trifurcation explique l'impossibilit de choisir entre les figures V.20B et V.20C pour les caractres 2, 4, 7, 8, 9, o le monotrme mono ne se place pas ct des autres mammifres. L'absence de rsolution phylogntique est ainsi rsume par la trifurcation basale. Par exemple, sur les figures V.20B et C, l'analyse de parcimonie du caractre 2 produit deux arbres (un pas). Sur l'arbre global o la racine est une trifurcation (figure V.20A), l'analyse de parcimonie du caractre 2 favorise en effet la transformation 1 0 chez l'extra-groupe saur (un pas) plutt que chez mono et au nud 2 (deux pas).
1 Saur 1 Saur 2 Mono Mars Plac 0 0 0 1 1 2 0 0 1 1 1 3 0 0 0 1 1 4 0 0 1 2 3 5 0 0 0 1 2 6 0 0 1 1 1 7 0 0 1 1 1 8 0 0 1 1 1 9 0 0 1 1 1 10 11 12 13 14 15 0 0 0 1 1 0 0 1 0 0 0 0 0 1 0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0

TABLEAU V.6. Matrice des caractres pour l'analyse de la phylognie des mammifres ( saur 1 et saur 2 sont deux sauropsides).

FIGURE V.21. A : arbre enracin au moyen d'une trifurcation, construit partir du tableau V.6, saur 1 et saur 2 tant choisis comme extra-groupes. B : le cladogramme du caractre 2 (un pas). Si l'on veut contrler la monophylie d'un groupe pris comme sujet d'tude (ici les Mammalia), l'application pure et simple du principe de parcimonie exige l'introduction de plusieurs extra-groupes (voir chapitre IV, paragraphe 4.1.1.) Les extra-groupes ne doivent pas tre introduits dans l'analyse comme formant un taxon monophyltique, sinon, tant groupes frres, ils ne formeraient qu'un seul extra-groupe et nous serions ramens l'exemple prcdent. Si deux sauropsides qui ne diffrent que par deux caractres (tableau V.6), sont introduits comme extra-groupes, formant un groupe paraphyltique, le contrle de la monophylie des Mammalia est positif (figure V.21). Dans la figure V.21, le caractre 2 est prsent l'tat driv (qui est 1) au nud 2. En effet, la phylognie du caractre 2

Mesures de lhomoplasie et comparaisons darbres

117

soutient cette fois une proche parent des trois groupes de mammifres (figure V.21A et B). La figure ne dtaille que la distribution du caractre 2 : la situation est comparable pour les autres caractres 4,6,7,8,9 (une transformation 0 1 pour chacun de ces caractres au nud 2). L'introduction de plusieurs extra-groupes paraphyltiques impliquant une trifurcation la racine permet de contrler la monophylie du groupe tudi. Elle permet de dcouvrir ventuellement lequel des extra-groupes est le groupe frre du groupe tudi et permet d'viter des erreurs dues un choix malheureux d'un seul extra-groupe qui serait trop divergent ou bien qui appartiendrait en fait au groupe tudi sans qu'on l'ait discern pralablement. Le choix des extra-groupes est donc dterminant. Les extra-groupes supposs a priori comme tels, peuvent apparatre, du point de vue de la parcimonie, comme intrieurs au groupe tudi. Dans le cas d'une analyse o un seul taxon est choisi comme extra-groupe une racine dichotomique indique que la monophylie de l'ensemble des autres taxons est postule.

4. Mesures de l'homoplasie et comparaisons d'arbres


Dans un ensemble de donnes, les synapomorphies, parce qu'elles dfinissent les parents entre les UE, constituent l'information phylogntique ncessaire la construction d'un arbre. De ce fait, la quantit d'information phylogntique contenue dans un ensemble de donnes peut tre value par la frquence relative de ces synapomorphies. En revanche, plus la proportion d'homoplasie est importante, moins l'information phylogntique est de qualit car elle se trouve alors noye dans le bruit constitu par ces homoplasies. En l'absence totale d'homoplasie, c'est--dire lorsqu'un arbre particulier rend compte parfaitement de la distribution de tous les caractres, sans qu'il y ait de conflit, il est clair que l'information phylogntique est maximale. Dans de multiples occasions, il s'avre utile de mesurer avec prcision la quantit d'information phylogntique contenue dans un ensemble de donnes. Une autre proccupation, lie la prcdente, concerne la comparaison de deux ou plusieurs arbres. En effet, deux arbres (ou plus) peuvent diffrer par leur structure, c'est--dire par les groupements monophyltiques qui les composent. Dans quelle mesure peut-on dire qu'une reprsentation est meilleure qu'une autre, de combien et pourquoi ? Telles sont les questions auxquelles ce chapitre se propose de rpondre.

4.1. Mesures de l'homoplasie


La quantit de synapomorphies et, corrlativement, le degr d'homoplasie, sont habituellement estims l'aide de l'indice de cohrence I.C. (consistency index de Kluge et Farris, 1969). L'indice de cohrence I.C. d'un arbre est gal au rapport entre le nombre minimum (R) de transformations qui sont ncessaires pour expliquer les tats de tous les caractres et le nombre effectif de transformations (L) dans l'arbre considr. S'il s'agit de l'arbre le plus parcimonieux, L reprsente la longueur minimum de l'arbre.

Les procdures de parcimonie

118

Soit un caractre c qui peut se prsenter sous s tats distincts. L'amplitude rc de ce caractre est gale s 1. Elle reprsente le nombre de transformations qui sont ncessaires pour rendre compte de tous les tats du caractre. Par exemple, pour un caractre prsent sous trois tats additifs (012), r = 3 1 = 2. L'amplitude totale R, estime sur l'ensemble de K caractres d'une matrice de donnes est : R = rc
c =1 K

si L est la longueur de l'arbre exprime en nombre de transformations, l'indice global de cohrence I.C. est : I.C. = R L Un arbre pour lequel l'indice de cohrence est strictement gal 1 est donc dpourvu d'homoplasie. La diffrence (L R ) reprsente simplement le nombre d'homoplasies et l'inverse de l'I.C. constitue le nombre moyen de transformations par caractre, dans le cas de caractres uniquement binaires (H* de Sokal, 1983). Un tel indice de cohrence I.C. prsente quelques inconvnients. En effet il converge vers 1 quand le nombre d'autapomorphies augmente. De plus, la valeur minimale de I.C. n'est pas 0 mais gale au rapport entre R et la valeur maximale L. Elle se situe gnralement autour de 0.2 lorsque les donnes sont randomises , c'est--dire lorsque les tats des caractres sont distribus au hasard sur les UE. Des arbres ayant un I.C. autour de 0.25 ou 0.30 seront donc particulirement riches en homoplasie et l'information phylogntique que contiennent les donnes est donc faible. Dans ces conditions, il serait difficile, lors de la comparaison de deux arbres, de privilgier un arbre ayant un I.C. de 0.25 par rapport un arbre ayant un I.C. de 0.29. Il existe par ailleurs une corrlation inverse entre l'indice de cohrence I.C. et le nombre d'UE, mme lorsque la quantit d'homoplasie est tenue constante (Archie, 1989). En consquence, l'I.C. ne permet pas d'valuer correctement le degr d'homoplasie d'un arbre. Pour pallier ces inconvnients, on peut corriger l'I.C. en ne comptant pas les transformations autapomorphiques, ou bien en excluant les caractres non informatifs (C.I. excluding uninformative characters de Swofford, 1989). Cela a pour consquence naturelle de diminuer la valeur de l'indice, tout en refltant mieux la proportion vritable d'homoplasie. Un autre indice a t propos par Archie (1989a et b). Il tente de rendre compte du bruit de fond sans signification phylogntique qui contribue donner l'indice de cohrence une valeur toujours suprieure 0. Il s'agit d'un indice d'excs relatif d'homoplasie (homoplasy excess ratio). Il se dfinit ainsi : HER = ML MR

Pour obtenir M, il faut d'abord transformer la matrice de donnes en distribuant au hasard les tats des caractres dans les UE, tout en respectant cependant les proportions des tats observs par caractre. On recherche ensuite la longueur de l'arbre le plus parcimonieux sur ces donnes ainsi randomises.

Mesures de lhomoplasie et comparaisons darbres

119

A 0000100000

B 0001000000
C 1111111001 D 1111110210 E 2121200010

F 2132200001
CARACTERES 1 2 3 4 5 6 7* 8* 9 10 Total rc 2 1 3 2 2 1 1 2 1 1 R = 16 lc 2 1 3 2 2 1 1 2 2 2 L = 18 gc 4 2 5 2 3 2 1 2 2 2 G = 25

* = caractres non informatifs I.C. = R/L = 0.889 I.C. sans * = (R 3)/(L 3) = 0.867 I.R. = (G L)/(G R) = 0.778 TABLEAU V.7. Distribution de 10 caractres additifs sur 6 UE (A, B, C, D et E). L'arbre figur est celui de longueur minimale (18 transformations). rc, lc et gc sont respectivement l'amplitude du caractre c, le nombre observ de transformations et le nombre maximal de transformations pour le caractre c. I.C.et I.R. sont les indices de cohrence et de rtention. L'opration est rpte un grand nombre de fois afin d'estimer une longueur moyenne M qui reprsente donc le nombre moyen de transformations observes sur des arbres de longueur minimum obtenus par randomisation des donnes. Il est possible d'obtenir une approximation de cet indice, sans avoir effectuer la procdure dcrite prcdemment. On peut en effet remplacer M par G, le maximum de transformations requis par les donnes pour construire un arbre quel qu'il soit. G peut tre calcul partir du nombre d'UE, du nombre de caractres et du nombre d'tats par caractre. En fait G correspond au nombre de pas qui serait ncessaire si tous les changements d'tats ne survenaient que le long des branches terminales de l'arbre. L'indice que l'on obtient est alors (Homoplasy excess ratio maximum, Archie, 1989a et b) :

Les procdures de parcimonie

120 HERM = GL GR

G est toujours suprieur M. De ce fait HERM est une surestimation de HER et sous-estime donc l'homoplasie. Dans cette dernire formulation, HERM reprsente le rapport entre le nombre d'homoplasies observables et le nombre d'homoplasies observes : c'est l'indice de rtention I.R. (retention index de Farris (1989), calcul par son logiciel Hennig86). Les discussions sur les qualits respectives de ces indices peuvent se trouver dans Archie (1990) et Farris (1990, 1991). Exemple : Soit la matrice constitue de 6 UE et 10 caractres additifs (tableau V.7). L'arbre non enracin le plus parcimonieux est donn dans le tableau V.7. Les caractres 7 et 8 prsentent uniquement des transformations autapomorphes. Ils sont donc non informatifs. Examinons le cas du caractre 3 cod (0 1 2 3). Le nombre minimum de transformations, c'est--dire l'amplitude du caractre 3, est r3 = 3. Le nombre de transformations ncessaires pour expliquer la distribution des quatre tats sur l'arbre est galement de 3 (donc pas d'homoplasie). Le nombre maximum de transformations est celui que l'on observerait si toutes les transformations survenaient sur les branches terminales. Pour dterminer ce nombre, il faut partir d'un tat ancestral qui soit le plus reprsent et le plus central dans l'ordre des tats, afin de minimiser ce nombre maximum de transformations. Dans le cas prsent c'est l'tat 1, et le nombre de transformations maximum est g3 = 5 : il faut en effet 2 pas pour observer 0 chez A et B partir de l'tat 1, 1 pas pour observer l'tat 2 chez E et 2 pas pour observer l'tat 3 chez F. Remarquons que si l'on supposait que l'tat ancestral tait l'tat 0 ou 2, on aurait g3 = 7.

4.2. Les arbres de consensus


Dans ce paragraphe, on n'abordera que le problme de la comparaison de deux ou plusieurs arbres, gnralement de mme longueur. Seuls les tests sur le paramtre structure de l'arbre est donc trait ici, tandis que les tests concernant les autres paramtres (longueur des branches par exemple), seront traits au niveau de chacune des mthodes de reconstruction (chapitre VII pour les mthodes de distance ; chapitre VIII pour les mthodes de vraisemblance). Lorsqu'un mme ensemble de donnes conduit l'obtention de plusieurs arbres d'une longueur totale quivalente, il n'est gnralement pas de critres permettant de dterminer si l'un de ces arbres est meilleur qu'un autre, sauf faire appel d'autres critres extrinsques ou intrinsques (comme la pondration successive (paragraphe 4.3). C'est pourquoi il est recherch une reprsentation de ces arbres telle que leurs parties concordantes apparaissent clairement par rapport aux parties discordantes. Cette reprsentation est appele arbre de consensus. Il en existe principalement deux : l' arbre de consensus strict (Sokal et Rohlf, 1962, 1981) et l' arbre de consensus d'Adams (Adams 1972).

Mesures de lhomoplasie et comparaisons darbres

121

4.2.1. L'arbre de consensus strict Cet arbre (strict consensus tree de Sokal et Rohlf (1962, 1981) ou general cladogram de Nelson (1979), dit encore arbre de Nelson ) est construit en ne retenant des arbres compars que les groupements de taxons qui sont identiques dans tous les arbres. Les points de conflits sont reprsents par des multifurcations. Prenons l'exemple simple de la figure V.22 reprsentant deux arbres (ou portions d'arbre) entirement dichotomiques (T1 et T2) composs de 4 taxons. Le seul groupement de taxons qui soit commun T1 et T2 est celui form par A d'un ct et l'ensemble (B,C,D) de l'autre. Aucun autre groupe ne se retrouve dans les deux arbres. Dans ces conditions l' arbre de consensus strict est celui donn en mettant B, C et D au mme niveau hirarchique. Il faut bien prciser que cette reprsentation ne signifie pas une spciation triple, c'est--dire un point partir duquel les trois UE auraient volues indpendamment. Son but n'est que de rendre compte de l'impossibilit de conclure quant aux relations de parent entre B, C et D. Cette reprsentation simplifie mme plus qu'il n'est ncessaire. En effet elle ne permet plus de remarquer que la combinaison (B,D) monophyltique n'est pas observe. Malgr cet inconvnient, l'arbre de consensus strict est celui qui est le plus utilis lors des oprations de comparaison d'arbres. A B C D T1 T2 A B C D A B C D

Consensus strict FIGURE V.22. Construction d'un arbre de consensus strict. 4.2.2. L'arbre-consensus d'Adams L'arbre-consensus d'Adams discut ici est plus connu sous le nom d'arbreconsensus Adams-2 . Il correspond l'arbre de consensus propos par Adams (1972) partir d'arbres entirement dichotomiques et o seule la racine de l'arbre est suppose connue, les autres nuds tant seulement dduits de la reconstruction. Cette mthode consiste, en partant de la racine, comparer, entre deux ou plusieurs arbres, les deux sous-ensembles de taxons qui dcoulent d'une dichotomie. S'il existe un recouvrement entre ces sous-ensembles observs sur les diffrents arbres, ce recouvrement constitue un groupement consensus de taxons. L'exemple simple de la figure V.23 permet de comprendre le processus de construction. L'arbre (ou portion d'arbre) T1 identifie, partir de sa racine, deux sous-ensembles de taxons, (A) et (B,C,D,E), tandis que l'arbre T2 identifie deux autres sous-ensembles : (A,B,C) et (D,E). En croisant les sous-ensembles de l'un des arbres avec les sous-ensembles de l'autre, on effectue des intersections d'ensembles qui dfinissent trois sous-ensembles : (A), (B,C) et (D,E) qui

Les procdures de parcimonie

122

permettent de construire l'arbre de consensus d'Adams-2 reprsent sur la figure V.23. Cet arbre montre une trifurcation qui, comme dans le cas du consensus strict, ne s'interprte pas comme telle. Si B, C ou (D,E) taient eux-mme des ensembles de taxons montrant une parent diffrente d'un arbre l'autre, le processus dcrit prcdemment serait de nouveau appliqu partir de la racine de ces ensembles.

A B C D E T1 T2

A B C D E

A B C D E Consensus d'Adams-2

A B C D E Consensus strict

FIGURE V.23. Construction d'un arbre de consensus d'Adams-2. Cette reprsentation a l'avantage de souligner que B et C ont un anctre commun qui est distinct de la racine de l'arbre (ou de la portion d'arbre). L'inconvnient de cette reprsentation est de considrer parfois comme monophyltiques des taxons qui ne le sont pas ncessairement sur tous les arbres compars. Ainsi C est troitement apparent D dans l'arbre T1 alors qu'il est troitement apparent B dans l'arbre T2. Le groupement (B,C) retenu dans l'arbre de consensus d'Adams ne peut videmment pas s'interprter comme s'il s'agissait d'un consensus strict, puisque le groupe (B,C) n'est pas monophyltique dans T1. Quand une monophylie est observe sur un arbre de consensus strict, elle se retrouve galement sur un consensus d'Adams-2, alors que l'inverse n'est pas exact. Dans l'exemple de la figure V.22, l'arbre de consensus d'Adams-2 est identique l'arbre de consensus strict. En revanche, l'arbre de consensus strict de la figure V.23 est diffrent de l'arbre de consensus d'Adams-2. 4.2.3. Larbre de consensus majoritaire (Majority rule consensus tree) Dans la comparaison de plusieurs arbres prsentant des topologies diffrentes, il est possible de rechercher les groupes monophyltiques qui se rencontrent le plus frquemment parmi lensemble des arbres compars (Margush et McMorris, 1981). Ainsi, dans la figure V.24, parmi les trois arbres compars (T1, T2 et T3), on observe deux fois sur trois le groupe monophyltique form de C et D. Puisque ce groupe (C,D) est majoritaire, il est reprsent dans larbre de consensus. On peut galement choisir de reprsenter larbre de consensus seulement partir des groupes monophyltiques prsents dans au moins 50% des arbres ou dans au moins 75% ou tout autre pourcentage. Cette mthode de construction darbre de consensus est celle gnralement utilise dans les mthodes de r-chantillonnage dcrites plus loin.

Mesures de lhomoplasie et comparaisons darbres

123 A A B C D consensus majoritaire

A B C D T1 T2

A B C D T3

B C D

FIGURE V.24. construction d'un arbre de consensus majoritaire.

4.3. Pondration successive


Considrons le cas de donnes pour lesquelles l'analyse de parcimonie classique, sans pondration particulire des caractres, conduit plusieurs arbres diffrents de mme parcimonie. Que faire d'un tel rsultat ? On peut discuter les incidences de tous ces arbres, choisir l'un de ces arbres pour des raisons extrieures l'analyse elle-mme, ou bien considrer un arbre de consensus. La mthode de pondration successive (successive weighting de Farris, 1969) offre une autre possibilit. Les pondrations de caractres dont il a t question dans le paragraphe prcdent, taient des pondrations a priori, effectues avant l'analyse de parcimonie. La pondration successive est, au contraire, une pondration a posteriori, effectue aprs l'analyse de parcimonie. L'ide centrale est qu'il est prfrable de choisir, parmi tous les arbres ayant le mme nombre minimal de pas, celui qui donne le moins de poids aux caractres homoplasiques. Pour cela, on pourrait pondrer chaque caractre par son indice de cohrence. Un caractre non homoplasique (I.C.=1) aurait un poids plus lev qu'un caractre prsentant de l'homoplasie (I.C.< 1) et une analyse de parcimonie avec de tels caractres pondrs reviendrait minimiser l'impact des caractres homoplasiques sur la longueur totale de l'arbre (voir chapitre VII sur la compatibilit). Cependant, comme l'indice de cohrence varie entre 1 et une valeur suprieure 0, Farris (1989) propose d'utiliser plutt un indice qui soit strictement compris entre 1 et 0 et qui est, en fait, le produit entre l'indice de cohrence I.C. et l'indice de rtention I.R. (rescaled consistency index). Les indices de cohrence et de rtention de chacun des caractres sont d'abord calculs pour chacun des arbres de mme parcimonie. La valeur de l'indice retenue par caractre sera soit la valeur la plus leve obtenue sur l'ensemble des arbres de mme parcimonie (option maximale), soit la valeur moyenne des indices de ces arbres (option moyenne). Par exemple, lorsqu'un caractre est cohrent avec tous les arbres, c'est--dire qu'il n'est pas homoplasique, il lui sera attribu un poids de 1. En revanche, si un caractre prsente un indice de cohrence de 0.33 pour un arbre, de 0.50 pour un autre et 0.66 pour un troisime, l'indice de cohrence retenu sera la valeur la plus leve observe (0.66 : option maximale) ou sa valeur moyenne (0.50 : option moyenne).

Les procdures de parcimonie

124

TABLEAU V.8. Distribution de 36 caractres chez 14 taxons faisant partie des Proboscidiens (D'aprs Tassy et Darlu, 1987).

FIGURE V.25. Arbres obtenus partir du tableau V.8. A : arbre de consensus strict ; B : arbre unique entirement dichotomique obtenu aprs pondrations successives.

Mesures de lhomoplasie et comparaisons darbres

125

De mme pour l'indice de rtention. En dfinitive, le poids attribu un caractre homoplasique sera d'autant plus faible, donc infrieur 1, que ses indices de cohrence et de rtention seront faibles. L'analyse de parcimonie est ensuite effectue en utilisant cette pondration. Si plusieurs arbres de mme parcimonie, bien qu'en nombre infrieur celui de l'analyse initiale, sont encore obtenus aprs cette pondration, une nouvelle pondration est calcule et une nouvelle analyse de parcimonie utilisant cette nouvelle pondration est alors effectue. Ce processus itratif est stopp lorsque l'on ne peut rduire davantage le nombre d'arbres. Exemple 1 : L'analyse de tableau V.8 fournit 7 arbres de mme parcimonie (53 pas, C.I. = 0.69 ; R.I. = 0.82). L'arbre consensus strict (figure V.25A) montre que la parent des taxons terminaux Stegodibelodon, maluvalensis , Stegolophodon et Stegodon n'est pas rsolue. La pondration successive partir de ces 7 arbres permet de slectionner un seul arbre entirement dichotomique (figure V.25B). L'analyse dtaille de trois caractres permet d'illustrer la mthode (tableau V.9). Dans le cas prsent, l'extra-groupe Gomphotherium a t ddoubl afin d'asseoir la monophylie des 13 autres taxons (nud 1). CARACTERES pas I.C. I.R POIDS = IC*IR 1 2 0.5 0.6 0.3 3 1 1 1 1 12 3 0.3 0.5 0.15

TABLEAU V.9. Pondration des caractres. Le meilleur indice de cohrence du caractre 1 sur l'ensemble des 7 arbres de mme parcimonie est de 0.5, le meilleur indice de rtention est de 0.6. Le poids donn ce caractre dans l'analyse de parcimonie sera de 0.3 (option maximale). Les poids infrieurs attribus aux caractres 1 et 12 par rapport au caractre 3, qui est toujours cohrent, et le poids suprieur attribu au caractre 1 par rapport au caractre 12 permettent de slectionner un seul arbre parmi les 7 arbres initiaux. Exemple 2 : Un autre exemple peut tre fourni par la comparaison des deux arbres de mme parcimonie obtenus partir de la matrice du tableau V.10. Ce tableau correspond la phylognie illustre par la figure V.26. Cette phylognie est considre comme vraie : elle servira d'exemple de multiples reprises en permettant de comparer les rsultats obtenus par diffrentes mthodes d'analyse phylogntique. Cette phylognie se caractrise par des quantits de transformations volutives diffrentes dans les groupes frres (vitesses d'volution ingales) et une homoplasie importante (plus du tiers des caractres) qui n'implique aucune rversion mais seulement des convergences.

Les procdures de parcimonie 1 1111111112 2222222223 3333333334 444444444 1234567890 1234567890 1234567890 1234567890 123456789 a b c d e f g h i j k l m n 1000000000 0100000000 0010000000 0001100000 0000100000 0000010000 0000001000 0000000100 0000100010 0000100001 1000100000 1000100000 0000000000 0000001000 0100000011 0011000011 0011111111 0011111111 0000000011 0000000000 0000000000 0000000000 0000000000 1000000000 1000000000 0100000000 0100000000 0000000000 1000000000 0100001000 0000101000 0000001000 0000000000 1000000001 1111000000 1111110000 1111111100 1111111110 1111111110 1111111110 0000000110 0000011000 0000000100 0111100100 0000000101 0000000100 0000000000 1000000000 0000000000 0000000000 0000011010 0000000110 0000000110 0000000110 0000000000 0000000000 100000000 100000000 100000000 100000000 100000000 100000000 100000000 100000000 100000000 100000000 100000000 100000000 001111000 010000111

126

TABLEAU V.10. Matrice des caractres construite partir de l'arbre de la figure V.25. Une analyse de parcimonie de cette matrice donne deux arbres rsums par l'arbre de consensus strict de la figure V.26.

FIGURE V.26. Phylognie choisie pour tester diffrentes mthodes de reconstruction. Les tats de caractres sont donns dans le tableau V.10. Un double trait indique la localisation des homoplasies (convergences). Les taxons m et n sont des extra-groupes.

Mesures de lhomoplasie et comparaisons darbres

127

L'analyse de parcimonie fournit deux arbres (voir l'arbre de consensus strict, figure V.27) dont l'un correspond la phylognie thorique illustre par la figure V.26.
a b c d

e f
g h

i
j k l m

FIGURE V.27. Arbre de consensus strict obtenu par parcimonie partir du tableau V.10 (66 pas ; I.C. = 0.74 ; I.R. = 0.78). Cet arbre rsume deux arbres dichotomiques de 65 pas (I.C. = 0.75 ; I.R. = 0.80). Les deux arbres diffrent par l'organisation des taxons j, k et l. Le premier (arbre 1) donne le groupement (j,(k,l)) et le deuxime (arbre 2) donne le groupement (l,(j,k)). La diffrence tient l'interprtation des caractres 1 et 11, comme le rsume le tableau V.11, dans lequel sont dtaills les lments permettant de calculer la pondration (option maximale). La pondration successive conduit prfrer l'arbre 2 (l,(j,k)) parce que cet arbre est la solution qui possde un caractre non homoplasique (caractre 11, poids de 1), associ un caractre trs homoplasique (caractre 1, poids nul). Par opposition, l'arbre 1 associe deux caractres modrment homoplasiques (caractres 1 et 11, I.C. = 0.5) mais dont l'un (caractre 11) a un poids nul. L'option moyenne conduit la mme conclusion. La solution de l'arbre 2 ne correspond pas la phylognie thorique (voir figure V.26) : celle-ci implique en effet que les deux caractres 1 et 11 sont homoplasiques.

Les procdures de parcimonie

128

Caractre 1 R L G I.C. I.R. POIDS R L G I.C. I.R. POIDS 1 2 3 0.5 0.5 0.25 1 3 3 0.33 0.0 0.0

Caractre 11 1 2 2 0.5 0.0 0.0 1 1 2 1.0 1.0 1.0

Arbre 1 (j,(k,l))

Arbre 2 (l,(j,k))

TABLEAU V.11. Calcul de la pondration des caractres 1 et 11 de la matrice du tableau V.10 pour les deux arbres d'gale parcimonie reprsents figure V.27 sous forme de consensus. La pondration successive (option maximale) permet de privilgier l'arbre 2 par rapport l'arbre 1. Pour la signification de R, L, G, se reporter au paragraphe 4.1.

4.4. Les mthodes de r-chantillonnage


Un problme difficile est celui de l'valuation de la confiance que l'on peut avoir en un arbre, en un groupe monophyltique, en une longueur de branche. La statistique classique n'est pas arme pour rpondre cette question, essentiellement parce que les distributions de probabilit des paramtres estimer sont gnralement inconnues (ainsi en est-il de l'arbre ou des longueurs des branches) ou ne peuvent s'exprimer en termes simples. Une faon de contourner la difficult consiste faire appel aux mthodes de r-chantillonage (resampling methods) dveloppes par Efron (1979, 1982), c'est--dire les mthodes de Jackknife et de Bootstrap. Un aperu gnral de ces mthodes appliques aux donnes phylogntiques a t prsent par Felsenstein (1988). Toutes ces mthodes supposent que les caractres ont volus indpendamment les uns des autres et suivent tous une mme loi de distribution. Ces restrictions importantes posent le problme de leur applicabilit aux donnes morphologiques pour lesquelles aucune hypothse plausible n'est formulable en termes de probabilit. Enfin, ces mthodes sont applicables quelle que soit la faon dont les arbres sont obtenus, que ce soit par des mthodes phntiques (Chapitre VII) ou par parcimonie. 4.4.1. Le Jackknife Cette mthode a t applique aux problmes de phylognie par Mueller et Ayala (1982). Supposons une matrice de donnes constitue de K caractres. Le

Mesures de lhomoplasie et comparaisons darbres

129

Jackknife consiste effectuer K reconstructions phylogntiques diffrentes, chacune d'elles ayant t obtenue en supprimant un caractre diffrent. Par exemple, si les donnes sont constitues de K frquences gniques, on calcule d'abord une matrice de distances en omettant la premire frquence, puis une deuxime en supprimant la deuxime frquence etc. jusqu' la Kime matrice calcule en supprimant la dernire frquence K. Un arbre est reconstruit partir de chacune de ces K matrices diffrentes. La perturbation de la matrice de donnes par l'abandon d'une seule frquence parmi les K disponibles est gnralement trs faible, lorsque K est assez grand. La procdure suivre est la mme si l'arbre est reconstruit par parcimonie. Dans ce cas, on construit autant d'arbres qu'il y a de caractres dans la matrice, chacun de ces arbres tant construit par suppression de l'un des K caractres de la matrice. Lorsque les structures des arbres obtenus sur ces K diffrentes matrices sont les mmes, on peut alors tester une certaine longueur de branche L de la faon suivante. Si L est la longueur estime en utilisant simultanment les K caractres de la matrice de donnes et L* celle obtenue en utilisant K1 caractres, l'estimation de la longueur L est donne par : L = nL (n 1)L* L = n(L L*) + L* Des tests peuvent tre effectus (t de Student par exemple) pour savoir si L est significativement diffrente de 0. 4.4.2. Le Bootstrap Cette mthode (Efron, 1979 ; Felsenstein, 1985b) consiste tirer au hasard avec remise un ensemble de K caractres parmi les K caractres constituant les donnes. Ce tirage se faisant avec remise, cela signifie que le nouvel chantillon, constitu, lui aussi, de K caractres, peut contenir des caractres prsents plusieurs fois, car retirs aprs remise, et, au contraire, d'autres caractres absents, n'ayant jamais t tirs. Cela revient pondrer les caractres de manire alatoire. Le nouvel chantillon fait ensuite l'objet d'une analyse phylogntique (par mthode cladistique ou phntique) conduisant l'obtention d'un arbre. Cette procdure de r-chantillonnage peut tre effectue N fois, suivie chaque fois par une recherche d'arbre. En fin de bootstrap, on est en possession de N arbres qui peuvent, ventuellement, tre diffrents. Si l'on souhaite tester l'existence d'une monophylie particulire (ici dfinie comme un ensemble d'UE, quelle que soit l'organisation phylogntique interne cet ensemble), il suffit de dnombrer combien de fois on la retrouve parmi les N arbres. Si l'on donne la valeur 1 la prsence et 0 l'absence de la monophylie que l'on souhaite tester, le paramtre test est l'occurrence de la monophylie. Par exemple, une monophylie retrouve dans 95% des chantillons signifie qu'il y a 5 chances sur 100 de se tromper en disant que la monophylie n'existe pas. Le cas de tests multiples est dvelopp par Felsenstein (1985b, 1988).

Les procdures de parcimonie

130

Par ailleurs, le nombre de tirages alatoires doit tre aussi lev que possible, le nombre minimum tant dpendant du nombre de caractres et du degr d'homoplasie. Cette mthode s'applique aussi bien aux mthodes phntiques qu'aux mthodes de parcimonie. Exemple 1

Malto Tamoul Brahui Hindi Anglais Gaelic Russe Albanais 67 Roumain 24 Arabe (Irak) 56 Touareg

51 47 34 18 70 27 19 77 57 56 19

Finnois Yenet Bashkir 31 Yukaghir Armenien Georgien Kabardien 67 Xinalug

FIGURE V.28. Arbre de consensus (majority rule) obtenu par la comparaison des arbres diffrents obtenus l'issue de 100 r-chantillonnages (bootstrapping) des donnes, chacun d'eux tant suivi de la recherche de l'arbre le plus parcimonieux (mthode de Wagner) (Darlu et al., 1990; Darlu, 1992). Il s'agit ici de donnes linguistiques de natures phonologique (181 caractres), syntaxique (16), et grammaticale (77). Elles ont t releves sur 18 langues eurasiennes (Ruhlen, 1976). La valeur attache un nud indique combien de fois (sur 100) se retrouve la dichotomie qu'il occasionne sur l'ensemble des 18 langues. Par exemple, sur 100 r-chantillonnages, le groupe constitu de l'Albanais, du Roumain, de l'Arabe et du Touareg ne se retrouve que 24 fois, alors que le groupe constitu de l'Albanais et du Roumain se retrouve 67 fois. Exemple 2 Les donnes du tableau V.10 ont t analys par la mthode du bootstrap. Il a t effectu 100 r-chantillonnages qui ont produit 100 arbres de longueur minimale. Cet arbre de consensus (figure V.29) reproduit la solution de parcimonie retenue l'issu d'une pondration successive (tableau V.11). On observe une corrlation troite entre le nombre de synapomorphies dfinissant les groupes monophyltiques dans l'analyse de parcimonie et le nombre de fois o se retrouvent ces groupes monophyltiques sur 100 r-chantillonnages. Ainsi la valeur la plus leve (98) correspond aux 4 synapomorphies du groupe (c,d) tandis que la valeur la plus faible (42) correspond la seule synapomorphie dfinissant (j,k).

Les invariants

131

51 70 94 98

a b c d

57 45 81 72 96 87 42

e f
g h

i
j k

l
m

FIGURE V.29. Arbre de consensus (majority rule) obtenu par la comparaison des arbres diffrents obtenus par la mthode de parcimonie, l'issue de 100 rchantillonnages (bootstrappings) des donnes du tableau V.10. Certains auteurs ont propos que le r-chantillonnage s'effectue sur les UE plutt que sur les caractres (Lanyon, 1985). Cependant, dans ce cas, la condition ncessaire d'applicabilit voque plus haut et postulant que les tirages doivent tre indpendants, n'est videmment pas satisfaite puisque les UE n'voluent pas de manire indpendante, sinon l'arbre de parent n'existerait pas. D'un point de vue pragmatique, cette approche peut cependant donner des informations intressantes, mme si elles ne sont pas interprtables en terme de thorie des tests.

5. Les invariants
La question de la pondration des transformations (entre deux tats, 0 et 1, ou entre quatre tats, comme les quatre nuclotides) a t vue sous l'angle de la parcimonie au paragraphe V.2.3. Cette question peut aussi tre aborde partir des mthodes probabilistes traites au chapitre VIII. Les approches de parcimonie et les mthodes probabilistes prsentent des relations qui seront discutes plus loin (Chapitre VIII). L'une d'elle est la dpendance vis--vis d'hypothses a priori sur les probabilits de changement des

Les procdures de parcimonie

132

caractres, et sur le degr d'galit dans les vitesses de changement le long des diffrentes branches de l'arbre. C'est pour s'affranchir de telles contraintes que Cavender (1978, 1981, 1989), Cavender et Felsenstein (1987), Lake (1987a et b), Sankoff (1990) ont propos diverses mthodes fondes sur la recherches d' invariants . Il s'agit de trouver une relation entre les diffrentes distributions possibles des tats des caractres des diffrentes UE, relation qui ne dpende que de la structure de l'arbre et qui ne soit vrifie que pour une structure particulire d'arbre et non pour les autres.

5.1. Les invariants de Cavender


Prenons l'exemple, qui sera repris dans le chapitre VIII, de quatre UE (A, B, C, D) et d'un ensemble de N caractres prsents sous deux tats 0 ou 1. Chacun de ces N caractres peut se rpartir sur les 4 UE selon 16 combinaisons possibles (0000, 1000, 1100, 1110, 0100, 0110, .....1111), en notant les tats d'un caractre dans l'ordre des UE (A, B, C et D). Ces 16 combinaisons peuvent se regrouper dans les 8 catgories suivantes (p et n reprsentant respectivement la probabilit et le nombre de caractres parmi N qui prsentent cette combinaison) : 0000 et 1111 p1 1000 et 0111 p2 0100 et 1011 p3 0010 et 1101 p4 0001 et 1110 p5 1100 et 0011 p6 1010 et 0101 p7 1001 et 0110 p8 n1 n2 n3 n4 n5 n6 n7 n8

Comme on le sait, quatre UE peuvent s'organiser selon les 3 arbres non enracins diffrents T1, T2 et T3 de la figure suivante :
A a b B T1 e c d D C T2 D D T3 C C A B A B

FIGURE V.30. Les trois arbres non enracins possibles pour quatre taxons A, B, C et D. a, b, c, d et e reprsentent les branches de larbre. Si l'arbre vritable est de structure T1, la probabilit pour que les UE A et B possdent toutes les deux le mme tat (0 ou 1) pour un caractre donn ne dpend videmment que des vnements situs sur la branche a et la branche b et non des vnements qui peuvent se produirent ailleurs dans

La recherche de larbre le plus court

133

l'arbre. Cette probabilit est p1+p4+p5+p6. Le mme raisonnement tient galement pour les UE C et D : la probabilit pour que ltat en C soit identique ltat en D est gale p1+ p2+p3+p6. Par ailleurs ces deux vnements (A=B) et (C=D) sont des vnements indpendants tant donne la structure de l'arbre T1. Il est donc possible de tester si toutes ces conditions sont bien remplies, simplement en vrifiant ces hypothses d'indpendance par un test 2 effectu sur le tableau de contingence suivant, obtenu partir du dcompte, dans les donnes analyses, des 8 diffrentes catgories dfinies plus haut :
CD n4+n5 n1+n4+n5+n6

C=D A=B n1+n6

AB

n2+n3 n1+n2+n3+n6

n7+n8 n4+n5+n7+n8

n2+n3+n7+n8 N

Si les conditions d'indpendance sont satisfaites, l'invariant L1 de l'arbre T1 est nul : L1 = (n1 + n6)(n7 + n8) (n2 + n3)(n4+ n5) = 0 Deux autres tableaux de contingence similaires peuvent tre construits et deux autres invariants calculs L2 et L3, l'un pour l'arbre T2 et l'autre pour l'arbre T3. La structure de l'arbre pour laquelle les hypothses d'indpendance ne seraient pas rejetes un seuil de signification donn (5% par exemple) sera retenue. Cette approche repose sur l'hypothse que les probabilits de changement d'tat obissent un processus de Markov : les conditions d'quilibre de ce processus, qui sont celles adoptes par la mthode, supposent une symtrie des changements d'tats (mme probabilit de changer 0 en 1 ou 1 en 0). Elle suppose galement que la probabilit d'observer un tat de caractre chez une UE est la mme pour toutes les UE. Enfin l'hypothse doit galement tre faite que tous les caractres changent, de manire indpendante, avec la mme vitesse. Remarquons qu'il n'est fait aucune hypothse sur les valeurs des probabilits de changement d'tat (sauf qu'elles doivent tre infrieures 0.5), ni sur les variations possibles de cette probabilit selon les branches de l'arbre. Il est possible d'tendre cette approche des caractres ayant plus de deux tats (par exemple les 4 nuclotides possibles en un site) (Felsenstein, 1983) et plus de 4 UE (Sankoff, 1990).

5.2. Les invariants de Lake


Cette mthode, dveloppe par Lake (1987a et b), est aussi appele Evolutionary parsimony method . Elle s'applique des donnes nuclotidiques, ADN ou ARN. A la diffrence des invariants de Cavender o

Les invariants

134

seuls taient considrs deux tats par caractre, ici chaque caractre (le site) peut se trouver sous 4 tats diffrents, les 4 nuclotides. Comme dans les invariants de Cavender, cette mthode se propose de tester les 3 arbres non enracins que l'on peut construire partir de 4 UE (voir figure V.30). Elle se fonde sur l'observation des frquences des 256 combinaisons possibles de nuclotides pour 4 UE (au lieu des 16 dans le cas des invariants de Cavender). Cette mthode fait l'hypothse que les transversions (figure V.15) sont plus rares que les transitions. Pour cette raison, seules les transversions sont considres comme pertinentes pour estimer la structure de l'arbre. Les transitions sur les branches ne constituent donc que du bruit qui masque ventuellement l'information phylogntique des transversions. L'hypothse est galement faite que les diffrentes transitions sont quiprobables (AG, T ou UC) comme le sont les diffrentes transversions (AT, AC, TG, GC). Enfin tous les sites doivent voluer indpendamment les uns des autres. En revanche, la diffrence des invariants de Cavender, il n'est pas ncessaire qu'ils voluent la mme vitesse. Le but des invariants de Lake est d'estimer le nombre d'vnements de type transversion qui ont pu survenir sur la branche centrale de l'arbre T1, T2 ou T3. Considrons donc 4 UE (A, B, C, D). Pour reprsenter la distribution chez ces quatre UE des nuclotides d'un site donn, on utilise la rgle suivante : Le chiffre 1 est donn, arbitrairement, A (A=1). Si B possde le mme nuclotide que A, alors B=1. Si B diffre de A par une transition, alors B=2. Si B diffre de A par une transversion, B=3. Par ailleurs, C peut avoir le mme nuclotide que A ou B. Il est alors cod comme eux. Il en est de mme pour D. Si A=B et que C (ou D) diffre de A par une transition, C (ou D) sera cod 2 et sil diffre par une transversion, il sera cod 3. Enfin si C ou D possdent un nuclotide qui diffre des autres par une transversion non identique une transversion dj observe, il sera cod 4. Exemples : CGGC : 1331 ; UGAU : 1341 ; UCGA : 1234 ; GUAU : 1323 etc. Imaginons maintenant que l'arbre vritable soit de type T1 (Figure V.31), et intressons-nous aux sites cods 1133. Du point de vue de la parcimonie, il est clair que ces sites cods 1133 plaident tous en faveur de l'arbre T1 (Figure V.31.I). En effet la substitution de deux nuclotides identiques chez A et B aux deux nuclotides identiques chez C et D implique au minimum une transversion sur la branche centrale. Lake montre que cette conclusion peut tre errone, en raison des diffrentes transitions ou transversions qui peuvent survenir sur les branches. En effet, tous

La recherche de larbre le plus court

135

transversion transition I) T1

A=1

C=3 +1133

B=1 A=1 II) T1 B=1 D=3 B=2 C=3 A=1

D=3 C=3 +1234 D=4

A=1

C=3

IIIa

1133 = 1233

A=1 III) T2

C=1
B=1 D=3

A=1 IIIb B=3 D=3

C=3

(1233)

B=2 A=1

D=3 D=3

A=1

C=1

IVa

1133 = 1134

IV)

T3 IVb B=3 D=3

B=1 A=1

C=3 D=4

(1134) B=1 C=3

FIGURE V.31. Schma montrant comment des transitions survenant sur les branches externes de larbre T1 (II) ou des transversions survenant sur les branches de larbre T2 ou T3 conduisent des conclusions errones concernant le nombre de transversions survenant sur la branche centrale de larbre T1 (I). En raison de lquiprobabilit des transversions, la frquence des distributions conduisant IIIa et IIIb sont identiques. De mme pour IVa et IVb.

Les invariants

136

les sites 1133 ne plaident pas exclusivement en faveur de T1 car certains de ces sites cods 1133 peuvent fort bien provenir d'un arbre qui serait de type T2 et o deux branches externes porteraient chacune une transversion supplmentaires (figure V.31.III). Ces substitutions supplmentaires, survenant sur les branches terminales de l'arbre T2 miment un arbre que la parcimonie identifierait comme tant de type T1 (Figure V.31.IIIa). Autrement dit, s'il survient des vnements de transversions parallles , l'arbre infr par la parcimonie n'est plus le bon. On comprend bien que ces sites 1133 qui ne sont pas en faveur de T1 mais de T2 ne doivent pas tre pris en compte pour dmontrer, partir de l'observation des combinaisons 1133, que l'arbre est bien T1. Il faut donc les dcompter. La question se pose de savoir comment. Il se trouve que l'on peut en avoir une estimation. En effet, en raison de l'hypothse effectue (l'quiprobabilit des vnements substitutifs de mme nature, transition ou transversion), il y a autant de sites 1133 issus d'un arbre T2, avec transversions sur les branches terminales (figure V.31.IIIa), qu'il y a de sites cods 1233, d'o le signe = entre 1133 et 1233 dans la figure V.31.IIIa. On peut donc corriger en ngatif le nombre de sites 1133 plaidant en faveur de T2 par la quantit de sites 1233, do le signe ngatif de la figure V.31.IIIa. De la mme faon, certains sites cods 1133 peuvent aussi bien provenir d'arbres de type T3 o les branches terminales auraient subi une transversion (Figure V.31.IVa). On peut avoir une estimation de ces derniers dans la mesure o ils sont en principe aussi nombreux que les sites cods 1134 (Figure V.31.IVb). Enfin, des transitions survenant en parallle sur les branches terminales conduisent camoufler un certain nombre de sites cods 1133 dans l'hypothse o l'arbre est bien T1 (Figure V.31.II). On peut en avoir une estimation en comptant les sites cods 1234. En conclusion, le nombre n(1133) de sites de type 1133 qui sont exclusivement en faveur de la structure T1, aprs correction des artefacts dus des transitions ou transversions non informatives, constitue l'invariant L1 propre la structure T1 : L1 = n(1133)+n(1234) n(1233) n(1134) Les deux autres invariants, L2 et L3, dfinissant les structures T2 et T3 s'crivent, respectivement : L2= n(1313)+n(1324) n(1323) n(1314) L3= n(1331)+n(1342) n(1332) n(1341) En tenant ce raisonnement, Lake dmontre que, finalement, seules les 12 combinaisons de nuclotides (sur les 256 possibles) qui permettent de calculer les invariants sont vritablement informatives pour choisir entre les structures T1, T2 et T3. Lorsque l'arbre T1 est l'arbre vritable, on s'attend une valeur de L1 diffrente de 0 (indiquant qu'il y a des transversions sur la branche centrale reliant A et B d'une part C et D de l'autre), tandis que les deux autres invariants L2 et L3 seront tous deux gaux 0.

La recherche de larbre le plus court

137

Les rgles de dcisions en faveur d'un arbre sont donc : T1 si L1 >0 et L2=L3=0 T2 si L2>0 et L1 =L3=0 T3 si L3>0 et L1 =L2=0 Comme l'chantillon de sites observs dans une telle comparaison entre quatre UE est ncessairement limit, se pose le problme de la signification statistique de ces galits et ingalits zro. Il est possible d'effectuer un 2 (Lake, 1987a) ou un test binomial exact (Holmquist et al., 1988). Dans le cas de la structure T1 par exemple, ce dernier test consiste comparer n+ = n(1133) + n(1234) et n = n(1233) n(1134), qui doivent tre gaux. On calcule donc la probabilit pour que n+/( n+ + n- ) soit diffrent de 1/2 un seuil donn. Comme on l'a vu, cette mthode des invariants de Lake repose sur l'ide que seules les transversions sont pertinentes pour reconstruire une phylognie. Ce point peut tre discut, particulirement lorsque l'on s'intresse la phylognie d'UE qui se sont diffrencies depuis peu (12 14 millions dannes) et pour lesquelles le nombre de transversions est ncessairement faible (voir l'exemple 2 o l'on n'observe que 6 transversions significatives sur plus de 10000 sites, pour la phylognie des Primates). Dans de telles conditions, les substitutions de nuclotides de type transition ne sont certainement pas dpourvues d'information phylogntique et ne doivent donc pas tre ngliges. Pour tre valable, cette mthode des invariants suppose galement que les diffrentes transitions sont quivalentes, tout comme le sont les diffrentes transversions. Ce point reste galement discutable. Enfin cette mthode, comme bien d'autres d'ailleurs, ne prend pas en compte les dltions ni les insertions qui, dans bien des cas pourtant, peuvent tre dterminantes dans la reconstruction phylogntique. En revanche elle ne ncessite pas, la diffrence des invariants de Cavender, de faire l'hypothse que les vitesses d'volution soient les mmes pour tous les sites. Par ailleurs cette mthode permet galement d'effectuer des estimations des longueurs de branches en comptant les vnements qui s'y sont produits (Lake, 1987b). Cette application particulire de la mthode de Lake ne sera pas dveloppe ici. On peut en trouver un exemple dans Holmquist et al. (1988) sur la phylognie des Primates. Exemple 1 Les squences d'une portion de l'ADN ribosomique 28S ont t compares chez 4 espces : La souris (Mus musculus), le riz (Oryza sativa), un champignon (Saccharomyces cerevisiae) et un procaryote (Escherichia coli). Ces squences ont t alignes en mme temps que 16 autres squences d'autres espces (Baroin et al., 1988). T1 = (M. musculus,O. sativa) (S. cerevisiae,E. coli) L1 = 5 ; P = 0.09 T2 = (M. musculus,S. cerevisiae) (O. sativa,E. coli) L2 = 2 ; P = 0.38 T3 = (M. musculus,E. coli) (O. sativa,S. cerevisiae) L3 = 8 ; P = 0.99

Les invariants

138

A partir de ces donnes, le choix entre les diffrentes structures n'est donc pas possible. Si l'on acceptait cependant un risque de se tromper de 9%, on pourrait conclure la structure T1. Exemple 2 Les squences nuclotidiques de la globine (Miyamoto et al., 1987) (6901 sites), d'une rgion entre la globine et la globine (Maeda et al., 1988) (3145 sites) et de l'ADN mitochondrial (Brown et al., 1982) (893 sites) ont t analyses par la mthode des invariants de Lake par Holmquist et al. (1988). Aucune squence n'est elle seule dcisive (au seuil de 5%) dans le choix d'un arbre. Seul le cumul des donnes permet d'atteindre un seuil de signification raisonnable. Dans la figure V.32, les nombres sous chaque arbre sont les valeurs des invariants (P<0.03 d'erreur en rejetant l'hypothse T1).
Homo Gorilla Homo Pan Homo Pan

Pan T1 sites 6901 3145 893 10939 Myamoto et al. (1987) Maeda et al. (1988) Brown et al. (1982 Tous

Pongo

Gorilla Pongo T2 0 1 1 0

Pongo Gorilla T3 0 0 0 0

3 0 3 6 P<0.03)

FIGURE V.32. Application de la mthode des invariants de Lake diverses squences nuclotidiques chez les hominodes (Holmquist et al. 1988).

6. L'volution est-elle parcimonieuse ?


La ncessit logique du principe de parcimonie consiste ne pas envisager plus de changements volutifs qu'il n'est ncessaire pour construire une hypothse de parent. L'usage de ce principe a-t-il des implications sur l'infrence du processus volutif lui-mme ? Est-il indpendant de toute considration sur les probabilits de ces changements ? Dans un contexte phylogntique la question- titre de ce paragraphe peut tre formule autrement : les homoplasies sont-elles rares ? Si la rponse est ngative, si l'on admet que l'volution n'est pas parcimonieuse, doit-on en conclure que le principe de parcimonie nous induit en erreur ? Nous amne-t-il reconstruire des arbres et attribuer des tats de caractres aux nuds qui soient errons ? Ces questions sont la source de vives controverses. Selon Felsenstein (1978b) par exemple, l'usage des mthodes de parcimonie implique que l'on admet que l'volution est parcimonieuse : les vnements volutifs doivent tre rares et, a fortiori, les homoplasies encore plus rares. Au contraire, selon Farris (1983)

Lvolution est-elle parcimonieuse ?

139

l'application du principe de parcimonie ne renvoie aucun modle volutif particulier et n'exige pas que l'homoplasie soit rare : la mthode est juge libre de toute contrainte. Il n'existe pas de rponse simple ces questions car elles revtent plusieurs aspects. L'un concerne la signification du cladogramme, l'autre concerne la question de la dfinition d'un modle volutif. Le cladogramme peut-il tre tenu pour un arbre phylogntique sans connaissance pralable des modalits d'volution des caractres ? Selon le point de vue cladistique la rponse est positive, la condition toutefois d'admettre que toutes les observations se valent, que les caractres voluent indpendamment et d'admettre le postulat de la descendance avec modification. Selon ce postulat, l'information phylogntique (signal) est intelligible en terme d'hypothse d'homologie (synapomorphie). Toute hypothse de non-homologie (homoplasie) est une hypothse non phylogntique (bruit), une hypothse ad hoc. L'approche hypothtico-dductive vise privilgier l'information phylogntique, autrement dit minimiser le nombre des hypothses ad hoc. Cela revient maximiser le nombre des hypothses d'homologie ( leur niveau de synapomorphies). C'est sur cette opration de maximisation des synapomorphies et de minimisation des homoplasies que reposent des points de vue contradictoires. Selon certains, une seule contradiction (une seule homoplasie) rfute le systme : un cladogramme serait infirm s'il renfermait ne serait-ce qu'une homoplasie. Autrement dit, le systme phylogntique ne pourrait fonctionner qu'en l'absence totale de bruit. Cette position se retrouve, sous une forme moins catgorique, dans les mthodes de compatibilit qui recherchent l'arbre pour lequel le nombre de caractres sans homoplasie est maximal. Cela revient simplement rejeter les caractres homoplasiques, considrs comme du bruit , et ne s'intresser qu'aux autres. Mais, mme si cette approche (voir chapitre VI) rejette le bruit, elle n'en reconnat pas moins son existence. Un autre point de vue est fond sur un raisonnement probabiliste concernant le processus volutif lui-mme. Ce raisonnement consiste attribuer une probabilit aux changements d'tat des caractres. Comme dans l'approche cladistique, le partage de caractres drivs entre deux UE peut tre un signe de parent, mais peut galement survenir par hasard , la suite de deux vnements indpendants, constituant ainsi une homoplasie. Ce qui diffrencie l'approche probabiliste de l'approche cladistique dans leur recherche des parents est la faon de considrer l'homoplasie. En raison des hypothses qu'elle pose sur les probabilits de changement, l'approche probabiliste donne la possibilit d'estimer la part des caractres drivs qui peuvent tre partags par hasard par deux groupes frres de ceux qui sont partags en raison d'un anctre commun. Ce point de vue sera discut plus loin sous un autre aspect (Chapitre VIII). Si le processus volutif produit en ralit une quantit importante d'homoplasies, l'application du principe de parcimonie la maximisation des synapomorphies, c'est--dire la minimisation des homoplasies - ne nous induitelle pas en erreur ? Farris (1983) a propos un exemple devenu un cas d'cole, comment favorablement par Sober (1985, 1988) et Tassy (1991), tendant dmontrer que

Les procdures de parcimonie

140

l'application du principe de parcimonie n'implique pas que l'homoplasie soit rare. Soit l'observation de dix caractres, chacun sous deux tats (0 primitif et 1 driv) chez trois UE : A, B et C. A 1111111110 B 1111111111 C 0000000001 Le raisonnement de Farris est le suivant. La distribution des caractres 1 9 suggre l'arbre ((A,B)C). La distribution du caractre 10 suggre l'arbre (A(B,C)). L'application du principe de parcimonie permet d'opter pour le premier arbre. Il ncessite 9 transformations synapomorphiques et 2 transformations par convergence (soit 11 pas) tandis que l'arbre (A(B,C)) ncessite 1 transformation synapomorphique et 18 transformations par convergence (19 pas). L'hypothse nulle : pas de parent, implique 20 transformations par convergence (20 pas). Admettons maintenant que l'volution ne soit pas parcimonieuse en ce sens que les homoplasies ne sont pas rares. Supposons donc qu'un seul caractre, parmi les 10, prsente un tat driv partag d'origine gnalogique (c'est--dire qu'il existe une seule homologie sur 10 caractres). S'il en est ainsi, lequel des dix caractres n'est pas homoplasique ? L'homologie, son niveau de synapomorphie, a plus de chances d'tre parmi les 9 caractres drivs partags par A et B que d'tre le seul caractre partag par B et C. Autrement dit, dans une situation o l'homoplasie est frquente, le choix de l'arbre ((A,B)C) reste le meilleur pari. Ce pari correspond la solution la plus parcimonieuse. Ce raisonnement rentre dans le cadre d'une rflexion statistique sur l'chantillonnage des caractres. Or, il est possible de contourner l'argument de Farris en suivant prcisment une approche probabiliste. Telle est la dmonstration apporte par Forster (1986). Ce dernier fait remarquer, en effet, que l'on ne peut affirmer que les 9 caractres drivs partags supportant l'arbre ((A,B)C) sont tous des synapomorphies, puisque, parmi eux, peuvent se trouver des homoplasies. C'est pourquoi Forster souhaite pouvoir distinguer entre les caractres drivs partags hrits d'un anctre commun, par dfinition les synapomorphies, et les caractres drivs partags seulement par hasard , constituant donc des homoplasies (figure V.33). Pour raliser concrtement cette distinction, d'un point de vue probabiliste, on a besoin de disposer d'une estimation de la frquence des caractres drivs par taxon et de la frquence des synapomorphies entre deux taxons. Le raisonnement est le suivant. Considrons trois taxons A, B et C sur lesquels sont observs N caractres sous deux tats (0, plsiomorphe et 1, apomorphe). Soit f(A=1) et f(B=1) les frquences des caractres apomorphes respectivement chez A et B. Ces frquences sont estimes partir de l'observation des N caractres chez A et B. Cette estimation n'incorpore aucune hypothse de descendance ou d'anctre. On raisonne simplement ici en terme de caractres drivs observs dans chacune des UE tudies. Les diffrentes frquences des apomorphies chez A, B et C sont donc des paramtres propres A, B et C respectivement.

Lvolution est-elle parcimonieuse ?

141

Soit f(A=1 ; B=1) la frquence des apomorphies rencontres simultanment chez A et B. Le nombre S(A,B) d'apomorphies partages par A et B et hrites d'un anctre commun (synapomorphies) est simplement la diffrence entre le nombre total des apomorphies partages par A et B, Nf(A=1 ; B=1), et l'estimation du nombre d'apomorphies partages du seul fait du hasard, Nf(A=1)f(B=1). Ce dernier est, en effet, N fois le produit des frquences estimes des apomorphies chez A et chez B. S(A,B) = Nf(A=1; B=1) Nf(A=1)f(B=1) Autrement dit, plus les apomorphies sont frquentes dans deux UE, plus grandes sont les chances de trouver, par hasard, des apomorphies partages par ces deux UE. Pour Forster, seule S(A,B), qu'il appelle la covariance entre A et B, ncessite une cause commune , puisqu'elle est dbarrasse de toute cause alatoire . Cette cause commune est alors assimile la parent. Le meilleur arbre est videmment celui qui optimise les seules synapomorphies, c'est--dire les caractres drives partags par ascendance , et non les caractres drives partags par hasard . Dans l'esprit de Forster, c'est donc bien l'hypothse de parent que l'on cherche optimiser, mais aprs avoir pris en compte la ressemblance due des causes ou des processus alatoires. Tout ce qui ne peut s'expliquer par le hasard peut alors s'expliquer en terme de parent. Cette position est cohrente dans le contexte de l'analyse probabiliste des processus volutifs que propose Forster. En revanche, elle n'a
0 0

a
?

A=1

B=1

A=1

B=1

A=1

B=1

caractres drivs partags

caractres drivs partags par hasard (homoplasie)

caractres drivs partags par hritage (synapomorphie) + S(A,B)

f (A=1 ; B=1)

f (A=1) f(B=1)

FIGURE V.33 : Le partage par A et B de l'apomorphie 1 peut rsulter : a) de l'existence d'une homoplasie provenant de deux vnements indpendants survenant au hasard et dont la frquence peut tre estime par le produit des frquences des apomorphies chez A et B ; b) de l'hritage partir d'un anctre commun (synapomorphie).

Les procdures de parcimonie

142

videmment plus de raison d'tre si aucune probabilit ne peut raisonnablement tre attache aux transformations des caractres. Reprenons l'exemple de Farris dvelopp prcdemment. On a vu que dans son raisonnement, la frquence des apomorphies dans les diffrentes UE n'tait pas prise en compte. Or cette frquence est particulirement leve chez A comme chez B, alors qu'elle est faible chez C : f(A=1) = 0.9 ; f(B=1) = 1 ; f(C=1) = 0.1 De ce seul fait, on peut s'attendre ce que les apomorphies partages par hasard entre A et B soient galement trs frquentes, en dehors de toute hypothse de parent. En consquence, les nombres S(A,B) et S(B,C) de synapomorphies (dues au seul partage d'un tat de caractre hrit d'un anctre commun), corrigs donc des apomorphies dont le partage est d'origine homoplasique et qui surviennent au hasard , s'crivent : S(A,B) = 10(0.9 0.9x1.0) = 0 S(B,C) = 10(0.1 1.0x0.1) = 0 Cette fois, le nombre estim d'homologie (synapomorphie) ne permet pas d'effectuer un choix entre les deux arbres ((A,B),C) et ((B,C),A). Le fait que les apomorphies soient frquentes chez A et B amne contredire la solution de parcimonie. Dans ce cas, le hasard explique tout aussi bien la distribution des caractres partags que l'une et l'autre des deux hypothses de parent qui n'ont donc plus besoin d'tre poses. En rsum, on peut dire que le raisonnement de Farris conduit affirmer : n'y aurait-il qu'une seule synapomorphie entre A et B, on aurait plus de chance de la rencontrer parmi les 9 caractres partags par A et B ; tandis que le raisonnement de Forster conduit la conclusion : la synapomorphie n'a pas plus de chances d'tre l'un des 9 caractres apomorphes partags par A et B que d'tre le seul caractre partag par B et C. Pour bien comprendre la raison de la divergence entre l'approche de Forster et celle de Farris, supposons que l'on rajoute 90 caractres, tous l'tat plsiomorphes (tat 0) chez A, chez B et chez C, dans le seul but de modifier les frquences estimes des apomorphies. On a : S(A,B) = 100(0.09 0.09x0.1) = 8.1 S(B,C) = 100(0.01 0.1x0.01) = 0.9 Dans ces conditions, l'arbre ((A,B),C) est effectivement celui qui montre le plus de synapomorphies. Cependant, une fois que l'on obtient un tel rsultat, se pose la question de savoir quelles sont vritablement les caractres synapomorphes et quels sont les caractres homoplasiques ? Dans cet exemple, on peut dire que 8 caractres drivs partags entre A et B, parmi les 9, sont de vritables synapomorphies, sans que l'on sache pour autant clairement identifier les 8 caractres synapomorphes du seul caractre homoplasique. Cet exemple n'a pour but que de souligner les conditions dans lesquelles les hypothses de parent sont fondes. Il montre clairement, quand on admet que les vnements volutifs sont de nature probabiliste, que la mthode cladistique fait

Lvolution est-elle parcimonieuse ?

143

implicitement l'hypothse que les apomorphies sont rares par rapport aux plsiomorphies. De ce point de vue, l'application du principe de parcimonie implique que les changements volutifs, c'est--dire les transformations de caractres, sont rares. La mise en pratique de la dmarche de Forster comporte un point faible, celui de l'estimation des frquences d'apomorphies chez les UE. En effet, si les caractres qui ne changent pas chez tous les taxons tudis ne sont pas introduits dans la matrice de donnes pour la raison prcise qu'ils ne changent pas ce qui est le cas de la plupart des analyses morphologiques, voire molculaires lorsque ne figurent que les sites dits informatifs, l'estimation de ces frquences sera manifestement biaise. Par exemple, si l'on compare les affinits de deux marsupiaux par rapport un placentaire, il est possible de conclure l'absence de parent des deux marsupiaux si la matrice de caractres n'inclut pas les trs nombreux caractres d'amniotes non mammaliens, tous plsiomorphes pour les marsupiaux et les placentaires. Elle comporte galement un pralable, celui de l'identification des tats plsiomorphes et apomorphes des caractres. On a vu dans le chapitre IV que cette identification s'effectue sur la base du principe de parcimonie, mme dans le cas de pratiques intuitives ou d'observation directe telle l'analyse de donnes ontogniques. La dmarche de Forster ne s'effectue donc pas en dehors de ce principe. On peut aussi faire remarquer que les caractres qui changent dans une partie de l'arbre peuvent tre stables dans les autres parties de cet arbre pendant que l'inverse est observ pour d'autres caractres. Dans ce cas, la raret des changements n'a pas de valeur universelle : elle peut tre globalement vrifie pour un caractre si l'on considre l'arbre dans son ensemble, mais ne pas l'tre sur un sous-ensemble restreint de cet arbre. C'est l' volution en mosaque des volutionnistes, appele par Hennig htrobathmie des caractres , un concept de base de la dmarche cladistique. De son ct, le raisonnement probabiliste admet qu'il existe une probabilit de changement dfinie pour l'ensemble de l'arbre et que seule la ralisation de cette probabilit peut entraner des disparits locales dans les frquences observes de changement. Restons-en donc cette rponse simple la question-titre de ce chapitre. L'application du principe de parcimonie ne fournit pas de solution errone si l'volution est, effectivement, parcimonieuse, c'est--dire si les changements volutifs sont rares . La quantification de cette raret reste le fruit d'une approche empirique lie chaque cas concret offert par les analyses phylogntiques de diffrents organismes. Dans cette perspective, la perception des limites au-del desquelles les solutions de parcimonie peuvent tre errones constitue une question laquelle les modles probabilistes tentent, avec leurs propres hypothses, de donner des rponses (Chapitre VIII).

CHAPITRE VI

LA MTHODE DE COMPATIBILIT

La mthode de compatibilit repose essentiellement sur les travaux de Le Quesne (1969, 1972) et d'Estabrook et collaborateurs (Estabrook 1972, Estabrook et al., 1976, 1977). Ce sont, d'une certaine manire, des variantes des mthodes de parcimonie, en ce sens qu'elles utilisent galement le principe de parcimonie. Ce ne sont cependant pas des mthodes cladistiques au sens strict. En effet, bien qu'elles soient fondes sur le principe de congruence des caractres, les notions d'apomorphie et de plsiomorphie ne rsultent pas de l'application de la mthode de compatibilit elle-mme. On a vu au chapitre prcdent que le caractre qui nous renseigne le mieux sur la phylognie est celui qui s'est transform une seule fois au cours de l'volution : les taxons portant l'tat transform d'un tel caractre forment ensemble une communaut de descendance, autrement dit un groupe monophyltique non ambigu. Les caractres qui se transforment plusieurs fois indpendamment sont des homoplasies : ce sont eux qui brouillent l'image phylogntique. C'est par le traitement de l'homoplasie que l'analyse de compatibilit se distingue fondamentalement de l'analyse cladistique et des analyses de parcimonie dcrites prcdemment.

1. La mthode
Des caractres sont dits mutuellement compatibles quand il existe un arbre qui rende compte des changements d'tats de ces caractres sans ncessiter d'hypothses d'homoplasie. Ainsi, lorsque les caractres sont cods 0 et 1, cela signifie que l'on n'observe qu'une seule transformation par caractre dans l'arbre en question. De tels caractres sont dfinis par Le Quesne (1972) comme des caractres drivs uniques . L'ensemble des caractres mutuellement compatibles est appel une clique (Estabrook et al. , 1977). Les caractres non compatibles sont donc homoplasiques. La mthode de compatibilit consiste simplement rechercher l'arbre pour lequel la clique est la plus nombreuse. Cet arbre est construit sans caractres homoplasiques. Un exemple d Felsenstein (1984b), peine modifi ici, illustre l'approche de compatibilit (tableau VI.1). Un traitement classique de ces donnes par

La mthode de compatibilit

146

parcimonie indique un taux lev d'homoplasie. Il existe en effet pas moins de 7 arbres diffrents, chacun d'une longueur minimale de 10 pas. L'arbre de consensus-strict (figure VI.1) montre que le problme des relations de parent entre les sept taxons A-Y n'est pas rsolu avec une telle matrice de caractres. Les taxons X et Y sont choisis ici comme extra-groupes.
1 TAXONS A B C D E X Y 1 1 1 0 0 0 0 CARACTERES 2 3 4 5 6 7 1 1 0 0 0 0 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0 1 0 1 0 1 0 0 0 1 0 0 0 0 0 1 1 1 1 1 0 0

TABLEAU VI.1. Un exemple de distribution des tats de 7 caractres chez 7 taxons. A B C D E X Y

FIGURE VI.1. Arbre de consensus -strict construit partir des 7 arbres galement parcimonieux (10 pas) obtenus du tableau VI.1. Le tableau VI.2 indique les diffrentes partitions de l'ensemble de taxons que l'on peut effectuer partir de chacun des 7 caractres. Ainsi, le caractre 1 permet de regrouper les taxons A, B et C en un premier sous-ensemble, et les taxons D, E, X et Y en un autre. Le caractre 4 permet de reconnatre les sous-ensembles A, C et E d'une part et B, D, X et Y de l'autre.
ARBRE CARACTERES 1 2 3 4 5 6 7 (ABC) (DEXY) (AB) (CDEXY) (ABCXY) (DE) (ACE) (BDXY) (ACE) (BDXY) (B) (ACDEXY) (ABCDE) (XY)

TABLEAU VI.2. Les sept combinaisons de taxons dfinies par chacun des sept caractres et construites partir des distributions du tableau VI.1.

La mthode

147

Ce tableau VI.2 montre galement que les caractres 1 et 2 sont mutuellement compatibles dans le sens dfini plus haut, c'est--dire qu'ils dfinissent chacun deux sous-ensembles de taxons qui peuvent se combiner sans contradiction de telle faon que soit dfinie une partition qui est la suivante : ((A,B)C)(D,E,X,Y) et qui permet de construire un arbre, non enracin ici. De la mme faon, le caractre 3 dfinit une partition en deux sous-ensembles de taxons compatibles simultanment avec ceux dfinis par le caractre 1 et par le caractre 2. En revanche, les caractres 4 et 5 opposent les sous-ensembles (A,C,E) et (B,D). Le tableau VI.3 reprsente la matrice des caractres mutuellement compatibles. Le symbole c de ce tableau, l'intersection d'un caractre en ligne et d'un caractre en colonne, indique que ces deux caractres sont mutuellement compatibles. Le symbole . signifie qu'ils ne le sont pas.
CHARACTERES 1 2 3 4 5 6 7 1 c c c . . c c 2 c c c . . c c 3 c c c . . c c 4 . . . c c c c 5 . . . c c c c 6 c c c c c c c 7 c c c c c c c

TABLEAU VI.3. Matrice de compatibilit des caractres du tableau VI.1. Le symbole c indique que le caractre dfini en ligne et celui en colonne sont mutuellement compatibles, le symbole . qu'ils ne le sont pas. Le tableau VI.3 montre clairement que les caractres 4 et 5, qui sont compatibles entre eux, sont, en revanche, incompatibles avec les caractres 1, 2, 3, 6 et 7. De leur ct, les caractres 6 et 7 sont compatibles avec tous les autres. On est donc en prsence de deux cliques possibles : l'une comprenant les caractres 4, 5, 6 et 7 (clique I), l'autre comprenant les caractres 1, 2, 3, 6 et 7 (clique II). Puisque la mthode de compatibilit consiste retenir l'arbre qui correspond la clique la plus nombreuse, il s'agit donc dans cet exemple de l'arbre qui est dfini par les caractres de la clique II (5 caractres). Cet arbre (figure VI.2), qui est entirement rsolu la diffrence des solutions donnes par la mthode de parcimonie, ne figure pas parmi les 7 arbres les plus parcimonieux construits partir des 7 caractres. A B C D E X Y
6 2 1 7 3

FIGURE VI.2. Arbre de compatibilit obtenu partir des donnes du tableau VI.1 et VI.3 et position des changements d'tat des caractres compatibles 1, 2, 3, 6 et 7. X et Y sont les extra-groupes.

La mthode de compatibilit

148

Notons qu' une mme clique peut ne pas correspondre ncessairement un arbre unique quand les caractres ne sont pas orients (Fitch, 1975).

2. Compatibilit et parcimonie
La mthode de compatibilit peut tre considre comme une mthode utilisant le principe de parcimonie, en ce sens qu'elle retient comme arbre celui qui minimise le nombre des caractres rejets parce qu'ils sont homoplasiques. En revanche elle se distingue des mthodes de parcimonie dans la mesure o elle ne cherche pas minimiser la quantit elle-mme d'vnements homoplasiques. De ce fait elle ne permet pas de localiser les homoplasies dans l'arbre, puisque les caractres homoplasiques ne sont pas pris en considration en tant que tel. La mthode de compatibilit prsente des analogies avec la mthode de parcimonie quand cette dernire est utilise en pondrant les caractres. En effet, en parcimonie, si l'on dcide de donner aux caractres qui changent deux, trois ou quatre fois (ou plus) un poids plus faible qu' ceux qui ne changent qu'une fois, ces caractres trs variables, quoique non limins de l'analyse, auront une influence moins grande que les autres caractres dans la recherche de l'arbre le plus parcimonieux, et cela d'autant plus qu'on leur attribue un poids faible. A la limite, l'analyse de compatibilit est donc comparable une analyse de parcimonie o les caractres homoplasiques (changeant plus d'une fois) auraient un poids nul, autrement dit seraient limins de la recherche de l'arbre le plus court (Felsenstein, 1981a). Comme les logiciels d'analyse de compatibilit ne traitent pas les caractres manquants ou non observs, un moyen de contourner cette difficult, tout en restant dans la perspective de compatibilit, consiste effectuer une analyse de parcimonie, qui accepte les caractres manquants, mais attribuant une pondration trs faible aux caractres homoplasiques (Felsenstein, 1981a). Le rejet des caractres homoplasiques lors de la recherche d'un arbre phylogntique pose diffrents problmes. En effet, il peut arriver que, dans la ralit, un caractre soumis convergence ou rversion, donc un caractre homoplasique, soit nanmoins diagnostique d'un groupe monophyltique situ l'intrieur du groupe tudi. Le supprimer reviendrait donc perdre une information phylogntique utile. Par exemple, l'homothermie est classiquement considre comme une synapomorphie des oiseaux d'une part, et une synapomorphie des mammifres d'autre part. Ce caractre serait donc apparu deux fois, par convergence. Si cette distribution est correcte, le caractre serait limin d'une analyse de compatibilit parmi les amniotes. Dans le cas de la figure VI.2, les mthodes de compatibilit et de parcimonie ne donnent pas le mme rsultat. En effet, l'arbre qui est construit partir de la clique forme des cinq caractres 1, 2, 3, 6 et 7 ncessite, d'un point de vue de la mthode de parcimonie classique, 11 pas, soit un de plus que l'arbre de longueur minimal donn par la parcimonie. Dans d'autres cas, l'analyse de compatibilit donne les mmes rsultats que l'analyse de parcimonie. Il en est ainsi des donnes palontologiques de 5 proboscidiens de la figure VI.3.

Compatibilit et parcimonie

149

Extra-groupe Numidotherium Barytherium Dei./Eleph. Moeritherium

000000000000000000 111000000010100000 111000001111101000 111111111111110111 111111100001000000

FIGURE VI.3. Distribution des tats de 18 caractres chez 5 proboscidiens (d'aprs Tassy, 1988) et arbre donn par les mthodes de parcimonie (22 pas, I.C. = 0.8 ; I.R. = 0.7) et de compatibilit (clique : 1, 2, 3, 4, 5, 6, 7, 8, 12, 14, 15, 16, 17, 18). Un autre exemple peut tre tir des donnes de la phylognie de la figure V.26 dont les caractres sont dans le tableau V.10. L'analyse de compatibilit du tableau V.10 conduit construire un arbre (Figure VI.4) partir d'une clique incluant 37 caractres parmi les 49 caractres (excluant les caractres : 1, 5, 7, 12, 21, 22, 25, 26, 27, 28, 29, 38). L'enracinement de l'arbre est effectu partir des taxons m et n.

2 32 33 34 35
19 20 13 14

a b

16 18
15 17 41

3 40

c d
4

6 30 31

e f

8 23 24 39
11 9 36 37

g
h

10

i j
k

43 44 45 46
42 47 48 49

l m n

FIGURE VI.4. Arbre de compatibilit construit partir du tableau V.10. Les caractres ports sur cette figure sont ceux dfinissant une clique de 37 caractres.

La mthode de compatibilit

150

Les caractres 13 et 14 dfinissent le groupe monophyltique (b,c,d), le caractre 39 le groupe (i,j,k,l), les caractres 19 et 20 le groupe (a,b,c,d,e). Indiquons qu'il existe une clique comportant un caractre de moins (36 caractres), une clique comportant deux caractres de moins (35 caractres), une de 34 caractres, 7 cliques de 33 caractres etc. Comme on le voit sur la figure VI.4, l'arbre n'est pas entirement rsolu. Ainsi, les caractres 19 et 20 dfinissent bien le groupe (a,b,c,d,e) mais aucun caractre ne permet de prciser l'ordre de branchement de a, de e et du groupe (b,c,d). Il en est de mme pour les caractres 23 et 24 et les taxons (g,h,i,j,k,l). L'absence d'information sur la rpartition des traits homoplasiques est dommageable. En effet, l'analyse de compatibilit ne donne que la liste des caractres homoplasiques : sont homoplasiques ceux qui n'appartiennent pas la clique. Mais il n'est pas possible d'apprcier quantitativement le nombre d'vnements homoplasiques ni de donner leur rpartition sur les nuds ou les taxons terminaux. Ces informations ne peuvent tre obtenues que par une analyse de parcimonie, ou bien en ajoutant sur l'arbre de compatibilit les caractres limins lors de l'analyse tout en minimisant le nombre de leurs transformations. Dans l'exemple de la figure VI.2, c'est ce qui conduit compter 11 pas. Cette option repose nanmoins sur une contradiction : la distribution de caractres limins ne peut tre logiquement value partir d'un arbre dont la construction est conditionne par la suppression desdits caractres. Comme on l'a vu, un arbre construit en rejetant les caractres homoplasiques fournit une information appauvrie sinon errone pour toute interprtation volutive, par exemple une explication des convergences dans un contexte cologique en termes d'adaptation. La mthode de compatibilit conduisant liminer les caractres homoplasiques, elle ne peut tre invoque pour expliquer les modalits d'apparition de ces caractres. Reprenons l'exemple prcdent (Figure VI.4). Certains des caractres homoplasiques supprims par l'analyse de compatibilit dfinissent en fait des monophylies (voir figures V.26 et V.27) : par exemple le caractre 21 dfinit le groupe (f,g,h,i,j,k), en mme temps qu'il est un caractre autapomorphe de a. De mme le caractre 5 dfinit le groupe (i,j,k,l) en mme temps qu'il se trouve tre une autapomorphie de e et de d etc... Cet exemple montre bien que si des caractres homoplasiques dfinissent des groupes monophyltiques, leur suppression appauvrit donc l'information phylogntique.

3. Compatibilit et cladisme
Les concepteurs de la mthode de compatibilit et les concepteurs des procdures de parcimonie se rclament de Hennig (voir Duncan et Stuessy, 1984). Selon les uns et les autres, le fondateur de la systmatique phylogntique aurait prconis ou la compatibilit ou la parcimonie (deux termes non utiliss par Hennig). On a vu que le concept de congruence ne se conoit que dans le cadre du principe de parcimonie. Les mthodes de compatibilit font galement appel au principe de congruence : ne sont retenus que les caractres congruents, ceux qui construisent le mme arbre. Cette construction se fait nanmoins au prix

Compatibilit et cladisme

151

de l'limination des caractres non congruents, qui changent plus d'une fois. Or l'approche cladistique vise minimiser les homoplasies mais non les liminer. Les schmas thoriques dus Hennig qui illustrent des contradictions sont rares, mais ils existent. Ils sont rservs aux cas des analyses ontogniques. En fait, plutt que de rejeter les caractres incompatibles (les homoplasies), Hennig prconise le retour aux caractres afin de vrifier si les caractres drivs dus des transformations indpendantes sont vritablement les mmes caractres, ce qu'ils ne sont effectivement pas, gnalogiquement parlant. On peut en conclure qu'il y a tout au plus une analogie entre le cladisme hennigien et la mthode de compatibilit mais non une homologie.

CHAPITRE VII

LES MTHODES PHNTIQUES

Les mthodes phntiques se proposent de reconstruire des arbres en partant des ressemblances observes entre chaque paire d'units volutives (UE). Cette ressemblance est une ressemblance globale tablie partir du maximum d'observations disponibles. Ces observations doivent cependant constituer un ensemble de nature homogne, par exemple un ensemble de frquences allliques, un ensemble de caractres morphologiques cods prsents ou absents, la squence nuclotidique d'un mme gne etc. Parfois ces mthodes s'imposent quand seule la ressemblance globale est directement apprhende (degr d'hybridation d'ADN entre deux UE par exemple). Pour ces mthodes, plus la ressemblance globale entre deux UE est importante, plus leurs liens de parent sont troits. Puisque c'est la ressemblance globale qui est en cause, il est clair que la parent est fonde sut tous les caractres, non seulement les synapomorphies, mais aussi les caractres plsiomorphes, autapomorphes et homoplasiques. Ce point important distingue les mthodes phntiques des autres mthodes. Il sera donc abondamment discut. Dans ce chapitre, aprs une brve introduction retraant l'historique de ces mthodes, le concept de distance sera discut. C'est lui qui permet en effet de quantifier la ressemblance globale. On insistera tout particulirement sur les proprits des distances qui sont essentielles dans la perspective phylogntique (additivit, mtricit). Trois mthodes principales seront ensuite voques : les mthodes d'agglomration qui se proposent de rapprocher les unes des autres les UE, en partant des plus ressemblantes pour aller jusqu'aux moins ressemblantes ; les mthodes d'ajustement qui recherchent l'arbre et les longueurs de branches qui expliquent au mieux l'ensemble des ressemblances existant entre toutes les UE prises deux deux ; les mthodes de parcimonie qui recherchent un arbre dont la somme des longueurs de branches serait la plus faible. Les mthodes de vraisemblance qui analysent des matrices de ressemblance entre UE prises deux deux seront traites part dans le chapitre VIII propos des mthodes probabilistes. Parmi toutes ces mthodes, on peut distinguer celles qui rsultent de l'utilisation d'une certaine procdure algorithmique (comme par exemple la mthode dite UPGMA) de celles qui recherchent, par optimisation d'un certain critre, l'arbre qui ajuste au mieux les donnes de la matrice de distance (mthodes d'ajustement). Cette distinction reste cependant assez arbitraire dans la mesure o certaines mthodes procdent la fois de l'une et de l'autre de ces approches (comme la mthode du plus proche voisin ou neighbor joining). Une

Les mthodes phntiques

154

conclusion dveloppera enfin les problmes et les limites de ces mthodes, particulirement lis la gestion de l'homoplasie et l'enracinement de l'arbre.

1. Historique
Rappelons brivement le contexte dans lequel se sont labores les mthodes phntiques de construction d'arbre. Elles trouvent leur origine dans les mthodes de la taxinomie numrique conues ds 1957 par C. D. Michener et R. R. Sokal. Au cours des annes soixante, ces mthodes dites phntiques ou numriques s'opposrent aux pratiques de systmatiques de l'cole volutionniste dont les chefs de file taient le zoologiste E. Mayr et le palontologue G. G. Simpson en ce sens qu'elles se voulaient libres de toute spculation phylogntique. Les techniques employes sont d'abord des techniques de classification d'organismes sur la base de la similitude globale. Ce n'est qu'accessoirement, l'aide d'autres critres, que des infrences phylogntiques peuvent tre tires des taxons ainsi construits. Les concepts de base et les mthodes de la systmatique phntique sont clairement prsents dans le premier chapitre de la nouvelle dition de Numerical Taxonomy par Sneath et Sokal (1973: 3-10) : les relations entre taxons fondes sur la similitude globale sont des relations phntiques ( phenetic relationships de Cain et Harrison, 1960) et non des relations phylogntiques ; plus grand est le nombre de caractres tudis meilleure sera la classification des taxons ainsi construits ; les caractres ont a priori le mme poids, bien qu'une pondration puisse parfois s'effectuer sur la base de critres oprationnels ; la ressemblance est calcule entre chaque paire d'units taxinomiques et s'exprime par des coefficients de similitude qui forment les lments d'une matrice de similitude ; la restitution des relations taxinomiques s'effectue partir de la matrice de similitude au moyen de techniques numriques varies (cluster analysis) ; la reprsentation de la construction taxinomique peut se faire au moyen de schmas (les phnogrammes) indiquant les relations phntiques ; les infrences phylogntiques s'effectuent en dernier en intgrant des hypothses sur l'histoire et sur les mcanismes volutifs ; les mesures de similitude phntique entre les organismes appartenant diffrentes poques gologiques fournissent une information objective sur la vitesse et la direction de l'volution. L'approche phntique de la phylognie n'est donc pas comparable l'approche cladistique fonde sur l'analyse de parcimonie des caractres, mme si la reconstruction de l'arbre phylogntique partir des donnes de la matrice de similitude ncessite gnralement une procdure de minimisation. Le phnogramme exprime des degrs de similitude : ce n'est pas un cladogramme. Nous croyons, crivent nanmoins Sneath et Sokal (1973 : 313) que les phylognies sont dduites ncessairement des relations phntiques . Les infrences phylogntiques sont subordonnes aux relations phntiques, elles-

Similitude et distance

155

mme fondes sur la similitude globale, et non l'analyse des caractres au sens hennigien du terme : l'arrangement des tats de caractres dans une squence volutive est, au mieux, une procdure difficile et, au pire, peut tre grossirement trompeuse (Sneath et Sokal, 1973 : 320). Que la problmatique phntique soit trangre la problmatique phylogntique ne fait aucun doute dans l'esprit de Sneath et Sokal. Ces derniers soulignent d'ailleurs que le principe de base des taxinomistes numriques est la stricte sparation entre les spculations phylogntiques et les procdures taxinomiques . Ils affirment ailleurs qu' on ne devrait pas demander un systmaticien de tenir une classification phntique pour une vritable phylognie des organismes. Mais on devrait lui demander de la tenir pour une classification phntique (1973 : 420). Ils concluent, en rpondant une critique du cladiste amricain J. Cracraft, qu' l'vidence une approche non-volutionniste n'a pas besoin de donner une image correcte des vnements du pass (1973 : 420). Pourquoi donc introduire des mthodes phntiques dans un ouvrage consacr aux reconstructions phylogntiques ? La rponse est triple. D'abord il est frquent de rencontrer dans la littrature phylogntique des phnogrammes interprts comme des phylognies. Ensuite, et surtout, des constructions phntiques peuvent tre assimiles des arbres phylogntiques la condition qu'un certain nombre d'hypothses soient poses, hypothses concernant les processus volutifs des caractres. Les mthodes phntiques sont donc des mthodes dont la nature phylogntique n'apparat qu' la condition d'y introduire des hypothses volutives extrinsques, de telle manire que la similitude globale puisse tre interprte en termes de filiation. Enfin certaines sources d'information (donnes immunologiques, hybridation d'ADN) ne peuvent tre interprtes qu'au moyen de mthodes phntiques.

2. Similitude et distance
Le concept de base des mthodes phntiques est celui de similitude globale : plus la ressemblance entre deux UE est importante, plus la parent entre elles a des chances d'tre proche. La ressemblance s'tablit partir d'informations biologiques de nature trs varie : alternative : prsence ou absence de particularits morphologiques ou gntiques ; qualitative : squences d'acides amins ou d'acides nucliques, tats multiples de caractres morphologiques ; il est parfois possible, comme on l'a vu au chapitre V.2, de transformer ce type de donnes qualitatives en donnes alternatives ; quantitative : frquences gniques, gnotypiques ou phnotypiques, mesures morphomtriques, etc. Par ailleurs la similitude entre deux UE i et j, ij, peut tre obtenue partir de l'observation d'une seule variable, comme le degr d'hybridation entre leurs ADN respectifs par exemple. Cette variable rsume directement la proportion d'identit

Les mthodes phntiques

156

entre les ADN de deux UE. Notons que, dans cette situation, les mthodes phntiques de reconstruction sont les seules envisageables. La similitude peut galement rsulter de la prise en compte simultane de nombreuses variables, par exemple un ensemble de frquences allliques ou de donnes morphomtriques. Dans ce cas, l'indicateur de la similitude, ij, est une certaine combinaison de ces variables.

2.1. La notion de similitude et de distance


La notion de distance dcoule naturellement de celle de similitude : plus la similitude ij entre deux UE i et j est forte, plus la distance ij entre elles est faible. Les distances sont dfinies de la faon suivante. Soit trois UE i, j et k. La distance ij entre i et j obit aux proprits suivantes : ij > 0 si i j (positivit) ; ij = 0 si i = j (la distance de l'UE elle-mme est nulle) ; (commutativit). ij = ji On admettra aisment qu'une distance soit un nombre positif. Certaines distances sont bornes 1, d'autres peuvent aller jusqu' l'infini. Ces distances peuvent avoir une proprit dite de l'ingalit triangulaire : ij ik + jk L'ingalit triangulaire signifie simplement qu'il est plus court de passer directement de i j que de passer par un intermdiaire k. Les distances rpondant cette dfinition sont dites distances mtriques. Lorsque, de plus : ij max(ik , jk ) la distance est dite ultra-mtrique. Cela signifie que les deux plus grandes distances sont gales. Donc : ik = jk, ou ij = ik ou ij = jk. En revanche la stricte galit ij = ik + jk signifie que la plus courte distance pour aller de i j passe ncessairement par k. On parle alors de distance additive. On peut rsumer ces diffrentes proprits partir du schma suivant, en les appliquant une situation d'arbre qui sera celle rencontre dans cet ouvrage : k i k

Similitude et distance

157

la mtricit signifie qu'il est plus court de passer de i j directement (en tirets) que de passer par k ; l'ultra-mtricit signifie que la distance entre i et k d'une part et j et k de l'autre sont gales (comme sur le schma de droite) ; l'additivit signifie que la distance entre i et j est gale la somme des distances reliant i k et k j. Il existe deux faons de situer deux UE l'une par rapport l'autre : la similitude, ij, et la distance ij. Quand la distance augmente, la similitude diminue. La relation entre ces deux indicateurs peut prendre diffrentes formes, par exemple : ij = 1 ij (0 ij 1) ; ij = (1 ij) /ij (0 ij 1) ; ij = Ln( - ij), , et tant des constantes (0 ij ). Les formes algbriques et les proprits des diffrents indices de similitude ou de distance sont extrmement varies. Elles ne seront pas dtailles ici de faon exhaustive. Pour cela voir Sokal et Sneath (1963), Jacquard (1973), Smith (1977), Rao (1980), Lalouel (1980), Jorde (1985), Gregorius (1978). Les quelques indices donns ici titre d'exemple se classent en deux catgories : les indices fonds sur des attributs ou des donnes qualitatives et les indices fonds sur des donnes quantitatives. D'une faon gnrale et quelle que soit la formulation retenue pour le calcul de la distance, la totalit de l'information est contenue dans une matrice carre symtrique, dite matrice de distances, o figure l'ensemble des distances entre UE prises deux deux, les valeurs de la diagonale tant nulles.

2 .2. Indices de similitude et de distance fonds sur des attributs


Considrons un caractre pouvant se prsenter sous les tats distincts a, b, c, ...,h..., s et deux UE i et j. Les tats de ce caractre peuvent tre concordants chez l'UE i et l'UE j. Cet tat est alors l'un des s tats possibles. Mais ils peuvent aussi tre discordants : il existe s2 s diffrentes combinaisons possibles de discordances. Lorsque l'on observe chez i et j un ensemble de K caractres pouvant tous se prsenter sous les mmes s tats possibles, on peut comptabiliser combien de fois se rencontre chacune des combinaisons d'tats possibles de ces caractres chez i et j. C'est ce que reprsente le tableau VII.1 o la somme des occurrences : naa+nab+nac+ ...+nah+...nas+nba+...+ nbs+... +nss = K Par exemple, dans des comparaisons de gnes, on peut tre amen considrer plusieurs situations : 1) 20 tats correspondant aux 20 acides amins (s = 20) ; 2) 4 tats correspondant aux quatre bases (A, T ou U, C, G) (s = 4) ;

Les mthodes phntiques

158

3) 2 tats correspondant aux 2 types de bases : purique, pyrimidique (s = 2) ;


UE j a a b c . . . UE i h . . . s nsa nsb nsc nsh nss nha nhb nhc nhh nhs naa nba nca b nab nbb ncb c nac nbc ncc ... h nah nbh nch ... s nas nbs ncs

TABLEAU VII.1. Distribution des combinaisons des s tats diffrents d'un caractre entre deux UE i et j, observe sur un ensemble de K caractres. nhc signifie que l'on observe nhc caractres dans l'tat h chez l'UEi et dans l'tat c chez l'UE j. La somme des valeurs n de ce tableau est gal K Dans chacune de ces situations, un tat supplmentaire peut tre ajout pour rendre compte des gaps (ou indels : insertions et dltions). Pour un caractre morphologique, les tats peuvent tre : la prsence ou l'absence de ce caractre (s = 2); la prsence sous l'tat ancestral ou sous l'tat driv (s = 2). Il parat difficile d'envisager des cas plus complexes. En effet il est rare que plusieurs caractres morphologiques puissent tre prsents sous des tats dont la nature et/ou le nombre soient comparables d'un caractre un autre. Par exemple il n'y a pas de comparaison faire entre les tats observs sur un radius (rduction ou non de l'apophyse stylode) et sur un fmur (prsence ou non d'un troisime trochanter). 2.2.1. Caractres o deux tats seulement sont compars Les deux tats peuvent tre la prsence ou l'absence du caractre (cod 0 et 1 par exemple) ou sa prsence sous deux formes distinctes (a et b). K est le nombre de caractres. On se borne calculer les effectifs naa, nab, nba, nbb du tableau VII.1. Le cas plus complexe o les caractres prsentent plus de 2 tats peut, bien souvent, se ramener la situation simple 2 tats, lorsque, par exemple, on ne s'intresse qu' la concordance ou la discordance entre les tats de caractres de

Similitude et distance

159

deux UE : seuls sont dcompts le nombre de caractres concordants et le nombre de caractres discordants, sans se proccuper de la nature de ces caractres. Les similitudes et les distances observes seront notes sij et dij respectivement. L'indice de similitude de Jaccard (1908) :
s ij = n bb K n aa

La prsence conjointe de l'un des deux tats (a par exemple) chez i et j est considre comme non informative. Il peut s'agir, par exemple, de l'absence partage du caractre chez i et j. L'indice de concordance simple de Sokal et Michener (1958) : n n sij = aa + bb K L'indice de similitude est ici la proportion de caractres qui sont dans le mme tat la fois chez i et chez j. Une transformation de cette similitude en distance dij = 1 sij est souvent effectue pour obtenir l'indice de divergence entre deux squences de protines ou de nuclotides : dij est alors la proportion de sites (acides amins ou nuclotides) dont les tats sont diffrents entre les squences de i et de j. Une autre transformation est possible, lorsqu'il y a deux tats possibles (a et b) par caractre et que la probabilit de changement du caractre est indpendante du sens de ce changement (c'est--dire qu'elle est identique pour une transformation de a vers b et pour une transformation de b vers a). Dans ce cas, la similitude peut tre transforme en distance de la faon suivant (voir paragraphe VII.3.2.2) : dij = 1 ln 1 2(1 s ij) 4

Cette distance suppose que sij est suprieur 0.5, c'est--dire que les caractres discordants sont moins nombreux que les caractres concordants. La distance de Jukes et Cantor (1969) : Lorsqu'un caractre peut se prsenter sous quatre tats diffrents (les quatre acides nucliques par exemple) et que les probabilits de changement d'tat sont toutes gales entre elles, l'indice de concordance sij de Sokal et Michener dfini plus haut peut tre transform en distance, en suivant pour cela un raisonnement analogue celui dcrit paragraphe VII.3.2.2 : dij = 3 4 ln 1 (1 sij) 4 3

Les mthodes phntiques

160

Il est ncessaire que sij soit suprieur 0.25. La distance Manhattan :


d ij = K n aa+ n bb

Cette distance est nulle lorsque la concordance est totale entre les tats de caractres observs chez i et chez j. Sa valeur maximale, K, s'obtient lorsque tous les caractres sont discordants entre i et j. Elle correspond donc au nombre de changements d'tats qui est ncessaire pour passer de l'UE i l'UE j. Il s'agit d'une distance mtrique et additive. 2.2.2. Caractres o plusieurs tats sont compars L'indice de la diffrence symtrique (Renyi, 1966; Jacquard, 1973)

dij =

h=1

h pih (1 pih ) + pjh (1 pjh )

h h=1

La distance entre deux UE i et j est la probabilit pour qu'un tat choisi au hasard soit prsent chez i et absent chez j ou rciproquement. Une pondration h peut tre affecte chacun des s tats. Les probabilits peuvent tre remplaces par les frquences d'occurrence des diffrents tats : pih = nih/K. L'indice de divergence molculaire : dij = ts + tv + id K + id Dans le cas de comparaisons de squences de nuclotides, la divergence entre i et j peut tre calcule comme la somme relative des divergences dues des transitions (ts), des transversions (tv) et des insertions/dltions (indels : id). K est ici le nombre total de sites. L'indice de Kimura (1980) : dij = 1 ln (1 2P Q) (1 2Q) 2

o P et Q sont respectivement les frquences des transitions et des transversions entre les deux squences i et j d'ADN ou d'ARN homologues. Dans cette formule, les sites o l'on observe des insertions/dltions ( indels ) ne sont pas comptabiliss.

Similitude et distance

161

2.3. Indices de distances fondes sur des donnes quantitatives


Les donnes quantitatives peuvent tre, par exemple, des mensurations de caractres morphologiques ou bien des frquences allliques. Dans ces cas, chaque UE i se dfinit gnralement par le vecteur Xi constitu des moyennes des K caractres mesurs. Si ces caractres ne sont pas indpendants, il est galement possible de calculer leur matrice de variance-covariance S. La distance de Mahalanobis (1936) :
2 dij = (X i X j ) 'S -1 (X i X j )

Xi et Xj sont les vecteurs des moyennes des K caractres chez i et j, S est la matrice de variance-covariance entre ces caractres. Cette distance tient compte des corrlations pouvant exister entre les caractres. Lorsque la matrice de covariance est une matrice diagonale, on obtient la distance euclidienne pondre : d2 = (xih x jh)2/s hh ij
h=1 K

avec xih la valeur du caractre h dans l'UE i et shh la variance du caractre h. Lorsque les lments de la diagonale sont, de plus, gaux 1 (shh = 1 pour tout h), on retrouve la distance euclidienne simple. d2 = (xih xjh)2 ij
h=1 K

Dans tous les cas, on peut aussi bien utiliser cette distance, qui est mtrique, que sa racine carr dij. L'estimation de la matrice des covariances entre caractres pose un problme. En effet on ne peut utiliser une standardisation partir des covariances entre taxons, puisque la reconstruction est justement fonde sur l'interprtation des covariations en terme de parent. Les supprimer reviendrait jeter le bb avec l'eau du bain. La matrice de covariances doit donc tre estime partir d'observations effectues l'intrieur des UE. Il reste ncessaire de s'assurer que les matrices de covariances intra-taxons obtenues pour chaque UE ne sont pas significativement diffrentes les unes des autres. Les donnes quantitatives peuvent galement se prsenter sous forme de frquences. Chaque UE est alors dfinie par un vecteur de frquences. Ces dernires prsentent la particularit d'tre comprises entre les bornes 0 et 1. La distance de Cavalli-Sforza et Edwards (1967) : d2 = ij 1 K 2 cos 1 K 1

h =1

xihx jh

Les mthodes phntiques

162

xih est la frquence de l'allle h, parmi les s allles possibles en un locus donn, dans l'UE i. Cette distance est calcule partir de l'ensemble des allles prsents en chacun des K loci considrs. La transformation angulaire a pour but de rendre la variance des frquences transformes indpendante de la frquence elle-mme. L'hypothse est faite que les frquences allliques varient exclusivement de manire alatoire (drive gnique). Dans ces conditions la distance est fonction du temps exprim en nombre de gnrations sparant i et j de leur anctre commun, mais aussi des variations des effectifs efficaces des populations i et j depuis cet anctre commun. Lorsque les frquences allliques sont corrles entre elles, on peut appliquer la distance dfinie par Balakrishnan et Sanghvi (1968). La distance de Nei (1972) :
K s


dij = ln

1 h= 1 s

xihx jh

1 h= 1

2 x ih

1 h=1

x jh

Les notations sont identiques celles utilises pour la distance prcdente. Les sommes arithmtiques sur les K loci peuvent tre remplaces par des produits gomtriques (Nei, 1972). Comme l'ont observ de nombreux auteurs, les distances de Nei ne sont pas mtriques (Farris, 1981). Cette distance dij mesure l'accumulation de diffrences allliques par locus. Si le taux de substitution gnique est constant par unit de temps, alors la distance de Nei varie linairement avec le temps de divergence entre l'UE i et l'UE j. La distance de Czekanowski (1909) : dij = 1 K
K

h=1 1

1 s

x ih - xjh

Cette distance est la transposition de la distance Manhattan dcrite plus haut propos des caractres qualitatifs. La prsentation qui en est faite ici s'applique des frquences gniques (K systmes ayant s allles). Cette distance a t reprise et gnralise par Sanchez-Mazas et al. (1986) sous le terme de PIG , percentage of isoactive genes. Autres distances et comparaisons entre elles Sur le thme particulier des distances, qui n'est pas le propos de ce livre, la littrature est particulirement abondante. On consultera avec profit les articles ou ouvrages suivants : Nei (1987), Felsenstein (1985), Jacquard (1973), Gregorius (1978), Rao (1980), Smith (1977), Lalouel (1980), Jorde (1985).

Distances patristique, observe, estime

163

3. Distances patristique, observe, estime


Dans ce chapitre, il sera fait uniquement rfrence aux matrices de distance D = {dij} dont l'lment dij reprsente la distance entre l'UE i et l'UE j. La transformation de la similitude globale en distance se fait par l'une des mthodes prcises plus haut (paragraphe 2.1).

3.1.Distance patristique ou phyltique


Considrons l'exemple simple de trois UE (l'anctre k et ses deux UE filles i et j) et d'un seul caractre pouvant prendre trois tats non additifs : a, b et c. L'anctre k est dans l'tat a. La distribution des caractres chez i et j peut se prsenter sous quatre types diffrents en raison de la nature et de la localisation des transformations (a b ou a c) : I : transformation entre k et i ; II : transformation entre k et j ; III : transformations identiques entre k et i d'une part et k et j de l'autre ; IV : transformations diffrentes entre k et i d'une part et k et j de l'autre. (Le cas o i, j et k sont sous le mme tat n'est pas reprsent).

TYPES :

II fj k(a)

III hij k(a)

IV gij k(a)

FREQUENCES : fi k(a)

i(b) DISTANCES : patristique observe

j(a) i(a)

j(b)

i(b)

j(b) i(b)

j(c)

pij = 1 dij = 1

pij = 1 dij = 1

pij = 2 dij = 0

pij = 2 dij = 1

FIGURE VII.1. Diffrents types de changements survenant entre les tats de caractres de 2 UE et de leur anctre. Les distances patristique et observe diffrent selon les types.

Les mthodes phntiques

164

La distance patristique (Farris, 1967) dite aussi distance phyltique (Fitch, 1984) entre i et j est donne par la somme des vnements de type changement d'tat survenus entre k et i d'une part, k et j de l'autre. Il faut noter que Nei (1987) ne donne pas la mme dfinition de la distance patristique. Pour lui, il s'agit en fait d'une distance estime (voir plus loin). Si, dans un ensemble de K caractres, les types de diffrences observables entre i et j sont dans les proportions indiques sur la figure VII.1 (fi, fj, hij, gij), alors la distance patristique pij, sachant que l'tat de l'anctre est a, est : pij = K(fi + fj + 2hij + 2gij) Dans cette formulation, une proportion avec un indice simple (fi et fj) indique l'existence d'un seul changement (soit vers i, soit vers j), tandis qu'un indice double indique une homoplasie (hij) ou un double changement (gj). La distance patristique est une distance mtrique puisqu'elle satisfait l'ingalit triangulaire. Il s'agit galement d'une distance additive puisque la distance patristique entre deux UE est strictement gale (et non pas seulement infrieure) la somme des distances reliant i j en passant par toutes les UE intermdiaires (dans l'exemple prcdent k seulement). Par ailleurs, elle ne dpend que des transformations survenant le long des branches. La distance patristique est, de toute vidence, celle qui intresse le phylognticien, puisque c'est elle qui informe sur le nombre vritable d'vnements survenant entre deux UE et leur anctre. La difficult vient de ce que de telles transformations ne sont pas accessibles l'observation. Elles doivent donc tre dduites partir des tats de caractres observs sur les UE. Cette infrence se fait ncessairement sur la base de modles incluant, de manire implicite ou explicite, des hypothses sur les processus volutifs eux-mmes. Le but est d'obtenir les meilleures estimations possibles de ces distances patristiques ou phyltiques, pour toutes les branches. Il faut noter que la distance patristique n'est dfinissable qu' la condition de pouvoir donner une signification prcise aux vnements modifiant les caractres, c'est--dire la condition que les transformations de caractres soient assimiles des vnements volutifs identifiables qualitativement. Une telle signification n'est pas toujours vidente, particulirement lorsqu'il s'agit d'vnements se traduisant par des variations continues de caractres, des modifications de frquences gniques par exemple.

3.2. La distance observe


La distance observe dij entre deux UE est celle donne par l'application d'une certaine fonction aux donnes observes sur i et j. Quelques-unes de ces fonctions ont t dcrites dans le paragraphe prcdent (VII.2). Dans un premier temps, le problme des relations entre distance observe et distance patristique sera pos, partir d'exemples simples. Puis, dans un deuxime temps, on montrera comment on peut tenter de rsoudre ce problme, en faisant appel des modles d'volution de caractres.

Distances patristique, observe, estime

165

3.2.1. Distance patristique et distance observe Reprenons l'exemple de la figure VII.1, en supposant que l'tat de l'anctre k est connu. Choisissons dans cet exemple la distance Manhattan : la distance observe, pour un caractre donn, est gale 1 lorsque i et j sont dans des tats diffrents et gale 0 dans le cas inverse. Ainsi, dans la situation III de la figure VII.1, la distance observe entre i et j est nulle puisque les deux UE sont dans l'tat b. Appliquant le principe de parcimonie, on en dduirait, faussement, que l'anctre k est, lui aussi, dans l'tat b. En revanche, dans la situation IV o i et j sont dans deux tats diffrents, la distance observe est gale 1, alors que la distance relle est de 2. Par ailleurs, en appliquant toujours le principe de parcimonie, c'est l'tat b ou c qui serait, de manire errone, attribu l'anctre k. La distance dij observe sur l'ensemble des K caractres est donc gale la somme des distances observes sur chacun d'eux : dij = K(fi + fj + gij) = pij Ainsi la distance observe est-elle une sous-estimation de la distance patristique. Plusieurs vnements, qui ont pu ventuellement se produire, ne sont en effet pas pris en considration dans son calcul : les deux changements d'tat survenant entre k et i et entre k et j dans la situation III et l'un de ceux survenant dans la situation IV.
k(a) (b)
pij = 2 pij = 2 dij = 0

k(a) (b)

k(a) (b)

pij = 4

i(a) dij = 0 j(a) Rversion i l k(a)

j(b) i(b) i(a) dij = 1 j(c) Convergence Convergence et rversion k(a) (b)

(a)
pij = 2 pij = 3 dij = 1 i(b) j(a) Rversions multiples

i(b) dij = 1 j(c) Changements multiples

FIGURE VII.2 Exemples de l'effet des convergences, des rversions simples et multiples et des changements multiples sur les distances observes et phyltiques.

Les mthodes phntiques

166

La figure VII.2 reprend ces diffrents changements : rversion simple, rversions multiples, convergence, changements multiples. Ils ne sont pas exclusifs les uns des autres et peuvent videmment se combiner. De ce fait, on conoit aisment que plusieurs types d'vnements puissent rester dissimuls l'observation. Par ailleurs, il est clair que la distance observe ne donne une bonne approximation de la distance patristique que lorsque les homoplasies et les changements multiples sont rares, c'est--dire lorsque les frquences hij et gij sont ngligeables par rapport fi et fj ; quand elles sont nulles, on a dij = pij. 3.2.2. Correction des distances observes Plusieurs fonctions peuvent tre mises en application pour tenter de prendre en compte tous les vnements survenant le long des branches mais cachs l'observation. Leur finalit est de trouver une relation entre distance patristique et distance observe. Toutes ces fonctions ncessitent des hypothses sur les probabilits des vnements et/ou leur occurrence en fonction du temps. Du bienfond de ces hypothses volutives, parfois difficile dmontrer, et des proprits de la distance utilise (en particulier mtricit et additivit) dpend la qualit de l'infrence des distances patristiques partir des distances observes. Un exemple simple de correction peut tre donn partir de la distance dduite de l'indice de similitude de Sokal et Michener (paragraphe 2.2.1). Supposons que la probabilit d'observer une diffrence d'tat entre k et i soit gale . Soit f la probabilit a priori pour que k soit dans l'tat a et (1 f) dans l'tat b. La probabilit d'observer simultanment l'tat a chez i et chez j est calcule ainsi : Ou bien l'anctre k est dans l'tat a (probabilit f). Alors il ne faut pas observer de changements entre k et i d'une part (probabilit 1 ) ni entre k et j (probabilit 1 ). Ou bien l'anctre est dans l'tat b (probabilit 1 f). Dans ce cas il faut observer indpendamment une diffrence entre k et i (probabilit ) et entre k et j (probabilit ). D'o : paa = f(1 )2 + (1 f) 2 et, par un raisonnement analogue : pbb = (1 f)(1 )2 + f 2 De mme la probabilit d'observer l'tat a chez i et l'tat b chez j (ou l'inverse) est donne par : pab = pba = (1 ) Ces probabilits paa, pbb, pab et pba peuvent tre estimes par les diverses frquences de combinaisons des deux tats a et b entre i et j, ces combinaisons tant observes sur un ensemble de K caractres suivant tous la mme probabilit de changement f. On a donc :

Distances patristique, observe, estime

167

paa = naa/K ; pab = nab/K ; pbb = nbb/K ; pba = nba/K Si la probabilit m de changement de a en b par unit de temps est constante, alors la probabilit p(r) d'observer r changements d'tats dans le temps t est donne par : (mt) r mt p(r) = e r! Dans ces conditions, , la probabilit pour que k et i soient dans deux tats diffrents, est gale la somme : = p(1) + p(3) + p(5) + p(7) + ... = (1+e 2mt)/2 Il s'ensuit que la distance dij s'crit : dij = nab + nba = 2 (1 ) = 1 (1 e 4mt ) K 2 d'o la valeur de la distance corrige d'ij : d'ij = 2mt = 1 ln 1 2dij 2

On prendra donc pour nouvelle distance entre i et j la valeur 2mt, fonction de dij, qui est proportionnelle au temps et tient cette fois compte des vnements multiples survenant selon un processus alatoire le long des branches menant de i et j leur anctre commun. Cette distance corrige, d'ij, n'est dfinie qu' la condition que dij = 0.5, c'est--dire que le nombre de discordances entre i et j soit infrieur au nombre de concordances. Cet exemple peut tre gnralis au cas de transformations entre plusieurs tats, par exemple les transformations entre les quatre bases de l'ADN ou de l'ARN, avec des probabilits diffrentes pour passer d'un tat un autre. Telles sont les distances de Jukes et Cantor (1969), Kimura et Ohta (1972), Tajima et Nei (1984). D'une faon gnrale on peut crire que la distance corrige d'ij s'crit: d d'ij = 2mt = b ln 1 2 ij b o b est la valeur attendue de dij aprs un long temps d'volution, indpendante de i et j. La distance dij est la proportion de caractres discordants entre l'UE i et l'UE j estime sur K caractres. La valeur de b dpend de la nature des squences. La variance de d'ij est gale :
' V (dij )=

b 2 dij (1 dij ) K (b dij ) 2

Les mthodes phntiques

168

3.3. Distance estime


La distance estime eij entre deux UE i et j est celle dduite de l'analyse phntique elle-mme. Comme plusieurs formulations sont envisageables pour la distance observe et que plusieurs choix sont possibles pour l'analyse, la distance estime sera videmment dpendante de ces choix. En rgle gnrale, deux problmes se posent propos des distances, celui de la mtricit et celui de l'additivit des distances. Ils seront exposs partir de quelques exemples. Examinons le cas simple de 3 UE i, j et k et les distances observes entre elles dij, djk, dki. Les distances estimes entre l'UEH (Unit volutive hypothtique) x et chacune des UE sont donnes sans ambigut par les quations suivantes : i x j k eix = (dij + dik djk )/2 ejx = (dij + djk dik )/2 ekx = (dik + djk dij )/2

Lorsque la distance observe n'est pas mtrique, c'est--dire lorsque l'on peut avoir dij > dik + dkj par exemple, alors l'une des distances estimes (ekx) aura une valeur ngative. Dans cette situation, la question se pose de l'interprtation phylogntique de distances ngatives. Considrons maintenant le cas de 4 UE, i, j, k et l, les deux nuds internes tant x et y. Hormis le cas o la distance entre x et y est nulle par construction, trois arbres non enracins diffrents sont possibles : TI, TII, TIII. TI i x j y k i x y TII j

l dij + dkl dil+dkj = dik + djl TII i x y

k l dik + djl dil+dkj = dij + dkl

l k dil + djk dik+djl = dij + dkl

Distances patristique, observe, estime

169

Si les conditions d'additivit reliant entre elles les distances observes sont remplies, l'une des quations suivantes est vrifie (condition dite des 4 points) et permet donc d'en dduire l'arbre non enracin compatible avec les distances observes. A titre d'exemple, supposons que l'arbre non enracin ait la structure TI .Dans ce cas, 5 distances sont estimer (a,b,c,d,e) partir des six quations du tableau VII.2. Si les distances sont rellement additives, une des six quations est superflue et le systme d'quations se rsout sans difficult. En revanche, lorsque ce n'est pas le cas, l'estimation des distances peut tre obtenue en utilisant, par exemple, la mthode des moindres carrs (voir paragraphe VII.4.2). Trois exemples sont proposs.

i a b j
I dij = a+b dik = a+e+c dil = b+e+c djk = b+e+c djl = b+e+d dkl = c+d Estimations : a b c d e 5 11 12 7 8 6 II 5 11 12 9 8 6 III 3 12 14 8 10 6

k e c d l
III' 3 12 14 8 10 6

4.50 0.50 2.50 3.50 4.00

4.00 1.00 3.00 3.00 4.50

3.50 0.50 2.00 4.00 6.50

3.50 0.00 2.00 4.00 6.25

TABLEAU VII.2. Trois exemples de distances observes entre 4 UE. Dans l'exemple I les distances sont additives et les estimations sont obtenues sans ambigut. Dans l'exemple II, les distances ne sont pas additives mais mtriques. Dans l'exemple III, les distances sont additives mais non mtriques : l'estimation d'une distance est ngative (III) ou contrainte tre positive ou nulle (III'). L'exemple I est celui de distances parfaitement additives. L'arbre TI est choisi et les longueurs estimes de a, b, c, d et e (colonne I) permettent d'expliquer sans ambigut les distances observes. Dans l'exemple II, la condition d'additivit des 4 points n'est pas remplie. La premire ingalit est bien satisfaite : dij + dkl dil+dkj et dij + dkl dik + djl,

Les mthodes phntiques

170

mais pas l'galit suivante, car dil+dkj > dik + djl . Il est impossible de satisfaire parfaitement les 6 quations du tableau VII.2 quelle que soit la structure de l'arbre (TI, TII ou TIII). Comme c'est la structure de l'arbre TI qui minimise, par la mthode des moindres carrs, les carts entre la matrice de distances observes et la matrice de distances estimes (paragraphe VII.4.2), c'est donc l'arbre TI qui est choisi, avec les ajustements indiqus dans le tableau VII.2. Dans une telle situation de non additivit qui est certainement l'une des plus courantes, il peut arriver que les longueurs estimes soient ngatives (voir l'exemple du tableau VII.2 et de la figure VII.9. Dans l'exemple III, la condition d'additivit est bien remplie. On choisit donc l'arbre TI. Mais on constate une absence de mtricit. En effet, on a dil dij + djl . Dans ces conditions la mthode des moindres carrs (comme la mthode du neighbor joining, paragraphe VII.4.1.2), applique sans poser de contrainte sur les longueurs des branches, conduit l'estimation d'une longueur ngative, b, (Tableau VII.2, colonne III), avec un ajustement parfait en ce sens que l'on peut retrouver les distances observes partir des distances estimes. En revanche, si l'on impose que les distances estimes soient positives, les estimations de b et e sont modifies et l'ajustement est de moindre qualit (Tableau VII.2, colonne III'). On voit donc que la mthode reste applicable mme en l'absence de mtricit, bien que l'interprtation de longueurs ngatives devienne problmatique en terme de phylognie. Au total, lorsque les distances observes sont bien mtriques et que les conditions d'additivit sont satisfaites pour tous les quatrets que l'on peut constituer partir de toutes les UE, alors le choix de l'arbre non enracin et l'estimation des longueurs de branches se font, en thorie, sans ambigut. Cette situation idale n'est malheureusement pas la rgle. Les difficults surgissent du fait que les distances utilises peuvent ne pas tre ncessairement mtriques (c'est le cas par exemple de la distance de Nei) et du fait que les distances observes ont peu de chances d'tre additives, en raisons de l'homoplasie des caractres (changements multiples, rversions, convergences...) qui ne se rpartit pas ncessairement de faon alatoire le long des branches. Mme si cette homoplasie se rpartissait ainsi, les fluctuations dues un chantillonnage des caractres insuffisant ou biais pourraient conduire observer des distances non additives ou non mtriques. En conclusion, l'application d'une mthode de reconstruction qui suppose mtricit et additivit dans des conditions o cette supposition n'est pas vrifie ne peut conduire qu' des rsultats a priori contestables.

Mthodes phntiques et construction darbres

171

4. Mthodes phntiques de construction d'arbres


Les diffrentes mthodes phntiques peuvent tre regroupes en plusieurs catgories : les mthodes agglomratives, les mthodes d'ajustement, les mthodes de parcimonie et les mthodes de vraisemblance. Chacune d'elles diffre la fois par les hypothses volutives qu'elles impliquent et par les algorithmes qu'elles utilisent. Cette classification n'est cependant pas parfaitement rigide dans la mesure o certaines mthodes font appel la fois des procdures d'agglomration et des procdures d'ajustement. Les mthodes de vraisemblance seront traites dans le chapitre rserv cette approche (chapitre VIII)

4.1. Les mthodes agglomratives


Il s'agit de regrouper ensemble les UE qui se ressemblent le plus et de situer les diffrents niveaux de hirarchie entre elles sur la base de l'intensit de leur ressemblance. Une taxinomie de ces mthodes taxinomiques a t dcrite par Sneath et Sokal (1973). Certaines mthodes contraignent les distances estimes tre ultra-mtriques. C'est le cas des classifications hirarchiques. Parmi ces dernires, on peut galement distinguer les mthodes dites combinatoires qui se bornent combiner les lments de la matrice des distances au cours des squences d'agglomration et les mthodes non combinatoires qui ncessitent de recalculer de nouvelles distances chacune des tapes d'agglomration, partir des donnes initiales elles-mmes. Ces mthodes ne seront pas voques ici. 4.1.1. Les classifications hirarchiques combinatoires. De telles mthodes conduisent l'estimation de distances ultra-mtriques. Si les distances patristiques ou phyltiques ne sont pas elles-mme ultra-mtriques, on peut s'attendre des distorsions importantes aussi bien dans l'estimation de la structure de l'arbre que dans l'estimation des longueurs des branches. L'hypothse volutive qui satisfait l'ultra-mtricit de distances patristiques consiste poser que les taux de mutation (pour des caractres qualitatifs) ou les vitesses de changements (pour des traits quantitatifs) sont identiques sur toutes les branches de l'arbre et donc que la distance phyltique est proportionnelle au temps volutif. Cette hypothse est souvent dcrite sous le terme d' horloge molculaire (molecular clock). Il apparat donc clairement que les mthodes de classification qui ncessitent la formulation d'une telle hypothse ne peuvent tre considres comme des mthodes de reconstruction phylogntique qu'en admettant le bien-fond de l'hypothse. Le fait de retenir une telle hypothse sur le processus volutif a pour consquence de permettre une localisation sans ambigut de la position de l'anctre : l'arbre est ncessairement enracin. Encore une fois, si l'hypothse d'ultra-mtricit ou d'horloge molculaire n'est pas fonde, la position de l'anctre risque aussi d'tre totalement errone.

Les mthodes phntiques

172

Dans une premire tape, on recherche les deux UE i et j les plus ressemblantes. On les regroupe alors en une UEH (unit volutive hypothtique) rsultante. Une nouvelle matrice de distances est alors calcule, par combinaison de distances dans laquelle l'UEH rsultante remplace les deux UE i et j qu'elle fusionne. Le mode de calcul de cette nouvelle matrice varie d'une mthode une autre (Lance et Williams, 1967). Le processus est continu jusqu' ce que toutes les UE soient regroupes en une seule UEH. Soit x une UE (ou une UEH) rsultant de la fusion de r UE, dont l'UE i, et y une autre UE (ou UEH) rsultant de la fusion de s UE, dont l'UE j.

i x

j y

FIGURE VII.3 (voir texte) La faon de calculer la distance dxy entre les deux UE (ou UEH) x et y et celui de la distance dk(xy) entre l'UEH (xy), rsultant de l'agglomration de x et y, et une autre UE (ou UEH) k dfinissent diffrentes mthodes de classification que l'on peut rsumer ainsi (Lance et Williams, 1967) : dk(xy) = x dxk + y dyk + dxk dyk La distance dxy et les coefficients , et prennent les valeurs suivantes : 1) Simple lien (single linkage) ou voisin le plus proche (nearest neighbor) : dxy = min{dij} ; x = y = 1/2 ; = 1/2 2) Lien complet (complete linkage) ou voisin le plus loign (furthest neighbor) : dxy = max{dij} ; x = y = 1/2 ; = 1/2

Mthodes phntiques et construction darbres

173

3) Lien moyen (average linkage) : UPGMA (unweighted pair-group method of arithmetic averages) : 1 dxy = rs
r

i=1 j=1

s r dij ; x = r + s, y = r+s, = 0

r et s sont les nombres d'UE qui sont comprises dans x et y respectivement. WPGMA (weighted pair-group method of arithmetic averages) : dxy =

i=1 j=12

1 1 d ; = = 1, = 0 x y ci2 c j ij 2

o ci et cj sont les nombres d'tapes prcdant l'tape d'agglomration de x et y. Parmi ces mthodes agglomratives, la mthodes UPGMA est la plus frquemment utilise (Sneath et Sokal, 1973). Exemple I Les distances de Kimura (deux paramtres, paragraphe 2.2.2) ont t calcules entre 5 espces de primates partir des squences du gne de la - Globine (Tableau VII.3). Cette matrice de distances a t analyse par la mthode de l'UPGMA. L'homme et le gorille se retrouvent groups (figure VII.4), alors que l'application d'autres mthodes (figure VII.7) contredit ce rsultat.

Hsa Ptr Ggo Ppy Mmu Age 1.46 1.45 2.96 6.94 10.12

Ptr

Ggo

Ppy

Mmu

1.82 3.37 7.41 10.70

3.32 7.10 10.29

7.23 10.45

11.73

TABLEAU VII.3. Comparaison deux deux des squences de la - Globine d'Homo sapiens (Hsa), Pan troglodytes (Ptr), Gorilla gorilla (Ggo), Pongo pygmaeus (Ppy), Macaca Mulatta (Mmu) et Ateles geoffroyi (Age), (Barriel et Darlu, 1990). La distance est celle de Kimura (1980).

Les mthodes phntiques

174

Hsa Ggo

Ptr

Ppy

Mmu Age

FIGURE VII.4. Reprsentation de la matrice du tableau VII.3 par la mthode de l'UPGMA. L'homme et le gorille sont groups ensemble. Exemple II L'exemple de la figure VII.5 reprend les donnes du tableau V10. La distance choisie est la distance Manhattan, en raison de ses proprits d'additivit et de

m n a e f g h i j k l b c d
FIGURE VII.5.Reprsentation des relations phntiques entre 14 UE utilisant la matrice de distances Manhattan calcule partir des donnes du tableau V.10. La mthode est celle de l'UPGMA.

Mthodes phntiques et construction darbres

175

mtricit. La distance entre deux UE est donc ici le nombre de caractres prsent sous des tats diffrents chez l'une et l'autre de ces UE. On peut remarquer que seuls les groupes monophyltiques (i,j,k,l) et (b,c,d) de la figure V.26 sont identifis. Les groupes frres de ces groupes et toutes les autres combinaisons de taxons sont errones par rapport la figure V.26. La raison en est que la quantit d'volution est trs ingale selon les branches. Comme la mthode UPGMA ne tient pas compte de ce fait, il n'est pas surprenant que les taxons a, e et f se regroupent ensemble dans la mesure o ils ont tous peu divergs par rapport leur anctre commun. Exemple III La squence des acides amins de la super-oxyde dismutase a t obtenue par Lee et al. (1985) pour la levure, la drosophile, le buf, le cheval et l'homme. Aprs avoir align les squences, le nombre minimum de substitutions de nuclotides entre espces prises deux deux a t estim puis transform en distance par la formule de Jukes et Cantor (paragraphe 2.2.1). Le tableau VII.4 donne la matrice des distances et la figure VII.6 l'arbre obtenu par UPGMA. Il faut noter que cette reprsentation n'associe pas le cheval et le buf dans le mme groupe, alors qu'ils sont classiquement regroups dans les onguls.
H 0 0.100 0.077 0.237 0.253 C 0 0.082 0.249 0.232 B D L

Homme Cheval Buf Drosophile Levure

0 0.234 0.239

0 0.260

TABLEAU VII.4. Distances de Jukes et Cantor calcules sur le nombre minimum de substitutions de nuclotides entre deux squences alignes de la super-oxyde dismutase (d'aprs Lee et al., 1985). Levur Drosophi Cheva Boeuf Homm FIGURE VII.6. Reprsentation des relations phntiques entre la levure, la drosophile, le cheval, le buf et l'homme partir de la matrice de distance du tableau VII.4 par la mthode de l'UPGMA.

Les mthodes phntiques

176

4.1.2. La mthode dite du Neighbor-joining (NJ) (Saitou et Nei, 1987) Cette mthode, inspire de celle propos par Fitch et Margoliash (1967), Sattath et Tvsersky (1977) et Fitch (1981) se fonde sur une stratgie diffrente d'agglomration. A la diffrence des mthodes prcdentes, elle n'impose pas aux distances estimes d'tre ultra-mtriques. L'hypothse volutive d' horloge molculaire n'est donc pas pose. En revanche les distances doivent tre mtriques et additives (satisfaire les conditions des 4 UE, voir paragraphe VII.3.3) pour avoir l'assurance d'obtenir l'arbre de longueur minimum, c'est--dire l'arbre dont la somme des longueurs estimes soit minimale, et de permettre une estimation correcte des longueurs des branches. k i e ia a eab e kb b l

e ja j FIGURE VII.7. Schma reprsentant les branches reliant entre elles plusieurs UE (i, j, k, l...) ou UEH (a, b) et dont on cherche l'estimation e. On recherche, dans un premier temps, les deux UE i et j les plus proches voisines parmi N UE, c'est--dire les UE qui sont plus proches entre elles qu'elles ne le sont de toutes les autres UE. Comme l'ont dmontr Saitou et Nei (1987) et Studier et Keppler (1988), les deux UE les plus proches voisines sont celles qui donnent la plus petite valeur de Sij qui corresponde la somme totale des distances estimes (longueur totale) d'une configuration comme celle de la figure VII.7, o k est l'une des UE branches sur b.
S ij = eia + eja + eab +
K ij
N

ekb
N

Posant : R i = dik ; R j = djk ; R =


k=1 k=1 N N i=1 j>i

dij

o les d sont les distances observes entre UE. On peut exprimer la valeur Sij en fonction des distances observes, sachant que l'on peut dmontrer que : S ij = 1 2R + (N 2)dij (R i + R j ) 2(N 2)

Mthodes phntiques et construction darbres

177

On peut ainsi choisir les deux UE i et j qui minimisent Sij. De mme, on peut calculer les longueurs eia, eja et eab, en remarquant que :
R i = (N 1)eia + e ja + eab +

R j = (N 1)e ja + eia + eab +

k i j N k i j

ekb = (N 2)eia + S ij ekb = (N 2)e ja + S ij

Les distances estimes eia et eja sont donnes en combinant les quations prcdentes : eia = dij (R i R j ) + 2 2(N 2)

eja = dij eia Une nouvelle matrice de distances est ensuite calcule, aprs avoir retir les UE i et j pour les remplacer par l'UEH a. Les distances de cette UEH a aux autres UE sont celles prconises par Fitch et Margoliash (1967) (paragraphe VII.3.3): dak = 1 (dik + djk dij ) 2 Sur cette nouvelle matrice, on recherche de nouveau les deux UE (ou UE et UEH) qui minimisent la longueur totale de l'arbre exprime par l'quation donnant Sij. Le processus est poursuivi ainsi, jusqu' ce que toutes les UE soient agglomres et les longueurs estimes. Exemples Les donnes du tableau V.10 ont t transformes en matrice de distances Manhattan. L'application de la mthode du neighbor joining conduit un arbre qui est discut et compar celui donn par la mthode des moindres carrs (paragraphe 4.2.2 ; figure VII.11). Les donnes du tableau VII.3 ont t analyses par la mthode du neighbor joining (figure VII.7). En comparant ce rsultat celui donn par la mthode de l'UPGMA (Figure VII.4), on s'aperoit que les espces ne sont pas regroupes de la mme faon (cette fois l'homme et le chimpanz sont regroups), mais galement que l'galit des longueurs de branches partir d'un anctre commun n'est pas respecte (par exemple une longueur de 94 entre l'anctre et Pan troglodytes contre 52 seulement entre l'anctre et Homo sapiens). La question se pose donc de la validit de l'hypothse d'horloge molculaire. Cet exemple sera repris plus loin.

Les mthodes phntiques

178 Age

747

Ptr
94

Ggo
84 7 52 165 426 76 133

Hsa

Ppy

Mmu

FIGURE VII.7. Relations entre les Hominoidea obtenues partir des pourcentages de divergence (tableau VII.3) en appliquant la mthode du neighbor-joining de Saitou et Nei (1987). Contrairement la figure VII.4, Homo sapiens est group avec Pan troglodytes. La mthode du NJ donne l'arbre non enracin de longueur minimale si les conditions d'additivit des distances observes (conditions des 4 points, paragraphe VII.3.3) sont satisfaites. Ces distances peuvent ne pas tre additives en raison, par exemple, de la prsence d'homoplasie ou parce que les corrections effectues pour tenir compte des changements multiples ne l'ont pas t sous des hypothses volutives correctes. Remarquons enfin que l'estimation de la distance eia s'effectue en corrigeant une estimation de distance qui serait ultra-mtrique (eia = dij/2 = eja) par un facteur reprsentant la diffrence entre la divergence moyenne de i (Ri) et la divergence moyenne de j (Rj) chacune d'elles tant estimes sur l'ensemble des UE. Il apparat donc qu'un arbre non enracin qui prsenterait une trs large variabilit de longueurs des branches ne pourrait qu'augmenter l'imprcision du facteur de correction.

4.2. Les mthodes d'ajustement


Ces mthodes consistent rechercher l'arbre non enracin et estimer les longueurs des branches qui donnent le meilleur ajustement la matrice des distances observes. Le choix de l'arbre et l'estimation de la longueur des branches se font, simultanment ou sparment, sur la base d'un critre ou d'une fonction minimiser qui peut varier d'une mthode l'autre. La mthode des moindres carrs est souvent utilise cette fin d'ajustement, et c'est elle qui sera dcrite ici. Les mthodes par maximum de vraisemblance sont galement utilisables (chapitre VIII).

Mthodes phntiques et construction darbres

179

Le plus souvent ces mthodes ne permettent pas de situer la place de l'origine (l'anctre) sur l'arbre non enracin qu'elles infrent. D'autres procdures sont habituellement proposes pour cela (extra-groupe, par exemple) ou bien il est ncessaire de faire l'hypothse que l'volution le long des branches est constante (hypothse dite de l' horloge ). 4.2.1. Le modle Un modle statistique est pos comme fondement de cette mthode (Felsenstein, 1984a; pour une discussion lire Farris, 1981, 1985, 1986 et Felsenstein, 1986 ; Bulmer, 1991). On suppose que la distance entre deux UE i et j, dij , suit une distribution normale dont la valeur attendue est eij, et la variance ij. Les distances attendues eij doivent tre additives, c'est--dire que la distance attendue entre i et j doit tre gale la somme des diffrentes distances attendues formant le chemin reliant i j. Eventuellement, la distance observe doit tre corrige afin de la situer sur une chelle de distance additive. Comme il a dj t soulign (paragraphe VII.3) cette mthode estime des distances eij qui ne sont pas les distances patristiques recherches. Elles ne le sont que lorsque la distance entre deux UE n'est pas due (ou de faon ngligeable) l'homoplasie ou bien lorsque cette homoplasie a pu tre prise en compte au moyen d'un modle d'volution admis et vrifi par ailleurs (paragraphe VII.3.2.b). La discussion reste vive sur le fait de savoir quelle signification peuvent avoir des estimations de longueurs de branches lorsque les distances observes ne sont pas elles-mmes additives. Ce modle suppose galement que les erreurs statistiques sur les diffrentes distances sont indpendantes. Si tel n'est pas le cas, il est prfrable d'en tenir compte en calculant, si possible, la matrice de covariance entre distances et en la prenant en compte lors des estimations (Cavalli-Sforza et Edwards 1967 ; Chakraborty, 1977 ; Farris, 1981; Bulmer, 1991). Sous ce modle, les distances ngatives sont concevables : elles sont interprtes alors comme une simple consquence des fluctuations alatoires de part et d'autre de la distance attendue. En fait, ces distances ngatives peuvent galement rsulter d'une absence de mtricit ou d'additivit des distances (tableau VII.2 et figure VII.9). Il reste parfois difficile de trancher entre ces deux explications, la deuxime conduisant admettre que les estimations obtenues ne sont pas interprtables en terme de quantits d'volution le long d'une branche. A propos des distances estimes ngatives, plusieurs attitudes sont possibles : ne pas considrer les arbres produisant des distances ngatives ; rechercher l'arbre minimisant le critre d'ajustement (mme s'il possde des distances ngatives) et ajuster les longueurs de branches en posant que ces distances sont nulles ; rechercher l'arbre optimal en contraignant les distances ngatives tre nulles. Quelle que soit la stratgie retenue, il est conseill de ne pas opter pour une approche qui conduirait feindre d'ignorer la prsence de distances ngatives alors qu'elles existent. La mthode des moindres carrs applique la reconstruction d'arbre (Kidd et Sgaramella-Zonta, 1971 ; Chakraborty, 1977 ;

Les mthodes phntiques

180

Bulmer, 1991) peut tre prsente de la faon suivante, en dfinissant successivement : le vecteur colonne D des distances observes entre s UE, comportant donc s(s 1)/2 distances (ici r est la s 1ime UE) : D = (d12, d13, d14, ..., d23, d24, ...drs)' le vecteur colonne correspondant aux distances estimes E est : E = (e12, e13, e14, ..., e23, e24, ...ers)' la matrice W dont l'lment ij,kl reprsente la covariance entre la distance dij et la distance dkl. Les variances des distances se situent sur la diagonale de cette matrice. 2 ... 12, rs 12 12,13 12,14 2 ... 13, rs 13,12 13 13,14 2 ... 14, rs W = 14,12 14,13 14 ... ... ... ... 2 ... rs rs,12 rs,13 rs,14 le vecteur colonne des 2s 3 longueurs de branches : L = ( a1, a2, a3, a4, ah ...)' la matrice de passage , A, avec les distances observes en lignes (dimension s(s 1)/2) et les diffrentes branches en colonnes (dimension 2s 3). Cette matrice A dfinit prcisment la forme de l'arbre. Pour expliquer simplement cette matrice, considrons l'exemple d'arbre suivant, comportant 4 UE et 6 longueurs de branches (a1 a6). a
6

a a
3

UE1

UE2

UE3

UE4

FIGURE VII.8. Schma d'arbre six branches reliant quatre UE. Un lment de cette matrice prend la valeur 1 lorsque le chemin passant de l'UE i l'UE j, et dfinissant la ligne dij, passe par l'une des branches dfinie en colonne. Il prend la valeur 0 autrement. Par exemple, l'lment l'intersection de

Mthodes phntiques et construction darbres

181

la ligne d13 et de la colonne a5, prend la valeur 1 puisque le chemin passant de l'UE 1 l'UE 3 passe par la branche a5. La matrice A, de dimensions 6x6 (Tableau VII.5), est une faon de reprsenter la structure de l'arbre de la figure VII.8.
a1 d12 d13 d14 d23 d24 d34 1 1 1 0 0 0 a2 1 0 0 1 1 0 a3 0 1 0 1 0 1 a4 0 0 1 0 1 1 a5 0 1 1 1 1 0 a6 0 0 1 0 1 1

A=

TABLEAU VII.5. Matrice dfinissant la structure de l'arbre de la figure VII.8. On a donc : E = LA

L'estimation du vecteur L par la mthode des moindres carrs est donne en minimisant la somme pondre des carrs des carts (SCE) suivante : SCE = (D E)' W 1 (D E) d'o SCE = (D LA)' W 1(D LA) et, extrayant le vecteur estim L : L = (A'W 1A) 1A'W 1D La variance du vecteur L est : V(L) = (A'W 1A) 1 L'exemple prcdent inclut, dans la matrice A, un vecteur a6 dont les lments sont tous gaux ceux du vecteur a4. Dans ces conditions, la matrice (A'W 1A) 1 ne peut videmment pas tre inverse. Cet exemple n'est donn que pour illustrer l'impossibilit de dterminer la racine de l'arbre par cette mthode : la longueur estime sera donc la somme (a4+a6), sans pouvoir distinguer entre les deux. De ce fait, la racine disparat et l'on obtient donc un arbre non enracin. 4.2.2. La construction de l'arbre La mthode de reconstruction phylogntique se propose donc ici d'estimer la structure de la matrice A (donc la structure de l'arbre non enracin) et les longueurs des branches qui minimisent la somme des carrs des carts (SCE).

Les mthodes phntiques

182

Cette dernire peut prendre diffrentes formes selon les valeurs que l'on donne la matrice de variance-covariance W . 1) Mthode des moindres carrs ordinaires. Dans cette mthode propose par Cavalli-Sforza et Edwards (1967), la matrice W est une matrice diagonale o tous les lments sont gaux. La variance des distances, ij, est suppose tre indpendante de i et de j et est donc constante, signifiant par l que l'erreur sur l'estimation de la distance est indpendante de la distance elle-mme. On pose donc ij = 1 : SCE = avec (n = s(s 1)/2) 2) Mthode des moindres carrs pondrs. Fitch et Margoliash (1967) proposent une pondration telle que l'erreur sur la distance soit proportionnelle la distance eij ou, en premire approximation, la valeur dij qui s'en approche. Dans ce cas l'erreur sur la distance est d'autant plus grande que cette distance est importante. La matrice W est donc la matrice o les lments de la diagonale sont les variances des distances et o les covariances entre distances sont nulles. On pose donc 2ij = d2ij . Fitch et Margoliash proposent par ailleurs le pourcentage de dviation standard (%SD) pour estimer la qualit de l'ajustement : d ije ij n (n 1) %SD = 100 ( ) /( ) d ij 2 i = 1j = 1
n i 2 1 2 i

1 1 = =
j

(dij eij )2 d ij
2

3) Mthode des moindres carrs gnralises. Cette mthode suggre par Cavalli-Sforza et Edwards (1967), Chakraborty (1977), Farris (1981) et dveloppe par Bulmer (1991) tient compte cette fois des covariances existant entre les distances. L'estimation de ces covariances dpend de la nature du matriel utilis (squences d'acides amins, de nuclotides par exemple) et des hypothses volutives retenues. Cette mthode prsente l'intrt de tenir compte du fait que les distances ne sont pas ncessairement indpendantes. En effet, dans l'exemple de la figure VII.8, les distances d13 et d23 ont une partie commune (donc une covariation commune) forme de la longueur a5. 4) En marge de ce modle des moindres carrs, Farris (1972) propose de comparer distances observes et distances estimes par un indice f tel que : f =
i = 1 j=1

d ij e ij

Dans ce cas l'arbre retenu sera celui minimisant la somme des diffrences absolues entre distances estimes et distances observes.

Mthodes phntiques et construction darbres

183

Exemple 1 A partir de la matrice du tableau VII.3, l'arbre obtenu par la mthode des moindres carrs pondrs en utilisant le programme Fitch de Phylip ne diffre pas de celui obtenu par la mthode du NJ (figure VII.7). Les longueurs de branches sont identiques par les deux mthodes. La valeur ij choisie ici est estime par la distance observe dij puisque la distance utilise (indice de Kimura deux paramtres, Chapitre VII.2.2) varie linairement avec sa variance (Kimura, 1980 ; Nei, 1987). Exemple 2 La matrice des distances (tableau VII.4) a t analyse par la mthode des moindres carrs pondrs par l'inverse du carr de la distance. La figure VII.6 montre que l'arbre non enracin donnant le meilleur ajustement prsente une longueur de branche estime ngative (figure VII.9a). On peut remarquer d'ailleurs que les distances ne satisfont ni l'galit ni l'ingalit de la condition d'additivit des 4 points : dch + ddb < dbce + dhd = dhb + dcd 0.334 > 0.319 0.326 Si l'on contraint les distances estimes tre positive, l'homme et le buf se retrouvent groups (figure VII.9b)
Levure Drosophile

a)
Boeuf Cheval e<0

Homme

Levure

Drosophile

b)
Cheval Boeuf Homme

FIGURE VII.9. Arbres non enracins reconstruits par la mthode des moindres

carrs pondrs (Fitch et Margoliash, 1967) partir de la matrice du tableau VII.4, en admettant (a) ou non (b) des distances estimes ngatives (e).

Les mthodes phntiques

184

Exemple 3 Les donnes suivantes portent sur le polymorphisme gntique de diffrentes populations humaines. Ce polymorphisme a t observ sur 100 sites rpartis sur l'ensemble des chromosomes. Les distances (Reynolds et al., 1983) ont ensuite t calcules entre les populations, puis un arbre non enracin a t obtenue par la mthode des moindres carrs ordinaires. On peut remarquer que les distances ne satisfont pas les conditions d'additivit. En effet, comme le montre le tableau VII.6, on a : dac + dde < dae + dcd dad + dce C'est la raison pour laquelle un arbre ayant une branche de longueur ngative ajuste lgrement mieux les donnes. Lorsque de telles longueurs ne sont pas admises, l'arbre obtenue est celui de la figure VII.10. Il montre une longueur estime pour les europens qui est trs courte et qui peut s'interprter, selon les auteurs, comme le rsultat d'un mlange survenu entre deux sortes de populations : celle l'origine des Chinois actuels et celle l'origine des populations pygmes actuelles.
a a - Pygmes (RCA) b - Pygmes (Zare) c - Europens d - Chinois e - Mlansiens 0.000 0.043 0.141 0.235 0.242 b c d

0.142 0.235 0.265

0.093 0.148

0.171

TABLEAU VII.6. Matrice de distances (Fst, Reynolds et al., 1983), obtenue partir de 100 marqueurs d'ADN sur 5 populations (Bowcock et al, 1991).

(RCA)

Europens

Pygmes (Zare)

Chinois

Mlansiens

FIGURE VII.10. Arbre non enracin reconstruit par la mthode des moindres carrs (Cavalli-Sforza et Edwards, 1967) partir de la matrice du tableau VII.6, en contraignant les longueurs des branches tre positives. La courte branche conduisant aux Europens laisse supposer qu'ils rsultent d'un mlange (Bowcock et al. 1991).

Mthodes phntiques et construction darbres

185

Exemple 4 Cet exemple reprend les donnes du tableau V.10 partir duquel les distances Manhattan entre les UE prises deux deux ont t calcules. L'arbre non enracin de la figure VII.11 a t obtenu par la mthode des moindres carrs ordinaires contraignant les longueurs estimes tre positives. Cet arbre non enracin est comparer celui de la figure VII.5 obtenue par la mthode de l'UPGMA, celui de la figure V.27 obtenue par la mthode de parcimonie et celui obtenu par la mthode de compatibilit (figure VI.4).

a b c
d

e
f

g
h i

j k
l

n
m
FIGURE VII.11 : Reprsentation des relations (arbre non enracin) entre 14 UE utilisant la matrice de distances Manhattan calcule partir des donnes du tableau V.10. La mthode employe est celle des moindres carrs (Cavalli-Sforza et Edwards, 1967), contraignant les longueurs tre positives. Si l'on considre m et n comme les extra-groupes, le groupe (g(h(i(j(k,l))))) est ici identifi correctement, ainsi que les relations de parent l'intrieur de ce groupe. En revanche f est considr tort comme le groupe frre de (a(e(b(c,d)))) et non comme le groupe frre de (g(h(i(j(k,l))))). L'hypothse de monophylie de (e(b(c,d))) est galement errone. L'arbre obtenu par la mthode du NJ place correctement f en position de groupe frre de (g(h(i(j(k,l))))) mais maintient l'erreur de monophylie du groupe (e(b(c,d))).

Les mthodes phntiques

186

4.2.3. Quelques tests statistiques Test F Comme on l'a vu, les mthodes d'ajustements consistent rechercher l'arbre qui minimise la somme des carrs des carts (SCE) entre distances observes et distances estimes. Cette somme est obtenue sans poser de contrainte a priori sur les longueurs de branches. Lorsque le nombre d'UE est de n, le nombre de longueurs estimes est de 2n 3. Ces estimations sont tires de l'observation de N = n(n 1)/2 distances. On peut cependant imposer, tout en maintenant la mme topologie, que les longueurs de branches entre chaque anctre et les deux UE qui en descendent soient gales (figure VII.12). Dans ce cas, la somme des carrs des carts (SCE0) obtenue mesure la qualit de l'ajustement lorsque l'on fait l'hypothse d'une horloge identique sur toutes les branches ; seulement n 1 longueurs sont alors estimes.

b a

c FIGURE VII.12. Deux arbres de structure identique ne diffrant que par les longueurs des branches. A gauche : arbre obtenu sans poser de contrainte sur les longueurs ; droite : la contrainte d' horloge est pose, c'est--dire l'galit des branches des UE depuis leurs anctres communs.

La diffrence entre SCE0 et SCE reprsente l'excs de variation due l'hypothse d'galit des longueurs de branches, tandis que SCE reprsente la variation due aux erreurs rsiduelles. Si cette diffrence, SCE0 SCE, n'est pas plus grande que l'erreur rsiduelle SCE, l'hypothse d' horloge ne sera pas rejete. Le rapport suivant : SCE 0 SCE n2 F= SCE N (2n 3)

Mthodes phntiques et construction darbres

187

se distribue comme un F de Fisher (n 2) et (N (2n 3)) degrs de liberts. L'hypothse d' horloge sera rejete lorsque la probabilit d'observer une certaine valeur de ce rapport dpasse un seuil choisi (5% ou 1% par exemple). Exemple L'ajustement de l'arbre de la figure VII.7 (Primates) donne un SCE = 0.015 et un SCE0 = 0.469 pour n = 6 UE. La valeur de F est donc 44.6. Si l'hypothse d'galit des longueurs de branches depuis l'anctre tait fonde, la probabilit d'observer une telle valeur de F serait infrieure P < 0.001. On est donc amen raisonnablement rejeter cette hypothse. Ce test propos par Felsenstein (1984a ; 1985a) dans le cadre de la mthode des moindres carrs ordinaires, n'est valable que sous certaines hypothses, rarement vrifies, en particulier que les distances observes sont indpendantes, que chacune d'elles est obtenue partir de donnes diffrentes, et que la distance varie linairement avec le temps. Comme le remarque justement Felsenstein (1988), les distances obtenues partir de donnes molculaires ne satisfont pas ces exigences. Il faut noter galement que l'on teste ici la prsence d'une horloge qui s'exercerait simultanment sur toutes les branches. Dans le contexte de la mthode des moindres carrs gnralise, certaines de ces contraintes peuvent tre prises en compte (linarisation de la relation entre distances et temps, interdpendance des distances) (Bulmer, 1991). Cependant il faut insister sur une importante limitation : une telle approche dpend de la validit du modle volutif que l'on a retenu pour expliquer les changements d'tats des caractres. Le test du taux relatif A la diffrence du prcdent, ce test (Sarich et Wilson, 1973) se propose, dans un premier temps, de ne tester que l'galit ou la diffrence de deux branches. L'application des formules labores paragraphe VII.3.3 (Fitch et Margoliash, 1967) l'arbre de la figure VII.13 montre que si l'on veut tester l'galit des longueurs de branches a et b, il suffit de comparer leurs estimations qui s'expriment en fonction des distances observes : O D a A b B C

a = (dAC + dAB dBC )/2 b = (dAB + dBC dAC )/2 FIGURE VII.13. Le test du taux relatif revient comparer a et b.

Les mthodes phntiques

188

La diffrence entre a et b est nulle lorsque les longueurs de branches sont gales. Cette diffrence (a b) peut tre estime par dAC dBC. Un test 2 a t propos par Fitch (1976). Il consiste calculer : 2 = 1 = ddl
2 a b 2 dAC dBC = a+b dAB

Ce test peut se gnraliser dans la mesure o il est possible de calculer un nombre considrable de 2 pour un seul et mme arbre. On peut ensuite en tudier les distributions (Sherer, 1989). Ce test a longuement t discut, comment et critiqu, par Fitch lui-mme (1976). Variance des longueurs de branches Plusieurs auteurs ont propos des mthodes pour donner un intervalle de confiance l'estimation des longueurs de branches ou des points de branchement. Chakraborty (1977) se fonde sur la thorie de l'estimation des moindres carrs pour obtenir les variances des longueurs de branches (voir le vecteur V(L) paragraphe VII.4.2). Il suppose l'existence d'une horloge et un processus de Poisson expliquant la substitution des acides amins. Nei et al. (1985) drivent plusieurs formules donnant, cette fois, l'estimation de la variance du temps de branchement en fonction de la nature de l'information retenue pour calculer les distances (squences d'acides amins, de nuclotides ou sites de restriction). La mthode de reconstruction est ici l'UPGMA. Elle ne s'applique donc que si l'hypothse d' horloge molculaire est vrifie. Li (1989) prsente une mthode d'estimation des variances des branches qui ne ncessite pas une telle horloge. Enfin, en utilisant une mthode analogue au test F, il est possible de tester si la longueur d'une branche est significativement diffrente de 0 (autrement dit, on teste l'existence d'une trifurcartion). En effet il suffit de comparer, pour un arbre donn, la valeur SCE obtenue en estimant cette longueur celle obtenue en supposant que cette longueur est nulle. Pour plus de dtails, voir Felsenstein (1986) et Bulmer (1991).

4.3. Les mthodes de parcimonie


Ces mthodes (Farris, 1972 ; Tateno et al., 1982 ; Faith, 1985) se proposent de trouver, partir d'une matrice de distances, un arbre non enracin minimisant globalement la part des distances due aux homoplasies. Elles recherchent donc l'arbre le plus court (en nombre d'vnements volutifs) et c'est en ce sens qu'elles sont dites mthodes de parcimonie. La mthode est fonde sur la rsolution de deux problmes distincts : 1) Quelle UE choisir parmi toutes celles qui ne sont pas encore intgres l'arbre non enracin, pour l'insrer son tour sur l'arbre ? 2) Comment estimer les longueurs des branches cres par cette adjonction ?

Remarques et conclusions propos des mthodes phntiques

189

i (111) x' x b(000) c(000) x" d(000) k (000) FIGURE VII.14. Schma d'adjonction d'une UE sur un arbre non enracin prexistant (voir texte). Farris (1972) dfinit d'abord la similitude spciale entre une UE k et la branche reliant deux UE (ou UEH) x et y (figure VII.14) par : sk (xy ) = 1 (dkx +dky dxy ) 2 Dans ce contexte, la distance utilise est la distance Manhattan qui dcompte simplement le nombre de caractres partags entre deux UE (paragraphe VII.2.2.1) et pour laquelle l'interprtation d'une longueur de branche se fait sans ambigut. La similitude spciale peut tre considre comme la distance estime entre k et la branche reliant x y, c'est--dire la distance eka. En fait elle n'est pas utilise cette fin mais seulement comme critre d'agglomration. En effet l'UE (ou UEH) k est insre entre les deux UE (ou UEH) x et y pour lesquelles la similitude spciale Sk(xy) est la plus faible. C'est une solution parcimonieuse en ce sens que ce choix minimise les changements d'tats de caractres (et donc la distance s'il s'agit d'une distance Manhattan) qui sont exigs par l'implantation de l'UE k dans l'arbre entre x et y. Pour que l'estimation des pas supplmentaires ncessits par cette insertion soit correcte, il faut supposer que les vnements homoplasiques sont inexistants ou rares dans les segments reliant x, y et k. Cela impose donc que les UE (ou UEH) x, y et k soient trs proches pour supprimer toute possibilit d'apparition d'homoplasie. L'arbre est construit par agglomrations successives sur la base d'une minimisation du critre de similitude spciale. Cependant la simple insertion d'une nouvelle UE dans l'arbre prcdemment obtenu ne permet pas de remettre en cause les relations tablies dans les tapes antrieures, si bien que le rsultat final est dpendant de l'ordre d'introduction des UE au cours de la construction de l'arbre : si chacune des tapes peut tre considre comme la plus parcimonieuse, le rsultat final ne l'est pas ncessairement. Des stratgies supplmentaires de permutations de branches ( branch swapping ) sont donc ncessaires pour obtenir une meilleure optimisation. Il faut remarquer galement que cette mthode ncessite de calculer, chaque tape, des longueurs de branches qui sont utilises l'tape suivante d'agglomration. a y j

Les mthodes phntiques

190

La deuxime question est celle de l'estimation de la longueur des branches. La mthode de Farris consiste attribuer aux longueurs reliant k x et y les valeurs maximales suivantes : ekx = maxi eki exi

eky = max j ekj eyj


o i est l'une des r UE, ou l'un des nuds (UEH) branchs sur x et j l'une des s UE, ou l'un des nuds (UEH) branchs sur y. La distance estime entre k et a est simplement quivalente la similitude spciale, en remplaant les distances observes par les distances estimes : eka = 1 (ekx + eky exy ) 2 La distance exy est la distance observe dxy entre x et y quand i et j sont des UE et non des UEH (c'est le cas au dpart de l'algorithme). Farris justifie cette procdure par le fait que la distance patristique ne peut tre que suprieure la distance observe, en raison des homoplasies. Pour minimiser l'cart entre distance patristique et distance observe, il est donc amen choisir la distance observe maximale. Une consquence indsirable de cette procdure est de ne pas tre sensible l'introduction de plusieurs UE (par exemple sur x) dont les distances k sont faibles : en effet cela ne modifie pas l'estimation des distances entre k, a et x, alors mme que ces UE supplmentaires peuvent tre trs voisines ou mme parfaitement ressemblantes x et k. Ainsi dans la figure VII.14, trois UE b, c et d, ont t branches sur l'UE x. Trois caractres cods chacun 0 ou 1 sont observs pour chaque UE. Ces trois UE prsentent les mmes tats de caractres que k (000), tandis que i possde les tats de caractres (111). La distance entre k et x reste gale 3, sans que la prsence de b, c ou d, ne la modifie en aucune faon alors qu'aucun vnement n'intervient entre b, c, d et k (distances gales 0). Pour pallier cette difficult, Tateno et al. (1982) proposent une modification de la procdure de Farris, en ne choisissant pas les estimations fondes sur des maximums mais celles fondes sur des moyennes : ekx = 1 r eky = 1 s

dki dxi d kj d yj

d'o, l'estimation de la distance entre k et la branche (xy), sk(xy) tant la similitude spciale, i et j tant ici exclusivement des UE : 1 eka = rs

i j

s k ( ij)

Remarques et conclusions propos des mthodes phntiques

191

Cette modification a une consquence galement indsirable dans la mesure o elle ne tient pas compte de la proximit ou de l'loignement des nuds sur lesquels se branchent les UE par rapport k. Si le nombre d'UE branches sur x est trs lev, certaines trs proches de x d'autres trs loignes, les premires auront le mme poids que les secondes dans l'estimation des longueurs de branches. Ainsi, reprenons la figure VII.14 et supposons maintenant que i est une UEH regroupant 12 UE sous les mmes tats que i (111). Dans ce cas de figure, en raison de la prsence des tats (000) chez b, c et d, la distance ekx entre k et x sera gale (12*3+3*0)/15, soit 36/15, une estimation proche de 2, alors que la prsence des UE b, c, et d conduirait plus logiquement une distance proche de 0. Pour rpondre cette objection, Faith propose une variante qui a l'avantage de tenir compte du nombre de nuds entre k et les UE. Il dfinit la similitude spciale de Farris en remplaant les distances, comme dkx, par leur expression en terme de similitude spciale, comme sk(x'x") , x' et x" tant les deux UE ou UEH entre lesquelles se branche x (figure VII.14). Ce processus de remplacement rcursif conduit exprimer la similitude spciale sk(xy) sous la forme : 1 s k ( ij ) s k (xy ) = Ni + 2N j 2 i j o Ni et Nj reprsentent les nombres de nuds entre a et i et entre a et j. Cette nouvelle formulation montre que l'agglomration peut se faire sans avoir calculer des longueurs de branches : dans la partie droite de l'quation n'interviennent en effet que des distances observes entre UE (i, j et k). Cela permet d'viter la recherche de l'arbre le plus court par l'emploi d'une quelconque mthode qui ncessiterait le calcul de longueurs de branches. Cela est prfrable dans la mesure o il n'est pas impossible que l'arbre le plus court ne soit pas celui que produirait le meilleur ajustement local ou global une matrice de distances. En revanche, les longueurs des branches peuvent tre calcules in fine, une fois l'arbre reconstruit, ventuellement par des mthodes d'ajustement.

5. Remarques et conclusions propos des mthodes phntiques


L'utilisation des distances pour infrer des phylognies soulve un certain nombre de problmes qui ont t abords tout au long de ce chapitre. Certains de ces problmes se rencontrent galement propos d'autres mthodes de reconstructions. Dans ce chapitre ils sont brivement rsums en guise de conclusion. 5.1. Similitude globale et caractres Le concept essentiel sur lequel se fondent les reconstructions phntiques est celui de similitude globale. De ce fait la ressemblance entre deux UE peut tre due aussi bien au partage de caractres hrits d'un anctre commun immdiat (apomorphies) qu'au partage de caractres hrits d'un anctre plus lointain

Les mthodes phntiques

192

(plsiomorphies), ou qu' l'identit de caractres due d'autres causes (homoplasies : convergences, paralllismes, rversions, partage d'apomorphies dues au seul hasard). Les mthodes phntiques ne permettent pas de discriminer entre ces explications de la ressemblance bien que les mthodes de parcimonie introduites par Farris (1972) soient une tentative de solution. En ralit les mthodes phntiques vacuent totalement le concept de caractre et d'tat de caractre pour ne plus s'intresser qu' celui d'UE. Ceci est le rsultat de la transformation de la matrice de caractres en matrice de distances. Autrement dit, le phnogramme n'est pas un cladogramme puisque les nuds n'y reprsentent pas les tats ancestraux des caractres mais seulement les degrs de similitude entre les UE qui en drivent. Implicitement l'application des mthodes phntiques revient donc postuler un certain nombre de proprits concernant les caractres : Les caractres doivent tre choisis de manire non biaise parmi l'ensemble des caractres soumis volution. En effet si le choix des caractres se portait, malencontreusement, sur ceux soumis de fortes pressions slectives, les groupements d'UE ( clusters ) obtenus l'issue de l'analyse phntique reflteraient davantage des groupes partageant les mmes rponses adaptatives plutt que des groupes partageant les mmes anctres. Il faut donc pouvoir considrer, comme dans d'autres mthodes d'ailleurs, que chaque caractre a une histoire volutive qui est le reflet de l'histoire volutive relle de l'ensemble des UE et que les vnements homoplasiques sont l'exception. Tous les caractres utiliss dans la constitution de la distance sont gnralement considrs comme ayant le mme poids, c'est--dire qu'ils participent de manire gale la ressemblance globale. Dans certains cas on peut tre amen pondrer les caractres, par exemple par leur frquence relative observe l'intrieur d'un groupe d'UE (cluster) par rapport ce qu'elle est entre clusters (paragraphe V.2.3.1). Cependant il reste parfois difficile de justifier une reconstruction phylogntique fonde sur une pondration des caractres, quand cette pondration est elle-mme tablie partir d' a priori sur l'organisation des UE que l'on cherche justement prciser. Ce type de pondration est extrmement dpendant de la faon dont les UE ont t chantillonnes. Les caractres sont supposs voluer indpendamment les uns des autres de telle faon que la prsence conjointe de deux caractristiques particulires dans deux UE puisse tre interprte comme le rsultat de leur hritage concomitant d'un mme anctre et non comme le rsultat d'une liaison entre elles, fonctionnelle par exemple, o la prsence d'une des caractristiques impliquerait ncessairement la prsence de l'autre. Dans cette dernire hypothse cela reviendrait attribuer une pondration aux caractres lis. Cette objection n'est videmment pas propre l'approche phntique. En travaillant non sur les caractres eux-mmes mais sur un indice, il est clair que l'on perd une certaine information, en ce sens que l'on ne peut gnralement pas restituer sans ambigut la matrice des caractres partir de la seule matrice constitue des indices de distance (Penny, 1982 ; Steel et al., 1988 ; Fitch, 1984). Un arbre construit partir d'une matrice de distances ne donne donc pas d'information sur l'tat des caractres aux nuds ni sur le sens d'volution des

Remarques et conclusions propos des mthodes phntiques

193

caractres et ne permet gnralement pas de prciser si un caractre est primitif ou driv. De ce fait la matrice de distances ne donne pas non plus d'indications ni sur la quantit d'homoplasie qui est juge a priori ngligeable par rapport l'information phylogntique ni sur sa localisation qui est suppose rpartie de manire homogne sur l'ensemble de l'arbre. 5.2. Arbre : racine et branches La plupart des mthodes phntiques ne permettent pas de situer la position de l'anctre. Quand elles le font (par exemple UPGMA), cette position dcoule seulement des hypothses volutives qu'implique la mthode elle-mme, celles que l'on rsume sous l'expression d' horloge molculaire . Il suffit que cette hypothse ne soit pas vrifie pour que la position de la racine soit contestable. La procdure la plus utilise pour situer l'origine consiste rechercher l'arbre non enracin en intgrant une UE dont on sait qu'elle reprsente un extra-groupe. Un seul extra-groupe est suffisant pour enraciner l'arbre. Cependant le choix de cet extra-groupe peut influencer la forme de l'arbre non enracin dans la mesure o il est inclus parmi l'ensemble des UE pour tablir l'arbre non enracin. Aussi est-il recommand d'estimer l'arbre non enracin sans l'extra-groupe, puis de rechercher l'insertion la plus parcimonieuse, la plus ajuste ou la plus vraisemblable (chapitre VIII) de cet extra-groupe sur l'arbre constitu pralablement son insertion. L'interprtation des longueurs des branches en terme de nombre d'vnements volutifs n'est pas vidente. D'abord parce que la distance peut avoir des proprits qui ne la permettent pas (non mtricit, non additivit...) ensuite parce que les tentatives pour estimer les distances patristiques ou phyltiques partir des distances observes ne valent qu' la condition de disposer d'un modle test et vrifi qui rende compte correctement de l'homoplasie, ou qu' la condition d'avoir des raisons objectives pour penser que les homoplasies sont ngligeables.

CHAPITRE VIII

LES MTHODES PROBABILISTES

L'infrence de l'histoire volutive des espces ou des populations prsente dans ce chapitre repose sur une mthodologie diffrente des prcdentes en ce sens qu'elle repose sur un raisonnement probabiliste. Cette mthode suppose en effet que les vnements volutifs, essentiellement les transformations de caractres, obissent certaines lois de probabilit dfinies a priori. C'est une particularit de cette mthode que de ncessiter la dfinition pralable d'un modle explicite d'volution des caractres, qu'il s'agisse de caractres quantitatifs, comme des frquences gniques, ou de caractres qualitatifs, comme les acides nucliques de squences d'ADN. Une fois cette dmarche accomplie, il devient possible d'exprimer la probabilit pour qu'un arbre volutif particulier aboutisse aux observations que l'on peut effectuer sur un ensemble de caractres et de taxons. De la mme faon que l'on choisit l'arbre le plus parcimonieux dans les mthodes cladistiques, de mme on optera, compte tenu des observations et du modle, pour l'arbre et pour les longueurs de branches les plus probables. Pour que cette mthode soit bien comprise, il nous a paru ncessaire de donner en introduction quelques indications sur le cadre conceptuel dans lequel elle se situe, cadre qui a t trs largement dvelopp dans le domaine de la statistique par Fisher ds les annes 1920 et qui conduit aux mthodes d'estimation dites du maximum de vraisemblance (Edwards, 1972). Historiquement, une des premires tentatives d'application de cette mthode aux problmes de phylognie est due Edwards et Cavalli-Sforza (1964). A la suite de ces gnralits introductives, on dveloppera un exemple simple qui permettra de souligner les particularits de la mthode. Deux parties suivront, dcrivant les modles d'volution les plus couramment proposs, l'un pour des donnes quantitatives, l'autre pour des donnes qualitatives. A chaque occasion, il sera montr comment s'intgre le facteur temps dans ces modles de reconstruction. Dans une dernire partie, la question de la diffrence entre reconstructions phylogntiques par parcimonie et par vraisemblance sera voque. En particulier on montrera quelles sont les hypothses que sous-entendent les mthodes de parcimonie quand elles sont considres comme une application particulire des mthodes probabilistes.

Les mthodes probabilistes

196

1. Introduction
1.1. Gnralits
Un modle est constitu d'un ensemble de paramtres sur lesquels on peut formuler diffrentes hypothses et qui constituent les hypothses du modle. Ainsi un modle d'volution comporte-t-il plusieurs hypothses concernant des paramtres comme les probabilits d'vnements volutifs (spciations, changements d'tats des caractres, taux de mutation...), ou comme la structure hirarchique des diffrentes UE, c'est--dire l'arbre, lui aussi considr comme un paramtre. Soit P(Ei) la probabilit d'un ensemble Ei d'hypothses sur les paramtres constitutifs d'un modle explicite d'volution, M. Soit D l'ensemble des donnes observes sur lequel s'appuie l'infrence. Il s'agit par exemple de squences alignes d'ADN ou d'une srie d'observations codes prsence/absence sur plusieurs UE. Le problme consiste valuer, dans le contexte exclusif du modle M, la probabilit conditionnelle, P(Ei |D), de l'ensemble d'hypothses Ei, sachant que l'on a observ les donnes D. Le thorme de Bayes permet d'crire : P(Ei |D) = P(Ei ). P(D|Ei )

P(Er). P(D|Er)

La sommation des termes du dnominateur s'effectue sur toutes les r hypothses volutives alternatives formant un ensemble complet d'hypothses, cest--dire un ensemble tel que la somme des probabilits de chacune delles soit gale 1. Il peut s'agir, par exemple, de l'ensemble des arbres possibles. Il est clair que les probabilits a priori P(Er) sont, en rgle gnrale, inconnues. On peut par exemple supposer qu'elles sont toutes gales entre elles et donc gales P(Ei). Cependant il n'est pas toujours ncessaire de faire des hypothses sur les probabilits a priori. En effet, si l'on se borne rechercher l'ensemble Ei d'hypothses volutives rendant le mieux compte des donnes D, on peut tout aussi bien calculer P(Ei|D) que P(D|Ei) qui lui est proportionnelle. On dit que la vraisemblance (Likelihood) L de Ei sachant les donnes D est proportionnelle P(D|Ei). On crira : L(Ei|D) = P(D|Ei) La dmarche infrentielle consiste donc rechercher la vraisemblance des donnes D sous diffrentes hypothses volutives Ei d'un modle M et retenir les hypothses qui rendent cette vraisemblance maximum. Cela revient rechercher les valeurs des paramtres 1, 2,, j,, pour lesquelles les drives partielles de la vraisemblance s'annulent :

Introduction

197
L (Ei |D)
j

=0

et pour lesquelles la drive seconde est positive. Dans cette dmarche, il n'est pas question de tester le modle M lui-mme. La vraisemblance obtenue est en effet conditionne au modle sans l'existence duquel aucune infrence n'est possible. Par exemple le modle peut stipuler que l'volution se fait par dichotomies successives. Les hypothses du modle, celles qui constituent l'ensemble E, seront alors la structure dichotomique de l'arbre, les modalits d'volution des caractres le long des branches et les longueurs des branches elles-mmes. Si le modle invoque des rticulations, la vraisemblance qu'il donnera des donnes ne sera pas comparable la vraisemblance obtenue sous un modle strictement dichotomique (sauf paramtrer les rticulations elles-mmes). De mme ne pourra-t-on pas comparer deux modles intgrant un nombre diffrent d'UE. Il est important pour la suite d'insister sur le fait que des modles diffrents impliquent ncessairement des paramtres diffrents, et pas seulement des valeurs diffrentes des mmes paramtres. On ne peut donc juger des qualits respectives de divers modles mais seulement rechercher les meilleures hypothses concernant le mme ensemble de paramtres, pour un modle donn M. On peut distinguer plusieurs classes de paramtres : les paramtres de structure, les paramtres d'incidence et les paramtres de nuisance (Goldman, 1990). Considrons d'abord l'ensemble {X} des variables alatoires X1, X2, X3,...Xi, dfinissant la ralisation du modle aboutissant aux donnes observes. L'ensemble { } est constitu des paramtres de structure 1, 2,, j,, ceux qui apparaissent dans la loi de probabilit de la totalit des lments de l'ensemble{X}. La structure de l'arbre peut tre considre comme un paramtre commun toutes les variables observes qui varient le long des branches. L'ensemble { } est constitu des paramtres d'incidence 1, 2,, k,, qui n'apparaissent que dans la loi de probabilit d'un sous-ensemble d'lments de {X}. Les tats des caractres en un nud particulier sont parfois considrs comme de tels paramtres, puisque les tats aux nuds, en tant que paramtres, ne sont pas communs toutes les variables X. L'ensemble { } des paramtres de nuisance 1, 2, 3, l,..., est constitu des diffrents paramtres de structure ou d'incidence dont on ne juge pas l'estimation intressante. Ainsi, les tats intermdiaires des caractres dans l'arbre peuvent-ils tre considrs comme des paramtres de nuisance (Felsenstein, 1973a,b). La vraisemblance des donnes est calcule et sa maximisation recherche aprs avoir pris en compte les paramtres de nuisance. Pour ce faire, deux techniques sont possibles : attribuer ces paramtres de nuisance ou bien des probabilits a priori ou bien des probabilits conditionnes par les paramtres de structure ; les maximiser en mme temps que tous les autres paramtres de structure.

Les mthodes probabilistes

198

Une proprit de l'estimation par maximum de vraisemblance est la consistance :: quand le nombre des donnes augmente, les estimations des paramtres du modle convergent vers leurs vraies valeurs, sans que l'on puisse pour autant tirer des conclusions sur la validit du modle lui-mme. Cette proprit de consistance n'est cependant vrifie que pour les paramtres de structure, mais non pour les paramtres d'incidence sauf lorsque ceux-ci suivent tous une loi de distribution identique et qu'ils sont indpendants. C'est pourquoi il est prfrable de traiter les paramtres d'incidence comme des paramtres de nuisance et d'essayer de les supprimer de l'infrence, c'est--dire ne pas chercher les estimer, selon des mthodes identiques celles qui permettent de traiter les paramtres de nuisance.

1.2. Exemple
Imaginons l'histoire volutive de 3 UE (i, j et k). Parmi les 3 arbres possibles, admettons que seuls les arbres de la figure VIII.1 doivent tre envisags : T1 et T2. La question que l'on se pose est donc celle du choix entre ces deux histoires , sur la base de donnes (notes D) qui ne sont constitues ici que d'un seul caractre cod 0 et 1.

UE : Donnes D : arbre :

i 1

j 1 T1

k 0

i 1

j 1 T2

k 0

FIGURE VIII.1. Exemple de la distribution d'un caractre dans 3 UE dont les relations phyltiques peuvent tre de deux formes diffrentes : T1 et T2. La dmarche peut se comparer celle que suivrait un parieur : tirer le meilleur parti des observations disponibles (D) pour retenir l'arbre le plus probable, celui qui a le plus de chance d'tre le bon. La question peut donc se formuler ainsi : quelle est la probabilit de l'arbre T1 compte tenu des observations D effectues sur les 3 UE ? Formellement cela s'crit simplement : p(T1|D). Puisque seulement deux alternatives sont possibles, T1 et T2, on peut crire (thorme de Bayes) :

p(T 1 |D) =

p(T1 )p(D|T1 ) p(T1 )p(D|T1 ) + p(T 2 )p(D|T 2 )

Introduction

199

o p(T1) et p(T2) sont les probabilits a priori des arbres T1 et T2, celles que l'on peut possder antrieurement l'analyse des donnes D. Les probabilits d'observer les donnes D quand l'arbre est T1 et T2 sont, respectivement, p(D|T1) et p(D|T2). Une difficult inhrente cette mthode rside dans la quantification objective de telles probabilits a priori de l'arbre T1 et T2. Pour contourner ce problme, on remarquera que l'on peut aussi bien effectuer notre choix entre T1 et T2, non pas en comparant p(T1|D) et p(T2|D), mais en comparant p(D|T1) et p(D|T2) qui leur sont proportionnelles et que l'on appelle les vraisemblances des donnes sachant que l'arbre est T1 et T2, respectivement L(T1|D) et L(T2|D). On va donc s'intresser au rapport de vraisemblance : F= L(T1 |D) L(T2 |D) p(T2) p(T1)

Lorsque ce rapport F est suprieur au rapport des probabilits a priori : FO =

on choisira de prfrence l'arbre T1 ; lorsqu'il est infrieur, on choisira plutt l'arbre T2. Si les probabilits a priori sont gales, ce rapport F0 est naturellement gal 1. Pour calculer ce rapport de vraisemblance F, il est indispensable de dfinir au pralable un modle d'volution et de prciser les diffrents paramtres qui le composent. 1.2.1. Le modle d'volution et les paramtres Le premier paramtre est constitu par la structure S de l'arbre. Deux hypothses sont possibles pour ce paramtre : S = T1 ou S = T2. Les probabilits des vnements, c'est--dire les transformations des caractres de 0 vers 1 et de 1 vers 0 constituent d'autres paramtres du modle. Pour simplifier, considrons ici que la probabilit est la mme pour passer de 0 1 et de 1 0. Dsignons cette probabilit par et par = 1 la probabilit qu'il n'y ait pas de changement le long d'une branche : (ou ) constitue donc un paramtre dont les valeurs peuvent aller de 0 1. Supposons, de plus, que, pour un caractre donn, un seul changement par branche soit possible. Il s'agit l d'une contrainte supplmentaire impose au modle qui sera discute plus loin (paragraphe VIII.4 et 5). Un autre paramtre est constitu par la probabilit attribue l'tat du caractre chez l'anctre de i, j et k. Cet tat est 0 avec une probabilit gale f ou bien il est 1 avec une probabilit gale (1 f). Reste enfin exprimer les probabilits p(D|T1) et p(D|T2), sous ce modle, en fonction des diffrents paramtres. Pour cela il faut examiner toutes les situations possibles pour les tats du caractre aux nuds de l'arbre T1 , de l'arbre T2 et de l'anctre.

Les mthodes probabilistes

200 S = T1

1 0 j 1 k 0 i 1 j 1 k 0
4

1 1

0
i 1 j 1 k 0 i

i 1

j 1

k 0
3

L(T1|D)

2 2

f S = T2

(1 f)

(1 f)

0
0

0 1
i j 1 k 0
3

1 0

1 1

i 1

j 1

i
1

j
1

k 0
2 2

i
1

j
1
3

k 0

L(T2|D)

2 2

(1 f)

(1 f)

FIGURE VIII.2. Probabilits des diffrents vnements qui ont pu conduire aux donnes de la figure VIII.1, pour les arbres de structure S = T1 et S = T2, l'tat de l'anctre tant O ou 1. Un seul vnement par branche, de probabilit , est ici pris en considration. La figure VIII.2 montre toutes les combinaisons possibles et leurs probabilits respectives. Puisqu'il y a 4 branches dans chaque arbre, chacune d'elles est affecte d'une probabilit ou selon qu'il y survient un changement d'tat ou non. La probabilit d'une configuration est donc le produit des probabilits attaches chacune des 4 branches, multiplie par la probabilit f ou (1 f) de l'tat de l'anctre. 1.2.2. Le calcul des vraisemblances, de leurs variations et de leur rapport A l'aide de la figure VIII.2, on peut calculer les vraisemblances des arbres T1 et T2 en fonction des deux paramtres f et (ou = 1 ). On a en effet : L(T1 |D) = f 2 + (1 f)(1 3) et L(T2 |D) = f 2 + (1 f) 2 Les variations du rapport F=L(T1|D)/L(T2|D), ou de son logarithme, en fonction des deux paramtres (ou ) et f sont reprsentes dans la figure VIII.3. Elles permettent de formuler un choix entre T1 et T2 en fonction des hypothses retenues pour les paramtres du modle, compte tenu des donnes disponibles, et en fonction du rapport des probabilits a priori des arbres T1 et T2.

Introduction

201

100

L [p(T1|D)/p(T2|D)]

10

f=0.0 f=0.2 f=0.5 f=0.8 f=1.0

,1

,1

,2

,3

,4

,5

,6

,7

,8

,9

Probabilit de changement FIGURE VIII.3. Variation du rapport entre la vraisemblance de l'arbre T1 et celle de l'arbre T2 en fonction des variations des paramtres (probabilit de changement) et f (probabilit que l'tat ancestral du caractre soit 0). Supposons que les probabilits a priori des arbres T1 et T2 soient gales, signifiant par l que ces deux arbres ont autant de possibilit, avant l'analyse, d'tre le bon. Dans cette situation, on choisira l'arbre T1 si le rapport des vraisemblances F est suprieur 1. On choisira l'arbre T2 dans la situation inverse (Figure VIII.3). Lorsque l'anctre a plus de chance d'tre dans l'tat 0 que dans l'tat 1 (f > 0.5), l'arbre retenu est toujours T1 aussi longtemps que la probabilit de changement est plus faible que la probabilit de non changement ( < 0.5). Il peut tre T2 ou T1 lorsque > 0.5, selon la valeur de f. La situation est plus complexe lorsque l'anctre a plus de chance d'tre dans l'tat 1 (f < 0.5). L'arbre T2 peut alors donner une meilleure vraisemblance dans certaines conditions : par exemple lorsqu'on a simultanment f = 0.2 et 0.2 < < 0.5. Lorsque la probabilit de changement se situe au dessus de 0.5 et que l'anctre est suppos tre dans l'tat 0 (f = 1), l'arbre le plus vraisemblable est encore T2 , de mme lorsque f = 0.8 et que 0.5 < < 0.8. Dans cet exemple, la mthode du maximum de vraisemblance nous a servi n'estimer que le paramtre S correspondant la structure de l'arbre, en fonction

Les mthodes probabilistes

202

FIGURE VIII.4. Surfaces de vraisemblance de l'arbre T1 (a) et de l'arbre T2 (b) en fonction des valeurs des paramtres (probabilit de changement sur une branche) et f (probabilit que l'anctre soit sous l'tat 0). des autres paramtres (la probabilit de changement d'tat ou la probabilit de l'tat ancestral). Supposons maintenant que l'arbre pris en considration soit l'arbre T1. Les estimations des paramtres f et s'obtiennent en cherchant les valeurs de ces paramtres qui maximisent la vraisemblance L(T1|D). La figure VIII.4a montre que la surface de vraisemblance est telle que le maximum s'obtient dans une situation trs particulire, quand le paramtre f tend vers 0 et que tend vers 1, c'est--dire que la vraisemblance est maximale quand l'anctre est dans l'tat 1 et qu'il y a un changement sur chaque longueur de branche. En revanche lorsque l'anctre est l'tat 0 (f = 1), la vraisemblance maximale s'obtient quand la

Introduction

203

probabilit de changement sur chacune des branches est de une chance sur 3 ( = 1/3). Si l'on admet maintenant que l'arbre est T2, les variations de la vraisemblance exprimes en fonction de et de f peuvent galement tre calcules. Ces variations permettent de situer les valeurs maximales de la vraisemblance (figure VIII.4b). L'anctre tant dans l'tat 0 (f = 1), la probabilit de changement peut tre estime = 2/3, car c'est la valeur de conduisant la vraisemblance maximale. En revanche quand l'anctre est 1, la valeur estime de est 1/3.

1.3. Conclusions
Au travers de ces exemples simples, on a pu voir que la mthode de vraisemblance consiste d'abord dfinir un modle l'aide d'un certain nombre de paramtres. Plusieurs hypothses sont ensuite formules propos de ces paramtres, hypothses qui reviennent leur attribuer des valeurs particulires. On retient comme valeurs estimes des paramtres celles qui rendent la vraisemblance maximale. Remarquons que l'on ne fait aucune infrence sur les tats des caractres aux nuds sauf en terme de probabilit. Si l'arbre choisi est T1 par exemple, alors la probabilit pour que l'tat de x (figure VIII.1) soit 0 dpend de f et de . Elle est donne par (figure VIII.2) : p(x = 0| T1,D) = f + (1 f) 2 f + (1 f)(1 3)
2 2 4

Une analyse de parcimonie de la distribution des caractres de la figure VIII.1 conduirait, plus directement en apparence, aux conclusions suivantes : si l'anctre est dans l'tat 0, alors l'arbre le plus parcimonieux est l'arbre T1 puisqu'une seule transformation est ncessaire, entre l'anctre et x. En revanche quand l'anctre est dans l'tat 1, le choix, sur la base des donnes disponibles, entre l'arbre T1 et l'arbre T2 est impossible en ce sens que l'unique transformation peut aussi bien survenir sur la branche entre l'anctre et k dans l'arbre T1 qu'entre le nud y et k dans l'arbre T2. Cependant, si l'arbre T1 est celui qui est retenu, alors il n'y a plus d'ambigut dans l'attribution des caractres aux nuds dans l'approche par parcimonie : x est ncessairement dans l'tat 1. Tel n'est pas le cas dans une approche par maximum de vraisemblance : l'tat du caractre au nud x n'est connu qu'en probabilit. Cet exemple sera repris plus loin de manire plus complte lors de la comparaison entre mthodes probabilistes et mthodes de parcimonie. Il souligne bien l'une des diffrences fondamentales entre vraisemblance et parcimonie.

Les mthodes probabilistes

204

2. Modle d'volution de caractres quantitatifs


Soit Xi, Xj, Xk... Xo les valeurs du caractre X dans les taxons, UE ou UEH i, j, k, o, aux temps ti, tj, tk, to (figure VIII.5). L'origine de l'arbre T est constitue par la population ancestrale o au temps t.

to

tk tj ti

k j i

FIGURE VIII.5. Temps de division dans un arbre phylogntique. On suppose que X se distribue normalement et volue avec le temps selon un processus alatoire, analogue un mouvement brownien, de telle faon que l'esprance de X est constante au cours du temps : E(Xi) = E(X0) i, et que la variance du caractre chez le taxon i est gale sa variance chez le taxon k qui lui est ancestral, augmente d'une quantit proportionnelle au temps coul dt entre ti et tk. V(Xi) = V(Xk) + ikdt, Le facteur de proportionnalit ik mesure la vlocit du mouvement brownien pour le caractre X durant le temps dt. On suppose de plus que les caractres voluent indpendamment les uns des autres et que l'volution le long d'une branche se fait indpendamment de l'volution sur les autres branches. On peut supposer galement que le coefficient ik varie d'une branche l'autre de l'arbre (c'est pourquoi il est indic ik). On parle alors de taux d'volution variable (TEV). En revanche si est identique pour toutes les branches de l'arbre, le taux d'volution est alors constant (TEC). Si l'on se place dans un contexte intra-

Modle dvolution de caractres quantitatifs

205

spcifique, ce coefficient ik est lui-mme proportionnel l'effectif efficace Ne de la population entre le temps ti et tk (Thompson, 1975). Il n'est gnralement pas possible de distinguer les deux termes du produit ikdt. Pour cela, il faudrait en effet ou bien connatre correctement les temps auxquels les taxons se sont diffrencis, ou bien avoir des arguments pour pondrer, selon les branches, les vitesses d'volution. En l'absence de telles informations, on parle gnralement de quantit d'volution eik pour reprsenter le produit ikdt. La covariance entre Xi et Xj est simplement gale la variance de leur anctre commun k : Cov(Xi,Xj) = V(Xk). Dans les conditions dfinies prcdemment, la diffrence entre la ralisation de la variable X, pour le caractre s, dans l'UE i et k, respectivement xi,s et xk,s est gale : dik,s = (xi,s xk,s) et se distribue normalement avec une esprance nulle et une variance gale la quantit d'volution eik entre i et son anctre k. La vraisemblance des observations faites sur la branche entre i et k s'crit comme le produit de c lois normales, c tant le nombre total de caractres voluant indpendamment les uns des autres :
Lik =

s =1

dik,s 1 1/2 exp 2e (2 e ik) ik

La vraisemblance globale d'un arbre T peut ensuite tre calcule comme le produit des vraisemblances attaches chacune des branches de T :

L = Lik
i,k

Il est ensuite possible d'obtenir par drivation les estimations des quantits d'volution, en rsolvant les quations diffrentielles du type suivant : L =0 eik En revanche, il n'est pas possible d'estimer par drivation les valeurs des variables xk,s chacun des nuds, moins de les considrer comme des paramtres et non comme des ralisations d'une variable alatoire sous un certain modle. Dans ce cas il s'agirait cependant de paramtres d'incidence puisque propres chacun des nuds, et leur estimation n'aurait pas ncessairement, de ce fait, la proprit de consistance. Par ailleurs un problme fondamental se pose la racine de l'arbre dans la mesure o la surface de vraisemblance prsente une singularit. En effet, supposons que l'anctre soit k et que i et j soient les deux UE filles :

Les mthodes probabilistes k k' i j

206

Il ressort clairement de la formule prcdente de la vraisemblance que si l'on choisit la position de k telle que eik soit aussi petit que l'on souhaite (cela revient par exemple prendre k' comme racine, proche de i), la vraisemblance gale LikLjk (et donc la vraisemblance totale L) tend vers une valeur infiniment grande (Cavalli-Sforza et Edwards, 1966). La position de la racine n'est donc pas localisable en mme temps que sont estimes les quantits d'volution le long des branches. Plusieurs solutions peuvent tre envisages pour contourner ces difficults.

2.1. La solution de Felsenstein (1973b)


Felsenstein (1973b) fait remarquer que la distance dij entre deux UE se distribue normalement avec une esprance nulle et une variance eij gale la somme des quantits d'volution qui les sparent de k : eij = eik + ejk Il est possible de remplacer les deux UE i et j par une nouvelle UE hypothtique (ij) dont la valeur des caractres serait une combinaison linaire des valeurs observes chez i et j, les pondrations des caractres se faisant en fonction des quantits eik et ejk. Ces valeurs sont celles donnes par la drivation suivante de la fonction de vraisemblance : L = 0. x k Ainsi la valeur x du caractre s chez la nouvelle UEH (ij) est-elle gale : ejk x (ij ),s = e x i,s + eik x j,s eij ij La vraisemblance d'une branche reliant cette nouvelle UEH (ij) une autre UE k, L(ij)k, se calcule facilement en utilisant les formules du paragraphe prcdent. La vraisemblance totale de l'arbre non enracin incluant les UE i, j et k est alors gale au produit LijL(ij)k. Cette mthode revient considrer les valeurs des caractres pour les UE hypothtiques (ou ancestraux) comme conditionnes par les UE qui en dcoulent : dans ce cas les paramtres d'incidence sont traits comme des paramtres de nuisance et pris en compte en leur attribuant des probabilits conditionnelles. Par cette procdure, il est possible de calculer, de proche en proche, la vraisemblance totale de l'arbre non enracin T. On recherche ensuite l'arbre T et les valeurs des autres paramtres, ici l'ensemble E constitu des longueurs de branches exprimes en terme de quantit d'volution e, qui maximise la

Modle dvolution de caractres quantitatifs

207

vraisemblance. On peut galement obtenir une variance de ces estimations en calculant la courbure de la surface de vraisemblance, donne par les drives secondes, et effectuer certains tests d'hypothses. 2.1.1. Tests d'hypothses Sur un arbre T donn, il est possible d'effectuer des tests sur les longueurs de branches (Felsenstein, 1981b). Par exemple on peut tester que l'une des branches, eij, est de longueur nulle, simplement en comparant la vraisemblance L(E|D,T), obtenue lorsque cette longueur eij est estime, la vraisemblance L(E|D,T,eij = 0) obtenue quand on maintient cette longueur gale 0. Le double du logarithme du rapport de ces deux vraisemblances se distribue asymptotiquement, c'est--dire quand les donnes sont trs abondantes, comme un 2 1 degr de libert : L(E|D,T,e ij = 0) 2 2ln = ddl = 1 L(E|D,T) On peut galement imposer davantage de contraintes sur les longueurs de branches. Dans l'hypothse o l'anctre est connu, il est possible de tester si les quantits d'volution obissent aux proprits d'ultra-mtricit (chapitre VII), et donc de tester l'hypothse d'horloge molculaire (Felsenstein, 1983a; 1985a ; 1986). Il suffit pour cela de calculer la vraisemblance de l'arbre en contraignant les quantits d'volution entre deux UE filles et leur anctre commun tre gales puis comparer cette vraisemblance la vraisemblance obtenue sans de telles contraintes. Le double de la diffrence entre ces deux vraisemblances se distribue en effet asymptotiquement (quand la quantit de donnes augmente) comme un 2. Son degr de libert est la diffrence entre le nombre de branches estimes sans l'hypothse d'horloge (2n 3) et le nombre de branches estimes avec l'hypothse d'horloge (n 1), soit (n 2) degrs de libert. Ce test permet donc de rejeter ou non l'hypothse d'horloge molculaire. 2.1.2. Exemples Deux exemples seront donns (figures VIII.6 et VIII.7). Dans le premier, les relations entre UE (ici des populations humaines) sont construites partir d'une matrice de distances calcule partir de 35 diffrentes frquences allliques. Le modle suppose des fluctuations alatoires de ces frquences (drive gnique), l'absence de slection et de mlange. Certaines longueurs ne sont pas significativement diffrentes de 0, sur la base d'une estimation des variances des longueurs de branches par les drives secondes de la surface de vraisemblance. Cet arbre montre une vidente absence de structure significative due probablement ce que les mlanges inter-populations ne peuvent tre ngligs. Le deuxime exemple montre l'application de la mme mthode sur des donnes constitues des degrs d'hybridation d'ADN entre espces prises deux deux. Les mthodes phntiques s'imposent en l'occurrence. Dans ce cas, l'hypothse d'horloge molculaire peut tre teste. Elle n'est pas ici rejete.

Les mthodes probabilistes


Sud Finistre
Flandres

208

Limousin Beaujolais Poitou

Normandie Dauphin

Alsace

Nord Finistre Qubec


Cvennes

Catalogne

Corse

Auvergne

Barn

FIGURE VIII.6. Reprsentation des inter-relations gntiques entre provinces franaises (Ohayon et Cambon-Thomsen, 1986) en partant d'un modle o l'on suppose une volution alatoire des frquences allliques (drive gnique) et l'absence de slection et de mlange. Les segments fins ne sont pas significativement diffrents de zro.
Homo sapiens Pan paniscus Pan troglodytes Gorilla gorilla Pongo pygmaeus Hylobates syndactylus Hylobates lar Papio hamadryas

FIGURE VIII.7. Structure de l'arbre non enracin et longueurs de branches obtenues par maximum de vraisemblance. La matrice de distance est constitue des taux moyens d'hybridation d'ADN entre espces prises deux deux (d'aprs Felsenstein, 1987 et les donnes de Sibley et Ahlquist, 1987). Les logarithmes de la vraisemblance sont de 359.5 et de 357.7, respectivement sans et avec l'hypothse d'horloge molculaire. La diffrence n'est pas significative (2 = 3.56, d.d.l. = 7) .

Modle dvolution de caractres quantitatifs

209

2. 2. La mthode du Treeness (Cavalli-Sforza et Piazza, 1975)


Cette mthode consiste retrouver les relations phylogntiques entre n UE partir d'une matrice de covariance ayant une dimension gale au nombre n d'UE. L'lment diagonal, ii, reprsente la variance de l'UE i et est gal la somme des quantits d'volution menant de i la racine de l'arbre (paragraphe VIII.2). L'lment ij reprsente la covariance entre les taxons i et j et est gal la somme des quantits d'volution depuis l'anctre commun de i et j jusqu' la racine de l'arbre. La matrice = {ij} = f({ei}) est fonction des paramtres e reprsentant les quantits d'volution le long des branches. Si les c variables X qui dfinissent cette matrice sont multinormalement distribues, la vraisemblance de cette distribution s'crit :
L = 1
nc 2 2

c 2

exp{

1 1 [(X XO ) (X X O)']} 2
c

Le logarithme de cette vraisemblance est donc, remplaant les valeurs de X par leur ralisation x, c'est--dire les valeurs observes dans les diffrentes UE, S tant alors la matrice de covariance observe : lnL =

1 2

c [ln + tr ( 1 S)] + Constante

La qualit de l'ajustement de la matrice de covariance observe S la matrice thorique qui correspond l'arbre T peut tre value par le coefficient de treeness Tr : Tr = S

S et tant positives dfinies. Tr se distribue comme un 2 = 2cLn(Tr) o c est le nombre de caractres. Le degr de libert est gal n(n+1)/2 (2n 1) (Cavalli-Sforza et Piazza, 1975 ; Astolfi et al., 1978). Le problme reste l'impossibilit d'estimer la fois les Xo, valeurs des variables chez l'anctre, et les quantits d'volution e. La suggestion de CavalliSforza et Piazza revient prendre comme valeur des variables chez l'anctre la moyenne du caractre estime sur l'ensemble des taxons considrant que l'esprance des variables X est bien toujours gale Xo (paragraphe VIII.2). Cette transformation prsente l'inconvnient d'tre sensible au choix des UE tudies : la prsence d'un ensemble de UE monophyltiques proches les unes des autres et largement chantillonnes fera naturellement pencher le centre de gravit des caractres vers ce groupe monophyltique, dplaant ainsi la racine de l'arbre. Un biais dans l'chantillonnage des UE entrane donc une distorsion dans la localisation de la racine.

Les mthodes probabilistes

210

Enfin, en explorant l'ensemble des diffrentes topologies possibles (ou un sous-ensemble raisonnable choisi selon une stratgie donne), il est possible d'obtenir une estimation du paramtre structure de l'arbre , T, qui est celle qui maximise la vraisemblance totale. Il est important de noter que cette mthode produit un arbre enracin, la diffrence de la mthode prcdente. Exemple : La matrice des covariances entre 5 populations europennes estime partir de 49 frquences gniques diffrentes (24 systmes diffrents : ABO, Rhsus, MNS, HLA, Gc ...) a t calcule en utilisant comme valeur moyenne des frquences allliques la valeur moyenne estime sur les 5 populations. La figure VIII.8 donne l'arbre obtenu. La qualit de l'ajustement, donne par le rapport Tr ou treeness , est ici gale 0.69, correspondant un 2 = 36.4, d.d.l. = 6. On voit que l'ajustement est mdiocre. Le modle volutif choisi pour rendre compte de la matrice de covariance entre ces 5 populations est donc probablement inadquat. Il est possible d'amliorer cet ajustement, en supposant, par exemple, que des mlanges se sont produits entre des populations ancestrales. De tels mlanges peuvent expliquer les courtes branches de la France et de l'Angleterre. Plusieurs modles ont t dvelopps pour rendre compte de tels mlanges dans les phylognies (Cavalli-Sforza et Piazza, 1975 ; Lathrop, 1982 ; Darlu et Lathrop, 1993).

Espagne France

Angleterre
Ecosse

Norvege
FIGURE VIII.8. Arbre enracin obtenu par la mthode du Treeness (CavalliSforza et Piazza, 1975). Les 5 populations sont dfinies par 49 frquences gniques. La mthode admet une vitesse d'volution variable sur chaque branche.

Modle dvolution de caractres discrets

211

3. Modle d'volution de caractres discrets


L'une des ambitions de la reconstruction phylogntique est de rechercher l'arbre le plus vraisemblable et d'estimer les tats des caractres aux nuds, en se fondant sur l'observation des caractres dans les UE terminaux. Ce que l'on peut crire : L(T,Y|X) = P(X|T,Y) o T reprsente la structure d'un arbre et Y les tats des caractres aux diffrents nuds que l'on cherche infrer et o X est l'ensemble des tats de caractres observs sur les UE. En fait, dans le cadre de la mthode du maximum de vraisemblances, les diffrentes valeurs prises par Y aux nuds sont des ralisations d'une variable alatoire et ne sont donc pas a priori des paramtres que l'on peut estimer. Si l'on souhaite cependant les estimer, il faut alors les considrer comme des paramtres. Ceux-ci sont ncessairement des paramtres d'incidence comme on l'a vu plus haut. Dans ces conditions leur estimation, ainsi que celle de T, peut tre inconsistante. Pour contourner cette difficult, on peut abandonner l'ide d'estimer Y, et se contenter d'obtenir sa distribution en probabilit partir de paramtres structuraux qui sont ceux dfinissant la ralisation des X. Aprs quelques gnralits, deux modles diffrents pour rsoudre cette question seront dvelopps : le modle d'volution de type Poisson (Felsenstein, 1981), et le modle d'volution indpendant du temps propos par Sober (1985 ; 1988), modle que ce dernier considre comme tant identique au modle de parcimonie, ce que conteste avec arguments Goldman (1990). La discussion sur ce modle nous conduira prciser les rapports entre vraisemblance et parcimonie.

3 .1. Gnralits
La question est d'exprimer, en terme de probabilit, les diffrentes valeurs que peuvent prendre les variables Y aux nuds (ou UEH), sachant les valeurs observes, X, sur les UE. Soit un caractre X pouvant se prsenter sous s tats diffrents Xa, Xb, ....Xs. Lorsque le caractre est cod prsent ou absent , s = 2. Lorsqu'il s'agit d'un site nuclotidique quatre tats sont possibles, s = 4 : Adnine, Guanine, Cytosine et Thymine ou Uracile. La notation Xd,D indique que l'UEH D possde le caractre X dans l'tat d (figureVIII.9). La probabilit d'observer l'tat d du caractre X chez D, sachant que l'on observe l'tat a dans l'UE A qui en est driv et sachant que la quantit d'volution sparant D de A est gale eAD peut s'crire de la faon suivante : p(Xd,D|Xa,A,eAD)

Les mthodes probabilistes

212

E D (d)
e AD

A (a)

B (b)

FIGURE VIII.9. Les UE A et B possdent le caractre X sous l'tat a et b respectivement. eAD est la quantit d'volution sparant D de A. Cette probabilit est fonction de la quantit d'volution entre A et D (voir paragraphe VIII.2) et de la probabilit de transformation de l'tat d vers l'tat a caractre X. Diffrents modles peuvent tre proposs pour valuer cette probabilit. Certains d'entre eux seront exposs plus loin. La vraisemblance de Xd,D l'tat d du caractre X chez D, est donne par le produit de deux expressions comparables : l'une concernant l'UE fille A, l'autre l'UE fille B. La justification de ce produit vient de ce que les volutions de D vers A et de D vers B sont indpendantes. Chacune de ces expressions reprsente la probabilit que D soit Xd sachant que A (et B) est dans l'un des s tats possibles, pondr par la vraisemblance que A (et B) soit effectivement dans cet tat : L (X d, D|X a, A , X b , B ) =
h =1

[p(X d, D|X h , A , eAD). L(X h , A ).

h =1

[p(X d, D|X h , B , eBD). L(X h , B )

Lorsque A (ou B) est une UE sur laquelle l'tat du caractre X peut tre observ, la vraisemblance d'un tat du caractre X dans ce taxon A (ou B) est : L(Xh,A) = 1 si A est h, 0 autrement. L(Xh,B) = 1 si B est h, 0 autrement. Dans ce cas la formule donnant la vraisemblance de Xd se simplifie grandement. En revanche, si A (ou B) est une UEH, la vraisemblance de chacun de ses tats devra tre estime par la mme formule. Les vraisemblances de chacun des s tats possibles du caractre X dans l'UEH D, peuvent donc tre estimes partir des observations effectues sur les taxons A et B. De la mme faon, il est possible de calculer la vraisemblance de tous les tats possibles du caractre X dans l'UEH E, simplement en appliquant la formule prcdente, les UE filles tant cette fois D et C. Le calcul de la vraisemblance de l'arbre T peut s'tendre ainsi jusqu' la racine O de l'arbre. Elle sera alors gale, pour le caractre X la racine : LX =
h =1

[ h , O. L(X h , O)]

o h,O est la probabilit a priori que X soit dans l'tat h la racine de l'arbre. La somme est tendue sur l'ensemble des s tats du caractre X.

Modle dvolution de caractres discrets

213

La vraisemblance totale de l'arbre T est obtenue en multipliant les vraisemblances calcules pour chacun des c caractres X voluant indpendamment : L(T, E) = LX c Dans le calcul de cette vraisemblance, les paramtres du modle sont la structure T de l'arbre et E, l'ensemble des quantits d'volution e attaches chacune des branches. Les tats des caractres aux nuds ne sont pas ici des paramtres estimer. Ce sont des tats conditionns, selon une loi de probabilit dfinir, par les ralisations des variables au niveau des UE observes. Maintenant que l'on sait calculer la vraisemblance totale d'un arbre ayant une structure donne T, on peut rechercher la structure de l'arbre T et les longueurs de branches, exprimes en terme de quantit d'volution, qui maximisent cette vraisemblance selon des procdures dcrites antrieurement. La formulation d'hypothses plausibles sur les probabilits des vnements (changements d'tat, substitutions de bases ou d'acides amins) telles qu'elles sont dcrites dans la premire formule du paragraphe VIII.3.1 constitue la difficult essentielle d'une telle approche. Plusieurs modles ont t proposs dans ce but. Nous n'en dcrirons ici que deux : l'un drive du modle d'volution de type Poisson, le second en est une version simplifie propose par Sober pour son analogie avec la mthode de parcimonie (Sober, 1988). Ce point d'ailleurs sera discut dans une autre partie (VIII.4).

3.2. Modle d'volution de type Poisson, fonction du temps


Supposons que les probabilits de changements d'tat par unit de temps, pour un caractre X, ne dpendent ni du sens ni de la nature de la transformation, ni de sa position dans l'arbre. Dans ce cas la probabilit d'observer x changements d'tat pendant un temps t est donne par : x (t) t p(x,) = e x! Lorsqu'il n'y a que deux tats possibles, 0 et 1 par exemple, la probabilit que l'anctre D (figure VIII.9) ait le mme tat de caractre que l'UE fille A est gale la somme de la probabilit qu'il n'y ait aucun changement entre A et D, de la probabilit qu'il y ait deux changements dont une rversion (0 vers 1 et 1 vers 0), de la probabilit qu'il y ait 4 changements, etc. 1 p(Xi = 0,D|Xi = 0,A,t) = p(x = 0,t) + p(x = 2,t) + p(x = 4,t) +.... = (1+e 2t ) 2 De mme la probabilit pour que A et D ne soient pas dans le mme tat du caractre X s'crit : 1 p(Xi = 0,D|Xi = 1,A,t) = p(x =1,t) + p(x = 3,t) +p(x = 5,t) +... = (1 e 2t ) 2 La valeur t correspond ici la quantit d'volution eAD entre A et D. A moins de pouvoir valuer de manire indpendante, il n'est pas possible de distinguer entre et t, le temps sparant A de D (voir paragraphe VIII.2).

Les mthodes probabilistes

214

L'exemple donn ici pour estimer les probabilits de changements lorsque les caractres se prsentent sous deux tats distincts peut se gnraliser aux situations o ils se prsentent sous plusieurs tats. C'est le cas par exemple pour un site nuclotidique o 4 tats sont possibles (A,T,C,G pour l'ADN). Dans ce cas on peut crire, g et h tant deux tats distincts du caractre X (Bishop et Friday, 1985) : 1 p(Xg,D|Xh,A,t) = (1 e 2t ) + e 2t 4 avec = 0 lorsque g = h, = 1 lorsque g h. Il est possible de prciser davantage les probabilits de changements, lorsqu'il s'agit d'un site nuclotidique par exemple. Ainsi peut-on supposer que les probabilits de changements d'tat du caractre sont diffrentes selon la nature du changement : c'est le cas du modle deux paramtres de Kimura (1980) o les probabilits de transition sont diffrentes des probabilits de transversion. Des modles 4 paramtres (Takahata et Kimura, 1981), 6 paramtres (Kimura (1981b), 12 paramtres (Gojobori et al., 1982) ont galement t proposs. Un modle gnral a t dvelopp par Tajima et Nei (1984). Un exemple 3a 3c 4Aa Cerv
232 16 20 32 19 32 22 9 18 32

3b

4Bb
27

4Ba

4Ab
46

1a

2C FIGURE VIII.10 : Arbre non enracin obtenu par maximum de vraisemblance partir des squences alignes de 114 sites de l'extrmit 5' de l'ARN ribosomal 16S dans le genre Mus (Fort, 1982 ; Fort et al., 1984). Cerv : Mus Cervicolor; 4Aa et 4Ab , 4Ba et 4Bb : Mus spicilegus (Bulgarie) ; 1a : Mus domesticus ; 2C : Mus musculus castaneus ; 3a, 3b, 3c : Mus spretus. Les frquences des nuclotides utilises a priori sont les frquences observes sur l'ensemble des sites. Le rapport transition/transversion donne une vraisemblance optimale quand il est proche de 2 (programme DNAML de Felsenstein, 1990). Les nombres sont proportionnels la longueur des branches.

Parcimonie et vraisemblance

215

3.3. Modle d'volution indpendant du temps


Dans ce modle, la probabilit qu'aucun changement d'tat du caractre X ne soit observ entre D et A est donne par : P(Xh,D|Xh,A,eAD) = La probabilit d'observer des tats diffrents en A et D est : P(Xg,D|Xh,A,eAD) = (1- ) peut prendre une valeur quelconque entre 0 et 1. Il est important de remarquer que ces probabilits ne sont pas fonctions de la quantit d'volution entre D et A, eAD, et sont donc indpendantes du temps t, la diffrence du modle prcdent. Autrement dit on considre dans ce modle qu'un vnement a autant de chance de se produire durant un intervalle de temps court que durant une longue priode de temps. En consquence, une diffrence d'tat entre deux taxons peut correspondre un nombre lev de changements d'tat, sans que la probabilit de l'vnement soit diffrente : dans le cas d'un caractre prsentant deux tats, 0 et 1, on peut en effet passer de 0 1 selon le schma 0 1 (1 pas) ou bien selon le schma suivant : 0 1 0 1 (3 vnements ) avec, dans ce modle, la mme probabilit. De mme l'absence de diffrence peut dissimuler plusieurs changements d'tat : 0 1 0 par exemple ou davantage (2, 4, 6, ...pas). Ces possibilits de changements multiples ne sont donc pas prises en compte, et la probabilit de ralisation de l'vnement ne dpend pas du temps. Ce modle reprend celui donn en exemple dans l'introduction de ce chapitre. La vraisemblance s'exprime alors en fonction de la structure de l'arbre T, de et des probabilits a priori des diffrents tats la racine de l'arbre (voir les formules du paragraphe VIII.1.2) : L (T , ) = L X
c

La structure T et la valeur estimes seront celles maximisant cette vraisemblance.

4. Parcimonie et vraisemblance
Dans l'analyse de parcimonie, chaque diffrence d'tat (et non pas chaque changement d'tat) d'un caractre X entre l'origine et la fin d'une branche (0 et 1 ou 1 et 0 par exemple) compte pour une longueur unit et contribue donc ajouter, quel que soit le prix de cette diffrence , une unit la longueur totale de l'arbre T. L'arbre T le plus conomique (le plus parcimonieux) sera celui ncessitant, pour un ensemble donn de caractres, le nombre minimal de diffrences d'tat entre les deux extrmits de toutes les branches Pour obtenir ce nombre, il est vident qu'il est ncessaire de faire des infrences sur l'tat des caractres aux nuds de l'arbre. En d'autres termes, cette mthode suppose que l'on estime la fois des paramtres de structure (ici T) et les valeurs, Y, prises par

Les mthodes probabilistes

216

les variables aux nuds ; comme on l'a vu, ces variables sont alors des paramtres d'incidence. En consquence, il n'est pas assur qu'une telle approche possde la qualit de consistance que l'on souhaite, la diffrence de la mthode prcdente o de tels paramtres taient traits comme des paramtres de nuisances et supprims de l'infrence en leur affectant des probabilits conditionnelles calcules partir d'une loi de distribution, la loi de Poisson en l'occurrence, ou partir d'une probabilit constante. La mthode de parcimonie revient maximiser la vraisemblance suivante, o Y reprsente ici les tats des caractres aux nuds que l'on veut infrer et X les tats des caractres sur les UE observes : L(T,Y|X) = P(X|T,Y) Le modle d'volution est celui dcrit au paragraphe VIII.1.2 : la probabilit qu'aucune diffrence d'tat ne soit observe sur une branche donne dont l'origine est I et l'extrmit est J s'crit : P(I=1|J=1) = P(I=0|J=0) = P(I=1|J=0) = P(I=0|J=1) = (1- ) Soit vi00 le nombre de branches commenant et finissant par l'tat 0 du caractre i, vi01 le nombre de branches commenant par l'tat 0 et finissant par l'tat 1, vi10 le nombre de branches commenant par l'tat 1 et finissant par l'tat 0, vi11 le nombre de branches commenant et finissant par l'tat 1. On peut crire la vraisemblance de la distribution des tats des c caractres dans l'arbre T de la faon suivante : c i i i i L = (v00 + v11).(1 ) (v01 + v10) i=1 i i i i L = (v00 + v11).(1 ) (v01 + v10) i i Pour maximiser cette vraisemblance, il suffit de dterminer les tats des variables Y telles que l'exposant du premier terme soit maximal ou, de manire quivalente telle que l'exposant du second terme soit minimal, c'est--dire minimiser le nombre de pas. La condition est, de plus, que soit suprieur 1/2. La vraisemblance est donc ici conditionne l'attribution des tats aux nuds. L'exemple suivant, inspir de Goldman (1991) permet de bien illustrer cette diffrence entre vraisemblance et parcimonie. Considrons la matrice suivante de caractres, cods 0 ou 1 (Tableau VIII.1). Pour simplifier, supposons que l'tat ancestral soit l'tat 0 et que le choix ne se porte que sur deux arbres diffrents T1 et T2 de la figure VIII.11. On relve l caractres distribus comme le caractre X, m comme le caractre Y, n comme Z et w comme W.

Parcimonie et vraisemblance

217

UE Caractres X Y Z W

A 1 0 0 1

B 1 0 1 1

C 0 1 1 1

D 0 1 0 0

Nombre l m n w

TABLEAU VIII.1. Quatre types de distributions de caractres (X, Y, Z, W) dans quatre UE (A, B, C et D). l, m, n et w reprsentent les nombres d'occurrence de chacun de ces types.
O O

x x y y

T1

T2

FIGURE VIII.11 : Exemple de deux arbres T1 et T2 ayant 4 UE (A, B, C, D) et deux UEH (x, y). L'arbre T1 rend compte de la distribution du caractre de type X (et Y) en supposant un seul changement, puisque l'anctre est O. En revanche deux changements sont ncessaires pour rendre compte de la distribution des caractres de type Z et W. Le nombre total de changements, C1, requis pour rendre compte des observations de la matrice de donnes dans le cas de l'arbre T1 est donc : C1 = (l + m) + 2(n + w) Un raisonnement identique montre que le nombre de changements ncessaires dans le cas o l'arbre serait T2 est : C2 = 2(l + m) + (n + w) Appliquons le critre de parcimonie : on dira que l'arbre T1 est plus parcimonieux que l'arbre T2 si C1 < C2, donc si n + w < l + m Qu'en est-il d'une approche par la mthode de vraisemblance ? Choisissons un modle identique celui dcrit dans l'exemple donn au dbut de ce chapitre, plus simple cependant en ce sens que l'tat ancestral est cette fois connu. Comme on l'a vu, il faut envisager toutes les combinaisons possibles des diffrents tats aux

Les mthodes probabilistes

218

diffrents nuds et en calculer la probabilit. Le tableau VIII.2 rsume ces probabilits. La vraisemblance de l'arbre T1 est donne par : L(T1|D) = p(X)lp(Y)mp(Z)np(W)w o p(X), p(Y), p(Z) et p(W) sont les probabilits figurant dans la colonne somme du tableau VIII.2 correspondant l'arbre T1. De la mme faon on peut calculer la vraisemblance de l'arbre T2. L'arbre T1 est choisi lorsque L(T1|D) > L(T2|D) ; l'arbre T2 dans le cas contraire. On peut trouver facilement des cas o le critre de parcimonie ne donne pas le mme rsultat que le critre de vraisemblance. Par exemple, posant = 0.75 et l = 2, m = n = w = 1. Dans ce cas l + m > n + w. La parcimonie nous conseille l'arbre T1. En revanche on a : L(T1|D) = 6.82.10-7 < L(T2|D) = 7.13.10-7. La vraisemblance nous conseille donc l'arbre T2. De la mme faon, on peut trouver des exemples o la parcimonie ne nous permet pas de choisir entre T1 et T2 (l + m = n + w) tandis que la vraisemblance le permet.
Etat x=0 y=0 x=0 y=1 x=1 y=0 x=1 y=1 Somme

T1

X Y Z W

42 42 42* 33

5 5* 33 24

5* 5 33 42*

24 24 24 33

(1-3+3 2) (1-3+3 2) 22 22

T2

X Y Z W

42* 42* 42 33

33 33 5* 42

33 5 5 24

42* 24 42 5*

2 32 2(1-2+2 2) (1-4+6 2-23) 2(1-2+2 2)

TABLEAU VIII.2. Probabilits des diffrentes distributions des caractres X, Y, Z et W en fonction de l'arbre choisi (T1 ou T2) et selon les tats des caractres aux nuds x et y. Cet apparent paradoxe o la vraisemblance est en dsaccord avec la parcimonie s'explique aisment. En effet, dans le tableau VIII.2, des astrisques figurent, pour chaque caractre, la combinaison d'tats aux nuds x et y qui prsente la probabilit maximale : ainsi, pour l'arbre T1 et le caractre X, la probabilit la plus leve, sachant les tats aux nuds, est 5 correspondant x = 0 et y = 1, tant entendu que > 0.5, c'est--dire que le changement est plus rare que le non

Parcimonie, vraisemblance et consistance

219

changement. Du point de vue de la parcimonie formule dans le cadre de la vraisemblance, les critres comparer pour choisir l'arbre T1 ou T2 utilisent les probabilits conditionnelles les plus leves (connaissant x et y), celles marques * dans le tableau VIII.2 : L(T1,x,y /D) = (5 )l+m(42)n+w et L(T2,x,y /D) = (5 )n+w(42)l+m ce qui revient bien choisir T1 si l + m > n + w, toujours la condition que > 0.5. La conclusion est donc que l'arbre le plus parcimonieux n'est pas ncessairement l'arbre le plus vraisemblable.

5. Parcimonie, vraisemblance et consistance


Dans le paragraphe VIII.4, on a montr que, d'un point de vue probabiliste, la mthode de parcimonie revenait attribuer une valeur constante aux probabilits d'observer un tat diffrent entre les deux extrmits d'une branche. Que peut-il se passer lorsque cette hypothse n'est pas exacte et donc lorsque ces probabilits sont diffrentes d'une branche l'autre ? Cette question revient galement poser celle de la consistance de la mthode de parcimonie. Rappelons que la consistance est une proprit statistique qui fait que l'estimation d'un paramtre converge vers la vraie valeur de ce paramtre au fur et mesure que les donnes s'accumulent. Les mthodes de vraisemblance sont gnralement consistantes, quand le nombre de paramtres estimer n'augmente pas plus vite que ne s'accumulent les donnes. Cette condition est satisfaite pour les constructions phylogntiques quand la structure de l'arbre et les longueurs de branches sont les seuls paramtres estimer. Il est clair que si les tats des caractres aux nuds taient galement considrs comme des paramtres estimer, ceux-ci augmenteraient en mme temps que le nombre de caractres et les estimations de tels paramtres par la mthode de vraisemblance ne seraient plus ncessairement consistantes. Or, on l'a vu, la mthode de parcimonie estime la structure de l'arbre par optimisation des tats des caractres aux nuds ; on peut donc suspecter cette mthode d'tre inconsistante au sens statistique du terme. Ces interrogations ont principalement t poses par Felsenstein (1978b), partir d'une situation simple ne comprenant que 4 UE, les caractres ne prenant que deux tats diffrents (0 et 1), puis partir d'une situation plus complexe o les caractres peuvent se prsenter sous 4 tats (A, T, C, G : les 4 acides nucliques) (Felsenstein, 1983b). Le cas d'un nombre d'UE plus lev a t abord par Hendy et Penny (1988). Dans l'exemple donn ici, on prsentera uniquement le cas de 4 UE et de caractres binaires. Soient quatre UE (A, B, C, D). Supposons qu'elles puissent se connecter selon les deux seuls arbres non enracins de la figure VIII.12 : arbres T1 et T2. Les paramtres a, b, c, d, e sont les probabilits d'observer une diffrence d'tats entre les deux extrmits de chacune des 5 branches. Les caractres observs ne sont prsents que sous deux tats : 0 et 1. Supposons maintenant, pour simplifier

Les mthodes probabilistes

220 A

A a x e
c

C y d
d D D

a e

c
y b B

b B

T 1

T2

FIGURE VIII.12. Les quatre UE (A, B, C et D) sont respectivement dans les tats 1, 1, 0 et 0. Deux arbres non enracins sont considrs : l'arbre de type T1 et l'arbre de type T2. Les valeurs a, b, c, d et e correspondent aux probabilits d'observer un tat diffrent entre le dbut et la fin de la branche. l'exemple, que l'on observe exclusivement les deux distributions suivantes des caractres : A=1, B=1, C=0, D=0 d'une part et A=1, B=0, C=0, D=1 d'autre part (plus schmatiquement on crira : 1100 et 1001 respectivement, dans l'ordre des UE ABCD). Il est possible de calculer la probabilit d'observer de telles distributions dans le cas de l'arbre T1 et dans celui de l'arbre T2. Pour cela il faut envisager toutes les quatre combinaisons d'tats aux deux nuds x et y : 00, 10, 01, 11. On a donc : p(1100|T1) = p(1100|T1,x=0,y=0)+p(1100|T1,x=0,y=1)+p(1100|T1,x=1,y=0)+ p(1100|T1,x=1,y=1) p(1100|T1) = ab(1-c)(1-d)(1-e)+(1-a)(1-b)(1-c)(1-d)e+abcde+(1-a)(1-b)cd(1-e) De la mme faon peut-on calculer : p(1001|T1) = a(1-b)(1-c)d(1-e)+(1-a)b(1-c)de+a(1-b)c(1-d)e+(1-a)bc(1-d)(1-e) p(1100|T2) = p(1001|T1), remplaant b par d et d par b, p(1001|T2) = p(1100|T1), remplaant b par d et d par b. Soit n' et n" les nombres de caractres respectivement distribus selon 1100 et 1001. Supposons que l'arbre vritable soit l'arbre T1. Le critre de parcimonie nous conduit choisir correctement l'arbre T1 ds lors que la proportion n'/N des caractres de type 1100 est suprieure la proportion n"/N des caractres de type 1001 : n'/N > n"/N N est ici le nombre total de caractres observs. Lorsque N augmente, ces proportions convergent vers leurs probabilits, c'est--dire vers p(1100|T1) et p(1001|T1) respectivement. Pour que la mthode de parcimonie soit consistante, il

Parcimonie, vraisemblance et consistance

221

faut donc que l'ingalit suivante, correspondant au cas o N est grand, soit galement vrifie : p(1100|T1) > p(1001|T1) Or on peut dmontrer qu'il n'en est pas toujours ainsi. La figure VIII.13 en effet reprsente les variations du rapport : L = p(1100|T1 ) p(1001|T1 )

en fonction de la valeur de la probabilit d'observer une diffrence entre les deux extrmits d'une branche et en fonction des variations de cette probabilit d'une branche l'autre. Ce rapport n'est pas toujours suprieur 1. Pour simplifier, posons que a = d, b = e = c et que le rapport b/a = r. Comme la mthode de parcimonie n'est consistante que dans les cas o L est suprieur 1, la figure VIII.13 montre que cela est vrai la condition que a soit petit et que le rapport r soit assez grand, donc la condition que les changements soient rares et que les longueurs de branches (au sens de probabilits d'observer une diffrence d'tat entre les extrmits des branches) ne soient pas trop diffrentes.

6 5 4 3 2 1

a 0.10 0.20 0.30 0.40 0.50

,2 ,4 ,6 ,8 1 Vitesse relative de transformation r FIGURE VIII.13. Variation du rapport de vraisemblance L de l'arbre T1 en fonction de la probabilit de transformations le long des branches (= a) et de sa variation relative r selon les branches (voir figure VIII.12). La mthode de parcimonie n'est consistante que dans les cas o L est suprieur 1. Ces problmes de consistance ont t soulevs par Felsenstein (1978b) qui dmontre leur existence aussi bien dans le cas des mthodes de parcimonie appliques des caractres orients ou non orients que dans le cas des mthodes de compatibilit. Par ailleurs Hendy et Penny (1988) ont soulign que la proprit

Les mthodes probabilistes

222

de consistance n'est pas plus dmontre quand le nombre d'UE augmente, mme lorsque les longueurs de branches (au sens de probabilits d'observer une diffrence d'tat entre les extrmits des branches) sont identiques pour toutes les branches. Par ailleurs, pour illustrer des situations o l'on observe une contradiction entre l'arbre choisi par la mthode de parcimonie et celui choisi par la mthode de vraisemblance, calculons le rapport de vraisemblance suivant partir de l'exemple prcdent : p(1100|T1 )n' p(1001|T1 )n" L= p(1100|T2 )n' p(1001|T2 )n" Si l'on suppose que les deux arbres T1 et T2 ont une probabilit a priori identique, c'est--dire que l'on part de l'ide initiale que chacun des arbres a autant de chance d'tre le bon, alors la mthode de vraisemblance conduit choisir l'arbre T1 quand ce rapport est suprieur 1, et l'arbre T2 quand il est infrieur. n'/N 0.20 0.50 0.80

100 80 60 Ln[L(T1)/L(T2)] 40 20 0 -20 -40 -60 0 ,2 ,4

,6

,8

Vitesse relative de changement r FIGURE VIII.14. Variations du rapport entre les probabilits d'observer les arbres non enracins T1 et T2, en fonction du rapport r entre les probabilits de changements le long des branches rapides et lentes et en fonction de la proportion de caractres 1100 parmi N caractres. La courbe correspondant n'/N = 0.5 dlimite une rgion suprieure o la parcimonie choisit l'arbre T1 et une rgion infrieure o elle choisit l'arbre T2. La mthode de vraisemblance choisit l'arbre T1 au-dessus de la ligne d'ordonne zro et l'arbre T2 en dessous. On voit donc que la mthode de parcimonie conduit choisir l'arbre T2, et non T1, dans toute la rgion comprise entre la ligne d'ordonne nulle et la courbe en croix.

Conclusions

223

En revanche la mthode de parcimonie conduit choisir l'arbre T1 quand n' (nombre de caractres de type 1100) est suprieur n" (nombre de caractres de type 1001), donc quand n'/N > 0.5, et T2 dans le cas inverse. Les courbes de la figure VIII.14 ont t calcules avec a = 0.20, a = d, b = c = e ; b/a = r. La zone de choix de T1 par la mthode de vraisemblance est celle situe au-dessus de l'ordonne L = 0. La zone de choix de l'arbre T1 par la mthode de parcimonie est celle situe au-dessus de la courbe pour laquelle n' = n". Il existe donc une zone o les deux mthodes conduisent un choix contradictoire. Cette contradiction ne disparat que lorsque r = 1.

6. Conclusions
Les diffrents rsultats et dveloppements prsents dans les paragraphes 4 et 5 conduisent aux remarques gnrales suivantes. Rappelons d'abord que chaque mthode phylogntique fait appel un modle d'volution. explicite ou non. Toute mthode se propose d'estimer et comparer, l'intrieur d'un mme modle, les valeurs prises par les paramtres du modle, valeurs qui constituent les hypothses du modle. L'objet de la mthode n'est donc, en aucun cas, de chercher rfuter un modle. 1) La solution de parcimonie peut s'intgrer dans le cadre d'un modle probabiliste d'volution dont les paramtres peuvent s'estimer par la mthode du maximum de vraisemblance. Il s'agit d'un modle d'volution qui attribue une probabilit fixe, non dpendante du temps, l'existence d'une diffrence entre le dbut et la fin d'une branche. Pour chaque caractre, le nombre de changements par branche est toujours minimal, compte tenu des tats aux extrmits des branches. Les changements supplmentaires qui pourraient survenir sur une mme branche sans altrer les tats aux extrmits des branches ne sont pas pris en considration. La probabilit d'existence d'une diffrence entre dbut et fin d'une branche doit tre infrieure la probabilit d'absence de diffrence. Cette condition revient assumer que le changement est rare par rapport au non changement. 2) La mthode de parcimonie effectue des infrences sur les tats des caractres aux nuds. Elle revient donc ne prendre en considration que la vraisemblance conditionne par les tats des caractres aux nuds. Elle choisit la combinaison d'tats de caractre la plus probable, mme si ce choix peut conduire une vraisemblance de l'arbre plus faible. Une telle mthode peut ne pas tre consistante (au sens statistique du terme), c'est--dire que l'augmentation du nombre de caractres peut conduire conforter un choix d'arbre erron. 3) L'arbre le plus parcimonieux n'est pas ncessairement l'arbre le plus vraisemblable et inversement. Les difficults techniques de mise en place des mthodes de vraisemblance expliquent pourquoi elles sont aussi rarement utilises actuellement. En effet, ds que le nombre d'UE est lev, il devient vite impossible d'avoir quelques chances d'obtenir l'arbre le plus vraisemblable dans des temps raisonnables, mme avec le plus performant des ordinateurs. Des progrs sont donc esprer pour bientt dans cette voie.

CONCLUSION

Au terme de cette revue des mthodes d'analyse phylogntique, il est difficile d'esquiver la question de savoir si certaines mthodes sont meilleures que d'autres. Toutefois, ce livre n'a pas d'autre finalit que d'expliciter les performances et les limites de chaque type d'approche, les buts poursuivis et les options choisies en fonction de ces buts. En ce sens, un classement des mthodes, de la plus mauvaise la meilleure, ne se conoit pas. Les commentaires ultimes que nous ferons propos des approches cladistique, phntique et probabiliste, ne seront qu'un bref rappel de ce qui les diffrencie fondamentalement. Le succs grandissant des mthodes cladistiques vient en partie de ce qu'elles reposent sur les notions de caractre et d'homologie, notions qui sont au cur de la pense volutionniste. En cherchant construire un schma de parent en reconstituant des traits ancestraux chaque nud de l'arbre, l'approche cladistique rpond l'attente des phylognticiens qui considrent les caractres individuels comme les lments ultimes sur lesquels s'appliquent les phnomnes volutifs. Les limites du cladisme peuvent tre perues dans les discussions autour du lien entre le principe de parcimonie - principe de base du cladisme - et le processus volutif. Ces discussions ont t abordes la fin des chapitres V et VIII. Nous n'en retiendrons ici que deux aspects. Pour que les rsultats obtenus par l'application du principe de parcimonie puissent tre interprts en termes de relation de parent entre taxons, avec le moins d'erreurs d'infrence possible, il faut que l'apparition, la transformation ou la disparition des caractres, soient des vnements qui surviennent rarement au cours du processus volutif. Mais que signifie cette raret des transformations volutives, vis--vis de la diversit taxinomique et du temps de l'volution (de plus de trois milliards d'annes quelques gnrations, selon le matriel tudi) ? En ralit, cette raret du changement ne peut tre value correctement que par des analyses phylogntiques concrtes et par des calibrations gologiques ou historiques. En fonction de ce qui est connu mme grands traits de l'volution biologique, il est difficile de quantifier d'une faon universelle cette raret des changements. Le deuxime aspect concerne une rflexion sur la nature des caractres et de leurs changements. Dans la perspective cladistique, seuls les caractres qui changent (prsents sous diffrents tats) sont pertinents pour l'analyse. L'hypothse est faite que tous ces caractres se valent a priori et que leur changement ont a priori le mme poids. Cette utilisation des caractres d'abord,

La reconstruction phylogntique

226

leur gestion ensuite sont une particularit, souvent discute, de la mthode cladistique. En ce qui concerne les mthodes probabilistes, dont le domaine d'application encore marginal reste celui de la biologie molculaire, leur spcificit tient ce que les processus volutifs, en particulier les transformations des caractres, y sont exprims en termes probabilistes, dans le cadre d'un certain modle dfini a priori. L'arbre recherch est alors l'arbre le plus probable compte tenu la fois des donnes observes et du modle probabiliste d'volution qui est retenu. L'utilisation de mthodes probabilistes oblige mettre de faon explicite des hypothses a priori sur les probabilits de transformations des caractres. A ce niveau, il faut insister sur le fait qu'il n'est pas possible de formuler de telles hypothses en dehors de toute considration phylogntique pralable. Il est clair que ces mthodes probabilistes ne peuvent s'appliquer n'importe quel caractre. En effet, si on peut raisonnablement affecter une probabilit la mutation d'une base en une autre au niveau de l'ADN, il devient en revanche peu justifi ou trs acrobatique d'affecter une probabilit l'apparition de la bipdie par exemple. Il semble donc bien que la multitude des caractres morphologiques, la diffrence de la plupart des caractres molculaires, se rvlera longtemps impropre toute hypothse sur leur probabilit de changement. De plus, l'information morphologique n'est pas strotype. Il peut se faire qu'au cours de l'histoire, un caractre morphologique se transforme dix fois sans passer deux fois par le mme tat. Un tel cas est impossible pour ce qui est des changements de nuclotides. Par ailleurs, cette mthode prend en considration tous les caractres, mme ceux qui ne changent pas, contrairement la mthode cladistique; elle ne permet de dcrire les tats des caractres chaque nud de l'arbre qu'en terme de probabilit. En cela elle diffre donc de l'approche cladistique qui attribue effectivement des tats de caractres aux nuds. Insistons de nouveau sur le fait que la validit des mthodes probabilistes est essentiellement dpendante du degr de ralisme du modle choisi pour rendre compte des transformations des caractres. En revanche, une fois ce modle choisi et l'intrieur de celui-ci, il devient possible de tester plusieurs hypothses volutives. On a montr par ailleurs les difficults propres l'usage des mthodes phntiques des fins de construction phylogntique. Parce qu'elles se fondent sur le concept de similitude globale, ces mthodes s'opposent clairement aux mthodes cladistiques et probabilistes. On a vu que les constructions phntiques sont intelligibles en terme d'arbre phylogntique la condition de tenir, a priori, l'homoplasie pour ngligeable. Elles ne permettent pas de localiser sur l'arbre les tats de caractres homoplasiques ni les homologies, que ce soit de manire certaine ou en probabilit. Les mthodes phntiques considrent que le taxon, en tant qu'ensemble indissociable de caractres, est l'unit de l'volution. Elles ne s'intressent donc pas aux caractres en tant que tels, l'inverse des approches cladistique et probabiliste.

Conclusion

227

Toutes les mthodes de reconstruction souffrent d'un srieux handicap : il est en effet impossible de refaire l'histoire et de confronter la ralit historique aux rsultats obtenus par une mthode quelconque. Cependant il est possible de contourner ce problme de deux faons : La premire revient effectuer des simulations d'volution d'espces sous diffrents modles, afin de bien prciser les conditions d'volution dans lesquelles telle ou telle mthode redonne bien, et avec quelles incertitudes ou quelle robustesse, l'arbre vritable simul. Les travaux sur ce thme sont extrmement nombreux (Astolfi et al., 1981 ; Tateno et al., 1982 ; Nei et al., 1983 ; Saitou et Imanishi, 1989). La deuxime consiste effectuer une vritable exprimentation phylogntique en laboratoire C'est ce qu'ont tent Hillis et al. (1992). L'objet de leur tude est l'volution du bactriophage T7 en prsence d'un agent mutagne. La destine du virus en laboratoire a t dirige ; les lignes taient divises des intervalles prtablis : les anctres et les dichotomies taient connus. Une phylognie de huit taxons terminaux a ainsi t cre partir d'un anctre commun. Les cartes de sites de restriction de l'ADN des taxons ont t analyses afin d'infrer une hypothse phylogntique et la comparer l'histoire connue. Le rsultat de ces analyses montre que les mthodes de reconstruction phylogntique ne sont pas de pures spculations et ont quelque lien avec la ralit. Toutes les mthodes testes (4 mthodes de distances et une mthode de parcimonie) ont donn l'arbre correct. Aucune n'a donn les vritables longueurs de branches mais la corrlation entre les longueurs vritables et estimes va de 0,91 (parcimonie) 0,82 (UPGMA). Comme on le sait, la mthode de parcimonie a la particularit d'infrer les tats des caractres aux nuds, c'est-dire les caractres des anctres. Or l'analyse de parcimonie a estim correctement 97,3% des tats, 1,4% des estimations tant ambigus et 1,3% fausses. Selon Hillis et al., cette tude lgitime l'emploi des mthodes de reconstruction phylogntique et illustre la puissance de rsolution de l'approche de parcimonie. Il convient cependant d'tre prudent. En effet il est probable que le mode d'volution du phage T7 dans cette exprience est justement celui qui est requis pour que toutes les mthodes donnent le mme rsultat et, qui plus est, le bon. En outre, il faut se garder de gnraliser l'ensemble des tres vivants les rsultats obtenus partir d'un seul exemple. En particulier les vitesses d'volution peuvent tre trs variables selon les branches et l'homoplasie rpartie de manire non alatoire. Cet exemple grandeur nature, si l'on ose dire, est nanmoins un moyen de temprer un certain pessimisme qui a pu natre la suite de la comparaison des mthodes prsentes dans ce livre. En effet, la figure V.26 conue comme la phylognie vraie, a servi de test aux diffrentes approches et les rsultats ont t discordants. La structure de l'arbre vrai est en effet telle qu'elle met en chec toutes les mthodes. Seule la mthode cladistique a fourni le bon arbre mais cet arbre tait l'un des deux obtenus par parcimonie (figure V.27). On a vu que le choix entre plusieurs arbres parcimonieux repose sur diffrents critres. L'un de ces critres est la pondration successive (paragraphe V.4.3.) : l'application de ce critre amne retenir le mauvais arbre (tableau V.11). Les mthodes phntiques

La reconstruction phylogntique

228

ont fourni des rsultats errons (figures VII.5 et 11) ainsi que l'analyse de compatibilit (figure VI.4). Les raisons de ces checs clairent les principes inhrents aux prsupposs mthodologiques des diffrentes approches. L'homoplasie, la longueur dissymtrique des branches des groupes frres (les vitesses d'volution ingales) sont responsables des erreurs. Quant aux mthodes probabilistes, elles sont inoprantes dans l'tat actuel des possibilits informatiques, pour rsoudre un problme phylogntique 14 taxons. La construction d'un arbre phylogntique n'est pas autre chose qu'une recherche de la meilleure interprtation possible de la matrice de caractres. Mais l'arbre phylogntique lui-mme ne peut pas tre meilleur que la matrice des caractres qu'il est cens interprter. C'est pourquoi il faut insister sur l'importance de l'tape initiale de la recherche phylogntique : l'identification des caractres, qu'ils soient morphologiques ou bien molculaires. La recherche phylogntique fonde sur les caractres morphologiques a dj une longue histoire. Prs de deux sicles de connaissance anatomique finalit phylogntique ont donn aux observations une signification qui dpasse la simple distribution taxinomique : dimensions fonctionnelle et adaptative, ontognique et chronologique. Ce savoir biologique n'a pourtant pas limin l'cueil que constitue le phnomne d'homoplasie. En outre, il reste beaucoup faire en matire de comprhension de la morphologie. Mme des groupes aussi familiers que les mammifres, reclent toujours des questions morphologiques non rsolues qui posent un dfi aux phylognticiens. Par ailleurs, les recherches en biologie molculaire connaissent un essor remarquable. Mais l'tude des caractres molculaires est encore dans l'enfance. On sait que la structure tridimensionnelle des molcules n'est pas sans influence sur la mutabilit des sites. Par ailleurs, la structure et l'organisation du gnome offre un champ de recherches venir qui affecteront certainement notre comprhension de ce que sont les caractres molculaires et en consquence les constructions d'arbres. De plus, les analyses phylogntiques sont tributaires de mthodes d'alignement de squences, qui sont sans aucun doute encore perfectibles. C'est sur leur capacit rendre compte de l'volution des caractres que seront juges les amliorations futures des mthodes d'analyse. En manire de conclusion sur ce point, nous emprunterons des propos dj anciens et toujours d'actualit tenus par Walter Fitch : le futur nous apportera des mthodes dont la puissance de rsolution phylogntique sera suprieure ce que l'on possde aujourd'hui ; cela se fera en comprenant mieux les caractres et en utilisant des mthodes visant cette comprhension (Fitch, 1984). A la fin de cet ouvrage d'apparence technique, la finalit de la construction phylogntique ne doit cependant pas tre perdue de vue. Loin d'tre une gymnastique spculative de l'esprit, elle est au contraire une tape oblige dans la comprhension des mcanismes volutifs qui ont conduit la diversit actuelle et fossile du monde vivant. Il est impossible de comprendre ou de localiser des changements de vitesse d'volution sans une phylognie pralable, impossible galement de trancher la question de la neutralit des gnes ou du rle de la

Conclusion

229

slection si l'on n'a pas une image aussi claire que possible de la parent entre les molcules de diffrents gnomes. Impossible encore de prciser l'organisation du gnome sans une histoire volutive des lments qui le constituent. Il faut cependant aller plus loin et reconnatre que les reconstructions phylogntiques doivent s'enrichir et intgrer toutes les informations concernant les mcanismes volutifs eux-mmes. En d'autres termes ceux de pattern (structure) et de process (processus) (Eldredge et Cracraft, 1980) il faut admettre que la reconstruction phylogntique, en tant que dmarche heuristique d'analyse des caractres, constitue ce que l'on peut appeler une analyse de pattern. Elle alimente les infrences que l'on peut effectuer sur les mcanismes de l'volution, c'est--dire sur l'analyse des processus. Sans analyse pralable de la structure, pas d'infrence possible sur l'arbre volutif, pas de conclusion possible sur les processus. Mais galement, pas d'analyse phylogntique sans considrations, un niveau ou un autre, sur les processus. C'est bien en combinant ces deux dmarches que l'on peut esprer comprendre l'histoire du monde vivant, notre Histoire.

RFRENCES BIBLIOGRAPHIQUES

Adams, E. N. I, 1972. Consensus techniques and the comparison of taxonomic trees. Syst. Zool., 21: 390-397. Agassiz, J. L. R, 1859. An essay on classification. Longman (London). Alberch, P., Gould, S. J., Oster, G. F. et Wake, D. B., 1979. Size and shape in ontogeny and phylogeny. Paleobiology, 5: 296-317. Allard, M. W., 1990. Further comments on Goodman's Maximum Parsimony Procedure. Cladistics, 6(3): 283-290. Andr, H. M., 1988. Age-dependent evolution : from theory to practice. In : Humphries, C. (Ed.), Ontogeny and systematics. British Museum (Natural History) (Londres). pp. 137-187. Archie, J. W., 1989a. A randomization test for phylogenetic information in systematic data. Syst. Zool., 38(3): 239-252. Archie, J. W., 1990. Homoplasy excess statistics and retention indices : a reply to Farris. Syst. Zool., 39(2): 169-174. Archie, J. W., 1989b. Homoplasy excess ratios : new indices for measuring levels of homoplasy in phylogenetic systematics and a critique of the consistency index. Syst. Zool., 38(3): 253-269. Astolfi, P., Kidd, K. K. et Cavalli-Sforza, L. L., 1981. A comparison of methods for reconstructing evolutionary trees. Syst. Zool., 30(2): 156-169. Astolfi, P., Piazza, A. et Kidd, K. K., 1978. Testing of evolutionary independence in simulated phylogenetic trees. Syst. Zool., 27(4): 391-400. Ax, P., 1984. Das Phylogenetische System. Gustav Fischer (Stuttgart). Baer, K. E. von, 1828. Uber Entwicklungsgeschichte der Thiere. Beobachtung und Reflexion. Borntrger (Knigsberg). Balakrishnan, V. et Sanghvi, L. D., 1968. Distance between populations on the basis of attribute data. Biometrics, 24: 859-865. Baroin, A., Perasso, R., Su, L. H., Burgerolle, G., Bachellerie, J. P. et Adoutte A. 1988. Partial phylogeny of the unicellular eucaryotes based on rapid sequencing of a portion of 28S ribosomal RNA. Proc. Natl. Acad. Sci., USA, 85 : 3474-3478. Barriel, V., 1991. Caractres ostologiques et odontologiques chez les Hominoidea. Essai de parcimonie. Bull. et Mm. Soc. Anthrop. Paris, 3(1-2): 45-72. Barriel, V. et Darlu P., 1990. Approche molculaire de la phylognie des Hominoidea. L'exemple de la pseudo ta-globine. Bull. et Mm. Soc. Anthrop. Paris., 2(1): 3-24.

Bibliographie

231

Barthlemy, J. P .et Gunoche, A., 1988. Les arbres et les reprsentations des proximits. Masson (Paris). Bonde, N., 1981. Problems of species concepts in paleontology. In : Martinell J. (Ed.), Concept and method in paleontology. Universitat de Barcelona (Barcelona). pp. 19-34. Bonde, N., 1984. Primitive features and ontogeny in phylogenetic reconstructions. Vidensk. Meddr. Dansk. Naturh. Foren, 145: 219-236. Bowcock, A. M., Kidd, J. R, Mountain, J. L., Hebert, J. N., Carotenuto, L., Kidd K. K. et Cavalli-Sforza, L. L., 1991. Drift, admixture and selection in human evolution : a study with DNA polymorphism. Proc. Natl. Acad. Sci., 88(3): 839-843. Brown, N. M., Prager, E. M., Wang, A. et Wilson, A. C., 1982. Mitochondrial DNA sequences of primates : tempo and mode of evolution. J. Mol. Evol., 18: 225-239. Buckup, P.A. et Dyer, B.S., 1991. Transformation series analysis (TSA) is dependent on initial order of character states. Syst. Zool., 40(4): 500-502. Bulmer, M., 1991. Use of the method of generalized least squares in reconstructing phylogenies from sequence data. Mol. Biol. Evol., 8(6): 868883. Cain, A.J. et Harrison, G.A., 1960. Phyletic weighting. Proc. zool. Soc. of London, 135: 1-31. Camin, J. H. et Sokal, R. R., 1965. A method for deducing branching sequences in phylogeny. Evolution, 19: 311-326. Candolle, A. P. de, 1813. Thorie lmentaire de la Botanique ou exposition du principe de classification lmentaire naturelle et de l'art de dcrire et d'tudier les vgtaux. Dterville (Paris). Cavalli-Sforza, L. L. et Edwards, A. W. F, 1966. Estimation procedures for evolutionary branching processes. Bull. Inst. Internat. Statist., 41: 803-808. Cavalli-Sforza, L. L. et Edwards, A. W. F, 1967. Phylogenetic analysis: models and estimation procedures. Am. J. Hum. Genet., 19: 233-257. Cavalli-Sforza, L. L. et Piazza, A., 1975. Analysis of evolution: Evolutionary rates, independence and treeness. Theor. Pop. Biol., 8(2): 127-165. Cavender, J. A., 1978. Taxonomy with confidence. Math. Biosci., 40: 271-280. Cavender, J. A., 1981. Tests of phylogenetic hypotheses under generalized models. Math. Biosci., 54: 217-229. Cavender, J. A., 1989. Mechanized derivation of linear invariants. Mol. Biol. Evol., 6(3): 301-316. Cavender, J. A. et Felsenstein, J., 1987. Invariants of phylogenies in a simple case with discrete states. J. of Classif., 4: 57-71. Czecanowski, J., 1909. Zur Differentialdiagnose der Neandertalgruppe. Korrespondenzblatt Deutsch. Ges. Anthropol. Ethnol. Urgesch, 40: 44-47. Darlu P., 1992. Are parsimony and compatibility methods relevant to inter language evolution ?. In : Piazza, A. et Cavalli-Sforza, L. L. (Eds.), Language change and biological evolution. Stanford University Press (sous presse) (Stanford).

La reconstruction phylogntique

232

Darlu, P. et Lathrop, G. M., 1993. Estimation of admixture in evolutionary trees. J. of Evol. Biol. (sous presse), Darlu, P.; Ruhlen, M. et Cavalli-Sforza, L. L., 1990. A taxonomic analysis of linguistic families. In : Wang N.S.Y. (Ed.), Language change and linguistic evolution. (London). Darwin, C., 1859. On the origin of species. John Murray (London). Darwin, C., 1872 (6e dition). On the origin of species. John Murray (London). Dayhoff, M. O. (Ed), 1969. Atlas of Protein Sequence and Structure. Md. : Natl. Biomed. Res. Found. 5 (Silver Springs). De Beer G., 1954. Archaeopteryx lithographica. British Museum Natural History (Londres). De Beer, G., 1930. Embryology and evolution. Clarendon Press (Oxford). De Beer, G., 1958 (3e dition). Embryos and ancestors. Clarendon Press (Oxford). d'Udekem-Gevers, M., 1990. L'analyse cladistique : problme et solutions heuristiques informatises. Biosystema 4, Socit Franaise de Systmatique, (Paris) . Duncan, T. et Stuessy, T. F. (Eds), 1984. Cladistics : perspectives on the reconstruction of evolutionary history. Columbia University Press (NewYork). Dupuis, C., 1988. Le taxinomiste face aux catgories. Cahiers des Naturalistes, 44: 49-109. Edwards, A. N. F, 1972. Likelihood. Cambridge University Press (Cambridge). Edwards, A. W. F et Cavalli-Sforza, L. L., 1963. The reconstruction of evolution. Ann. Hum. Genet., 27: 104-105. Edwards, A. W. F et Cavalli-Sforza, L. L., 1964. Reconstruction of evolutionary trees. Systematics Association Publication, 6: 67-76. Efron, B., 1979. Bootstrap methods : an other look at the jackknife. Ann. Statist., 7: 1-26. Efron B., 1982. The Jackknife, the Bootstrap and other resampling plans. Society for industrial and applied mathematics (Philadelphie) Eldredge, N. et Cracraft, J., 1980. Phylogenetic patterns and the evolutionary process. Columbia University Press (New-York). Estabrook, G. F., 1972. Cladistic methodology: a discussion of the theoretical basis for the induction of evolutionary history. Ann. Rev. Ecol. Syst., 3: 427456. Estabrook, G. F., Johnson, C. S. Jr et McMorris, F. R., 1976. A mathematical foundation for the analysis of cladistic character compatibility. Math. Biosci., 29: 181-187. Estabrook, G. F., Strauch, J. G. et Fiala, J. K., 1977. An application of compatibility analysis to the Blackiths' data on orthopteroid insects. Syst. Zool., 26: 269-276. Faith, D. P., 1985. Distance methods and approximation of most-parsimonious trees. Syst. Zool., 34(3): 312-325. Farris, J. S., 1966. Estimation of conservation of characters by constancy within biological populations. Evolution, 20: 587-591.

Bibliographie

233

Farris, J. S., 1967. The meaning of relationship and taxonomic procedure. Syst. Zool., 16: 44-51. Farris, J. S., 1969. A successive approach to character weighting. Syst. Zool., 18: 374-385. Farris, J. S., 1970. Methods for computing Wagner trees. Syst. Zool., 19: 83-92. Farris, J. S., 1972. Estimating phylogenetic trees from distance matrices. Am. Nat., 106: 645-668. Farris, J. S., 1977a. Phylogenetic analysis under Dollo's law. Syst. Zool., 26: 7888. Farris, J. S., 1977b. On the phenetic approach to vertebrate classification. In : Hecht M.K. , Goody, P. C., Hecht B. M. (Eds.), Major Patterns in Vertebrate Evolution. Plenum Press (New York). pp. 823-850. Farris, J. S., 1981. Distance data in phylogenetic analysis. In : Funk V.A. ; Brooks D.R. (Eds.), Advances in Cladistics. The New York Botanical Garden (Bronx, New York). pp. 3-23. Farris, J.S., 1982. Outgroups and parsimony. Syst. Zool., 31: 328-334. Farris, J. S., 1983. The logical basis of phylogenetic analysis. In : N.I. Platnick et V.A. Funck (Eds.), Advances in cladistics, Vol. 2. Columbia University Press (New York). pp. 7-36. Farris, J. S., 1985. Distance data revisited. Cladistics, 1(1): 67-85. Farris, J. S., 1986. Distances and statistics. Cladistics, 2(2): 144-157. Farris, J. S., 1988. Hennig86, version 1.5, user's manual. Published by the author. Farris, J. S., 1989a. The retention index and homoplasy excess. Syst. Zool., 38(4): 406-407. Farris, J. S., 1989b. The retention index and the rescaled consistency index. Cladistics, 5(4): 417-419. Farris, J. S., 1991. Excess homoplasy ratio. Cladistics, 7: 81-91. Felsenstein, J., 1973. Maximum likelihood estimation of evolutionary trees from continuous characters. Am. J. Hum. Genet., 25: 471-492. Felsenstein, J., 1978a. The number of evolutionary trees. Syst. Zool., 27: 27-33. Felsenstein, J., 1978b. Cases in which parsimony or compatibility methods will be positively misleading. Syst. Zool., 27: 401-410. Felsenstein, J., 1981a. A likelihood approach to character weighting and what it tells us about parsimony and compatibility. Biol. J. of the Linn. Soc., 16: 183196. Felsenstein, J., 1981b. Evolutionary trees from gene frequencies and quantitative characters: finding maximum likelihood estimates. Evolution, 35(6): 12291242. Felsenstein, J., 1983a. Statistical inference of phylogenies. J. R. Statist. Soc. A, 146(3): 246-272. Felsenstein, J., 1983b. Inferring evolutionary trees from DNA sequences. In : Weir B.S. (Ed.), Statistical analysis of DNA sequence data. Dekker (New York). pp. 133-150. Felsenstein, J., 1984a. Distance methods for inferring phylogenies : a justification. Evolution, 38: 16-24.

La reconstruction phylogntique

234

Felsenstein, J., 1984b. The statistical approach to inferring evolutionary trees and what it tells us about parsimony and compatibility. In : Duncan, T. et Stuessy, T. F. (Eds.), Cladistics : perspectives on the reconstruction of evolutionary history. Columbia University Press (New York). pp. 169-191. Felsenstein, J., 1985a. Confidence limits on phylogenies with a molecular clock. Syst. Zool., 34(2): 152-161. Felsenstein, J., 1985b. Confidence limits on phylogenies: an approach using the bootstrap. Evolution, 39: 783-791. Felsenstein, J., 1986. Distance methods : a reply to Farris. Cladistics, 2(2): 130143. Felsenstein, J., 1987. Estimation of hominoid phylogeny from a DNA hybridization data set. J. Mol. Evol., 26: 123-131. Felsenstein, J., 1988. Phylogenies from molecular sequences : inference and reliability. Ann. Rev. of Genet., 22: 521-565. Felsenstein, J., 1990. Phylogeny inference package. Version 3.3,. Department of Genetics, University of Washington (Seattle). Fitch, W.M., 1970. Toward defining the course of evolution : minimum change for a specific tree topology. Syst. Zool., 20(406-416) Fitch, W.M., 1971. Distinguishing homologous from analogous proteins. Syst. Zool., 20: 406-416. Fitch, W. M., 1975. Toward finding the tree of maximum parsimony. In : Estabrook G.F. (Ed.), Proc. Eighth Int. Conf. on Numerical Taxonomy. Freeman (San Francisco). pp. 189-230. Fitch, W. M., 1976. Molecular evolutionary clocks. In : Ayala F.J. (Ed.), Molecular evolution. Sinauer Ass. Inc. Publishers, (Sunderland, Massachusetts).pp. 160-178. Fitch, W. M., 1984. Cladistic and other methods : problems, pitfalls, and potentials. In : Duncan, T. et Stuessy, T. F. (Eds.), Cladistics : perspectives on the reconstruction of evolutionary history. Columbia University Press (New York). pp. 221-252. Fitch, W. M. et Margoliash, E., 1967. Construction of phylogenetic trees. Science, 155: 279-284. Forster, M. R., 1986. Statistical covariance as a measure of phylogenetic relationship. Cladistics, 2(4): 297-317. Fort, P., 1982. Variabilit de l'extrmit 5' du RNA ribosomal mitochondrial 16S dans le genre Mus. Modes d'volution diffrents des gnomes nuclaire et mitochondrial. Thse de 3 cycle, U.S.T.L. (Montpellier, France). Fort, P., Bonhomme, F., Darlu, P., Piachaczyk, M., Jeanteur, P. et Thaler, L., 1984. Clonal divergence of mitochondrial DNA versus populational evolution of nuclear genome. Evolutionary Theory. Gaudry, A., 1866. Considrations gnrales sur les animaux fossiles de Pikermi. F. Savy (Paris). Gingerich, P. D., 1979. The stratophenetic approach to phylogeny reconstruction in vertebrale paleontology. In : Cracraft J. et Eldredge N.(Eds.), Phylogenetic analysis and paleontology. Columbia University Press (New York). pp. 41-77.

Bibliographie

235

Gojobori, T., Ishii, K. et Nei, M., 1982. Estimation of average number of nucleotide substitutions when the rate of substitution varies with nucleotide. J. Mol. Evol., 18: 414-423. Goldman, N., 1990. Maximum likelihood inference of phylogenetic trees, with special reference to a Poisson process model of DNA substitution and to parsimony analyses. Syst. Zool., 39(4): 345-361. Goodman, M. M., 1969. Measuring evolutionary divergence. Jap. J. Gen., 44(1)310-316 Goodman, M. M., 1989. Emerging alliance of phylogenetic systematics and molecular biology : a new age of exploration. In : Feinholm B., Bremer K.et Jrnvall H. (Eds.), The hierarchy of life. Nobel symposium 70, Excerpta Medica (Amsterdam). pp. 43-61. Goodman, M. M., 1990. Response to remarks by Allard (1989). Concerning Kimura's "Damning" criticism of Goodman. Cladistics, 6(2): 195-196. Goodman, M. M., Czelusniak, J., Moore, G. W., Romero-Herrera, A. E. et Matsuda, G., 1978. Fitting the gene lineage into its species lineage, a parsimony strategy illustrated by cladograms constructed from globin sequences. Syst. Zool., 28: 132-163. Gould, S. J., 1977. Ontogeny and phylogeny. Belknap Press of Harvard University Press, Cambridge Gregorius, H. R., 1978. The concept of genetic diversity and its formal relationship to heterozygosity and genetic distances. Math. Biosci., 41: 253271. Haeckel, E., 1866. Generelle Morphologie der Organismen. Georg Reimer (Berlin). Haeckel, E., 1877. Anthropognie. Reinwald C. et Cie. (Paris). Hendy, M. D. et Penny, D., 1982. Branch and bound algorithms to determine minimal evolutionary trees. Math. Biosci., 59: 277-290. Hendy, M. D. et Penny, D., 1989. A framework for the quantitative study of evolutionary trees. Syst. Zool., 38(4): 297-309. Hennig, W., 1950. Grundzge einer Theorie der Phylogenetischen Systematik. Deutscher Zentralverlag (Berlin). Hennig, W., 1966. Phylogenetic Systematics. University of Illinois Press (Urbana). Hennig, W., 1969. Die Stammesgeschichte der Insekten. Kramer (Frankfurt). Hennig, W., 1981. Insect Phylogeny. John Wiley and Son ( New York). Holmquist, R., Miyamoto, M. M. et Goodman, M., 1988. Analysis of higherprimate phylogeny from transversion differences in nuclear and mitochondrial DNA by Lake's methods of evolutionary parsimony and operator metrics. Mol. Biol. Evol., 5(3): 217-236. Jaccard, P., 1908. Nouvelles recherches sur la distribution florale. Bull. Soc. Vaud. Sci. Mat., 44: 223-270. Jacquard, A., 1973. Distances gnalogiques et distances gntiques. Cah. Anthrop. Ecol. hum., 1: 11-85. Jorde, L. B., 1985. Human genetic distance studies: present status and future prospects. Ann. Rev. Anthropol., 14: 343-373.

La reconstruction phylogntique

236

Jukes, T. H.et Cantor, C. R., 1969. Evolution of protein molecules. In : Munro H.N. (Ed.), Mammalian Protein Metabolism. Academic Press (New-York). pp. 21-132. Kidd, K. K. et Sgaramella-Zonta, L. A., 1971. Phylogenetic analysis : concepts and methods. Am. J. of Hum. Gen., 23: 235-252. Kimura, M., 1980. A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. J. Mol. Evol., 16: 111-120. Kimura, M., 1981a. Was globin evolution very rapid in its early stages ? A dubious case against the rate-constancy hypothesis. J. Mol. Evol., 17: 110-113. Kimura, M., 1981b. Estimation of evolutionary distances between homologous nucleotide sequences. Proc. Natl. Acad. Sci. USA, 78(1): 454-458. Kimura, M. et Ohta, T., 1972. On the stochastic model for estimation of mutational distance between homologous proteins. J. Mol. Evol., 2: 87-90. Kluge, A. G., 1985. Ontogeny and phylogenetic systematics. Cladistics, 1: 13-27. Kluge, A. G. et Farris, J. S., 1969. Quantitative phyletics and the evolution of anurans. Syst. Zool., 18(1): 1-32. Kraus, F., 1988. An empirical evaluation of the use of the ontogeny polarization criterion in phylogenetic inference. Syst. Zool., 37: 106-141. Lake, J. A., 1987a. A rate-independent technique for analysis of nucleic acid sequences : evolutionary parsimony. Mol. Biol. Evol., 4(2): 167-191. Lake, J. A., 1987b. Determining evolutionary distances from highly diverged nucleic acid Sequences : operator netrics. J. Mol. Evol., 26(1-2): 59-73. Lalouel, J. M., 1980. Distance analysis and multidimensional scaling. In: : Mielke J. H. et Crawford M. H. (Eds.), Current developments in Anthropological genetics. Vol. 1 : Theory and methods. Plenum Press (New York). pp. 209250. Lam, H. J., 1950. Proposal to indicate a taxonomic group of any rank with the term taxon (plural taxa). In : J. Lanjouw (Ed.), Botanical nomenclature and taxonomy. Union inter. Sc. biol., Colloquia, Ser. B., vol. 2 (Paris). pp. 1-88. Lamarck, J. B. Monet de, 1809. Philosophie zoologique. Dentu (Paris). Lance, G. N. et Williams, W. T., 1967. A general theory of classificatory sorting strategies; I. Hierarchical systems. Computer J., 9: 373-380. Lankester, E. R., 1870. On the use of the term homology in modern zoology, and the distinction between homogenetic and homoplastic agreements. Ann. Mag. Nat. Hist., 4(6): 34-43. Lanyon, S. M., 1985. Detecting internal inconsistencies in distance data. Syst. Zool., 34(4): 397-403. Lathrop, G. M., 1982. Evolutionary trees and admixture: phylogenetic inference when some populations are hybridized. Ann. Hum. Genet., 46: 245-255. Lee, Y. M., Friedman, D. J. et Ayala, F. J., 1985. Superoxyde dismutase: an evolutionary puzzle. Proc. Natl. Acad. Sci. USA, 82: 824-828. LeQuesne, W. J., 1969. A method of selection of characters in numerical taxonomy. Syst. Zool., 18(2): 201-205. LeQuesne, W. J., 1972. Further studies based on the uniquely derived character concept. Syst. Zool., 21(3): 281-288.

Bibliographie

237

Lewin, R., 1987. When does homology mean something else? Science, 237: 1570. Li, W. H., 1989. A statistical test of phylogenies estimated from sequence data. Mol. Biol. Evol., 6(4): 424-435. Lipscomb, DL, 1989. Relationships among the eukaryotes. In : Fernholm B. , Bremer K.et Jrnvall H. (Eds.), The hierarchy of life. Nobel Symposium 70, Excerpta Medica, (Amsterdam). pp. 161-178. Lipscomb, D. L., 1990. Two methods for calculating characters : Transformation Series Analysis and the iterative FIG/FOG method. Syst. Zool., 39: 277-288. Mabee, P. M., 1989. An empirical rejection of the ontogenetic polarity criterion. Cladistics, 5: 409-416. Maddison, W. P., Donoghue, M. H. et Maddison, D. R., 1984. Outgroup analysis and parsimony. Syst. Zool., 33: 83-103. Maeda, N., Wu, C. I., Bliska, J. et Reneke, J., 1988. Molecular evolution of intergenic DNA in higher primates : pattern of DNA changes, molecular clock and evolution of repetitive sequences. Mol. Biol. Evol., 1: 1-20. Mahalanobis, P. C., 1936. On the generalized distance in statistics. Proc. Natl. Inst. Sci. India., 2: 49-55. Maslin, P. T., 1952. Morphological criteria of phyletic relationships. Syst. Zool., 1: 49-70. Matile, L., Tassy, P. et Goujet, D., 1987. Introduction la systmatique zoologique. Biosystema 1, Socit franaise de systmatique (Paris). Mayr, E., 1965. Classification and phylogeny. Amer. zool., 5: 165-174. Mayr, E., 1969. Principles of systematic zoology. McGraw Hill (New York). Mayr, E., 1981. Biological classification : toward a synthesis of opposing methodologies. Science, 214: 510-516. Mayr, E., 1986. La systmatique volutionniste et les quatres tapes du processus de classification. In : Tassy, P. (Ed.), L'ordre et la diversit du vivant. Fayard, Fondation Diderot (Paris). pp. 143-160. Mayr, E., 1988. The limits of reductionism. Nature, 331: 475. Mayr, E., Linsley, E. G. et Usinger, R., 1953. Methods and principles of systematic zoology. McGraw-Hill (New York). Meacham, C. A., 1984. The role of hypothesized direction of characters in the estimation of evolutionnary history. Taxon, 33(1): 26-38. Michener, C. D. et Sokal, R. R., 1957. A quantitative approach to a problem in classification. Evolution, 11: 130-162. Mickevich, M. F., 1982. Transformation Series Analysis. Syst. Zool., 31(4): 461478. Mickevich, M. F. et Johnson, M. S., 1976. Congruence between morphological and allozyme data in evolutionary inference and character evolution. Syst. Zool., 25: 260-270. Mickevich, M. F. et Lipscomb, D. L., 1991. Parsimony and the choice between different transformations for the same character set. Cladistics, 7: 111-139. Mickevich, M. F. et Mitter, C., 1981. Treating polymorphic characters in systematics: a phylogenetic treatment of electrophoretic data. In : Funk V.A. et Brooks D.R. (Eds.), Advances in Cladistics. The New York Botanical Garden (Bronx, New York). pp. 45-58.

La reconstruction phylogntique

238

Mickevich, M. F. et Mitter, C., 1983. Evolutionary patterns in allozyme data : a systematic approach. In : Platnick N. I. et Funk V. A. (Eds.), Advances in cladistics, vol. 2. Columbia University Press (New-York). pp. 169-189. Mickevich, M. F. et Weller, S. J., 1990. Evolutionary Character analysis : tracing character change on a cladogram. Cladistics, 6: 137-170. Mitchell, P. C., 1901. On the intestinal tract of birds with remarks on the valuation and nomenclature of zoological characters. Trans. Linnean Soc. London, Zool., 2(8): 173-275. Miyamoto, M.M., et Goodman M., 1986. Biomolecular systematics of eutherian mammals : phylogenetic patterns and classification. Syst. Zool., 35:230-240. Miyamoto, M. M. et Slightom, J. L. et Goodman, M., 1987. Phylogenetic relationships of humans and African apes as ascertained from DNA sequences (7.1 kbp) of the ??-Globin region. Science., 238: 369-373. Moore, G. W., 1976. Proof for the maximum parsimony ("Red King") algorithm. In : Goodman M. et Tashian R.E. (Eds.), Molecular Anthropology. Plenum Press (New-York). pp. 117-137. Moore, G. W., Barnabas, J. et Goodman, M., 1973. A method for constructing maximum parsimony ancestral amino acid sequences on a given network. J. Theor. Biol, 38: 459-485. Mueller, L. D. et Ayala, F. J., 1982. Estimation and interpretation of genetic distance in empirical studies. Genet. Res., 40: 127-137. Nei, M., 1972. Genetic distance between populations. Amer. Nat., 106: 283-292. Nei, M., 1987. Molecular evolutionary genetics. Columbia University Press (New-York). Nei, M., Stephens, C. et Saitou, N., 1985. Methods for computing the standard errors of branching points in an evolutionary tree and their application to molecular data from humans and apes. Mol. Biol. Evol., 2(1): 66-85. Nei, M., Tajima, F. et Tateno, Y., 1983. Accuracy of estimated phylogenetic trees from molecular data. II Gene frequency data. J. Mol. Evol., 19: 153-170. Nelson, G., 1973 a. The higher-level phylogeny of vertebrates. Syst. Zool., 22: 8791. Nelson, G., 1973 b. Negative gains and positive losses: a reply to J.G. Lundberg. Syst. Zool., 22: 330. Nelson, G., 1978. Ontogeny, phylogeny, paleontology and the biogenetic law. Syst. Zool., 27: 324-345. Nelson, G., 1979. Cladistics analysis and synthesis: principles and definitions with a historical note on Adanson's "Famille des Plantes" (1763-1764). Syst. Zool., 28: 1-21. Nelson, G., 1985. Outgroup and ontogeny. Cladistics, 1: 29-45. Nelson, G. et Platnick, N., 1981. Systematics and biogeography: cladistics and vicariance. Columbia University Press (New York). Ohayon, E. et Cambon-Thomsen, A., 1986. Gntique des populations humaines. Editions INSERM (Paris). Owen, R., 1845. Lectures on the comparative anatomy. Longman (Londres). Panchen, A. L., 1992. Classification, evolution, and the nature of biology. Cambridge University Press (Cambridge).

Bibliographie

239

Patterson, C., 1982. Morphological characters and homology. In: : Joysey, K. A. et Friday A. F (Eds.), Problems of phylogenetic reconstruction. Academic Press (Londres). pp. 21-74. Patterson, C., 1983. How does phylogeny differ from ontogeny ? In : Goodwin B.C. , Holder N. et Wylie C. C. (Eds.), Development and evolution. Cambridge University Press (Cambridge) pp. 1-31. Patterson, C., 1987. Introduction. In : Patterson C. (Ed.), Molecules and morphology in evolution : conflict or compromise ? Cambridge University Press (Cambridge). pp. 1-22. Patterson, C., 1988. Homology and molecular biology. Mol. Biol. Evol., 5: 603625. Patton, J. C. et Avise, J. C., 1983. An empirical evaluation of qualitative hennigian analyses of protein electrophoretic data. J. Mol. Evol., 19: 244-254. Penny, D., 1982. Towards a basis for classification: the incompleteness of distance measures, incompatibility analysis and phenetic classification. J. Theor. Biol., 96: 129-142. Pogue, M. C. et Mickevich, M. F. , 1990. Character definitions and character state delineation : the bte noire of phylogenetic inference. Cladistics, 6: 319-361. Rao, C. R., 1980. Diversity and dissimilarity coefficients: a unified approach. Technical report 80-10. Dpt. of Mathematic and Statistics, University of Pittsburgh (Pittsburgh). Reeck, G. R., De Han C., Teller, D. C., Doolittle, R. F., Fitch, W. M., Dickerson, R. E., Chambon, P., McLachlan, A. D., Margoliash, E. et Jukes, T. H. et Zuckerkandl, E., 1987. "Homology" in proteins and nucleir acids : a terminology muddle and a way out of it. Cell, 50: 667. Renyi, A., 1966. Calcul des probabilits. Dunod (Paris). Reynolds, J., Weir B.S. et Cockerham, C. C., 1983. Estimation of the coancestry coefficient : Basis for a short-term genetic distance. Genetics, 105: 767-779. Ruhlen, M., 1975. A guide to the languages of the world. Ruhlen, M., publ. (Stanford). Saitou, N. et Imanishi, T., 1989. Relative efficiencies of the Fitch-Margoliash, Maximum-Parsimony, Maximum-Likelihood, Minimum-Evolution and Neighbor-joining methods of Phylogenetic tree construction in obtaining the correct tree. Mol. Biol. Evol., 6(5): 514-525. Saitou, N. et Nei, M., 1987. The Neighbor-joining Method: a new method for reconstructing phylogenetic trees. Mol. Biol. Evol., 4(4): 406-425. Sanchez-Mazas, A. et Langaney, A., 1986. Measure and representation of the genetic similarity between populations by the percentage of isoactive genes. Theoria, 4: 143-154. Sankoff, D., 1990. Designer invariants for large phylogenies. Mol. Biol. Evol., 7(3): 255-269. Sankoff, D.et Cedergren,.R. J., 1983. Simultaneous comparison of three or more sequences related by a tree. In : Sankoff D. et Kruskal B. (Eds.), Time warps, string edits, and macromolecules : the theory and pratice of sequence comparison. Addison-Wesley (Reading, Massachusset). pp. 253-263. Sarich, V. M. et Wilson A.C., 1973. Generation time and genomic evolution in primates. Science, 179: 1144-1147.

La reconstruction phylogntique

240

Scherer, S., 1989. The relative-rate test of the molecular clock hypothesis : a note of caution. Mol. Biol. Evol., 6(4): 436-441. Schoch, R.M., 1986. Phylogeny reconstruction in paleontology. Van Nostrand Reinhold Company (New York). Sibley, C. G. et Ahlquist, J. E., 1987. DNA hybridization evidence of hominoid phylogeny : results from expanded data set. J. Mol. Evol., 20: 2-15. Simpson, G. G., 1961. Principles of animal taxonomy. Columbia University Press (New York). Smith, C. A. B, 1977. A note on genetic distance. Ann. Hum. Genet., 40: 463-479. Sneath, P. H. A et Sokal, R. R., 1973. Numerical taxonomy. Freeman (San Francisco) Sober, E., 1988. Reconstructing the past. Parsimony, evolution, and inference. A Bradford Book, Massachusetts Institut of Technology (Cambridge). Sober, E., 1985. A likelihood justification of parsimony. Cladistics, 1: 209-233. Sokal, R. R., 1983. A phylogenetic analysis of the caminalcules. I the data base. Syst. Zool., 32(2): 159-184. Sokal, R. R. et Michener, C. D., 1958. A statistical method for evaluating systematic relationships. University of Kansas Science Bulletin, 38: 14091438. Sokal, R. R. et Rohlf, F. J., 1962. The comparison of dendrograms by objective methods. Taxon, 11: 33-40. Sokal, R. R. et Sneath, P. H. A, 1963. Principles of numerical taxonomy. Freeman, San Francisco Steel, M. A., Hendy, M. D. et Penny, D., 1988. Loss of information in genetic distances. Nature, 336: 118. Swofford, D. L., 1985. PAUP, Version 2.4. User's manual. Illinois Natural History Survey (Champaign). Swofford, D. L., 1990. PAUP, version 3.0. User's manual. Illinois Natural History Survey (Champaign). Swofford, D. L., Olsen G.J., 1990. Phylogeny reconstruction. In : Hillis D.M.et Moritz C. (Eds.), Molecular Systematics. Sinauer Ass. (Sunderland, Massachusetts).pp.411-501. Szalay, F. S., 1981a. Functional analysis and the practice of the phylogenetic method as refected by some mammalian studies. Am. Zool., 21: 37-45. Szalay, F. S. , 1981b. Phylogeny and the problem of adaptive significance : the case of the earliest primates. Folia Primatol., 36: 157-182. Tajima, F. et Nei, M., 1984. Estimation of evolutionary distance between nucleotide sequences. Mol. Biol. Evol., 1(3): 269-285. Takahata, N., 1989. Gene genealogy in three related populations: consistency probability between gene and population trees. Genetics, 122: 957-966. Takahata, N. et Kimura, M., 1981. A model of evolutionary base substitutions and its application with special reference to rapid change of pseudogenes. Genetics, 98: 641-657. Tassy, P., 1982. Les principales lichotomies dans l'histoire des Proboscidea (Mammalia) : une approche phylogntique. Gobios, Mm. sp. 6, : 225-245.

Bibliographie

241

Tassy, P., 1986 (coord.). L'ordre et la diversit du vivant. Fayard-Fondation Diderot (Paris). Tassy, P., 1988. The classification of Proboscidea: how many cladistic classifications? Cladistics, 4: 43-57. Tassy, P., 1991. L'arbre remonter le temps. Christian Bourgois Editeur (Paris). Tassy, P. et Darlu, P., 1987. Les Elephantidae : nouveau regard sur les analyses de parcimonie. Gobios, 20: 487-494. Tateno, Y., Nei, M. et Tajima, F., 1982. Accuracy of estimated phylogenetic trees from molecular data. I. Distantly related species. J. Mol. Evol., 18: 387-404. Thompson, E. A., 1973. The method of minimum evolution. Ann. Hum. Genet., 36: 333-340. Thompson, E. A., 1975. Human evolutionary trees. Cambridge University Press (Cambridge). Voorzanger, B. et Van der Steen, W. J., 1982. New perspectives on the biogenetic law ? Syst. Zool., 31: 202-205. Wagner, W. H. Jr, 1961. Problems in the classification of ferns. In: : Recent Advances in Botany. University of Toronto Press (Montreal). pp. 841-844. Wagner, W. H. Jr, 1984. Applications of the concepts of groundplan divergence. In : Duncant T. et Stuessy T. F. (Eds.), Cladistics : perspectives on the reconstruction of evolutionary history. Columbia University. Press (NewYork). pp. 95-118. Wallace, A. G., 1856. Attempts at a natural arrangement of birds. Ann. Mag. Nat. Hits., 18(2): 193-216. Ward, S. C. et Kimbel, W. H., 1983. Subnasal alveolar morphology and the systematic position of Sivapithecus. Amer. J. Phys. Anthr., 61: 157-171. Wheeler, Q. D., 1990. Ontogeny and character phylogeny. Cladistics, 6: 225-268. Wiley, E. O., 1976. The phylogeny and biogeography of fossil and recent gars (Actinopterygii : Lepisosteidae). Misc. Publ. Mus. Natur. Hist. Univ. Kansas, 64: 1-111. Wiley, E. O., 1981. Phylogenetics: the theory and practice of phylogenetic systematics. John Wiley and sons ( New York). Wiley, E. O., Siegel-Causey, D., Brooks, D. R.et Fink, V. A., 1991. The compleat cladist. Sp. Publ. Lawrence, The University of Kansas Museum of Natural history.

INDEX

alignement 40, 41 allle 102, 104 Ambystoma 56 analogie 16,19 analyse factorielle 25 anctre 9, 11, 30, 35, 37, 55, 60, 81, 88, 103, 104, 165, 166, 171, 178, 193, 199, 203, 205, 209, 213, 227 apomorphie 21, 22, 32, 70, 86, 88, 140-143, 191 arbre enracin 9-11, 13, 210 arbre non enracin 7, 9-11, 168, 169, 178, 181, 185, 188 arbre phylogntique 2, 6, 7 10, 35, 36 Archeopteryx 33 autapomorphie 33, 36, 86, 118, 150 biogographie historique 63 branch and bound 82, 83 branche 8, 9, 78, 80, 86, 88, 134, 136, 186, 187, 190, 193, 199, 204, 207, 215, 216, 219, 221, 223, 227, 228 caractre (dfinition) 23, 30 caractre additif 89, 90 caractre binaire 89, 92 caractre continu 25 caractre discret 25, 102 caractre tats multiples 89, 92, 93, 95, 100 caractre extrinsque 24, 25 caractre intrinsque 24, 25 caractre ordonn 90 caractre orient 90 Centrarchidae 56 Chordata 52 chorologie 62 chronocline 58, 60

clade 31 cladogramme 10, 21, 33, 35, 60, 155, 192 cladogramme de caractres 73, 91 cladogramme de taxons 73 clique 145, 147-150 congruence 17, 39, 44, 63, 64, 72, 150 connexion (principe des) 16 consistance 198, 207, 216, 219, 221 convergence 19, 20, 70-72, 78, 88, 125, 140, 148, 166, 170, 192 Copelemur 59 covariance 141, 161, 180, 182, 205, 209 date de diffrenciation 29, 33 date dorigine 29, 33 dltion 24, 40, 41, 109, 137, 158, 160 dendrogramme 10 drive gntique 162, 207 distance additive 156, 164, 179 distance de Cavalli-Sforza et Edwards 161 distance corrige 167 distance de Czekanowski 162 distance estime 168, 170, 176, 177, 182, 183, 186, 190 distance euclidienne pondre 161 distance euclidienne simple 161 distance de Jukes et Cantor 159 distance de Kimura 173 distance de Mahalanobis 161 distance Manhattan 79, 160, 162, 165, 174, 185, 189 distance mtrique 156, 164 distance ngative 168, 179 distance de Nei 162 distance observe 164-166, 169, 170, 176, 178, 179, 182, 183, 190, 193 distance patristique 163-166, 171, 179, 183

Index

243
horloge molculaire 171, 176, 177, 186, 188, 193, 207 hybridation de lADN 25, 153, 155, 207 hypothse ad hoc 42-44, 53, 72, 139 indice de cohrence 117, 118, 123 indice de concordance simple 159 indice de la diffrence symtrique 160 indice de divergence molculaire 160 indice dexcs relatif dhomoplasie 118 indice f de Farris 88 indice de Kimura 160, 183 indice de rtention 120, 123 indice de similitude (de Jaccard) 159 insertion 24, 40, 41, 109, 137, 158, 160 invariant 11, 132-134, 136, 137 lien complet 172 lien externe 8 lien interne 8 lien moyen 173 ligne anagntique 58 ligne palontologique 58 ligne phyltique 57, 59, 60 loi biogntique 18, 51-54 Mammalia 111, 113-116 mtamorphose 55,56 Metazoa 57 moindres carrs (mthode des) 179 moindres carrs (mthode gnralise) 182, 187 moindres carrs ordinaires 182, 184, 185, 187 moindres carrs pondrs 182, 183 monophylon 27 morphocline 31, 58, 60, 90 Mus musculus 137 mutations multiples 40, 41 mutations successives 40, 41 notnie 53, 55 nud 7-11, 35, 36, 79-81, 86, 96-100, 150, 190-193, 197, 199, 203, 205, 211, 213, 215, 216, 218, 219, 223, 225 nouveaut volutive 30 Oribatida 55 Oriza sativa 137

distance phyltique 163, 164, 171 distance ultramtrique 156, 171 distance gographique 63 divergence adaptative 10 divergence morphologique 6, 36 duplication 39 Elephantidae 26 Elephantoidea 34 Elephas 26 Elephas maximus 26 Escherichia coli 137 espce (catgorie) 27 espce ancestrale 27, 29, 32, 36, 37 espce biologique 28 espce chronologique 28 espce mre 27 espce sur 33, 37 espce souche 27 tat de caractre (dfinition) 23 volution en mosaque 33, 143 extra-groupe 46-50, 64, 72, 78, 113-117, 179, 185, 193 fente branchiale 52 feuille 7-9, 26 fossile 18, 57 frquence alllique 102, 153, 156, 161, 162, 207, 210 gnome 228 groupe ancestral 37 groupe frre 33, 46, 86, 175, 185, 228 groupe monophyltique 27, 29, 31, 32, 57 groupe naturel 29, 33, 37 groupe paraphyltique 33, 37 hasard 139-142 Hennig86 120 htrobathmie 33, 143 htrochronie 19, 53 hirarchie 27, 29 homologie 16, 17, 19, 30, 38, 39, 45, 139, 140 homoplasie 19, 20, 22, 44, 64, 70, 78, 79, 81, 82, 86, 88, 100, 104, 105, 117, 118, 120, 123, 125, 130, 138, 139, 145, 148, 150, 151, 164, 170, 178, 179, 188, 189, 191, 193, 226-228 Homo sapiens 52

La reconstruction phylogntique

244
rcapitulation (loi de) 18, 50-53 rseau 7-11, 28 rversion 19, 20, 70-72, 78, 88, 103, 125, 148, 166, 170, 192, 213 Saccharomyces cerevisiae 137 srie additive 92, 96 srie linaire 89, 90, 92, 96 srie non additive 89 srie non linaire 89, 90 similitude globale 21, 28, 30, 32, 155, 191, 226 similitude spciale 189-191 simple lien 172 site (comme caractre) 24, 40, 49, 159 sites (pondration des) 107, 110 sommet 7, 8 sommet externe 7 sommet interne 7 sous-espce 27, 29 spciation 26, 28, 196 stratophntique 58 subordination des caractres 17 symplsiomorphie 32 synapomorphie 31, 33, 38, 44, 70, 79, 81, 86, 104, 117, 139 taxon (dfinition) 26 taxon liminal 26 taxon terminal 7, 26, 28, 35, 36, 60, 73, 78, 114 tokognie 28 transition 109, 134, 136, 137, 160, 214 transversion 109, 134, 136, 137, 160, 214 unit de lvolution 27, 28 unit volutive 7, 26 unit volutive hypothtique 79, 80, 168, 171 unit taxinomique hypothtique 26 unit taxinomique oprationnelle 26 UPGMA 173, 175, 177, 185, 188, 227 variation inter-taxons 106 variation intra-taxon 106 vraisemblance (mthode du maximum de) 195, 197, 201, 211, 213 vraisemblance (surface de) 202

orthologie 39, 40 paedomorphose 53, 55, 56 Paleomastodon beadnelli 34, 35 Pan troglodytes 177 paralllisme 19 paralogie 39 paramtre dincidence 197, 198, 205, 206, 211, 216 paramtre de nuisance 197, 198, 206, 216 paramtre de structure 197, 216 PAUP 112 Pelycodus 58, 59 Pelycodus abditus 58 Pelycodus frugivorus 58 Pelycodus jarrovii 58 Pelycodus trigonodus 58 pramorphose 53 phnogramme 10, 155, 192 Phiomia 34, 35 Phiomia serridens 34 PHYLIP 79, 112 phylognie (dfinition) 1 phylognie de caractres 63, 64 phylognie de taxons 63 phylogramme 10 plsiomorphie 21, 22, 32, 143, 192, poche viscrale 52 polarit 45, 60, 81 polymorphisme alllique 25 pool gntique 28, 42 population 27, 28, 60, 195, 204 population allopatrique 29 population ancestrale 204, 210 population fille 59 population mre 59 prcdence gologique 57, 58, 61 prcdence ontognique 17 Primates 50, 137, 187 Proboscidea 26 prognse 53 progression chorologique 62, 63 racine 9, 72, 78, 113, 115, 117, 181, 183, 205, 206, 209, 212 raction immunologique 25 rarrangement des branches 84, 85