Vous êtes sur la page 1sur 16

Bio2042

Plans d'expérience et pseudoréplication

1

Daniel Borcard Département de sciences biologiques Université de Montréal

Plans d'expérience et pseudoréplication

1. Rigueur et logique d'un plan d'expérience

Référence: Underwood, A.J., 1997. Experiments in Ecology. Cambridge University Press.

Le but d'une expérience scientifique consiste à tester formellement si les données sont compatibles avec une hypothèse formulée a priori On procède généralement par le biais de manipulations destinées à isoler et faire varier un ou plusieurs facteurs postulés comme mécanismes agissant sur un système donné. Afin d'éviter des interprétations équivoques des résultats, il est important:

- de bâtir l'hypothèse principale (H 0 ) et l'hypothèse contraire (H 1 ) du test de manière logique et cohérente: l'hypothèse contraire H 1 est issue du modèle conceptuel qui est à la base de l'expérimentation. L'hypothèse H 0 est construite comme l'affirmation opposée à l'hypothèse H 1 , et le test formel va tenter de falsifier cette hypothèse principale. En effet, la logique veut qu'on ne puisse prouver une hypothèse qu'à condition de démontrer qu'elle est vraie dans toutes les situations possibles (ce qui n'est généralement pas réalisable), alors qu'il suffit de réaliser une seule possibilité incompatible avec une hypothèse pour l'avoir falsifiée!

- de concevoir et réaliser un plan d'expérience qui reflète cette cohérence et qui permette effectivement de répondre à la question posée;

- de réduire si possible toute source de variation autre que celle(s)

due(s) au(x) facteur(s) sous investigation, afin de rendre l'expérience plus sensible au(x) facteur(s) sous étude; on travaille donc souvent dans un système simplifié.

Bio2042

Plans d'expérience et pseudoréplication

2

Exemple: dans les Alpes (et ailleurs dans le monde), on observe que les arbres ne croissent pas au-dessus d'une certaine altitude. Plusieurs explications ont été avancées: stress physiologique, compétition par d'autres plantes, broutage par les ongulés, etc.

Si l'on s'arrête à cette dernière explication (broutage), notre modèle prédit que l'exclusion des ongulés permettra la croissance des arbres. On peut donc imaginer une expérience où on place quelques parcelles de pelouse alpine sous enclos. On ajoute aussi un contrôle consistant en des enclos ouverts, afin de permettre aux ongulés d'y accéder tout en provoquant la même perturbation du paysage (pour exclure que d'éventuelles différences soient dues à l'effet des enclos eux-mêmes). L'hypothèse H 1 du test, issue du modèle conceptuel, affirme que les arbres vont pousser dans les enclos fermés, mais non dans les enclos ouverts. L'hypothèse H 0 , par conséquent, affirme que les arbres ne pousseront pas davantage dans les zones encloses que dans les zones ouvertes. Ainsi construits, les hypothèses et le dispositif expérimental ne permettront qu'une parmi deux issues possibles: soit les arbres poussent dans les enclos, ce qui conduit au rejet de l'hypothèse H 0 (qui a été "falsifiée"), soit les arbres n'y poussent pas, ce qui mène au rejet (falsification) de l'hypothèse H 1 . Remarquons que dans le premier cas (rejet de H 0 ) l'expérience a permis de valider la théorie du broutage, alors que dans le deuxième cas (non-rejet de H 0 ) on ne peut pas encore proposer d'explication à l'absence d'arbres, puisque plusieurs mécanismes autres que le broutage restent à explorer. Notons aussi qu'une telle démarche n'est valide que pour autant que l'hypothèse H 1 (telle que testée dans le cadre du dispositif expérimental) soit une conséquence exclusive du modèle étudié (ici:

le broutage), et ne puisse être en même temps la conséquence d'un autre modèle. Ajoutons finalement que si cette expérience a été conduite sans avoir eu recours à une simplification outrancière du système étudié, on assure une bonne généralité aux résultats.

Bio2042

Plans d'expérience et pseudoréplication

3

2. L'unité d'expérimentation

Dans l'exemple ci-dessus, il était question d'enclos à répartir dans le terrain. Imaginons trois situations:

Situation 1: le dispositif expérimental consiste en deux grands enclos, l'un ouvert et l'autre fermé. 15 quadrats sont répartis aléatoirement dans chacun des enclos, et les relevés de végétation y sont pris. Situation 2: le dispositif expérimental consiste en 30 enclos répartis aléatoirement dans la région étudiée. La distribution de la caractéristique "enclos ouvert" ou "enclos fermé" est aléatoire (avec toutefois un nombre préétabli d'enclos ouverts et fermés: 15 de chaque). Dans chaque enclos, on définit 1 quadrat dans lequel les relevés de végétation sont pris. Situation 3: le dispositif expérimental consiste en 10 enclos répartis aléatoirement dans la région étudiée. La distribution de la caractéristique "enclos ouvert" ou "enclos fermé" est aléatoire (5 de chaque). Dans chaque enclos, on choisit aléatoirement 3 quadrats dans lesquels les relevés de végétation sont pris.

Quelle est l'unité d'expérimentation dans chacune des trois situations? La réponse peut surprendre: dans les trois cas, l'unité

, car c'est à lui que le traitement est

d'expérimentation est appliqué. Les

situations ci-dessus varient selon le degré de répétition (on utilise souvent l'anglicisme "réplication") des traitements ou des mesures élémentaires:

- situation 1: pas de répétition des traitements, mais répétition des mesures;

- situation 2: répétition des traitements, pas de répétition des mesures;

- situation 3: répétition des traitements, et répétition des mesures pour

chaque répétition de traitement. La distinction entre unité d'expérimentation et élément d'observation est essentielle dans la construction d'un plan d'expérience. Voir l'article de Hurlbert (1984) sur la pseudoréplication (discuté plus bas; extrait disponible sur la page web du cours).

sont des éléments d'observation. Les trois

Bio2042

Plans d'expérience et pseudoréplication

4

Plan 1
Plan 1

Quadrat Enclos fermé

Plan 2
Plan 2

Enclos ouvert

Plan 3
Plan 3

Bio2042

Plans d'expérience et pseudoréplication

5

3. Conception d'un plan d'expérience

Référence: Scherrer, B., 2007. Biostatistique. Gaëtan Morin. Chapitre 2

3.1 Deux méthodes opposées

Historiquement, deux approches principales ont été proposés pour déceler des relations de causalité:

- méthode des constances: observation des points communs entre

diverses situations produisant le même effet. Exemple: une personne cherche la cause de son ébriété. Le premier soir elle boit du scotch et de l'eau, le deuxième soir du cognac et de l'eau, le troisième soir de la vodka et de l'eau. L'eau étant l'élément commun aux trois situations, la personne en déduit que l'eau est responsable de son ébriété! Donc:

la méthode des constances est à éviter, car difficilement applicable et peu fiable

- méthode des différences: au contraire de la précédente, cette

approche consiste à observer les différences apparaissant dans un phénomène Y (exemple: le broutage exposé plus haut) dans une série de situations où l'on permet (traitement) ou non (contrôle) l'intervention d'un ou plusieurs facteurs X i posés par hypothèse. Cette méthode est universellement acceptée, mais ne fonctionne que si la variance due aux traitements surpasse la variabilité intrinsèque des différentes unités expérimentales. De plus, bien que ça ne soit pas strictement indispensable (voir Hurlbert, 1984), on cherche en général à rendre les unités expérimentales aussi semblables que possible ou à minimiser les effets des différences non dues aux facteurs étudiés.

3.2 Groupes comparables et facteurs de confusion

Afin de mieux distinguer les effets des facteurs étudiés de ceux d'autres sources (facteurs de confusion), on peut procéder de deux manières: (1) éliminer des facteurs de confusion ou les rendre constants, ou (2) attribuer les unités expérimentales aux divers niveaux des facteurs étudiés en tenant compte de leurs caractéristiques propres pouvant agir comme facteurs de confusion. Ces éléments sont aussi repris à la section "Allocation des traitements et pseudorélication").

Bio2042

Plans d'expérience et pseudoréplication

6

3.2.1

Éliminer

potentiels

ou

rendre

constants

des

facteurs

de

confusion

- éliminer des facteurs (lorsque c'est possible; exemple: expériences en aquarium: l'eau est filtrée pour en éliminer le chlore; elle est

); la

gardée à une température identique dans tous les bassins; etc

limite de cette approche est due au fait qu'une simplification trop poussée d'un système limite la portée des résultats;

- s'assurer que leur niveau est constant d'une unité à l'autre

(exemple: dans une expérience portant sur des poissons en aquariums, masquage des vitres des aquariums pour empêcher tout contact visuel avec l'extérieur); ici encore, un contrôle excessif peut rendre le système très artificiel.

3.2.2 Allocation optimale des traitements

D'une manière générale, cette approche consiste à distribuer traitements et contrôles sur l'ensemble du dispositif expérimental de manière à optimiser la sensibilité des analyses tout en minimisant le risque d'intrusion de facteurs de confusion.

- une méthode courante pour atteindre ce but est l'allocation

aléatoire des traitements (on entend souvent l'anglicisme "randomisation"). Cette méthode consiste à distribuer aléatoirement les unités expérimentales dans les divers groupes correspondant à chacune des situations (combinaisons de niveaux des facteurs étudiés). Les effets de la multitude de facteurs externes qui peuvent agir sur le phénomène étudié se trouvent ainsi répartis de manière homogène sur l'ensemble des groupes constitués; p.ex., si on étudie les effets de trois diètes sur des poissons, on ne regroupera pas tous les aquariums de la diète 1 du même côté de la salle, et ceux des autres diètes dans deux autres endroits, on attribuera plutôt aléatoirement les aquariums aux diètes;

- toute recherche de constance pour les variables propres (celles qui

caractérisent l'élément proprement dit) aboutit à la restriction de la portée des résultats: on change la population statistique; par exemple, les résultats d'une étude de trois diètes sur l'omble de fontaine réalisée avec des individus mâles d'âge égal ne pourront être appliqués que sur les ombles mâles du même âge. Pour éviter de

Bio2042

Plans d'expérience et pseudoréplication

7

telles restrictions, tout en contrôlant les sources de variabilité que sont le sexe et l'âge, on crée des blocs (groupes d'unités) contenant des unités de mêmes caractéristiques (p.ex. 1 bloc de juvéniles mâles, 1 bloc de juvéniles femelles, 1 bloc de mâles de 1-2 ans, etc.), on sélectionne aléatoirement des individus dans chaque bloc, et on s'arrange pour que tous les niveaux des traitements soient représentés dans chaque bloc (on s'assure que les trois diètes sont représentées dans le bloc des mâles juvéniles, des femelles juvéniles, etc.). Lors de l'analyse statistique, le facteur "bloc" doit être pris en considération (comme facteur aléatoire en ANOVA); - la dernière façon d'améliorer l'équivalence des situations est l'appariement ("matching"), qui consiste à répartir dans les divers groupes des éléments qui ont au moins un point commun entre eux. Ex.: les divers membres d'une même famille seront répartis chacun dans un groupe; à l'extrême, le même individu peut appartenir à deux groupes, s'il est observé avant, puis après un traitement. On doit tenir compte de l'appariement dans les analyses statistiques. Remarquons enfin qu'il est illusoire d'imaginer que les diverses unités d'expérimentation peuvent être rendues parfaitement identiques, et ce, même en laboratoire. Cette croyance serait d'autant plus dangereuse si elle menait à l'idée qu'on peut se passer de répéter les traitements. L'homogénéisation des situations permet de réduire les variations aléatoires des données, et donc d'améliorer la sensibilité de l'expérience, mais n'en affecte pas la validité générale.

4. Allocation des traitements et pseudoréplication

Référence: Hurlbert, S. H. 1984. Pseudoreplication and the design of ecological field experiments. Ecological Monographs 54: 187-211.

Parmi les étapes déterminantes pour la qualité d'une expérimentation figurent la définition de l'unité d'expérimentation, la manière dont les traitements sont alloués à ces unités, et la conduite proprement dite de l'expérience.

Bio2042

Plans d'expérience et pseudoréplication

8

Une mauvaise définition de l'unité d'expérimentation peut conduire à des interprétations statistiques erronées (par exemple pseudo- réplication). Une mauvaise allocation des traitements risque d'aboutir au test d'une hypothèse autre que celle prévue. Une mauvaise conduite de l'expérience peut introduire des biais systématiques dans les résultats. Les paragraphes ci-dessous reprennent quelques points importants de l'article de Hurlbert.

1. Description des objectifs d'une expérience: devrait comprendre la nature de l'unité expérimentale, le nombre et le type de traitements (y compris les contrôles), et les propriétés ou réponses des unités expérimentales qui seront mesurées. Ex.: dans la situation 3 de l'expérience d'exclusion évoquée plus haut, l'unité expérimentale est un enclos carré de 10x10m, le type de traitement est "enclos ouvert" (contrôle) et "enclos fermé" (il y a donc deux traitements), la variable réponse mesurée dans chaque unité est la moyenne sur 3 quadrats du nombre de jeunes arbres par quadrat après (par exemple!) 5 ans d'expérience.

2. Mode d'assignation des traitements aux unités expérimentales, nombre de répétitions ( = unités expérimentales recevant le même traitement), et arrangement physique (spatial et temporel) des unités. Parfois aussi séquence temporelle d'application des traitements. Ex.: dans le cas 3 repris ci-dessus, on a sélectionné aléatoirement les enclos qui seront ouverts et ceux qui seront fermés, il y a 5 unités par traitement, et les enclos ont été distribués aléatoirement dans les 5 hectares de la pelouse alpine étudiée. C'est ici que menace le spectre de la pseudoréplication. On peut essayer de résumer le problème ainsi:

Bio2042

Plans d'expérience et pseudoréplication

9

- lorsque les traitements ne sont pas répétés sur plusieurs unités

d'expérimentation (et non seulement sur plusieurs éléments à l'intérieur d'une seule unité!); ou - si les unités d'expérimentation ne sont pas statistiquement indépendantes (autocorrélation spatiale ou temporelle);

- et qu'on applique néanmoins des statistiques inférentielles sur les

unités non-indépendantes ou sur les éléments d'une seule unité comme si ces objets étaient eux-mêmes des unités indépendantes, il y a pseudoréplication.

La pseudoréplication résulte donc d'une confusion des sources de variation du plan expérimental. Les deux manières fondamentales d'éviter la confusion des sources de variation dans une expérience sont l'usage de contrôles et l'allocation judicieuse des traitements.

L'avantage d'une expérience par manipulations sur une expérience par mesures (mensurative experiment) est la possibilité d'allouer aléatoirement ou disperser les traitements sur les répétitions selon les besoins. Par contraste, lorsque le plan requiert l'examen d'objets naturels dont la caractéristique d'intérêt (qui forme le "traitement" de l'expérience par mesures) ne peut être choisie par l'usager (exemple:

une espèce d'arbre par rapport à une autre dans une forêt), on doit choisir les objets en fonction d'une caractéristique préexistante (on ne peut pas faire une carte de tous les arbres et décider ensuite à quelle espèce les attribuer!). Le choix ne peut donc pas être aléatoire. Le tableau 1 de Hurlbert donne un aperçu des sources possibles de confusion et des méthodes à appliquer pour les éviter ou en minimiser les effets. En résumé:

- les contrôles servent à éviter la confusion entre facteurs observés et

changements temporels dans le système, ou encore effets propres du dispositif expérimental (ex.: l'effet "enclos"); - l'allocation optimale des traitements aux unités expérimentales prémunit des biais et fluctuations aléatoires dus à l'expérimentateur, de la variabilité intrinsèque au système observé, et de l'occurrence

Bio2042

Plans d'expérience et pseudoréplication

10

d'événements

intrusion"). Par "allocation optimale", on doit comprendre en général une allocation qui disperse les traitements sur toutes les unités disponibles sans égard à leurs propriétés intrinsèques (afin d'éviter d'introduire une corrélation entre niveau de traitement et caractéristiques propres du système). Par exemple, en agronomie, diviser un champ en deux, même après avoir placé les unités expérimentales au hasard dans le champ, pour ensuite attribuer tous les contrôles à une moitié du champ et tous les autres traitements à l'autre n'est pas optimal, car cette méthode se base sur une caractéristique propre du champ sans lien avec l'expérience (p. ex. l'est et l'ouest du champ) et introduit une confusion entre l'effet des traitements et l'effet d'une possible différence prééexistante entre les deux moitiés du champ. Les moyens de parvenir à une allocation optimale font encore l'objet de débats entre:

- les tenants de l'aléatoire "pur et dur", pour lesquels une allocation aléatoire des traitements aux unités est la seule manière valide d'obtenir le seuil désiré d'erreur de type I; - ceux qui estiment qu'une allocation strictement aléatoire peut parfois aboutir à une agrégation des traitements nuisible (surtout lorsque le nombre de répétitions est faible). L'argument des premiers est que sur une "population d'expériences" suffisamment nombreuse, l'allocation strictement aléatoire des traitements est la seule technique qui garantit la probabilité asymptotique d'erreur de type I désirée (p. ex. 0.05). L'argument des seconds est que le but visé par l'expérimentateur est d'obtenir le seuil visé (ou éventuellement un risque inférieur, mais pas supérieur) pour l'expérience qu'il réalise, parce qu'il sait qu'il ne la réalisera qu'une fois! Le concept de dispersion des traitements est donc plus important que celui d'allocation aléatoire, qui n'est qu'un moyen d'obtenir cette dispersion. La figure 1 de Hurlbert donne quelques exemples de plans acceptables ou non.

stochastiques

durant

une

expérience

("nondemonic

Bio2042

Plans d'expérience et pseudoréplication

11

5. Quelques plans d'expérience courants

Les trois plans considérés comme acceptables par Hurlbert sont les suivants:

5.1. Randomisation totale (completely randomized design)

Ce plan prévoit une allocation totalement aléatoire des traitements aux unités expérimentales. Comme dit plus haut, bien que théoriquement excellent, il implique le risque d'obtenir des distributions de traitements plus agrégées qu'il n'est souhaitable, surtout lorsque le nombre d'unités et de répétitions est faible (ce qui est fréquent en écologie).

5.2. Randomisation par blocs (randomized block design)

Avant l'allocation des traitements, l'ensemble des unités d'expérience est divisé en blocs selon le critère intrinsèque qui risque le plus d'introduire de la confusion dans les résultats (très souvent l'espace). Une fois les blocs définis, on alloue aléatoirement les traitements à l'intérieur de chaque bloc. On s'assure ainsi que tous les niveaux de traitement sont représentés sur l'ensemble de l'espace occupé par les unités expérimentales, tout en permettant une allocation aléatoire à une échelle plus fine. Ce plan est très commun en écologie, où il offre souvent le meilleur compromis entre les risques d'une randomisation complète (avec peu d'unités) et ceux d'une allocation strictement régulière. Les blocs constituent un facteur aléatoire dans une anova.

5.3. Plan d'allocation systématique (systematic design)

Les niveaux de traitement sont distribués en alternance régulière aux unités. Ce plan fournit une excellente distribution des traitements et est commode à appliquer, mais fait courir le risque que la périodicité de l'attribution des traitements coïncide avec celle d'une propriété intrinsèque du terrain expérimental (dans la pratique, le risque est toutefois assez faible).

Bio2042

Plans d'expérience et pseudoréplication

12

Les autres plans montrés par Hurlbert (ségrégation simple et agrégée) font courir un grand risque d'erreur de type I parce que des différences inhérentes aux sites (et non dues aux traitements) existent avant l'expérimentation ou apparaissent pendant la durée de l'expérience. La ségrégation par isolation (p. ex. dans des chambres à atmosphère contrôlée) présente tous les dangers de la ségrégation simple, mais de façon plus aiguë.

A-1

A-1        
 
A-1        
A-1        
 
A-1        
A-1        
 
A-1        
A-1        
 
A-1        

A-2

A-2  
A-2  
A-2  
A-2  
 
A-2  
A-2  
A-2  
A-2  

A-3

A-3      
 
A-3      
A-3      
 
A-3      
A-3      
 
A-3      
A-3      
A-3      

B-1

B-1
B-1
B-1
B-1
B-1
B-1
B-1
B-1

B-2

B-2  
B-2  
B-2  
B-2  
 
B-2  
B-2  
B-2  
B-2  

B-3

B-3
B-3
B-3
B-3
B-3
B-3
B-3
B-3
 
   
 

B-4

                                   

B-5

B-5    
 
B-5    
B-5    
 

Représentation schématique de 3 plans d'expérience acceptables au niveau de la dispersion des traitements (A) et de plusieurs façons de faire violant le principe de dispersion (B). Les boîtes représentent les unités d'expérimentation, les couleurs (noir, blanc) deux traitements. A-1: allocation complètement aléatoire; A-2: blocs randomisés; A-3: systématique; B-1:

ségrégation simple; B-2: ségrégation agrégée; B-3: ségrégation isolative; B-4: allocation aléatoire mais avec répétitions non-indépendantes; B-5: pas de répétition. D'après Hurlbert

(1984).

Bio2042

Plans d'expérience et pseudoréplication

13

Certains plans ont été proposés pour contrer certaines propriétés connues mais indésirables du terrain d'expérimentation. Sokal & Rohlf (1981, 1995) et Scherrer (2007 p. 81) citent un exemple de carré latin, un plan dans lequel on distribue les traitements de manière à n'avoir qu'une seule répétition de chaque niveau par ligne ou colonne. Le but est de distribuer les traitements de manière égale sur deux gradients orthogonaux connus d'avance dans le terrain.

gradients orthogonaux connus d'avance dans le terrain. Exemple de carré latin. 4 traitements, comportant chacun 4

Exemple de carré latin. 4 traitements, comportant chacun 4 réplications, sont arrrangés de manière à contrôler deux gradients, un sur chaque axe du carré (p.ex. un gradient d'humidité de gauche à droite et un gradient de contenu en azote de haut en bas). Modifé d'après Sokal & Rohlf (1991, p.394).

Bio2042

Plans d'expérience et pseudoréplication

14

6. Plans d'analyse de variance

Références: Scherrer (1984) paragraphes 13.4, 19.1, 19.2; Scherrer (2007) chap. 14; Sokal & Rohlf (1981, 1995) chap. 8-13; Zar, J. H. (1999): Biostatistical analysis. Prentice Hall, chap. 10, 12, 14, 15, 16. Underwood, A. J. (1997) Experiments in ecology. Their logical design and interpretation using analysis of variance. Cambridge University Press.

Le cadre formel de l'analyse de variance est à la fois suffisamment large, polyvalent et rigoureux pour aider à concevoir et réaliser des expériences simples ou complexes, et en analyser les résultats en accord avec les règles énoncées ci-dessus. Quelques plans d'analyse importants seront abordés ici, mais leur discussion mathématique dépasse le cadre de cette introduction.

6.1. Facteurs aléatoires et contrôlés

Avant de passer en revue quelques plans d'anova, une définition s'impose, difficile à trouver sous une forme claire dans la littérature. En expérimentation, il faut faire la distinction entre un facteur contrôlé (fixed factor) et un facteur aléatoire (random factor). Un facteur contrôlé est un facteur pour lequel tous les niveaux intéressants dans le cadre de l'expérience y ont été inclus (ex.: 4 types d'engrais, 3 doses de médicament). Autre exemple: je pose une hypothèse selon laquelle: "H 1 : la richesse spécifique de la communauté animale que j'étudie est différente au moins dans une saison par rapport aux trois autres". Je vais donc faire mes prélèvements pour répondre spécifiquement à cette question, ce qui m'oblige à échantillonner au printemps, en été, en automne et en hiver. Le facteur "saison" est contrôlé: j'y inclus tous les niveaux qui m'intéressent. Un facteur aléatoire est un facteur dont les niveaux inclus à l'expérience sont un sous-ensemble aléatoire d'une population plus vaste de niveaux possibles. Par exemple, si je connais assez mal l'écologie de la communauté animale que j'étudie, je pourrais énoncer une hypothèse très générale, disant: "H 1 : la richesse spécifique de la communauté varie en fonction du temps". Pour tester cette hypothèse (ou plutôt l'hypothèse nulle correspondante!), je peux décider de faire des prélèvements à divers moments de l'année ou de la saison

Bio2042

Plans d'expérience et pseudoréplication

15

considérée, puis de faire une ANOVA avec le temps pour critère de classification (niveaux: temps 1, temps 2, etc.). Ici, le moment précis où j'ai fait mes prélèvements importe peu, ce qui conpte, c'est d'avoir un échantillonnage qui me permettre de vérifier si la richesse spécifique varie avec le temps. Le temps est donc un facteur aléatoire: j'ai choisi quelques périodes pour échantillonner, mais j'aurais pu en choisir d'autres. Cette distinction est importante car elle affecte la manière dont les analyses de variance à plus d'un critère de classification sont conçues et calculées. Lorsqu'un facteur est contrôlé (anova de modèle I), on considère que d'éventuelles différences entre les moyennes des groupes (un groupe est l'ensemble des répétitions du même traitement) sont dues au traitement appliqué par l'expérimentateur. Le but de l'anova est d'estimer la vraie différence entre les moyennes des groupes. Lorsque le facteur est aléatoire, l'effet n'est pas le même d'une unité à l'autre. Il est donc futile de vouloir en estimer la magnitude pour un groupe donné, mais on peut en estimer l'effet qui se manifeste par l'ajout de variance entre les groupes.

Les plans d'analyse de variance suivants sont abordés dans d'autres documents de ce cours ou au cours Bio2041:

6.2. Une seule variable explicative (critère de classification)

6.2.1. Anova à un critère de classification (one-way anova) 6.2.2. Anova hiérarchique (nested anova)

6.3. Deux critères de classification

6.3.1 Anova à deux critères de classification croisés sans répétitions (two-way anova without replication)

6.3.2.

avec

Anova

factorielle

à

deux

critères

de

classification

répétitions, modèes I, II et mixte.

Bio2042

Plans d'expérience et pseudoréplication

16

6.4. Autres plans

Le plan d'anova factorielle à deux critères de classification peut être étendu à plus de deux facteurs. Par exemple, pour 3 facteurs contrôlés avec réplication de toutes les combinaisons, la structure de variance est:

de toutes les combinaisons, la structure de variance est: Y ijkl = + i + j

Y ijkl = + i + j + k +(

variance est: Y ijkl = + i + j + k + ( ) ij +
variance est: Y ijkl = + i + j + k + ( ) ij +
variance est: Y ijkl = + i + j + k + ( ) ij +
variance est: Y ijkl = + i + j + k + ( ) ij +

) ij +(a

ijkl = + i + j + k + ( ) ij + ( a )

) ik +(

+ i + j + k + ( ) ij + ( a ) ik +

) jk +(

j + k + ( ) ij + ( a ) ik + ( ) jk

) ijk +

( ) ij + ( a ) ik + ( ) jk + ( ) ijk

ijkl

a i , b i et g i sont les effets contrôlés des trois traitements; (ab )

sont les interactions de premier ordre au niveau des sous-groupes

représentés par les combinaisons du i-ième groupe du facteur A, j-ième

est

l'interaction du second ordre dans le sous-groupe représentant le i- ième, j-ième et k-ième groupe des facteurs A, B et C, et ijkl est le terme d'erreur du l-ième élément du sous-groupe ijk. Il est impossible d'être complet dans un exposé si résumé. Pour conclure, mentionnons encore trois plans utiles (et parfois complexes):

groupe du facteur B, et k-ième groupe du facteur C; ( )

etc.

ij

B , et k -ième groupe du facteur C ; ( ) etc. ij ijk -
B , et k -ième groupe du facteur C ; ( ) etc. ij ijk -

ijk

- anova avec mesures répétées (plusieurs mesures sur les mêmes sujets; voir Zar (1999: p.255); - anova traitant plusieurs variables dépendantes simultanément:

analyse de variance multivariable (multivariate anova) ou MANOVA; - ancova, analysant simultanément l'effet d'un ou de plusieurs critères de classification et d'une variable indépendante quantitative sur la variable dépendante.

Des éléments cruciaux de l'analyse de variance n'ont pas été évoqués dans ce document. Le premier d'entre eux est l'allocation des degrés de liberté aux différentes composantes de la variance. Les ouvrages de statistiques cités (Sokal & Rohlf, Zar, Scherrer) traitent de ce point de la manière classique, en montrant une sélection de plans et en les développant avec toutes leurs caractéristiques, alors qu'Underwood (1997) propose une méthode permettant de créer ses plans d'analyse de variance et d'en calculer toutes les composantes.