Vous êtes sur la page 1sur 8

Bio-2042 Analyse de covariance 1

Analyse de covariance
Scherrer (2007) p.713 ; Sokal et Rohlf (1981) p. 499

L'analyse de covariance procède à la fois de l'analyse de variance et


de la régression linéaire simple. Vue de la manière la plus générale
possible, c'est une méthode qui permet de modéliser ensemble les
influences d'une variable qualitative multiclasse (critère de
classification) et d'une variable quantitative sur une variable
dépendante quantitative. Cependant, il est utile pour la
compréhension de la méthode de hiérarchiser les questions
statistiques.
Imaginons une situation où plusieurs (g) estimations indépendantes
de la pente d'une relation linéaire entre deux variables x et y ont été
obtenues. Chaque estimation est issue d'une expérience ou d'un jeu
de données différent. Par exemple, on dispose de g = quatre droites
de régression décrivant le rendement d'une culture en fonction de la
quantité d'un nouvel engrais. Les droites ont été obtenues sur la base
d'expériences réalisées respectivement sur sol sableux (1), argileux
(2), brun forestier récemment défriché (3), et tourbeux acide (4). On
a donc trois variables au total: la variable dépendante quantitative
"Rendement", la variable explicative quantitative "Quantité
d'engrais", et la variable explicative qualitative multiclasse "Type de
sol" (ici à 4 classes, g=4).
On peut se poser une question préliminaire: les g droites obtenues
sont-elles égales? Autrement dit, explique-t-on plus ou moins la
même quantité de variation en regroupant les données des g groupes
et en calculant une seule régression qu'en calculant g régressions?
Cette hypothèse serait notre H0 préliminaire: les droites de régression
sont confondues. Voir plus bas les formules de calcul.
Si cette H0 est rejetée, donc s'il existe une différence significative
entre les g droites de régression, on peut affiner l'analyse.
Les questions biologiques se posent alors à trois niveaux:
Bio-2042 Analyse de covariance 2

1. Le taux d'engraissement influence-t-il le rendement


(indépendamment du type de sol)?
2. Le type de sol influence-t-il le rapport entre engraissement et
rendement? Ou encore, le taux d'engraissement influence-t-il
le rapport entre type de sol et rendement?
3. Le type de sol influence-t-il le rendement (indépendamment
des engrais)?
La question 1 sera testée à l'aide d'une série de g régressions
linéaires simples (puisque rendement et engraissement sont des
variables quantitatives dans cet exemple).
Pour répondre à la question 2, qui traite de l'interaction entre type
de sol et engraissement, il faudra tester si les pentes des g droites de
régression diffèrent entre elles ou si les droites sont parallèles (aux
fluctuations aléatoires près). Des droites parallèles signifieraient que le
rapport entre rendement et engrais ne dépend pas du type de sol.
Si les droites sont parallèles, alors on testera la question 3 en
vérifiant si les droites (parallèles) sont situées à des hauteurs
différentes (donc, si leur ordonnée à l'origine diffère) ou si les
droites sont confondues en une seule (aux fluctuations aléatoires
près). Des droites situées à des hauteurs différentes signifieraient que
le sol influence le rendement indépendammant de l'effet des engrais.

Les étapes de calcul, détaillées dans Scherrer (p. 713-717), sont les
suivantes:
1. Chaque droite de régression produit une erreur résiduelle, c'est-à-
dire la somme des carrés des écarts; on les calcule (SCE1 à SCEg).
2. On additionne les g erreurs résiduelles obtenues ci-dessus
(SCEgD ); cette quantité représente toute la variation qui n'est pas
expliquée par les g droites de régression ajustées indépendamment
les unes des autres dans chacun des g groupes.
3. On calcule une régression unique regroupant toutes les données.
Cette régression produit une erreur appelée SCEDC. La différence
d'erreur entre une seule droite et g droites indépendantes est donc:
SCEDD = SCEDC – SCEgD
Bio-2042 Analyse de covariance 3

4. Hypothèse préliminaire: H0: les g droites des régression sont


confondues. Si H0 est vraie, alors la variable auxiliaire
SCE DD 2(g −1)
f DD = Scherrer éq. 18.47
SCEgD (n − 2g)
suit une distribution F de Fisher-Snedecor à ν1 = 2(g–1) et ν2 = 2(n–
2g).

5. Si H0 est rejetée ci-dessus, on aborde la suite de l'analyse.


6. On construit une série de g droites de régression parallèles entre
elles, dont la pente est égale à la pente moyenne (pondérée par le
nombre d'observations de chacun des jeux de données) des droites
ajustées sur chacun des groupes; on en calcule les erreurs
résiduelles et on les additionne (SCEPE ); cette quantité représente
tout ce qui n'est pas expliqué par g droites dont les origines sont
ajustées en fonction de chaque groupe de données, mais dont la
pente est identique.
7. On calcule l'erreur résiduelle due à la variation des pentes, c'est-à-
dire la différence entre les deux sommes d'erreurs résiduelles ci-
dessus (SCEPD = SCEPE – SCEDD).
8. On vérifie si l'erreur résiduelle due à la variation des pentes est
trop grande pour être due aux fluctuations aléatoires. Sous H0, la
variable auxiliaire suit une loi de F de Fisher-Snedecor à ν1 = (g–1)
et ν2 = (n–2g) d.l.:

SCEPD (g −1) SCEPD × (n − 2g )


fPD = = Scherrer éq. 18.51
SCEgD (n − 2g) SCEgD × ( g − 1)

Erreur résid. due à la variation des pentes/(g –1)


fPD =
Erreur résid. tot.sur droites régr. séparées/(n − 2g)
(n = nombre total d'observations; g = nombre de droites comparées)
Bio-2042 Analyse de covariance 4

9. Si l'hypothèse nulle H0 du point 8 est rejetée, donc si les pentes ne


sont pas parallèles, on en conclut que les relations mesurées diffèrent
d'une expérience à l'autre, et que ça n'a donc pas de sens de les
regrouper pour estimer une pente et une ordonnée à l'origine
uniques. On renonce dans ce cas aux points 9, 10 et 11.
Si, et seulement si, l'hypothèse H0 d'égalité des pentes n'est pas
rejetée, on peut comparer les ordonnées à l'origine:
- on combine les données de tous les g échantillons et on calcule une
droite de régression commune (voir point 3). On ajuste donc une
seule pente et une ordonnée unique à toutes les données;
- on calcule l'erreur résiduelle par rapport à cette droite (SCEDC).
10. L'erreur résiduelle due aux différences d'ordonnées à l'origine est
la différence entre l'erreur ci-dessus (étape 9) et l'erreur résiduelle par
rapport à des droites parallèles (SCEOOD = SCEDC – SCEPE ).
11. On teste si l'erreur résiduelle due aux différences d'ordonnées à
l'origine est trop grande pour être due au hasard. La variable
auxiliaire suit (sous H0) une loi de F de Fisher-Snedecor à ν1 = (g–1)
et ν2 = (n–g–1) d.l.:

SCEOOD (n − 1) SCEOOD × (n − g − 1)
fOOD = =
SCEPE (n − g − 1) SCEPE × ( g − 1)
Erreur résid. due aux diff. d' ordonnées à l'orig./( g –1)
fOOD =
Erreur résid. par rapp. à des droites parallèles/ (n − g − 1)

Le point de vue dont l'ANCOVA a été présentée ci-dessus est


surtout celui d'une comparaison de droites de régression. Il faut
toutefois remarquer que l'usage de cette méthode dépasse largement
ce cadre. Par exemple, on aurait pu aussi présenter l'exemple
rendement-engrais-type de sol sous un autre angle:
"On dispose de quatre groupes de données de rendement d'une
culture obtenus sur quatre types de sol: sableux, argileux, brun
forestier récemment défriché, et tourbeux acide. Toutefois, dans ces
Bio-2042 Analyse de covariance 5

quatre groupes, les réplicats ont été mesurés sur des sols qui ont reçu
des doses très variables d'engrais. Ici, l'engrais est donc considéré
comme une covariable, et avant de tester l'effet du sol sur le
rendement (égalité ou non des ordonnées à l'origine), il faut d'abord
s'assurer que l'effet de l'engrais sur le rendement est le même quel
que soit le type de sol (parallélisme des pentes)."
Ci-dessous: illustration graphique des étapes principales d'une
ANCOVA.
Bio-2042 Analyse de covariance 6
Bio-2042 Analyse de covariance 7

L'exemple graphique ci-dessous présente quatre situations possibles


avec diverses combinaisons de pentes et d'ordonnées à l'origine. On
étudie la biomasse végétale en fonction de la quantité d'engrais dans
quatre prés croissant sur sols différents. La biomasse (variable
quantitative) est la variable dépendante (à expliquer), le type de sol
(variable qualitative multiclasse) est le facteur (ou effet) principal, et
la quantité d'engrais (variable quantitative) est la covariable.
Bio-2042 Analyse de covariance 8

Les questions biologiques qu'on se pose sont les suivantes (dans cet
ordre!):
1. La biomasse change-t-elle en fonction de la quantité d'engrais? (4
régressions linéaires simples)
2. Le type de sol influence-t-il le rapport entre la biomasse et
l'engraissement? (test du parallélisme des pentes, donc test de
l'interaction)
3. Si on a répondu "non" à la question 2, le type de sol influence-t-il
la biomasse (test de l'ordonnée à l'origine)?

Les situations de l'exemple sont les suivantes (de manière


descriptive, sans que les tests aient été faits en réalité):
A. Les pentes semblent significatives et positives, ce qui indique une
réponse de la végétation à la quantité d'engrais. Pentes différentes:
cela indique une interaction entre sol et engraissement. Dans ce
cas, on constate que la manière dont la biomasse réagit à
l'engraissement dépend du type de sol. Ce dernier agit donc sur la
relation biomasse-engrais. Le test sur les ordonnées à l'origine ne
peut pas se faire, parce que les ordonnées à l'origine dépendent à
la fois du taux d'engraissement et du type de sol.
B. Pentes et ordonnées à l'origine différentes: comme A: une
interaction est présente, donc le test de l'effet principal (sol) ne se
fait pas. Cette situation est la même qu'en A, en fait!
C. Pentes parallèles (donc, pas d'interaction sol-engrais), donc effet
principal sol testable (et probablement significatif: au moins une
ordonnée à l'origine diffère des autres). Dans ce cas, les pentes
parallèles indiquent une réponse identique de la végétation aux
engrais quelle que soit la nature du sol. Ce dernier n'agit pas sur la
relation biomasse-engrais. Par conséquent, la différence d'ordonnée
à l'origine peut être interprétée directement comme un effet de la
nature du sol sur la biomasse, indépendamment de l'effet de
l'engraissement.
D. Pentes et ordonnées à l'origine identiques: ni interaction ni effet
principal "sol" significatifs. Seuls les engrais influencent la
biomasse.

Vous aimerez peut-être aussi