Vous êtes sur la page 1sur 18

Bio 2041

L’analyse de variance à un critère de


classification (ANOVA)

Pierre Legendre & Daniel Borcard, Université de Montréal


Référence: Scherrer (2007), section 14.1.1.1 et 14.1.2

1 - Introduction
Objectif: comparer plusieurs (k ici, g dans Scherrer 2007) groupes
indépendants d’observations quant à leur moyenne.
• On analyse la variance totale, intragroupe et intergroupe (voir plus bas)
pour comparer des moyennes et tester l’hypothèse H0: µ1 = µ2 = … = µk.
• Plutôt que d’employer l’analyse de variance, on pourrait être tenté de
réaliser une série de tests t pour comparer la moyenne de toutes les paires
de groupes. Or, on ne peut remplacer l’ANOVA par une série de tests t
parce que la multiplication des tests modifie de façon importante la
probabilité de commettre une erreur de type I si H0 est vraie.

Exemple — Considérons 7 groupes d’observations tirées


indépendamment d’une même population statistique.
- Il faudrait réaliser 7 (7 – 1)/2 = 21 tests t pour comparer toutes les
paires de groupes.
- Chaque test étant réalisé au niveau α = 0,05, on a, dans chaque cas, 5
chances sur 100 de rejeter H0 même si H0 est vraie (erreur de type I).
- La probabilité de rejeter H0 au moins une fois au cours de 21 tests est
0,66 et non 0,05. Calcul basé sur distribution binomiale: Scherrer p. 537.
⇒ Pour être valide, le test global doit avoir une erreur de type I ≤ α.
L’analyse de variance à un critère de classification (Anova) 2

• L’analyse de variance a été développée par l’agronome britannique


Ronald A. Fisher à la station expérimentale de Rothamsted, UK.

• L’appartenance des observations aux différents groupes (variable


nominale) s’appelle le critère de classification. Celui-ci peut représenter
un facteur contrôlé (“fixed factor”) ou un facteur aléatoire (“random
factor”). Ces termes ont été définis au cours no 2.

• Les hypothèses statistiques sont les suivantes pour k groupes:

H0: µ1 = µ2 = … = µk

H1: au moins l’une des moyennes diffère des autres.

Pour savoir laquelle ou lesquelles, il faut avoir recours, par la suite, aux
tests de comparaisons multiples (Scherrer section 14.2, pas au Bio2041).

• Notez bien: il ne s’agit pas de comparer les variances des k groupes.


L’hypothèse nulle n’est pas H0: σ 21 = σ 22 = … = σ 2k ; un test de
Bartlett (p. 393) ou un test de Levene (p. 396) permettraient de tester
cette hypothèse (Bio 2042).

Cependant, nous utiliserons le rapport

Variance intergroupe
--------------------------------------------------
Variance intragroupe

pour comparer les moyennes, tout comme le test t comparait deux


moyennes en tenant compte des variances intragroupes correspondantes.
L’analyse de variance à un critère de classification (Anova) 3

• L’ANOVA est une méthode très utilisée pour analyser les résultats
d’expériences contrôlées, réalisées en laboratoire ou sur le terrain. Selon
la nature des facteurs, les intentions sont généralement différentes.

- Facteur aléatoire: on tente souvent de montrer que les données


supportent H0. S’il n’y a pas d’évidence que les groupes diffèrent par
leur moyenne, on pourra les réunir pour les analyses subséquentes,
• si le test de comparaison des moyennes avait assez de puissance
pour rejeter H0 lorsque H1 est vraie (n suffisamment élevé);

• si les groupes ne diffèrent pas non plus par leur variance (test de
Bartlett: Scherrer p. 393; test de Levene: p. 396).
- Facteur contrôlé: on cherche la plupart du temps à rejeter H0 afin de
supporter l’hypothèse (H1) qu’une partie de la variabilité des données est
explicable par le critère de classification.
• On peut considérer plusieurs critères de classification à la fois.
L’analyse de variance à plusieurs critères de classification permet
d’identifier les critères qui expliquent, séparément ou conjointement, une
fraction significative de la variabilité des données. Références: Sokal &
Rohlf (1981 ou 1995); Underwood (1981, 1997), Winer et al. (1991).
Underwood, A. J. 1981. Techniques of analysis of variance in experimental marine biology
and ecology. Annu. Rev. Oceanogr. Mar. Biol. 19: 513-605.
Underwood, A. J. 1997. Experiments in ecology – Their logical design and interpretation
using analysis of variance. Cambridge University Press, Cambridge, England.
Winer, B. J., D. R. Broan and K. M. Michels. 1991. Statistical principles in experimental
design. Third edition. McGraw-Hill, Sydney.

2 - Notation: Scherrer, tableau 14.3; p. 7 de ce document; (voir aussi


Scherrer 1984, figure 13.9).
L’analyse de variance à un critère de classification (Anova) 4

3 - Sources de variation

SC = Somme des carrés des écarts


• Dispersion totale = SCT
• Dispersion intragroupe (“due aux erreurs”) = SCE
• Dispersion intergroupe ou due au facteur A = SCA

Mesure de la dispersion (variation) totale SCT

SCT = somme des carrés des écarts à la moyenne générale x , sans tenir
compte du groupe (j = 1 … k) de provenance des données.

k nj n
2 2
SCT = ∑ ∑ ( x ij – x ) = ∑ ( xi – x)
j=1 i=1 i=1
où n = ∑nj . Puisque νTot = n – 1, nous retrouvons la variance
2 SCT
VarTot = s x = ------------ . Transformation algébrique de SCT:
n–1

k nj
2
SCT = ∑ ∑ ( x ij – x j + x j – x )
j = 1i = 1

2
SCT = ∑ ∑ [ ( x ij – x j ) + ( x j – x ) ] Forme: [a + b]2

2 2
SCT = ∑ ∑ ( x ij – x j ) + 2 ∑ ∑ ( x ij – x j ) ( x j – x ) + ∑ ∑ ( x j – x )
2 2
SCT = ∑ ∑ ( x ij – x j ) + 2 ∑ ( x j – x ) ∑ ( x ij – x j ) + ∑ ∑ ( x j – x )
j i
L’analyse de variance à un critère de classification (Anova) 5

⇒ Or, pour chaque groupe, la somme des écarts à la moyenne de ce


groupe est nulle, par définition de la moyenne. Par conséquent, le terme
central de l’équation ci-dessus est nul, si bien que
k nj k nj
2 2
SCT = ∑ ∑ ( x ij – x j ) + ∑ ∑ ( x j – x)
j=1 i=1 j=1 i=1

k nj k
2 2
SCT = ∑ ∑ ( x ij – x j ) + ∑ n j ( x j – x)
j=1 i=1 j=1

Mesure de la dispersion (variation) intragroupe SCE

La variation [somme des (écarts par rapport à la moyenne)2 ] à l’intérieur


des groupes ne nous intéresse pas explicitement dans cette analyse. On
considère qu’il s’agit de variation (“erreur”) expérimentale.
nj
2
Pour chaque groupe j, on calcule SCE j = ∑ ( x ij – x j )
i=1
Faisant la somme de ces termes pour tous les groupes j, on obtient

k nj  T2
2  j
∑ ∑ ∑ ∑ ij ∑  -----
2
SCE = ( x ij – x j ) = x – -
j i n
j  j
j = 1i = 1

Cette équation est dérivée comme la formule raccourcie de calcul de la


variance.
Degrés de liberté: νe = (n1 – 1) + (n2 – 1) + … + (nk – 1) = n – k

SCE
donc la var. intragroupe CME = ----------- CME: notation Scherrer, eq. 14.19
n–k
L’analyse de variance à un critère de classification (Anova) 6

Mesure de la dispersion (variation) intergroupe SCA

• Pour chaque groupe j, il s’agit de calculer le carré de l’écart entre la


2
moyenne de ce groupe et la moyenne générale ( x j – x ) , puis de
sommer ces valeurs pour tous les groupes.

• Il faudra cependant pondérer cette somme par le nombre d’éléments


faisant partie de chaque groupe. Ainsi, s’il y a nj éléments dans le groupe
2
j, la quantité de dispersion attribuable à ce groupe sera n j ( x j – x ) .

• Donc, pour les k groupes,

k k  T2 2
2 T  j
SCA = ∑ n j ( x j – x ) = ∑  ------  – ------ (14.48)
n n
j=1 j = 1 j 

Le nombre de degrés de liberté associés à un calcul est le nombre de ses


composantes indépendantes, i.e. le nombre des composantes de base du
calcul moins le nombre de relations (paramètres) qui lient celles-ci.

- Les composantes de base dans le calcul sont les k écarts x j – x .

- Ces moyennes sont liées par une seule relation, la moyenne générale x .

Donc νA = k – 1 νA: notation de Scherrer, eq. 14.50

SCA
et CMA= ----------- CMA: notation de Scherrer, eq. 14.50
k–1
Relations intéressantes: SCT = SCE + SCA
et νTot = n – 1 = (n – k) + (k – 1) = νe + νA
L’analyse de variance à un critère de classification (Anova) 7

On peut disposer toutes ces valeurs dans un tableau d’analyse de


variance: Scherrer, tableau 14.3. Voir p. 8 de ce document.

2
Attention: s x ≠ CME + CMA même si SCT = SCE + SCA.

• Dans certains problèmes, on ne possède pas les données d’origine. On


peut quand même calculer les estimations de SCE et SCA si les données
suivantes sont disponibles: les différents nj, les différents Tj et la somme
2
des carrés de toutes les données (Σ x ij ). Voici la notation et les étapes.

Tableau de données:
L’analyse de variance à un critère de classification (Anova) 8

Étapes de calcul:

On calcule n = somme de tous les nj.


2
On calcule les différents T j .
On calcule T = somme de tous les Tj , de même que T 2.
On peut maintenant calculer SCA et SCE.

Tableau d’analyse de variance:


L’analyse de variance à un critère de classification (Anova) 9

Remarquez dans ce tableau les formules raccourcies pour le calcul de


SCT et SCA.

4 - Deux estimations de σ2, sous H0

Le raisonnement présenté dans cette section permettra par la suite de


construire un test de signification pour tester la différence entre les
moyennes.
Supposons que les k populations, d’où sont tirés les k groupes
d’éléments, sont distribuées normalement et qu’elles ont toutes la même
2 2 2 2
variance σ2 ( σ 1 = σ 2 = … = σ k = σ ).
Si H0 est vraie (H0: µ1 = µ2 = … = µk), alors la variance commune σ2
peut être estimée de deux façons différentes.

Première méthode d’estimation de σ2


Une hypothèse de base de l’ANOVA est que chacune des variances σ 2j
estime la même variance commune σ 2x . Cela nous autorise à chercher
une estimation robuste de la variance générale en calculant la moyenne
pondérée des variances estimées pour les k groupes.
⇒ C’est ici qu’est introduite l’hypothèse d’homogénéité des variances
dans la construction du test, hypothèse qu’il faut d’abord vérifier (tests
d’homogénéité des variances: Scherrer section 12.2; Bio 2042).
Variance d’un groupe j, pondérée par le nombre de degrés de liberté de
ce groupe:
L’analyse de variance à un critère de classification (Anova) 10

nj
2
∑ ( x ij – x j ) nj
2

i=1
( n j – 1 ) ------------------------------------
- = ( x ij – x j )
( n j – 1)
i=1

Moyenne des variances pondérées des k groupes:

2 2
∑ ( x i1 – x 1 ) + … + ∑ ( x ik – x k )
---------------------------------------------------------------------------------------
( n1 – 1) + … + ( nk – 1)

k nj
2
∑ ∑ ( x ij – x j )
j=1 i=1 SCE
--------------------------------------------------
- = ----------- = VarE = CME
( n – k) n–k

Deuxième méthode d’estimation de σ2


Si H0 est vraie, les moyennes x j des groupes sont toutes des estimations
de la moyenne commune µ. La variance de ces différentes estimations de
la moyenne µ peut s’écrire:
2
∑ ( x j – x)
2 j
s x = ----------------------------
-
( k – 1)

La racine carrée de cette variance estime l’erreur type de la moyenne.


L’analyse de variance à un critère de classification (Anova) 11

On peut aussi estimer l’erreur type de la moyenne à partir de l’écart type


des données d’un seul groupe: s x = s x ⁄ n j Eq. 10.22
j

2 2
qui peut s’écrire: sx = sx ⁄ n j
j

Si H0 est vraie, on peut donc estimer la variance de la population σ 2x par:


k
2
∑ ( x j – x)
2 2 j=1
s x = n j s x = n j -----------------------------------
j ( k – 1)

nj peut être incorporée à l’intérieur de la sommation et on obtient


l’estimation suivante de la variance commune:
k
2
∑ n j ( x j – x)
2 2 j=1 SCA
s x = n j s x = ---------------------------------------
- = ----------- = Varc = CMA
( k – 1) k–1
Résultat: si H0 est vraie et si les groupes d’observations sont tirés d’une
même population statistique, ou encore de populations ayant la même
moyenne µ et la même variance σ2, alors CME et CMA représentent
deux estimations indépendantes de σ2. Ces estimations devraient être à
peu près égales.

5 - Test de comparaison

• Si H0 est vraie (H0: µ1 = µ2 = … = µk), CME et CMA représentent deux


estimations de σ2. On s’attend donc à ce que leur rapport soit près de 1.
L’analyse de variance à un critère de classification (Anova) 12

• Dans tous les cas, CME demeure une estimation de σ2 puisqu’on est
censé avoir vérifié l’égalité des variances des populations d’où ont été
tirés les k groupes (condition d’homogénéité des variances ou
2 2 2
homoscédasticité: σ 1 = σ 2 = … = σ k ).

• Si H 1 est vraie, la variance intergroupe CMA n’est plus une estimation


de σ2. En effet, dans ce cas, la distribution des moyennes x 1 , x 2 , …, x k
ne représente pas la distribution d’échantillonnage d’une même
moyenne µ.

⇒ Dans ce cas, la distribution des moyennes x 1 , x 2 , …, x k est plus


large et aplatie que la distribution d’échantillonnage de la moyenne
commune µ. CMA est donc nécessairement plus grande que CME.

• CMA et CME sont deux composantes indépendantes de la variance


totale puisque SCT = SCE + SCA. Si H0 est vraie, leur rapport (qui est
près de 1) constitue une statistique-test distribuée comme une loi de F
(eqs 12.2 et 14.55):

Var c CMA
F c = ------------ = ------------- (14.55)
Var E CME

avec les degrés de liberté du numérateur et du dénominateur


respectivement: ν1 = k – 1 et ν2 = n – k. On place CMA au numérateur
parce que c’est la plus grande des deux valeurs si H1 est vraie.

• Il s’agit d’un test unilatéral dans tous les cas, car


si H0 est vraie, CMA ≈ CME et donc Fc ≈ 1;
L’analyse de variance à un critère de classification (Anova) 13

si H1 est vraie, CMA > CME et donc Fc > 1.

• Zones d’ “acceptation” et de rejet de H0: figure 9.7 p.301.

• Règles de décision: tableau 14.4. On ne rejette pas H 0 si Fc < Fα où Fα


est la valeur critique au seuil α (par exemple, 5%).

Langage R: fonctions aov et summary. Le critère de classification doit se


trouver dans une variable de type factor, créée par “as.factor”.
⇒ Test de différence des moyennes, 2 groupes: test F = test t bilatéral.

Note (Sokal & Rohlf 1981, p. 201) — Si le critère de classification


représente un facteur aléatoire et si H0 est fausse, CMA estime une
quantité ( σ 2 +2nσ 2A ) où σ2 est la variance de x dans la population
statistique et σ A est la variance ajoutée par le facteur aléatoire.
Si au contraire le critère de classification représente un facteur contrôlé
et si H0 est fausse, la variance CMA estime une quantité
( σ 2 + ( n ⁄ ( k – 1 ) ) ∑ α 2j ) où α j représente l’effet quantitatif de chaque
traitement particulier donnant naissance à un groupe j.
La distinction entre facteur aléatoire et contrôlé (cours #2) est importante
en analyse de variance à deux critères de classification (Bio 2042).

6 - Conditions d’application de ce test

- Variable dépendante quantitative (pour pouvoir calculer x et sx).


- Indépendance des observations (observations non autocorrélées).
- Normalité de la population d’où est tiré chaque groupe.
L’analyse de variance à un critère de classification (Anova) 14

- Homoscédasticité. Même si le test d’égalité des variances de plusieurs


groupes n’a pas été étudié dans ce cours (test de Bartlett; langage R:
bartlett.test), il faudra supposer que cette condition est remplie pour
pouvoir utiliser l’A NOVA. Comme pour le test t de comparaison de deux
groupes, si on n’a pas d’abord vérifié l’égalité des variances, le test F
teste en fait deux hypothèses nulles (problème de Behrens-Fisher):
l’égalité des moyennes et l’égalité des variances.
• Effet de la violation des conditions d’application:
- Le test Fc de l’ANOVA est robuste face à une certaine
hétéroscédasticité. Ses résultats resteront donc valides en présence d’une
certaine quantité (pas trop élevée) d’hétérogénéité des variances.
- Le test Fc de l’ANOVA est également robuste face à une certaine
asymétrie ou aplatissement des distributions. Pour l’asymétrie, on pourra
utiliser le critère nj ≥ 25 ( α 23 ) j .
- En cas de violation sévère de la condition de normalité:
1. Transformer les données avant l’analyse.
2. Tester Fc par permutations.
3. Utiliser plutôt le test non-paramétrique de Kruskal-Wallis
(langage R: fonction kruskal.test).
- Enfin, en cas de non-indépendance des observations, le test devient soit
trop libéral, soit trop conservateur, selon le type de dépendance entre les
observations. Voir Legendre et al. (2004), Ecology 85: 3202-3214.
L’analyse de variance à un critère de classification (Anova) 13

Exercice 13.4 – Scherrer p. 460


Évolution de l’indice de condition du grand corégone au lac Nathalie.
Données Mai Juin Juillet Août Sept. Octobre
xj 0,9994 1,0068 1,0068 1,0305 1,0312 1,1984
nj 2 103 42 21 81 26 n = 275
Tj 1,9988 103,7004 42,2856 21,6405 83,5272 31,1584 T = 284,3109

2
On sait de plus que ∑ ∑ x ij = 313,1927
j i

On cherche à calculer F c = Varc/VarE pour tester l’hypothèse H0 d’égalité des 6 moyennes.

__________________________________________________________________________
2
2 T
SCT = ∑ ∑ x ij – ------ = 313,1927 – (284,3109)2/275 = 19,2557
j i n

 T2 2
 j T
SCI = ∑  ------  – ------ = 294,7503 – 293,9371 = 0,8133
j  nj  n

Varc = 0,8133/(6–1) = 0,1627

SCE = SCT – SCI = 18,4424

 2
2 T 
ou encore: SCE = ∑ ∑ x ij – ∑  -----j-  = 313,1927 – 294,7503 = 18,4424
j i j  nj 

Var E = 18,4424/(275–6) = 0,0686

F c = Varc/Var E = 0,1627/0,0686 = 2,3726

__________________________________________________________________________
Pour α = 0,05, ν 1 = 5 et ν2 = 269, F 0,05 (5, 269) = 2,248.

Puisque Fc > F α (car 2,3726 > 2,248), on rejette H0 au profit de H1.


L’analyse de variance à un critère de classification (Anova) 14

7 - Différentes formes d’analyse de variance


1. Analyse de variance à un critère de classification
(one way / single classification ANOVA)

Critère de classification
Nombres égaux ou inégaux
1 2 3 4 5
d’éléments par colonne.
• • • • •
Test non-paramétrique: • • • • •
Kruskal-Wallis. • • • • •
• • • • •
• • • • •
• • • •
• • •

2. Hiérarchique 3. À deux critères croisés


(nested / hierarchic ANOVA) (two-way ANOVA)
Critère de classification 1 Critère de classification 1
1 2 3 1 2 3 4
Crit. 2 1.1 1.2 2.1 2.2 3.1 3.2
• • • •
Critère de classification 2

• • • • • • • • • •
• • • • • • 1 • • • •
• • • • • • • • • •
• • • • • • • • • •
• • • • • •
• • • •
• • • •
2 • • • •
• • • •
• • • •

Plus de 2 facteurs: analyse de variance à plusieurs critères de


classification (multiway ANOVA).
Plus d’une variable dépendante: Analyse de variance multivariable
(multivariate analysis of variance; MANOVA).
ANOVA à un critère de classification. Exemple 1: H0 est vraie
Critère de classification Groupe 1 Groupe 2 Groupe 3
4,0 5,3 2,0
Observations
{ 6,0
2,0
4,5
3,5
2,7
4,5
2,3
5,7
3,0
4,5
5,5
6,0

Dispersion intragroupe Dispers.


Dispersion totale intergr.
Groupe 1 Groupe 2 Groupe 3
6 x53
x12
5 n3
x3
x1 x2 x3 X x2 X
4
x1
3 n2
n1
2 x31
(xij – xj)2

0
n1 = 5 n2 = 5 n3 = 5 n = 15 Σnj(xj – X)2 = 0,10
T1 = 20,0 T2 = 20,5 T3 = 21,0 T = 61,5
SCA
x1 = 4,0 x2 = 4,1 x3 = 4,2 X = 4,1
Σ(xi1 – x1)2 = 8,50 Σ(xi3 – x3)2 = 11,30 Σ(xij – X)2 = 29,26
Σ(xi2 – x2)2 = 9,36
SCT

SCE = 29,16 SCT = SCE + SCA

Sources de Degrés de
Dispersions Variances
variation liberté
Totale SCT = 29,26 15 – 1 = 14 29,26/14 = 2,09
Intergroupe SCA = 0,10 3–1=2 CMA = 0,10/2 = 0,05
Intragroupe SCE = 29,16 15 – 3 = 12 CME = 29,16/12 = 2,43

Fc = CMA/CME = 0,0206 P = 0,9797


F(0,05,2,12) = 3,89
ANOVA à un critère de classification. Exemple 2: H0 est fausse
Critère de classification Groupe 1 Groupe 2 Groupe 3
4,0 5,3 6,0
Observations
{ 6,0
2,0
4,5
3,5
2,7
4,5
2,3
5,7
7,0
8,5
9,5
10,0

Dispersion intragroupe Dispers.


Dispersion totale
Groupe 1 Groupe 2 Groupe 3 intergr.
10

9
x3 x3
8

7 n3

6
X X
5 (xij – xj)2 n2
x1 x2 x2
4 x1
3 n1
2
n1 = 5 n2 = 5 n3 = 5 n = 15 Σ nj(xj – X)2
= 57,43
T1 = 20,0 T2 = 20,5 T3 = 41,0 T = 61,5
x1 = 4,0 x2 = 4,1 x3 = 8,2 X = 5,43 SCA
Σ(xi1 – x1)2 = 8,50 Σ(xi3 – x3)2 = 11,30 Σ(xij – X)2 = 86,59
Σ(xi2 – x2)2 = 9,36
SCT

SCE = 29,16 SCT = SCE + SCA

Sources de Degrés de
Dispersions Variances
variation liberté
Totale SCT = 86,59 15 – 1 = 14 86,59/14 = 6,19
Intergroupe SCA = 57,43 3–1=2 CMA = 57,43/2 = 28,72
Intragroupe SCE = 29,16 15 – 3 = 12 CME = 29,16/12 = 2,43
Fc = CMA/CME = 11,82 P = 0,0015 F(0,05,2,12) = 3,89
F(0,01,2,12) = 6,93

Vous aimerez peut-être aussi