Vous êtes sur la page 1sur 5

Analyses de la variance à 1 facteur

1 Introduction

L'analyse de la variance (ANOVA) est une généralisation du test-t (student) de


comparaison de deux moyennes en ce sens que le but est de comparer plusieurs
groupes quand à leur moyennes. C'est une technique qui trouve des utilisations dans
plusieurs domaines comme la recherche biomédicale pour évaluer les eets d'un mé-
dicament en fonction de l'âge, l'agriculture pour évaluer l'importance du facteur
génétique dans le rendement, etc. Dans un modèle de l'analyse de la variance, on
suppose une variable quantitative Y qu'on désigne sous le nom de variable dépen-
dante ou variable expliquée et les variables qui dénissent les groupes (variables
qualitatives) sont les variables indépendante ou explicative (facteur). Cette termi-
nologie provient du fait que le but est d'expliquer la variable Y en fonction d'un
certain nombre de variables de groupement.

2 Principe de l'analyse de la variance

Le principe de l'analyse de la variance est de déterminer, à l'aide d'un test sta-


tistique, si la part de dispersion imputable au facteur étudié, est signicativement
supérieure à la part résiduelle.
Si la dispersion factorielle est signicativement supérieure à la dispersion résiduelle,
alors cela signie que la dispersion des données, autour des moyennes de chaque mo-
dalité, est faible par rapport à la dispersion des moyennes autour de la moyenne gé-
nérale. Et si les moyennes relatives à chaque modalités sont très dispersées, en même
temps que la variabilité intra-classe est faible, alors cela signie que les moyennes
sont globalement diérentes.
A l'inverse, si la dispersion factorielle est du même ordre de grandeur que la di-
sepersion résiduelle, alors cela signie que les moyennes ne sont pas globalement
diérentes.

1
3 Tableau de l'analyse de la variance à 1 facteur

4 Les étapes de calculs d'une ANOVA à 1 facteur

4.1 Mesure de la variation totale (SCT)


SCT = somme des carrés des écarts à la moyenne générale Ȳ , sans tenir compte
du groupe (j = 1. . . k) de provenance des données.
nj
k X
X
SCT = (Yij − Ȳ )2
i=1 j=1

4.2 Mesure de la variation intragroupe (SCER )


La variation [somme des (écarts par rapport à la moyenne)] à l'intérieur des
groupes ne nous intéresse pas explicitement dans cette analyse. On considère qu'il
s'agit de variation expérimentale.
Faisant la somme de ces termes pour tous les groupes j, on obtient
nj
k X
X
SCER = SCEintra = (Yij − Ȳi )2
i=1 j=1

2
4.3 Mesure de la variation intergroupe (SCEF )
Pour chaque groupe j, il s'agit de calculer le carré de l'écart entre la moyenne de
ce groupe et la moyenne générale, puis de sommer ces valeurs pour tous les groupes.
k
X
SCEF = SCEinter = ni (Ȳi − Ȳ )2
i=1

5 Hypothèses

On teste l'hypothèse d'une absence de diérence entre les k moyennes au niveau


de la population parente : les k échantillons proviennent de la même population ou
de populations ayant des caractéristiques comparables.
L'hypothèse nulle H0 à tester est ainsi : H0 : µ1 = µ2 = µ3 = . . . = µk ,
H1 l'hypothèse alternative étant que les échantillons sont issus de populations dif-
férentes : au moins deux des moyennes parentes diérent entre elles. H1 : µ1 6=
µ2 ou µ1 6= µ3 ou µ2 6= µ3 .

6 Test

Pour k échantillons d'eectifs n, on utilisera le test F de Fisher-Snedecor, qui est


simplement le rapport entre le carré moyen des groupes (CM F ) et le carré moyen
de l'erreur (CM R) :
SCF
CM F k−1
F(k−1,n−k) = = SCR
CM R n−k

Si la valeur de F est supérieure à la valeur seuil théorique selon la distribution de


Fisher, avec un risque alpha donné (5% en général), alors cela signie que le test est
signicatif. Dans ce cas, la variabilité factorielle est signicativement supérieure à la
variabilité résiduelle (ou au bruit). Et on conclut que les moyennes sont globalement
diérentes.

7 Tableau de décomposition de la variance

On présente généralement cette décomposition de la variance en un tableau ré-


sumant, pour les diérentes sources de variation (groupe et erreur), les sommes des
carrés des écarts à la moyenne (SC) ainsi que les degrés de liberté associés à chaque
somme des carrés. Le carré moyen (CM) associés aux groupes (ou facteur) et à l'er-
reur, se retrouvent en faisant le rapport des somme des carrés sur leurs degrés de
liberté respectifs.
source de variation valeur ddl carré moyen F
Facteur SCF k-1 CMF CMF/CMR
résiduelle SCR n-k CMR /
Total SCT n-1 / /

3
8 Exercice d'application

Une entreprise teste 3 version de son site web et recense les revenus d'une journée
sur chacune des 3. Une des 3 versions est elles diérente des autres ? On suppose les
3 échantillons gaussiens.
Version A :50, 73, 66, 44, 55, 61, 67, 58, 68, 68
Version B :78, 35, 54, 52, 61, 51, 47, 56, 59, 60, 47, 60
Version C :66, 64, 68, 54, 58, 60, 70, 66, 61
Hypothèses H0 : µ1 = µ2 = µ3
H1 : µ1 6= µ2 ou µ1 6= µ3

n x̄ S 02 SCER
A 10 61 84.2 758
B 12 55 107.8 1186
C 9 63 26.5 212
On calcule la variation intragroupe
nj
k X
X
SCER = (Xij − X̄i )2
i=1 j=1
= SCERA + SCERB + SCERC
= (nA − 1)SA02 + (nB − 1)SB02 + (nC − 1)SC02
= 2156
SCERA = (50 − 61)2 + (73 − 61)2 + ... + (68 − 61)2 = 758
SCERB = (78 − 55)2 + (35 − 55)2 + ... + (60 − 55)2 = 1186
SCERC = (66 − 63)2 + (64 − 63)2 + ... + (61 − 63)2 = 212
On calcule maintenant la variation intergroupe
On commence par calculer le total
n
1X 1
X̄ = xi = (50 + ..... + 61) = 59.26
n i=1 31

k
X
SCEF = ni (X̄i − X̄)2
i=1
= 10 ∗ (61 − 59.26)2 + 12 ∗ (55 − 59.26)2 + 9 ∗ (63 − 59.26)2
= 373.9
On calcule maintenant la variation totale
n
SCT = ki=1 j=1 (Xij − X̄)2
P P j

= (50 − 59.26) + (73 − 59.26)2 + ... + (66 − 59.26)2 + (61 − 59.26)2


2

= 2529.9

Remarque : SCT = SCER + SCEF

On fait maintenant le tableau de variation


source de variation valeur ddl carré moyen F
Facteur 373.9 3-1 186.95 2.43
résiduelle 2156 31-3 77 /
Total 2529.2 31-1 / /
4
Maintenant on compare entre F et Ftable ,
par la table de la loi de sher (α = 0.025)on trouve que F2,28 = 4.22
On conclut que F < Ftable alors le test n'est pas signicative on accepte H0 (il n'y
a pas un écart entre les moyennes)

Vous aimerez peut-être aussi