Vous êtes sur la page 1sur 29

Analyse

de la variance

Pr. M. EL KOUALI 1
Motivation
Supposons que l’on souhaite évaluer l’effet de cinq traitements différents sur le comportement des patients
dépressifs âgés de 18 à 50 ans.
On mesure le niveau de dépression (donné par un score). Cinq échantillons, de 9 patients chacun, ont été
considérés.
Nous avons ici 2 variables:
- Une variable quantitative (score)
- Une variable qualitative (traitement) dont les modalités sont : traitement 1, traitement 2, . . ., traitement 5.

On se pose la question de savoir si ces 5 traitements diffèrent. Nous souhaitons comparer l’effet des traitements
et voir s’il y a un lien entre la variable quantitative et la variable qualitative.
En utilisant des tests t − Student de comparaison de deux moyennes pour deux échantillons indépendants,
nous devrions comparer:
le traitement 1 avec le traitement 2,
le traitement 1 avec le traitement 3,
. . .
le traitement 1 avec le traitement 5.

Il faudrait alors faire 10 tests de comparaisons de deux moyennes, ce qui implique un nombre considérable de
calculs. le test t-Student devient impraticable.
.

Pr. M. EL KOUALI 2
Etude sur le stress du personnel enseignant supérieur : le niveau de responsabilité a-t-il un impact
sur l’état de stress ? Un facteur, variable indépendante VI à 4 niveaux : 4 catégories de personnels
(professeurs, maîtres de conferences, ATER et autres). Une variable dépendante VD : la mesure
de stress.
L’etude de la réussite scolaire, pour d’élèves de troisième de différentes Pays. Un facteur, VI à 3
niveaux : Pays 1, Pays 2, Pays 3. Une VD : performance à l’examen.
Le taux de cholestérol en fonction de la CSP. On se donne 5 CSP : Retraités, étudiants, agricul-
On a alors recours à l’analyse de variance (appelée souvent ANOVA)
teurs, cadres, ouvriers. Une VD : taux de cholestérol.
L’ANOVA est un test statistique qui généralise le test t − Student au cadre de comparaisons de plusieurs moyennes.
marque 1 : Il existe différentes types d’ANOVA qui se distinguent par le nombre de facteurs
diés. Si l’on aOn l’applique
une seule variable indépendante, l’analyse
dès lors que l’on étudie est dite à un facteur. S’ilvariables
les effets d’une ou plusieurs y a plusieurs
qualitatives sur une variable
ables indépendantes, on parle d’analyse factorielle, ou de plan factoriel.
quantitative
marque 2 : Nous supposons ici que les k échantillons Ej (j = 1 . . . k) ont tous la même taille
nk ). Il est possible de
= n2 = . . . = Eon a donc un plan généraliser l’ANOVA
expérimental aux cas d’échantillons
(plan d'expériences) ayant
qui prévoit le des tailles
nombre d'expériences à faire pour chaque
érentes.
niveau (ou modalité) du ou des facteurs dont on souhaite évaluer l'effet.
t r la taille Le plan est dit équilibré
commune des échantillons, Ysi il
j (j y a même nombre
= 1, . . . , k) d'observations
la variable par niveau
correspondant de facteur.
aux valeurs de
VD Y observées sur l’echantillon Ej et Ȳj la moyenne de Yj . Avant toute analyse, il est intéressant
ANOVA à un facteur
représenter les données. Par exemple, les valeurs de Y observées sur E1 sont : y11 , y21 , y31 , . . . , yr1
a moyenne observée est ȳ1 = (y11 + y21 + y31 + . . . + yr1 )/r. Pour calculer la moyenne observée de
notée ȳ, sur toute la population, on peut réutiliser les moyennes sur les k échantillons. En effet,
mme on est On utilise l’analyse
dans le cas où tousde lesla variance à un facteur
échantillons ont la mêmequand on dispose
taille : :
– d’une variable quantitative
k r
Y (variable
k
dépendante,
r
VD) ;
k
1 XX 1X1X 1X
– d’une variable qualitative X à k modalités (variable
ȳ =
k ⇥ r j=1 i=1
yij =
k j=1 r i=1
yij = indépendante,
k j=1
ȳj . VI, appelée facteur à k niveaux) ;
– de k échantillons indépendants (E1, . . . , Ek) de taille n1, . . . , nk, respectivement.
tableau On cherche
ci-dessous un lien
contient lesentre la VI
valeurs de et la VD.
la VD Y observées sur l’ensemble des k échantillons.

Individu Niveau 1 Niveau 2 ... Niveau k


1 y11 y12 ... y1k
2 y21 y22 ... y2k
L’ANOVA nous indique si les différents échantillons
3 y31 y32 ... y3k proviennent ou non de la même population P
.. .. .. .. ..
. . . . .
r yr1 yr2 ... yrk
Pr. M. EL KOUALI 3
Moyenne ȳ1 ȳ2 ... ȳk

NOVA nous indique si les différents échantillons proviennent ou non de la même population P .

nditions d’application. Pour pouvoir appliquer l’ANOVA, il est indispensable que les 2 pro-
tés soient vérifiées :
C'est le cas le plus simple rencontré lorsqu'il n'y a qu'un facteur agissant sur les résultats. Le schéma est alors le suivant:
Exemple
Considérons une étude portant sur l'appréciation sensorielle de la texture de trois viandes par 5 dégustateurs
différents. On ne considèrera que le caractère fibreux de la viande. Pour ce caractère, les échantillons ont été ́ notés
en utilisant une échelle en 15 points.
Comme il n'a pas été ́ possible de réunir les mêmes juges à chacune des séances, l'influence du facteur "Juge" sur
les valeurs données ne pourra être étudiée.
Les 15 évaluations seront considérées comme provenant de 15 dégustateurs différents, l'attribution d'un juge à
un échantillon se faisant aléatoirement. On parle d'un plan en randomisation totale.

Viande
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8

Pr. M. EL KOUALI 4
1, Pays 2, Pays 3. Une VD : performance à l’examen.
olestérol en fonction de la CSP. On se donne 5 CSP : Retraités, étudiants, agricul-
ouvriers. Une VD : taux de cholestérol.

l existe différentes types d’ANOVA qui se distinguent par le nombre de facteurs


Remarque
une seule variable1 indépendante,
: Il existe différentes types d’ANOVA qui se distinguent
l’analyse par le nombre de facteurs étudiés. Si l’on a une seule
est dite à un facteur. S’il y a plusieurs
dantes,variable
on parleindépendante, l’analyse
d’analyse factorielle, ouest dite
de planà un facteur. S’il y a plusieurs
factoriel. variables indépendantes, on parle d’analyse
factorielle, ou de plan factoriel.
Remarque ici2 que
Nous supposons : Nous supposons ici
les k échantillonsque les
Ej (j k échantillons
= 1 . . . k) ont Ej (j = 1 . . . k) ont tous la même
tous la2.même taille taille (n1 = n2 = ... = nk). Il est
la distribution de chaque variable Yj est normale, de
de chaque variable
possible de généraliser
Y
nk ). Il est possible de généraliser
j est normale,
l’ANOVA aux de moyenne
cas d’échantillons
l’ANOVA aux cas d’échantillons et de variance
ayant des tailles différentes.
µ j ayant des tailles
2
(même
variance pour chaque population : homogénéité des vari
haque population : homogénéité des variances ou homoscédasticité).
mmune des échantillons, Yj (j = 1, . . . , k) la variable correspondant Remarque
aux valeurs 3 de: Une manière plus formelle de représenter notre
manière plus formelle
s sur l’echantillon Ej et Ȳjde
la représenter
moyenne de Yj notre. Avant cadre consiste
toute analyse, à introduire
il est intéressant la notation
données. Par exemple, les valeurs de Y observées sur E1 sont : y11 , y21 , y31 , . . . , yr1 Yij = µj + "ij , i = 1, ..., r, j =
servée est Yȳ1ij== µj++y21"ij
(y11 +,y31 +i=. . . 1,
+ y..., r, Pour
r1 )/r. j =calculer la moyenne observée de
1, ..., k,
oute la population, on peut réutiliser les moyennes sur les k échantillons. où r estEn la effet,
taille commune des échantillons, et "ij (erreurs corr
mune desoùéchantillons,
ns le cas et "ijont(erreurs
tous les échantillons la mêmecorrespondent
taille : tales
aux pour chaque
fluctuations valeur de Yij mesurée) est une variable nor
expérimen-
eur de Yij mesurée) k r est uneX kvariable
r normalek
Cette notation
de moyenne indique que2 la
nulle et variance . i-ème observation associée à l’éc
1 XX 1 1X 1X moyenne
e que la
ȳ =i-ème observation
k ⇥ r j=1 i=1
yij = associéeyijà =l’échantillon
k j=1 r i=1 k j=1
ȳj . j est égale µàj laet somme
d’une ‘erreur’.
de sa Une autre formulation du probl
erreur’. Une autre formulation du problème précèdent est Yij = µ + aj + "ij , i = 1, ..., r,
sous contient les valeurs de la VD Y observées sur l’ensemble des k échantillons.
Yij = µ + aj + "ij , i = 1, ..., r, j = 1, ..., k, avec µ = k1 (µ1 + µ2 + . . . + µk ) la moyenne globale ou effet mo
niveau j du facteur sur la VD. On remarque que dans notre n
. . . + µakjIndividu
) la moyenneNiveau
l’effet principal 1 Niveau
globale
du niveau ou2 effet Niveau kde la VD et a l’effet principal du
. . . moyen
j du facteur sur la VD on écrira j le modèle avec µj ou avec µ + aj .
1 y11 y12 ... y1k
ur la VD. On 2 remarque y21µ j (j que ydans notre notation µj = µ + aj . Dans ce chapitre,
Les quantités, µ, 22 et a. .(j
= 1,...,k) . = y
1,...,k)
2k étant inconnues, ce sont des paramètres à estimer à l’aide des observations.
vec µj ou avec 3 µ + ya31j . y32
j
... y3k Remarque 4 : Les quantités, µ, µj (j = 1, . . . , k)5 et aj (j =
Pr. M. EL KOUALI
.. .. .. .. .. paramètres à estimer à l’aide des observations.
. . . . .
uantités, µ,
r µj (j = yr2 et a.j. .(j =y1,
yr1 1, . . . , k) rk . . . , k) étant inconnues, ce sont des

à l’aide des observations. Reprenons l’Exemple 1 (b). Nous avons trois échantillons d’él
Moyenne ȳ1 ȳ2 ... ȳk dans trois pays, Pays 1, Pays 2, Pays 3. Chaque échantillon
Pour les données du tableau, il y a 3 échantillons (k = 3) et 5 observations dans chaque échantillon (r = 5). Le nombre
total d’observations est n = r × k = 3 × 5 = 15. Dans cet exemple on suppose que les 2 conditions sont vérifiées.
Test d’hypothèses

HO: Il n'y a pas d'effet "Produit », i.e.: les moyennes pour les différents produits (niveaux du facteur) sont égales.

H1: Il y a un effet da au produit, ou deux moyennes au moins sont différentes.

Données = Moyennes globales + Ecarts Inter-colonnes + Ecarts Intra-colonne

Pr. M. EL KOUALI 6
: Plus laune
donne valeurvaleur
observée de la somme
observée du des écarts
carré intergroupe,
moyen scinter, est proche de nous observons que les élèves d’un même pays n’obtiennent pas tous le même résulta
intragroupe possible de quantifier cette variabilité, que l’on appelle variabilité intragroupe(qui est la v
moyennes µj sont proches les unes des autres. à l’intérieur de chaque groupe) , à l’aide d’une statistique dite “moyenne des carrés intra
cmintra = (250 + 250 + 250)/(15 3) = 750/12 = 62,ou 5.plus simplement “carré moyen intragroupe”. Cette statistique se calcule en utilisant la
suivante
vée du carré moyen intergroupe est SCinter
CMinter = , SC
ue 7 : nous avons aussi la décomposition de la somme des carrés totale
intra
k 1 CM = intra
n k
cminter = 1000/(3 avec
1) =SC
1000/2
inter=la
500.somme des carrés (SC) des avecécarts
SC leintergroupe (entre Ici
carré moyen intragroupe.
intra
lesn moyennes
k est le degrédes groupes
de liberté de CM et ,la
etintra
moyenne globale)
Xr X k
tragroupe : la somme des carrés moyens intragroupe. k XX k r
2 X
(1) +
2
SCtotale = Yij Y = SCinter + SCintra . inter SC = = r ( Ȳ j Ȳ ) 2
. SC = intra (Y Ȳ )
j=1 i=1
ij j

j=1
i=1 j=1 où Y est le score du sujet i (i = 1, . . . , 5) dans le échantillon j (j = 1, . . . , 3).
uer qu’il est possible que la variabilité
avec rentre les élèves d’un
le nombre même paysdans
d’individus soit aussi
chaque ijéchantillon. Dans la première formule on divise SCinter
par les degrés de liberté k 1.
ele (1)
existant entre les élèves des différents depays. Dans l’Exemple 1 (voir tableau),
Pour nos données (voir tableau), la valeur observée de la somme des carrés intragroupe
la “relation fondamentale” l’ANOVA. pays 1 est
que les élèves d’un même paysIcin’obtiennent
Somme des carrés des écarts
et dans tout pas tous
totaux le même résultat.
le = Somme
chapitre on Il est
des carrés
note la des écarts inter-groupe + Somme des carrés
valeur observées2 d’une variable 2
quelconque
2
des écarts
2
X par x. 2

Pour
intra-groupe les données du tableau, la valeur observée de la somme des écarts intergroupe (notée scinter ) 250,
(30 40) + (35 40) + (40 40) + (45 40) + (50 40) = est :
ntifier cette variabilité, que l’on appelle variabilité intragroupe(qui
ue 8 : La relation fondamentale de l’ANOVA ne s’applique pas pour est la variabilité auxlevariabilités. C’est à
pays 2 c’est
chaque groupe) , à l’aide d’une statistique dite “moyenne sc desinter
carrés
= intragroupe”,
5 ⇥ [(40 50)2 + (50 50)22 + (60 2 50)2 ] = 21000.
(40 50) + (45 50) + (50 50) + (55 50)2 + (60 50)2 = 250,
ment “carré moyen intragroupe”.
A chacune Cette
de cesRemarque statistique
quantités SCE,6seon
:calcule
Plus en
la utilisant
va+associer valeur laobservée
formulede degrés
le. nombre de la somme
de libertédes écarts
(ddl) : intergroupe, scinter , est proche de
CM totale 6
= CM inter CM
zéro, plus les moyennes µj sont proches les unes des autres.
intra

La valeur observée du carré moyen intergroupe est 6

est SCintra SCinter


CMintra = CM inter cminter, = 1000/(3
= 1) = 1000/2 = 500.
n k k 1
hèses et niveau
carré moyen duIcitest
intragroupe.
– Variabilité
naveckSC
estinterleladegré
intragroupe
sommededes carrés de
liberté (SC)CM
desintra : la somme des carrés moyens intragroupe.
écarts
, etintergroupe (entre les moyennes des groupes et la
moyenne
Il faut globale)remarquer
Sources de SCE qu’il est possible k
DDLque la variabilitéCM entre les élèves d’un même pays soit aussi
hèse nulle supposevariation
toujours
k X l’égalité
r
Xgrande que celle
2
des moyennes
existant entre des
X klespopulations, (les échantillons
élèves des différents
2
pays. Dans l’Exemple 1 (voir tableau),
SCintra = nous observons
(Yij Ȳj ) que les élèves d’un
SCinter = r (Ȳj Ȳ ) . même pays n’obtiennent pas tous le même résultat. Il est
nent tous d’une population INTERj=1possible uniquedeP). Plus précisément,
quantifier
SCE onk-1suppose
cette variabilité, que l’on queappelle
les kSCE moyennes
variabilité intragroupe(qui est la variabilité
i=1 INTER j=1 INTER /k-1
ales a une même moyenne à µ.
avec
l’intérieur de chaque groupe) , à l’aide d’une statistique dite “moyenne des carrés intragroupe”,
leplus
nombre d’individus dans chaque
INTRA ou r j (jSCE
simplement
ore du sujet i (i = 1, . . . , 5) dans le échantillon 3). échantillon.
. . . ,“carré
= 1,INTRA moyenn-k Dans la première formule
intragroupe”. on divise
Cette SCE SCinter /n-k se calcule en utilisant la formule
statistique
INTRA
8parsuivante
les degrés de liberté k 1.
TOTAL
>H SCE = µ = µ n-1
< 0 : µ1 = µ2 = . . .TOT k Pr. M. EL KOUALI SC 7
ées (voir tableau), la valeur observée de la somme des carrés intragroupe pour le CMintra = n intra
TEST : IciHet1 :dansµl tout pour onaunote
6= µlej chapitre moins
la valeurunobservées
couple d’une
(l, variable
j) quelconque X par kx. Pour
>
:lesavec
donnéesSC intra lelacarré
du tableau, moyen
valeur observée de laintragroupe. Ici n
somme des écarts intergroupe estscle degré
(notée
k
inter ) est :
de liberté de CMintra , et
Niveau :↵
30 40)2 + (35 40)2 + (40 40)2 + (45 40)2 + (50 40)2 = 250, X k X r
2 2 SCintra 2 =
scinter = 5 ⇥ [(40 50) + (50 50) + (60 50) ] = 1000. (Yij Ȳj )2
que du Statistique
test du test
tique de La statistique
test, notée Fde test, notée F, est définie
, est définie par le rapportpar le
entrerapport entre
le carré moyenle carré moyen intergroupe,
intergroupe, C Minter , CMinter, et le carré moyen
ré moyenintragroupe,
intragroupe, CMintra intra
C M
C Minter
F = .
C Mintra
on peut montrer que la statistique F suit la loi de Fisher à (k 1, n k) degrés de liberté,
note F (k 1, n k).
Sous H0 on peut montrer que la statistique F suit la loi de Fisher à (k − 1, n − k) degrés de liberté, que l’on note
F(k−1,n−k).
que 10 : sous l’hypothèse d’égalité des moyennes de groupes, i.e sous H0 , à la fois la variance
upe (C Mintra = SCintra /(n k)) et la variance inter-groupe (C Minter = SCinter /(k 1))
estimateurs sans bias de 2 . En revanche sous H1 , seule C Mintra est un estimateur de 2 .

la valeur observée de la statistique F .

xemple 1 (b), la valeur observée de F est fobs = 500/62, 5 = 8.


r de la statistique obtenue indique que la variabilité intergroupe est 8 fois plus grande que
ilité intragroupe.

de décision

it le critère de décision à l’aide de la p-valeur


↵obs = PH0 (F fobs ).
e ↵, on rejette H0 si ↵obs < ↵.

= 5%. Dans notre exemple le logiciel STATISTICA nous donne une p-valeur de 0, 006.

↵obs = PH0 (F 8) = 0, 006.

↵obs < 5%, on rejette H0 au risque ↵ = 5%. Au risque d’erreur de 5% il est peu probable
r une telle variabilité entre les élèves des différents pays si Pr. M. EL KOUALI
la performance en logique dans 8
st en réalité la même. Les trois moyennes sont globalement différentes au risque ↵ = 5%.

urs obtenues par STATISTICA sont résumées dans le tableau ANOVA ci-après.

que 11 : Le rejet de l’égalité des moyennes ne permet pas de savoir quelles sont les moyennes
ivement différentes. Pour cela, la méthode des contrastes ou méthode de Scheffé associe à
de variances permet de répondre à cette question.
Table 5a : Loi de Fisher-Snedecor

Valeurs de f telles que P[F > f ] = 0, 05


0, 05
où F suit la loi de Fisher-Snedecor à ⌫1 , ⌫2 degrés de liberté
⌫1 : nombre de ddl du numerateur
⌫2 : nombre de ddl du denominateur
0 f

⌫1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 22 24 25
⌫2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,73 8,71 8,70 8,69 8,67 8,66 8,65 8,64 8,63
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,89 5,87 5,86 5,84 5,82 5,80 5,79 5,77 5,77
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,66 4,64 4,62 4,60 4,58 4,56 4,54 4,53 4,52
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,98 3,96 3,94 3,92 3,90 3,87 3,86 3,84 3,83
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,55 3,53 3,51 3,49 3,47 3,44 3,43 3,41 3,40
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,26 3,24 3,22 3,20 3,17 3,15 3,13 3,12 3,11
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,05 3,03 3,01 2,99 2,96 2,94 2,92 2,90 2,89
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,89 2,86 2,85 2,83 2,80 2,77 2,75 2,74 2,73
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,76 2,74 2,72 2,70 2,67 2,65 2,63 2,61 2,60
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,66 2,64 2,62 2,60 2,57 2,54 2,52 2,51 2,50
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,58 2,55 2,53 2,51 2,48 2,46 2,44 2,42 2,41
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,51 2,48 2,46 2,44 2,41 2,39 2,37 2,35 2,34
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,45 2,42 2,40 2,38 2,35 2,33 2,31 2,29 2,28
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,40 2,37 2,35 2,33 2,30 2,28 2,25 2,24 2,23
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,35 2,33 2,31 2,29 2,26 2,23 2,21 2,19 2,18
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,31 2,29 2,27 2,25 2,22 2,19 2,17 2,15 2,14
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,28 2,26 2,23 2,21 2,18 2,16 2,13 2,11 2,11
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,25 2,22 2,20 2,18 2,15 2,12 2,10 2,08 2,07
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,22 2,20 2,18 2,16 2,12 2,10 2,07 2,05 2,05
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,20 2,17 2,15 2,13 2,10 2,07 2,05 2,03 2,02
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,18 2,15 2,13 2,11 2,08 2,05 2,02 2,01 2,00
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,15 2,13 2,11 2,09 2,05 2,03 2,00 1,98 1,97
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,14 2,11 2,09 2,07 2,04 2,01 1,98 1,96 1,96
Pr. M. EL KOUALI 9
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,12 2,09 2,07 2,05 2,02 1,99 1,97 1,95 1,94
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,10 2,08 2,06 2,04 2,00 1,97 1,95 1,93 1,92
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,09 2,06 2,04 2,02 1,99 1,96 1,93 1,91 1,91
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,08 2,05 2,03 2,01 1,97 1,94 1,92 1,90 1,89
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,06 2,04 2,01 1,99 1,96 1,93 1,91 1,89 1,88
31 4,16 3,30 2,91 2,68 2,52 2,41 2,32 2,25 2,20 2,15 2,11 2,08 2,05 2,03 2,00 1,98 1,95 1,92 1,90 1,88 1,87
32 4,15 3,29 2,90 2,67 2,51 2,40 2,31 2,24 2,19 2,14 2,10 2,07 2,04 2,01 1,99 1,97 1,94 1,91 1,88 1,86 1,85
HO: Il n'y a pas d'effet "Produit », i.e.: les moyennes pour les différents produits (niveaux du facteur) sont égales

Pr. M. EL KOUALI 10
Chap 8.
1.  Objectif de la méthode
st et le modèle 2.  Approche intuitive
3.  Décomposition de la variance
s-jacent 4.  ANOVA: le test et le modèle
statistique sous-jacent

les moyennes pour vérifier si elles sont statistiquement diff. ou non.


yse suivant:

xij = µ + α i + eij
on Erreur: petites var
e au niveau associées à tous les
eur i autres facteurs.
expérience à un facteur, i.e. un seul agent susceptible d influencer
riable=qté récoltée, facteur= fertilisant).

Pr. M. EL KOUALI 11
Analyse de la variance
à un facteur

Présentation des données :


APPLICATIONS

Plantation d’arbres dans 3 forêts


Comparaison de la hauteur des arbres

Analyse de la variance
à un facteur

Présentation des données :

Les forêts : Variable qualitative contenant trois modalités,


appelée facteur (à effets fixes).
Hauteur des arbres : Réponse, notée Y.
Pr. M. EL KOUALI 12

L’analyse de variance à un facteur teste l’effet d’un facteur


contrôlé A ayant p modalités sur les moyennes d’une variable
Analyse de la variance Analyse de la variance
à un facteur à un facteur

FISHER: (H0)Tableau
: 1 2de ...
l’ANOVAI :
(H1) : Les i ne sont pas tous égaux.

Application
nditions (Indépendance, à Homogénéité)
Normalité et notre exemple
sont: vérifiées
est vraie,
CM F Variation SC ddl CM Fobs Fc
Fobs ~ FI 1, n I
CM R Due au 2 0.0007
facteur
Pour un seuil donné α (5%Résiduelle
en général) les tables de Fisher nous
t une valeur critique c telle que : 15

H0 ( FI 1, n 1 c) 1
Totale 17

si Fobs c H0 est vraie


si Fobs c p-value < 0.05 donc les hauteurs moyennes sont significativement
H1 est vraie
les hauteurs moyennes sont significativement différentes dans
différentes
chaque forêt. dans chaque forêt.

Pr. M. EL KOUALI 13
2,7 5,5 7,7 7,8 13,2

Lí‚ge de la grossesse a-t-il une ináuence sur líactivitÈ de líenzyme ?


Exercice N! : 05
Pour dÈÖnir líimpact de la nature du sol sur la croissance díune plante X, un
botaniste a mesurÈ la hauteur des plantes pour 4 types de sol. Pour chaque type
de sol, il disposait de 3 rÈplicas.

Type I Type II Type III Type IV


15 25 17 10
9 21 23 13
4 19 20 19

Que peut-on conclure sur cette expÈrience ?


Exercice N! : 06
DonnÈes Bransfor
On reprend une expÈrience de Bransford et al. (1972), dans laquelle on de-
mande a des sujets díÈcouter le texte suivant :
"Si les ballons Èclatent, le son ne portera pas puisque tout sera bien trop loin
Pr. M. EL KOUALI 14
du bon Ètage. Une fenÍtre fermÈe empÍchera Ègalement le son de porter, surtout
depuis que les immeubles rÈcents sont correctement isolÈs. Comme líessentiel de
líopÈration dÈpend díune arrivÈe correcte díÈlectricitÈ, un l cassÈ causerait bien
Totale N ! 1 = 59 ///
Facteur p!1 = 4 53; 599 C M inter = 13; 400 Fobs = 5; 144
RÈsiduelle N ! p = 55 143; 276 C M intra = 2; 605

F 0;95 (p ! 1; n ! p) = F 0;95 (4; 55) = 2; 53


Il est clair que Fobs > F 0;95 (p ! 1; n ! p): Donc on rejette H0 : il yía un e§et
du facteur A sur líactivitÈs enzymatique.
Exercice N! : 05
RÈponse :
Le facteur Ètudier cíest La nature des sols avec p = 4; et n1 = n2 = n3 =
P
n4 = 3; N = ni = 12:
LíhypothËse nulle H0 : " Il níyía pas une ináuence du facteur A sur líhauteur
des plantes".
X 1 = 9; 333:
X 2 = 20
X 3 = 21; 667
X 4 = 14
X :: = 16; 258
PP 2
xij = 3597
P
nj (xj )2 = 3457; 691
Alors on peut calculer les SCE :
X " #2
S C Einter = nj (xj )2 ! N X :: = 3457; 691 ! 12 (16; 258)2 = 288; 941 > 0:
XX X
S C Eintra = ij x2 !j j n (x )2 = 3597 ! 3457; 691 = 139; 309 > 0:
6. Exercice sur Analyse de la Variance ‡ un Facteur 49

Tableaux des variations

Sources DegrÈs Somme des CarrÈ Moyen Test de


de variation de libertÈ CarrÈs des Ecarts Fisher-SnÈdÈcor
Totale N ! 1 = 11 ///
Facteur p!1 = 3 288; 941 C M inter = 96; 314 Fobs = 5; 531
RÈsiduelle N !p = 8 139; 309 C M intra = 17; 414

F 0;95 (p ! 1; n ! p) = F 0;95 (3; 8) = 4; 07


Il est clair que Fobs > F 0;95 (p ! 1; n ! p): Donc on rejette H0 : il yía un e§et
du facteur A sur líhauteur des plantes.
Exercice N! : 06
RÈponse : Pr. M. EL KOUALI 15
Le facteur Ètudier cíest mÈthode díapprentissage des contextes avec p = 4; et
P
n1 = n2 = n3 = n4 = 5; N = ni = 20:
LíhypothËse nulle H0 : " Il níyía pas une ináuence du facteur A sur la com-
prÈhension et la mÈmorisations des textes ".
X 1 = 3:
ANOVA à 2 facteurs

Pr. M. EL KOUALI 16
Les données expérimentales

• On dispose d’un tableau à a lignes et b colonnes. L’ensemble des


lignes représente le facteur 1 et l’ensemble des colonnes le facteur 2.
• On a ainsi ab cellules ; chaque cellule représente un traitement.
• Chaque cellule peut contenir nij observations. Ce cas est difficile à
traiter (problème de maths). On supposera dans la suite que toutes
les cellules contiennent le même nombre n d’obsevations.

Pr. M. EL KOUALI 17
F2
Moyenne
F1 1 … j … b
X111 X1j1 X1b1
1 : X 11. : X 1 j. : X 1b. X 1..
X11n X1jn X1bn
: :
:
: :
Xij1
… : X ij . …
X i ..
i Xijn

:
Xa11 X a.. Xaj1 Xab1
a : X a1. : X aj . : X ab.
Xa1n Xajn Xabn
Moyenne X .1. X . j. X .b. X ...

Pr. M. EL KOUALI 18
Conditions théoriques et modèle
• Comme dans le cas de l’ANOVA à un facteur les hypothèses sont
résumées dans un modèle qui est :
• Xijk = µ + αi + βj + γij + εijk
où i = 1, …, a
j = 1, …, b ; k = 1, …, n

µ = moyenne commune, αi = effet ligne i


βj = effet colonne j, γ ij = interaction ligneix colonnej
εijk = erreur associée à l’observation Xijk.

Pr. M. EL KOUALI 19
Hypothèses à tester
• 3 hypothèses à considérer :

- H0 : Y-a-t-il interaction (γij = 0 pour tous i, j) ?

- H0 : Y-a-t-il un effet ligne ou facteur A


(αi = 0 pour tous i) ?

- H0 : Y-a-t-il un effet colonne ou facteur B


(βj = 0 pour tous j) ?
Pr. M. EL KOUALI 20
Idée du test F de Fisher
(cas où n > 1)
• On procède de la même façon que pour l’ANOVA à un
facteur pour avoir les sommes de carrés des écarts
suivantes :
- SCEA = bn ∑ (X − X )
2
i .. ...

- SCEB = an ∑ (X . j.
− X ... )
2

- SCEinteraction = n ∑ (X − X − X + X
. j. i .. . j. ...
)
2

Pr. M. EL KOUALI 21
Somme des carrés (suite)

- SCErésiduelle =
∑ (X − X )
2
ijk ij .

- SCEtotale =
∑ (X − X )
2
ijk ...

De plus on a la relation importante suivante :

SCEtotale=SCEA+SCEB+SCEinteraction+SCErésiduelle

Pr. M. EL KOUALI 22
Table d’ANOVA
Source de
variation d.d.l. SCE CME F

Facteur A (lignes) a-1 SCEA CMEA FA = CMEA/CMErésid.

Facteur B (colonnes) b-1 SCEB CMEB FB = CMEB/CMErésid.

Interaction AxB (a-1)(b-1) SCEinteraction. CMEinter. Finter = CMEinter. /CMErésid.

Résiduelle (erreur) ab(n-1) SCErésiduelle CMErésid.

Totale N-1 SCEtotale

Pr. M. EL KOUALI 23
Règles de décision

Interaction : il y une interaction significative si


Finteraction > C
Effet lignes : Il y a un effet ligne (facteur A) si
FA > C
Effets colonnes : il y a un effet colonne (facteur B) si
FB > C
Dans n’importe quel cas de figure on rejette H0 si :
α-utilisateur > p-value.

Pr. M. EL KOUALI 24
Pr. M. EL KOUALI 25
SCET = SCEA + SCEB + SCEAB + SCER:

Calcul des SCE

p q p q
X X X
n X X X
n
SCET = (xijk ! x::: )2 = x2ijk ! npqx2:::
i=1 j=1 k=1 i=1 j=1 k=1
p q p q p q
X X Xn X X Xn X X
SCER = (xijk ! xij )2 = x2ijk ! n x2ij
i=1 j=1 k=1 i=1 j=1 k=1 i=1 j=1
p p
X X
SCEA = qn (xi: ! x::: )2 = qn x2i: ! npqx2:::
i=1 i=1
q q
X 2
X
SCEB = pn (x:j ! x::: ) = pn x2:j ! npqx2:::
j=1 j=1
p q
XX
SCEAB = n (xij ! xi: ! x:j + x::: )2 = SCET ! SCER ! SCEA ! SCEB
i=1 j=1

HypothËses
Pr. M. EL KOUALI 26
Il y a maintenant trois hypothËses principales ‡ tester :
H0 : le facteur A nía aucun e§et sur les rÈsultats, cíest-‡-dire
7. Exercice sur Analyse de la Variance ‡ deux Facteurs 61

Facteur A : Les laboratoires p = 3


Facteur B : Les villes. q = 3
n = 1; et N = npq = 12; le type díANOVA cíest ANOVA a deux facteurs
sans rÈpÈtitions.
Calcul des terme

XX
x2
ij = 2109; 413:
X
x2
i: = 682; 429:
X
x2
:j = 524; 423:
pqx2
::: = 2041; 751

Les hypothËses nulles :


H0 : le facteur A nía aucun e§et sur les durÈes de vie.
H00 : le facteur B nía aucun e§et sur les durÈes de vie.
Tableau des donnÈes

Ville 1 Ville 2 Ville 3 Moyennes


Labo 1 17.97 13.135 10.60 13,902
Labo2 15.30 11.49 12.09 12,960
Labo3 14.69 11.94 9.41 12,013
Labo 4 16.10 12.11 11.69 13,300
Moyennes 16,015 12,160 10,948 13,044

La dÈcomposition des SCE


Soit líÈquation de dÈcomposition de la variation totale :
Pr. M. EL KOUALI 27
S C ET = S C EA + S C EB + S C EAB

Calcul des SCE


MÍmes formules en remplaÁant n par 1
Tableau des donnÈes

Ville 1 Ville 2 Ville 3 Moyennes


Labo 1 17.97 13.135 10.60 13,902
Labo2 15.30 11.49 12.09 12,960
Labo3 14.69 11.94 9.41 12,013
Labo 4 16.10 12.11 11.69 13,300
Moyennes 16,015 12,160 10,948 13,044

La dÈcomposition des SCE


Soit líÈquation de dÈcomposition de la variation totale :

S C ET = S C EA + S C EB + S C EAB

Calcul des SCE


MÍmes formules en remplaÁant n par 1
7. Exercice sur Analyse de la Variance ‡ deux Facteurs 62

p q p q
X X 2
X X X
n
S C ET = (xij k ! x::: ) = x2 2
ij k ! npqx:::
i=1 j =1 i=1 j =1 k=1
= 2109; 513 ! 2041; 751 = 67; 762
p p
X X
S C EA = q (xi: ! x::: )2 = q x2 2
i: ! pqx:::
i=1 i=1
= 3 (682; 429) ! 2041; 751 = 5; 536:
q q
X X
S C EB = p (x:j ! x::: )2 = p x2 2
:j ! pqx:::
j =1 j =1
= 4 (524; 423) ! 2041; 751 = 55; 941
p q
X X
S C EAB = (xij ! xi: ! x:j + x::: )2 = S C ET ! S C EA ! S C EB
i=1 j =1
= 6; 285

Sources DegrÈs Somme des CarrÈ Moyen Test de Fisher-SnÈd


de variation de libertÈ CarrÈs des Ecarts
Totale npq = 3 " 4 = 12 67; 762
Pr. M. EL KOUALI C MA 28
"type "A p ! 1 = 4 ! 1 = 3 5; 536: 1,845 = 1; 760
C MAB
C MB
"temp"B q ! 1 = 3 ! 1 = 2 55; 941 27,971 = 26; 690
C MAB
type*temp AB (p ! 1) (q ! 1) = 6 6; 285 1,048
Calcules valeurs fractiles de Fisher-SnÈdÈcor :
j=1 j=1
= 4 (524; 423) ! 2041; 751 = 55; 941
p q
X X
SCEAB = (xij ! xi: ! x:j + x::: )2 = SCET ! SCEA ! SCEB
i=1 j=1
= 6; 285

Sources DegrÈs Somme des CarrÈ Moyen Test de Fisher-SnÈdÈcor


de variation de libertÈ CarrÈs des Ecarts
Totale npq = 3 " 4 = 12 67; 762
CMA
"type "A p!1=4!1=3 5; 536: 1,845 = 1; 760
CMAB
CMB
"temp"B q!1=3!1=2 55; 941 27,971 = 26; 690
CMAB
type*temp AB (p ! 1) (q ! 1) = 6 6; 285 1,048
Calcules valeurs fractiles de Fisher-SnÈdÈcor :

A B
F3;6 = 4; 76 ; F2;6 = 5; 11:

Comparaisons :
A A
On peut remarquer que Fobs < F3;6 ; donc on accepte H0 ( il níy a pas díináuence des laboratoires sur les mesure
B B
De plus on remarquer que Fobs > F2;6 ; donc on rejette Hí0 ( il y a une ináuence des villes sur les mesures )
Exercice N! : 04
La rÈponse :
Facteur A : Type de traitement p = 2
Facteur B : Psychologue . q = 2
n = 3; et N = npq = 12; le type díANOVA cíest ANOVA a deux facteurs
Pr. M. EL KOUALI 29

Vous aimerez peut-être aussi