Académique Documents
Professionnel Documents
Culture Documents
Statistique et de l'Economie
Applique
Analyses de la
Variance
2
me
Introduction
### L'Analyse de la Variance ( 1 ou plusieurs facteurs) forme avec l'Analyse Factorielle
Discriminante un corpus de mthodes d'tude des rapports entre variables quantitatives et
variables qualitatives. La situation est au dpart la suivante:
### On suppose tre en prsence d'un certain nombre d'units statistiques (appeles
individus) dcrites par des variables quantitatives. Ces descriptions sont mises sous
forme de tableau statistique:
variables ###
var j
(ge)
individus ###
indiv i
xij
### Par ailleurs, on dispose, sur ces mmes units statistiques, de groupement en
classes (ou ce qui revient au mme, d'observations qualitatives)
variable de classe ###
(catgorie socioprofessionnelle)
individus ###
classe k
(ouvrier)
...........
.....
###
### ......
###
indiv i
.....
...........
### ......
###
Pour chacune de ces mthodes, il y a une variable particulire cense tre explicable
partir des autres. En Analyse de la Variance, il n'y a qu'une variable quantitative, et c'est
cette variable que l'on cherche "expliquer" partir des variables de classe
(qualitatives), tandis qu'en Analyse Discriminante, c'est la variable de classe qui est
seule, et que l'on essaie d'"expliquer" partir des variables quantitatives.
Le principe d'tude adopt est globalement le mme dans les deux cas de figure:
1 - Exemple introductif
Un horticulteur exprimente 3 engrais diffrents sur une mme espce de plante, dont il
observe la croissance. Il a ainsi fait 3 groupes de plantes, chaque groupe correspondant
l'engrais employ.
En fin de croissance, l'horticulteur observe la taille atteinte par les plantes, et se
demande: "les diffrents engrais ont-ils induit des tailles finales diffrentes?"
Les tailles observes des plantes sont les suivantes:
groupe 1: 15 , 18 , 16 , 16 , 15.5 , 17.5
groupe 2: 17 , 19 , 19.5 , 18.5 , 20
groupe 3: 14 , 17 , 15 , 14.5 , 15.5 , 16 , 14
groupe 1
engrais n1
groupe 2
groupe 3
engrais n2
engrais n3
L'horticulteur cherche donc s'il y a un rapport entre les groupes et la disparit des
croissances des plantes. C'est--dire un rapport entre la dispersion d'une variable
quantitative (la taille des plantes) et une variable qualitative (engrais utilis).
### L'horticulteur se dit alors, avec son simple bon sens, que s'il y avait un rapport net
entre ces deux variables, il observerait des tailles de plantes disperses peu ou prou de la
manire suivante:
taille des plantes
groupe k
groupe k '
groupe k "
1 J
zj
J i 1
1 J
( z j z )2
J j 1
On appellera:
Y la variable quantitative (taille des plantes)
yik la valeur de Y pour l'observation i du groupe k.
K le nombre de groupes
Ik le nombre d'observations dans le groupe k.
I le nombre total d'observations ralises ( I
k 1
1 Ik
yik
I k i 1
1 K Ik
y yik
I k 1 i 1
yk
y 16.56
K
I k 1 Ik
I
remarque: y ( yik ) k yk
I k i 1
k 1 I
k 1 I
La moyenne globale est donc une moyenne des moyennes des groupes pondres
par leurs effectifs.
K
Vk ( Y ) 2k ( Y )
1
Ik
Ik
( y
ik
yk )2
i 1
groupe k.
V ( Y ) 2 ( Y )
1 K Ik
( yik y )2 est la variance totale de Y.
I k 1 i 1
V1 ( Y ) 1.139 ; V2 ( Y ) 1. 06 ; V3 ( Y ) 1. 05V ( Y ) 3. 27
b) Le modle:
### Il s'crit trs simplement:
yik b bk uik
...autrement dit, la taille d'une plante est vue comme la somme de trois choses: un effet
de croissance commun toutes les plantes, un effet de croissance spcifique au groupe
auquel la plante appartient et commun toutes les plantes de ce groupe, et un effet
perturbant propre cette plante particulire.
remarque: ainsi spcifi, le modle a trop de paramtres inconnus pour tre estimable de
manire bien dtermine. On rajoute donc la contrainte - assez naturelle - suivante:
K
Ik
bk 0
k 1 I
(i.e. les effets spcifiques sont en moyenne nulle; ils sont vus comme des effets
diffrentiels l'effet global)
### Dans la mesure o dans notre modle, la variable de groupe est le seul facteur
recens susceptible d'expliquer des diffrences de croissance, on considre assez
naturellement les uik comme des perturbations alatoires. Ces perturbations
matrialisent l'effet ventuel de tous les facteurs influenant Y que l'on aurait oubli dans
le modle. Pour que le modle puisse prtendre expliquer assez bien Y, il faut que les
perturbations restent relativement petites.
### On fait en outre les hypothses suivantes:
Les uik sont des alas de moyenne nulle, indpendants et de mme loi, suppose
gaussienne:
uik N ( 0 , 2 )
Ceci veut dire en particulier que les facteurs d'influence "oublis" ont une
rsultante en moyenne nulle.
### critique du modle
### Supposer qu' une modeste perturbation prs, les individus d'un groupe ont la
mme valeur de la variable Y revient clairement supposer que le groupe est
pratiquement le seul facteur susceptible d'induire vritablement une diffrence sur
Y.
- Pour un cas du mme type que notre exemple (exprience contrle), cette
hypothse peut tre rendue tout--fait raisonnable, en faisant en sorte que tous les
autres facteurs pouvant influencer fortement Y (facteurs de croissance dans notre
exemple: ensoleillement, arrosage, temprature ...) ont bien des valeurs identiques
pour tous les individus.
- Pour les cas de facteurs non contrls, les choses sont donc beaucoup moins
claires, en particulier lorsqu'entrent en jeu des phnomnes complexes entre
facteurs non contrlables (ou mme non identifis!). C'est tout particulirement le
cas en sciences sociales. Supposons par exemple que l'on se demande si le sexe
d'une personne a une influence sur son salaire (pour dpister par exemple
l'existence d'une discrimination). On dispose des salaires d'un groupe d'hommes et
de ceux d'un groupe de femmes. L'hypothse que dans l'chantillon, le sexe est le
seul facteur induisant ventuellement une diffrence dans le salaire suppose au
moins que tous les hommes et toutes les femmes de l'chantillon aient les mmes
diplmes, le mme type d'emploi dans le mme secteur, la mme anciennet, que
les salaires soient relevs au mme moment, et la limite (puisque les socits ont
des politiques salariales diffrentes) que tous ces individus travaillent dans le
mme service de la mme socit! Ceci parat bien difficile assurer. Cette
hypothse est donc totalement irraliste.
### Si l'on ne peut pas assurer que les valeurs des autres facteurs d'influence sont
gales pour tous les individus, on peut toujours considrer que leur influence fait
partie de la perturbation uik. Mais attention: l'effet rsultant de ces facteurs doit
toujours avoir les proprits normales de la part d'une perturbation alatoire:
- D'une part, une perturbation "bruitant" un modle doit rester d'amplitude
relativement faible. Si la diffrence de Y entre les groupes est vue comme le signal
interprtable du modle, le bruit perturbant ce signal ne doit pas tre trop fort,
afin que le signal reste dcelable. Le rapport du signal au bruit, qui mesure la
clart du signal (i.e. la significativit de l'effet de groupe dcel en estimant le
modle), est la base du test statistique d'analyse de la variance.
- D'autre part, le modle spcifie que l'ala doit tre le mme pour tous les
individus. Ceci quivaut thoriquement au fait que les valeurs des facteurs
d'influence "oublis" dans le modle soient distribues de la mme manire dans
les groupes.
Dans l'exemple des disparits salariales entre hommes et femmes, l'hypothse que
tous les facteurs d'influence du salaire (hormis le sexe) soient distribus de la
mme manire chez les hommes et chez les femmes est certes moins forte que
l'hypothse de leur identit partout, mais presqu'aussi irraliste pour certains
facteurs (le diplme ou le type d'emploi par exemple). Bien sr, si cette hypothse
se trouve tre fortement mise en dfaut dans la ralit du phnomne que l'on
observe, les conclusions de l'analyse perdent toute validit!
Comment vrifier si l'ala est "le mme" dans les groupes? On reprsente
graphiquement la distribution de la variable Y dans chaque groupe. D'aprs le
modle, ces deux distributions doivent tre identiques, une translation prs
correspondant l'effet de groupe.
Par exemple, dans l'tude de l'influence du sexe sur le salaire, les distributions de
salaires chez les hommes et les femmes devraient avoir rigoureusement la mme
forme:
femmes
hommes
salaires
Dans une ralit complexe, une telle hypothse apparat souvent bien peu
vraisemblable....
Pour la soutenir, il est au moins ncessaire de raliser un test statistique
correspondant cette hypothse. On se contente souvent d'un test d'galit des
dispersions (variance) de Y dans les diffrents groupes. En effet, sous l'hypothse
de normalit des perturbations uik (i.e. de Y dans chacun des groupes), ce test
suffit car l'galit des variances quivaut l'identit des distributions la moyenne
prs.
### Mais l'ala est-il vraiment gaussien?
- Lorsque l'on est dans le contexte d'une exprience contrle, o tous les
facteurs influant sur Y - part la variable de groupe - sont identiques pour tous
les individus, l'ala rsiduel matrialise des diffrences de Y dont on ne s'explique
pas la provenance. Comment alors modliser sa loi, si par dfinition il nous
chappe totalement? On suppose alors l'ala gaussien comme somme assez grande
d'effets alatoires indpendants et de mme loi (thorme central limite). Il s'agit
d'une commodit: c'est l'hypothse la moins invraisemblable a priori, mais on est
surtout conduit la faire par ignorance. Il faut cependant vrifier la plausibilit de
cette hypothse a posteriori en comparant la distribution empirique des
perturbations estimes une distribution normale de mme variance.
- Dans le cadre d'une exprience o les facteurs influenant a priori Y ne sont pas
contrlables, la distribution de Y dans chacun des groupes a bien peu de chances
d'tre gaussienne. Il n'est que de considrer le cas du salaire des hommes et des
femmes voqu plus haut: la distribution des salaires dans une population n'a
jamais srieusement pu tre modlise comme gaussienne! (Elle est parfois
rpute suivre approximativement une loi de Pareto).
Il convient dans tous les cas, surtout en l'absence d'arguments probabilistes
solides, d'effectuer un test de normalit des observations dans chacun des
groupes.
L'histoire de l'anthropomtrie (particulirement dans tout ce qui concerne la mesure de l'intelligence) regorge de telles fraudes, souvent
grossires mais parfois plus subtiles, et systmatiquement orientes vers la lgitimation de politiques discriminatoires en matire raciale, et
prtendant en donner une justification "scientifique". Mention spciale pour le best-seller amricain intitul The bell curve (Herrnstein &
Murray 1994), ouvrage pseudo-scientifique de 800 pages tentant de prouver l'infriorit intellectuelle des noirs partir d'analyses statistiques
qui ont par suite t invalides dans des revues scientifiques prestigieuses comme La Recherche, Scientific American, etc. Pour un panorama
gnral de ces fraudes, on se reportera l'excellent ouvrage "La mal-mesure de l'Homme" de Stephen Jay Gould Le livre de poche.
effet commun:
b y
effet spcifique du groupe k:
bk yk y
perturbation:
uik yik yk
groupe k
groupe k '
groupe k "
On aurait donc une dispersion entre les groupes petite par rapport la dispersion
l'intrieur des groupes.
### mesure de la dispersion:
- La dispersion est mesure par la variance.
- On peut d'ores et dj tablir une dcomposition intressante de la variance totale de
Y:
10
1 K Ik
1 K Ik
2
V ( Y ) ( yik y ) ( ( yik y k ) ( y k y ) )2
I k 1 i 1
I k 1 i 1
1 K Ik
( ( yik y k )2 ( yk y )2 2( yik y k )( yk y ) )
I k 1 i 1
1 K Ik
1 K Ik
2 K Ik
2
2
( yik yk ) ( yk y ) ( yik yk )( y k y ) )
I k 1 i 1
I k 1 i 1
I k 1 i 1
Ik 1
(
Ik
k 1 I
Ik
( yik yk )2 )
i 1
Ik
Vk ( Y )
k 1 I
Ik
Ik
2 K
2
(
y
y
)
(
y
y
)
( yik y k ) )
k
k
I k 1
k 1 I
i 1
K
Ik
2 K
2
(
y
y
)
( yk y ).0
k
I k 1
k 1 I
K
Ik
I
Vk ( Y ) k ( yk y )2
k 1 I
k 1 I
On remarque que le premier terme de cette somme est la moyenne des variances
internes aux groupes pondres par leurs effectifs, il s'agit donc d'une variance interne
moyenne, ou: variance dans les groupes. Quant au second terme, c'est clairement la
variance des moyennes des diffrents groupes, soit une variance entre les groupes.
Ik
Vk ( Y )
k 1 I
K
I
V e ( Y ) k ( y k y )2
k 1 I
V d (Y )
V1 ( Y ) 1.139 ; V2 ( Y ) 1. 06 ; V3 ( Y ) 1. 05
V ( Y ) 3. 27
6
5
7
Vd
V1 ( Y ) V2 ( Y ) V3 ( Y ) 1. 082
18
18
18
6
2
5
2
7
2
Ve
b1 b2 b3 2 .188
18
18
18
### Le critre et le test:
11
dispersion entre
dispersion dans
95%
f 0.95 (K-1,I-K)
Si F tombe dans cette rgion
l'influence du groupe est significative
2 .188 3 3 1
2.53
1. 082 1818 3
12
Cette valeur doit tre compare f 0.95(2,15) = 3.68 . Dans ce cas, on considre donc que l'influence
dcele du groupe n'est pas significative (au seuil 5%).
Remarque: la probabilit ### de tomber dans la rgion "peu probable" sous l'hypothse
de non-influence du groupe est appele niveau du test. On a considr la valeur
"traditionnelle" ### = 5%, pour fixer les ides, mais en fait, on peut le choisir plus ou
moins arbitrairement. Prendre un niveau plus grand revient sur notre dessin largir la
rgion "peu probable" vers la gauche. En augmentant sa probabilit, on rend plus
probable notre rejet de l'hypothse de non-influence. On admettra ainsi plus facilement
l'influence du groupe sur Y.
Symtriquement, diminuer ### revient rejeter plus difficilement la non-influence du
groupe.
Le niveau ### peut donc tre interprt comme notre "peu d'attachement" l'hypothse
que l'on teste: s'il est grand, c'est qu'on est prt rejeter cette hypothse assez
facilement, et s'il est petit, c'est qu'au contraire, avant de rejeter cette hypothse, on
demandera que les observations l'infirment trs nettement. Il est conseill de faire le test
avec plusieurs valeurs pour le niveau, afin de voir si les conclusions du test se
maintiennent relativement bien, ou si les conclusions changent ds que l'on modifie le
niveau.
Parfois, le logiciel qui effectue l'analyse de la variance fournit la probabilit critique
correspondant la valeur calcule de F , c'est dire la probabilit qu'a cette valeur
d'tre dpasse:
valeur calcule de F
Si cette probabilit critique est infrieure au niveau dsir, on rejette l'hypothse, sinon
on l'accepte.
Remarque sur F:
On notera que la variance qui se trouve au dnominateur de F n'est autre que la
variance des rsidus estims (qui sont de moyenne nulle):
1 K Ik
1 K Ik 2
d
2
V ( Y ) ( yik yk ) ( uik )
I k 1 i 1
I k 1 i 1
13
La variance figurant au numrateur est la part de la variance qui est en rapport avec les
diffrences de modalit du facteur. On la voit souvent comme la variance "explique" de
Y. On remarquera qu'elle est gale la variance des effets estims bj* des diffrentes
modalits:
K
I
I K
V e ( Y ) k ( y k y )2 k ( bk )2
I k 1
k 1 I
L'quation de dcomposition de la variance:
Variance totale = Variance entre les classes + Variance dans les classes
... peut aussi s'interprter comme:
Variance totale = Variance "explique" + Variance "rsiduelle"
entre groupes
( yk y )2
k 1
K Ik
( y
ik
k 1 i 1
K Ik
Total
( y
ik
k 1 i 1
yk )2
y )2
Degrs de Libert
(DL)
SC / DL
statistique de Fisher
(F)
F
K-1
I-K
A
B
I-1
On remarquera que, pour SC comme pour DL, la somme "entre groupes" + "dans les
groupes" fait bien le "total".
14
15
1 - Exemple introductif
Notre horticulteur reconnat que la croissance d'une plante ne dpend pas que de
l'engrais utilis. Il pense que l'arrosage est un facteur important en soi, mais aussi
susceptible d'interagir avec le facteur engrais (certains engrais pouvant ventuellement
tre plus efficaces lorsqu'ils sont associs certaines frquences d'arrosage).
Il conoit alors l'exprience suivante: il forme des groupes de plantes de mme effectif,
chacun tant soumis un engrais et une frquence d'arrosage bien particuliers (de sorte
qu'il y ait un et un seul groupe de plantes soumis chaque possibilit engrais-frquence
d'arrosage). En fin de croissance, il obtient les tailles suivantes:
engrais 1
engrais 2
engrais 3
1 fois / jour 17 , 16 , 18 , 19
13 , 14 , 15 , 11
12 , 14 , 13 , 10
2 fois / jour
18 , 16 , 20 , 19
11 , 10 , 13 , 11
14 , 12 , 16 , 13
16
2 - Notations
On appellera:
Y la variable quantitative (taille des plantes)
yijk la valeur de Y pour l'observation i du groupe (j,k) correspondant la
modalit j du 1er facteur et la modalit k du second.
J le nombre de modalits du 1er facteur.
K le nombre de modalits du 2nd facteur.
n le nombre d'observations dans chaque groupe.
Le nombre total d'observations ralises est clairement I = nJK.
Le nombre d'observations correspondant la modalit j du 1er facteur est: Ij. =
nK.
Le nombre d'observations correspondant la modalit k du 2nd facteur est: I.k =
nJ.
On appellera groupe j le groupe des observations caractrises par la modalit j du 1er
facteur, et groupe k le groupe des observations caractrises par la modalit k du 2nd
facteur.
moyennes:
1 n
yijk est la moyenne de Y dans le groupe (j,k).
n i 1
1 K n
y j.
yijk est la moyenne des observations de Y correspondant la
nK k 1 i 1
modalit j du 1er facteur.
1 J n
y.k
yijk est la moyenne des observations de Y correspondant la
nJ j 1 i 1
modalit k du 2nd facteur.
1 J K n
y
yijk est la moyenne globale de Y.
nJK j 1 k 1 i 1
y jk
K I
1 1 K n
j.
(
y
)
y j . . Mais on a bien
ijk
j 1 J nK k 1 i 1
k 1 I
K
K
1 1 J n
I .k
y
(
y
)
ijk
k 1 K nJ j 1 i 1
k 1 I
donc une moyenne des moyennes des groupes pondres par leurs effectifs, quels
que soient ces groupes.
Remarque vidente: y
variances:
17
(note: toutes les variances qui suivent ne sont pas importantes pour les tests de
significativit qui seront exposs aprs. Les variances utilises pour ces tests sont
indiques l'aide du symbole ### . Les autres variances peuvent tre utilises
pour faire des tests dans le cadre de modles d'Anavar 1 l'intrieur de chaque
groupe j (ou k) sparment )
### ### variance de Y l'intrieur du groupe (j,k):
1 n
V jk ( Y ) 2jk ( Y ) ( yijk y jk )2
n i 1
K n
1
V j . ( Y ) 2j . ( Y )
###
est la variance des
( yijk y j . )2
nK k 1 i 1
observations de Y correspondant la modalit j du 1er facteur.
1 J n
V.k ( Y ) 2.k ( Y )
( yijk y.k )2
est la variance des observations de
nJ j 1 i 1
Y correspondant la modalit k du 2nd facteur.
1 J K n
2
V
(
Y
)
(
Y
)
2 fois / jour
engrais 2
engrais 3
y1. 14. 33
y12 13. 25
y13 12 . 25
V12 ( Y ) 2 .1875 V13 ( Y ) 2 .1875 V1. ( Y ) 7.055
y11 17.5
V11 ( Y ) 1. 25
y2. 14 .42
y21 13. 75
y22 18. 25
y23 11. 25
V21 ( Y ) 2 .1875 V22 ( Y ) 2 .1875 V23 ( Y ) 1.1875 V2. ( Y ) 10.24
y.2 15. 75
V.2 ( Y ) 8. 44
y.3 11. 75
V.3 ( Y ) 1.94
y 14 .375
V ( Y ) 8. 65
On peut galement dfinir les variances "entre" groupes, et les variances "dans"
les groupes, pour les diffrents groupements possibles:
### Variance entre groupes (j,k) correspondant une mme modalit j:
1 K
V je. ( Y ) ( y jk y j . )2
K k 1
(c'est donc la variance des moyennes y j1 , ... , y jK )
Variance dans les groupes (j,k) correspondant une mme modalit j:
1 K n
1 K
2
V jd. ( Y )
(
y
y
)
V jk ( Y )
ijk jk K
nK k 1 i 1
k 1
18
nJ i 1 j 1
J j 1
(c'est donc la moyenne des variances V1k(Y) , ... , VJk(Y) )
On peut vrifier que leur somme fait bien la variance de toutes les observations
correspondant la modalit k:
V.k ( Y ) V.ke ( Y ) V.kd ( Y )
On peut aussi calculer (en considrant les facteurs 1 et 2 sparment):
### ### Variance entre groupes j correspondant aux modalits du facteur 1:
1 J
V( e1 ) ( Y ) ( y j . y )2
J j 1
(c'est donc la variance des moyennes y1. , ... , y J . )
Variance dans les groupes j correspondant aux modalits du facteur 1:
1 n K
V( d1 ) ( Y )
( yijk y j . )2
nK i 1 k 1
On vrifie bien que:
V ( Y ) V( e1 ) ( Y ) V( d1 ) ( Y )
###
19
V ( Y ) V( e2 ) ( Y ) V( d2 ) ( Y )
V e(Y )
1 J K
( y jk y )2
JK j 1 k 1
nJK i 1 j 1 k 1
(c'est la moyenne de toutes les variances Vjk(Y))
les
groupes
(j,k):
; V( d1 ) 8. 647
; V( d2 ) 5.2
V e 6. 786 ; V d 1.864
20
yijk a b j ck uijk
uijk N ( 0 , 2 )
i , j , k
j 1
k 1
Elles signifient intuitivement que les effets spcifiques sont en moyenne nuls, ce qui est
naturel, car ce sont des effets "diffrentiels" par rapport l'effet "moyen" a.
### critique du modle
### Ici encore, il faut avoir de bonnes raisons de penser que les facteurs principaux
dterminant Y sont bien les deux facteurs retenus, et que le reste n'est qu'une
perturbation alatoire assez "rsiduelle" pour tre considre comme gaussienne.
Le meilleur moyen d'en tre sr est videmment de contrler tous les autres facteurs
susceptibles d'influencer Y, et de s'assurer qu'ils ont la mme valeur pour l'ensemble des
individus tudis. C'est en particulier le cas dans une grande partie des expriences
controles faites en botanique ou en mdecine.
Mais c'est en gnral totalement irralisable en sciences sociales, o les facteurs
d'influence sont le plus souvent nombreux, et o il n'y a pas d'expriences contrles
proprement parler. Comment supposer, par exemple, que le salaire n'est, une "petite"
perturbation prs, fonction que du sexe et du diplme ? Soit il faut tre assez fou pour
imaginer que les effets de l'anciennet, du secteur d'activit, du pays, de l'entreprise etc.
ne reprsentent globalement qu'une perturbation gaussienne ayant la mme distribution
dans toutes les CSP des deux sexes. Soit il faut s'tre assur que les valeurs de ces
facteurs sont les mmes pour tous les individus tudis - ce qui oblige les choisir la
limite dans la mme entreprise, ayant la mme anciennet et le mme type d'emploi! On
risque fort dans ce cas de ne pas trouver grand-monde: le contrle des facteurs est ce
niveau impossible.
On se contente donc de vrifier que les ventuels autres facteurs d'influence sont
distribus indpendamment des deux facteurs du modle, et on espre que la
perturbation qu'ils engendrent ne sera pas d'amplitude assez grande pour noyer
l'influence des deux facteurs retenus (voir pour cela les tests de significativit proposs
la fin).
### De plus, on fait ici une hypothse trs forte: les effets des facteurs 1 et 2 sur Y
s'additionnent! Autrement dit: quelle que soit la valeur fixe du facteur 1, le facteur 2
induira toujours les mmes diffrences sur Y (dans notre exemple, quel que soit
l'engrais, la frquence d'arrosage induira toujours la mme diffrence de taille entre les
plantes). C'est ngliger, comme nous l'avons dit, la possibilit d'interactions entre les
21
1 u
uijk
yijk y j . y.k y
b2.* = + 0.045
c2.* = 1.375 ;
c3.* = -2.625
rsidus:
1 fois / jour
22
engrais 1
engrais 2
engrais 3
1.42 , 0.42 ,
2.42 , 3.42
-2.705 , -1.705 ,
-0.705 , -4.705
0.295 , 2.295 ,
1.295 , -1.705
2 fois / jour
-1.67 , -3.67 ,
0.33 , -0.67
2.205 , 0.205 ,
4.205 , 3.205
-0.795 , -1.795 ,
1.205 , -0.795
1 . ( b )2
J j 1 j
Le rapport
est donc:
var iance des rsidus
V ( u )
1
(u )
nJK i
, j ,k
ijk
V( e1 ) ( Y )
V ( u )
On considre que l'influence du 1er facteur est significative (au niveau 5%)
lorsque:
V( e1 ) .( J J 1 )
F1
V ( u ).( nJK nJK J K 1 )
f 0.95 ( J 1, nJK J K 1 )
Ici, Le rapport
est :
var iance des rsidus
V ( u )
1
2
K . ( ck )
k 1
nJK ( u )
ijk
i , j ,k
23
V( e2 ) ( Y )
V ( u )
On considre que l'influence du 1er facteur est significative (au niveau 5%)
lorsque:
F2
V( e2 ) .( K K 1 )
V ( u ).( nJK nJK J K 1 )
f 0.95 ( K 1, nJK J K 1 )
V(u*) = 4.92 ; F1 = 0.00067 < f0.95(1,20) = 4.35 ; F2 = 0.87 < f0.95(2,20) = 3.49
Donc, finalement, on accepte l'hypothse de non-influence pour chacun des facteurs...
Pourtant, regarder les donnes, il semble vident d'une part que l'engrais n'est pas
indiffrent (le troisime a l'air vraiment moins bon que les autres) et d'autre part, que
l'arrosage n'est pas indiffrent, du moins en association avec certains engrais. Notre modle
n'a pas l'air de bien rendre compte de ce qui se passe. En particulier de cette importance de
l'arrosage selon l'engrais utilis. Il faut par consquent respcifier le modle, en prvoyant la
possibilit d'interactions entre les facteurs)
24
TABLEAU RESUME pour le calcul pratique des tests d'ANAVAR 2 sans interactions
Les rsultats de l'Analyse de la Variance 2 facteurs sans interactions sont souvent
prsents de la manire suivante, pour en simplifier le calcul:
Degrs de Libert
(DL)
SC / DL
statistique de Fisher
(F)
nK ( y j . y )2
Effets spcifiques du
facteur 1
j 1
K
J-1
k 1
K-1
nJK - J - K +1
nJ ( y.k y )2
Effets spcifiques du
facteur 2
n
( y
ijk
Rsidus
i 1 j 1 k 1
n
J
y j . y.k y )2
( y
ijk
Total
y )2
A
C
B
F( 1 )
F( 2 )
nJK-1
i 1 j 1 k 1
uijk N ( 0 , 2 )
La variable expliquer est donc vue comme la somme d'un effet commun, d'un effet
spcifique la modalit prise par le facteur 1, d'un effet spcifique la modalit prise
par le facteur 2, d'un effet d'interaction de ces deux modalits, et d'une perturbation
alatoire gaussienne nulle en moyenne.
Les paramtres tant encore plus nombreux que dans le modle sans interactions, on
doit leur imposer les contraintes "naturelles" suivantes (qui reviennent bien sparer les
rles des diffrents effets):
les effets spcifiques des modalits d'un facteur sont en moyenne nuls:
J
0 ;
j 1
k 1
les termes d'interaction sont en moyenne nuls pour chaque modalit d'un des deux
facteurs:
25
j ,
d jk 0
k ,
k 1
jk
j 1
uijk
yijk y jk
remarque: on voit bien ce qui change par rapport au modle sans interactions: les
perturbations estimes dans le modle sans interactions sont ici dcomposes en: un
terme d'interaction et un terme rsiduel de perturbation. Dans le modle sans
interactions, il est donc clair que l'on voyait - en quelque sorte - les interactions comme
du "dchet". Les effets spcifiques des modalits des facteurs ne changent pas.
26
effets spcifiques:
arrosage: b1.* = - 0.045 ;
engrais: c1.* = 1.25
;
b2.* = + 0.045
c2.* = 1.375 ;
c3.* = -2.625
interactions:
engrais 1
engrais 2
engrais 3
1 fois / jour
1.92
-2.455
0.545
2 fois / jour
-1.92
2.455
-0.545
Les influences en soi des deux facteurs ne se testent donc pas exactement comme dans
le modle sans interactions. En effet, si les effets estims des facteurs en soi sont les
mmes, par contre les rsidus estims de notre modle avec interactions ne sont plus les
mmes.
On remarquera que la variance des rsidus est cette fois la variance dans les classes (i,j),
note Vd(Y).
La significativit des effets spcifiques des facteurs se teste ici de la manire suivante:
### test de l'influence du 1er facteur en soi:
J
1 . ( b )2
J j 1 j
Ici, Le rapport
est :
var iance des rsidus
V ( u )
1
nJK ( u )
ijk
V( e1 ) ( Y )
V d (Y )
i , j ,k
On considre que l'influence du 1er facteur est significative (au niveau 5%)
lorsque:
F1
V( e1 ) . ( J J 1 )
V d . ( nJK ( n 1 ) JK )
27
f 0.95 ( J 1,( n 1 ) JK )
Ici, Le rapport
est :
var iance des rsidus
V ( u )
1
2
K . ( ck )
k 1
(u )
nJK i
, j ,k
ijk
V( e2 ) ( Y )
V d (Y )
On considre que l'influence du 2me facteur est significative (au niveau 5%)
lorsque:
V( e2 ) .( K K 1 )
F2 d
V . ( nJK ( n 1 ) JK )
f 0.95 ( K 1,( n 1 ) JK )
Ici, Le rapport
est :
var iance des rsidus
V ( u )
1
2
JK . ( d jk )
j 1
2
( uijk
)
nJK i
, j ,k
V(d )
V d (Y )
V ( d ) .( JK ( J 1 )( K 1 ) )
V d .( nJK ( n 1 ) JK )
f 0.95 ( ( J 1 )( K 1 ),( n 1 ) JK )
F1
0. 002
2
1
1.864 24
0. 0016
f 0.95 ( 1,18 ) 4 . 41
18
3. 45 3
2 2 . 775 f
0.95 ( 2 ,18 ) 3. 55
24
1. 864
18
3. 34 6
2 4 . 027 f
Fint eractions
0.95 ( 2 ,18 ) 3. 55
24
1. 864
18
F2
28
Par contre, les effets d'interaction dcels sont ce niveau globalement significatifs.
On voit donc bien l'importance qu'a la spcification du modle: le modle sans
interactions n'aboutit rien, alors que le modle avec interactions nous donne une
plus grande significativit pour l'effet spcifique de l'engrais, mais surtout dcle de
fortes influences de l'association engrais-arrosage sur la croissance des plantes.
remarques:
### Il faut bien comprendre pourquoi le test de significativit des effets spcifiques n'est
pas le mme dans le modle sans interactions et dans le modle avec interactions. Dans
le premier cas, les rsidus renferment les interactions non dceles: celles-ci agissent
donc comme un bruit supplmentaire nuisant la discrimination des groupes. Alors que
dans le second cas, les interactions tant dceles comme telles, elles sont tes du bruit
rsiduel, et les groupes n'en deviennent que plus facilement distinguables les uns des
autres.
C'est d'ailleurs le mme type d'argumentation qui explique que le test de significativit
de l'influence du facteur 1 dans ce modle, par exemple, ne soit pas le mme que celui
qu'on obtiendrait en "oubliant" le facteur 2, c'est--dire en faisant l'anavar de Y sur le
seul facteur 1. Si on faisait cette anavar un facteur, les effets du facteur 2 se
retrouveraient dans le bruit, et non dpists comme tels. La discrimination des groupes
relatifs aux modalits du facteur 1 pourrait en devenir plus difficile.
### La spcification du modle est, on l'a vu, un problme tout--fait crucial: un test
pratiqu sur les rsultats d'estimation d'un modle mal spcifi n'a aucune valeur! (tout
comme en logique: quelle est la valeur des conclusions d'une dmonstration juste fonde
sur des hypothses fausses?).
On a galement vu que le domaine de validit des modles proposs ici tait bien troit,
tant les hypothses taient fortes!
Il faut donc se mfier systmatiquement des analyses de variance prsentes et l
pour "dmontrer" la validit d'hypothses diverses et varies! Rappelons encore une fois
que cette mthode a t trs largement utilise - toujours en dehors de son domaine de
validit - par des gens peu scrupuleux, pour tablir "scientifiquement" des prjugs
sociaux et raciaux. Le vernis pseudo-scientifique apport par l'emploi de mthodes
statistiques est trompeur pour l'immense majorit des non-spcialistes (et certains
spcialistes aussi, de temps en temps). Il faut ainsi, devant une affirmation
"statistiquement prouve", toujours se demander s'il n'tait pas possible de dmontrer
son contraire en spcifiant le modle diffremment!
TABLEAU RESUME pour le calcul pratique des tests d'ANAVAR 2 avec interactions
Degrs de Libert
(DL)
SC / DL
Effets spcifiques du
facteur 1
nK ( y j . y )2
J-1
j 1
29
statistique de Fisher
(F)
F( 1 )
A
D
nJ ( y.k y )2
Effets spcifiques du
facteur 2
k 1
Effets d'interaction
n ( y jk y j . y.k y )2
j 1 k 1
n
Rsidus
Total
K-1
(J - 1)(K - 1)
(n - 1) J K
( y
ijk
i 1 j 1 k 1
n
J
K
( y
ijk
y jk )2
y )2
B
D
C
F( 2 )
Fint er
nJK-1
i 1 j 1 k 1
30
Bibliographie
BRAY & MAXWELL: Multivariate Analysis of Variance - SAGE University Papers, Quantitative
Applications for the Social Sciences.
GIRDEN: ANOVA: repeated measures - SAGE University Papers, Quantitative Applications for the Social
Sciences.
IVERSEN & NORPOTH: Analysis of Variance - SAGE University Papers, Quantitative Applications for the
Social Sciences.
JACKSON & BRASHERS: Random Factors in ANOVA - SAGE University Papers, Quantitative Applications
for the Social Sciences.
LEBART L., MORINEAU A., FENELON J-P.: Traitement des donnes statistiques - Dunod 1979.
SAPORTA G.:
LOGICIELS:
STATBOX (Grimmer logiciels, Paris);
STATLAB (SLP Statistiques, Ivry);
SPADN (CISIA, St Mand);
STATA (Stata corp. USA; E-mail: stata@stata.com)
SPSS (SPSS Inc. Chicago, USA)
LADDAD (ADDAD, Paris)
31