Vous êtes sur la page 1sur 31

Les Cahiers de la

Statistique et de l'Economie
Applique

Ecole Nationale Suprieure de Statistique et d'Economie Applique


08 BP3 - ABIDJAN 08 - COTE D'IVOIRE
Ecole Nationale d'Economie Applique - Dpartement STADE
BP 5084 - DAKAR - SENEGAL

Professeur de Statistique l'ENEA

Analyses de la
Variance
2

me

dition, entirement rvise

par Xavier BRY

Introduction
### L'Analyse de la Variance ( 1 ou plusieurs facteurs) forme avec l'Analyse Factorielle
Discriminante un corpus de mthodes d'tude des rapports entre variables quantitatives et
variables qualitatives. La situation est au dpart la suivante:
### On suppose tre en prsence d'un certain nombre d'units statistiques (appeles
individus) dcrites par des variables quantitatives. Ces descriptions sont mises sous
forme de tableau statistique:
variables ###

var j
(ge)

individus ###

indiv i

xij

### Par ailleurs, on dispose, sur ces mmes units statistiques, de groupement en
classes (ou ce qui revient au mme, d'observations qualitatives)
variable de classe ###
(catgorie socioprofessionnelle)
individus ###

classe k
(ouvrier)
...........
.....

###
### ......
###

indiv i

.....
...........

### ......

###

Pour chacune de ces mthodes, il y a une variable particulire cense tre explicable
partir des autres. En Analyse de la Variance, il n'y a qu'une variable quantitative, et c'est
cette variable que l'on cherche "expliquer" partir des variables de classe
(qualitatives), tandis qu'en Analyse Discriminante, c'est la variable de classe qui est
seule, et que l'on essaie d'"expliquer" partir des variables quantitatives.
Le principe d'tude adopt est globalement le mme dans les deux cas de figure:

On cherche les rapports pouvant exister entre la dispersion des individus du


point de vue des variables quantitatives et les groupements de ces individus en
classes.
### Le principe intuitivement nonc ci-dessus montre bien que l'outil utilis sera d'ordre
mtrique (il est fond sur des mesures de dispersion). Or, ces techniques semblent pourtant
s'tre donn une vocation "explicative", donc d'ordre plutt logique, au sens o elles essaient
d'expliquer (puis de prdire) les groupements par les descriptions quantitatives ou l'inverse.
Cette contradiction apparente est cependant facile rsoudre: c'est l'criture (sous forme
linaire) d'un modle causal, issu d'une rflexion sur un plan purement logique, qui peut
donner une valeur explicative aux rsultats. L'outil mtrique, lui, ne fait en dfinitive
qu'ajuster au mieux ce modle aux donnes. Si le modle est absurde, l'ajustement aura beau
sembler bon, les rsultats n'auront aucune valeur explicative.
Prenons un exemple simple: pour un grand nombre d'individus gs, on relve le fait ou non
d'avoir dvelopp une tumeur cancreuse au poumon (variable Y qualitative), ainsi que la
consommation mensuelle moyenne de cigarettes au cours de leur vie (variable X quantitative)
antrieurement l'apparition de la tumeur s'il y en a eu une. Statistiquement, ces variables
sont trs lies. L'Analyse de Variance par exemple pourrait bien le montrer. Nanmoins, cette
AV peut correspondre l'ajustement de deux modles causaux bien distincts:
Modle causal 1:
Y = f(X)
(attraper un cancer du poumon est fonction de la consommation de cigarettes)
Modle causal 2:
X = f(Y)
(la consommation moyenne de cigarettes au cours de la vie dpend du fait qu'on a
attrapp par suite un cancer du poumon)
De ces deux modles, seul le premier est pertinent, le second inversant la cause et l'effet. Par
consquent, bien que l'ajustement de ces deux modles aux donnes aboutisse exactement la
mme opration statistique, seul le modle 1 est explicatif.
Malgr cette vidence, on ne peut que constater que les rsultats fournis par les techniques
d'AV et d'AD sont beaucoup trop souvent interprts en soi comme de vritables modles
explicatifs des donnes, sans que l'"analyste" ait vraiment rflchi, au plan causal, sur le
phnomne tudi. Une telle situation est bien sr scandaleuse: un modle rellement
explicatif doit avant tout avoir un fondement logique solide (il prtend traiter des causes et
des effets!) tabli par un expert. Un simple ajustement mtrique ralis par ordinateur partir
d'un pseudo-modle n'a videmment aucune valeur explicative.
Par consquent, moins de disposer ds le dpart d'un vritable modle explicatif des donnes
compatible avec les techniques que nous allons voir, mieux vaut n'employer celles-ci qu' titre
purement exploratoire, et se dfier de toutes les applications dcisionnelles que ces techniques
semblent permettre d'emble (et qui sont trs tentantes).
Modle d' Analyse de la Variance 1 facteur

1 - Exemple introductif
Un horticulteur exprimente 3 engrais diffrents sur une mme espce de plante, dont il
observe la croissance. Il a ainsi fait 3 groupes de plantes, chaque groupe correspondant
l'engrais employ.
En fin de croissance, l'horticulteur observe la taille atteinte par les plantes, et se
demande: "les diffrents engrais ont-ils induit des tailles finales diffrentes?"
Les tailles observes des plantes sont les suivantes:
groupe 1: 15 , 18 , 16 , 16 , 15.5 , 17.5
groupe 2: 17 , 19 , 19.5 , 18.5 , 20
groupe 3: 14 , 17 , 15 , 14.5 , 15.5 , 16 , 14

groupe 1
engrais n1

groupe 2

groupe 3

engrais n2

engrais n3

L'horticulteur cherche donc s'il y a un rapport entre les groupes et la disparit des
croissances des plantes. C'est--dire un rapport entre la dispersion d'une variable
quantitative (la taille des plantes) et une variable qualitative (engrais utilis).
### L'horticulteur se dit alors, avec son simple bon sens, que s'il y avait un rapport net
entre ces deux variables, il observerait des tailles de plantes disperses peu ou prou de la
manire suivante:
taille des plantes

groupe k

groupe k '

groupe k "

...c'est--dire que l'on retrouverait clairement les groupes en observant seulement la


dispersion des tailles.
L'horticulteur formule alors inconsciemment dans sa tte l'hypothse principale du
modle d'Analyse de la Variance 1 facteur: "A peu de choses prs (a de relativement
modestes perturbations prs) les plantes d'un mme groupe ont la mme taille, et
cette taille "commune" aux plantes d'un groupe varie d'un groupe l'autre si le
type d'engrais utilis a de l'importance.

2 - Le modle d'Analyse de la Variance 1 facteur


a) Notations:
rappels: moyenne et variance
Soient J observations: zj ; j = 1 J, d'un caractre Z.
On notera z la moyenne de ce caractre, dfinie par: z

1 J
zj
J i 1

On notera V(Z) ou ( Z ) la variance de Z, dfinie par: V ( Z )


2

1 J
( z j z )2
J j 1

On appellera:
Y la variable quantitative (taille des plantes)
yik la valeur de Y pour l'observation i du groupe k.
K le nombre de groupes
Ik le nombre d'observations dans le groupe k.
I le nombre total d'observations ralises ( I

k 1

1 Ik
yik
I k i 1
1 K Ik
y yik
I k 1 i 1
yk

est la moyenne de Y dans le groupe k.


est la moyenne globale de Y.

Dans l'exemple des plantes, on obtient:

y1 16. 33 ; y2 18.8 ; y3 15.14 ;

y 16.56

K
I k 1 Ik
I
remarque: y ( yik ) k yk
I k i 1
k 1 I
k 1 I
La moyenne globale est donc une moyenne des moyennes des groupes pondres
par leurs effectifs.
K

Vk ( Y ) 2k ( Y )

1
Ik

Ik

( y

ik

yk )2

i 1

groupe k.

est la variance de Y l'intrieur du

V ( Y ) 2 ( Y )

1 K Ik
( yik y )2 est la variance totale de Y.

I k 1 i 1

Dans l'exemple des plantes, on obtient:

V1 ( Y ) 1.139 ; V2 ( Y ) 1. 06 ; V3 ( Y ) 1. 05V ( Y ) 3. 27

b) Le modle:
### Il s'crit trs simplement:
yik b bk uik

...autrement dit, la taille d'une plante est vue comme la somme de trois choses: un effet
de croissance commun toutes les plantes, un effet de croissance spcifique au groupe
auquel la plante appartient et commun toutes les plantes de ce groupe, et un effet
perturbant propre cette plante particulire.
remarque: ainsi spcifi, le modle a trop de paramtres inconnus pour tre estimable de
manire bien dtermine. On rajoute donc la contrainte - assez naturelle - suivante:
K
Ik
bk 0

k 1 I
(i.e. les effets spcifiques sont en moyenne nulle; ils sont vus comme des effets
diffrentiels l'effet global)
### Dans la mesure o dans notre modle, la variable de groupe est le seul facteur
recens susceptible d'expliquer des diffrences de croissance, on considre assez
naturellement les uik comme des perturbations alatoires. Ces perturbations
matrialisent l'effet ventuel de tous les facteurs influenant Y que l'on aurait oubli dans
le modle. Pour que le modle puisse prtendre expliquer assez bien Y, il faut que les
perturbations restent relativement petites.
### On fait en outre les hypothses suivantes:
Les uik sont des alas de moyenne nulle, indpendants et de mme loi, suppose
gaussienne:
uik N ( 0 , 2 )
Ceci veut dire en particulier que les facteurs d'influence "oublis" ont une
rsultante en moyenne nulle.
### critique du modle

### Supposer qu' une modeste perturbation prs, les individus d'un groupe ont la
mme valeur de la variable Y revient clairement supposer que le groupe est
pratiquement le seul facteur susceptible d'induire vritablement une diffrence sur
Y.
- Pour un cas du mme type que notre exemple (exprience contrle), cette
hypothse peut tre rendue tout--fait raisonnable, en faisant en sorte que tous les
autres facteurs pouvant influencer fortement Y (facteurs de croissance dans notre
exemple: ensoleillement, arrosage, temprature ...) ont bien des valeurs identiques
pour tous les individus.
- Pour les cas de facteurs non contrls, les choses sont donc beaucoup moins
claires, en particulier lorsqu'entrent en jeu des phnomnes complexes entre
facteurs non contrlables (ou mme non identifis!). C'est tout particulirement le
cas en sciences sociales. Supposons par exemple que l'on se demande si le sexe
d'une personne a une influence sur son salaire (pour dpister par exemple
l'existence d'une discrimination). On dispose des salaires d'un groupe d'hommes et
de ceux d'un groupe de femmes. L'hypothse que dans l'chantillon, le sexe est le
seul facteur induisant ventuellement une diffrence dans le salaire suppose au
moins que tous les hommes et toutes les femmes de l'chantillon aient les mmes
diplmes, le mme type d'emploi dans le mme secteur, la mme anciennet, que
les salaires soient relevs au mme moment, et la limite (puisque les socits ont
des politiques salariales diffrentes) que tous ces individus travaillent dans le
mme service de la mme socit! Ceci parat bien difficile assurer. Cette
hypothse est donc totalement irraliste.
### Si l'on ne peut pas assurer que les valeurs des autres facteurs d'influence sont
gales pour tous les individus, on peut toujours considrer que leur influence fait
partie de la perturbation uik. Mais attention: l'effet rsultant de ces facteurs doit
toujours avoir les proprits normales de la part d'une perturbation alatoire:
- D'une part, une perturbation "bruitant" un modle doit rester d'amplitude
relativement faible. Si la diffrence de Y entre les groupes est vue comme le signal
interprtable du modle, le bruit perturbant ce signal ne doit pas tre trop fort,
afin que le signal reste dcelable. Le rapport du signal au bruit, qui mesure la
clart du signal (i.e. la significativit de l'effet de groupe dcel en estimant le
modle), est la base du test statistique d'analyse de la variance.
- D'autre part, le modle spcifie que l'ala doit tre le mme pour tous les
individus. Ceci quivaut thoriquement au fait que les valeurs des facteurs
d'influence "oublis" dans le modle soient distribues de la mme manire dans
les groupes.
Dans l'exemple des disparits salariales entre hommes et femmes, l'hypothse que
tous les facteurs d'influence du salaire (hormis le sexe) soient distribus de la
mme manire chez les hommes et chez les femmes est certes moins forte que
l'hypothse de leur identit partout, mais presqu'aussi irraliste pour certains
facteurs (le diplme ou le type d'emploi par exemple). Bien sr, si cette hypothse
se trouve tre fortement mise en dfaut dans la ralit du phnomne que l'on
observe, les conclusions de l'analyse perdent toute validit!

Comment vrifier si l'ala est "le mme" dans les groupes? On reprsente
graphiquement la distribution de la variable Y dans chaque groupe. D'aprs le
modle, ces deux distributions doivent tre identiques, une translation prs
correspondant l'effet de groupe.
Par exemple, dans l'tude de l'influence du sexe sur le salaire, les distributions de
salaires chez les hommes et les femmes devraient avoir rigoureusement la mme
forme:
femmes

hommes

salaires

Dans une ralit complexe, une telle hypothse apparat souvent bien peu
vraisemblable....
Pour la soutenir, il est au moins ncessaire de raliser un test statistique
correspondant cette hypothse. On se contente souvent d'un test d'galit des
dispersions (variance) de Y dans les diffrents groupes. En effet, sous l'hypothse
de normalit des perturbations uik (i.e. de Y dans chacun des groupes), ce test
suffit car l'galit des variances quivaut l'identit des distributions la moyenne
prs.
### Mais l'ala est-il vraiment gaussien?
- Lorsque l'on est dans le contexte d'une exprience contrle, o tous les
facteurs influant sur Y - part la variable de groupe - sont identiques pour tous
les individus, l'ala rsiduel matrialise des diffrences de Y dont on ne s'explique
pas la provenance. Comment alors modliser sa loi, si par dfinition il nous
chappe totalement? On suppose alors l'ala gaussien comme somme assez grande
d'effets alatoires indpendants et de mme loi (thorme central limite). Il s'agit
d'une commodit: c'est l'hypothse la moins invraisemblable a priori, mais on est
surtout conduit la faire par ignorance. Il faut cependant vrifier la plausibilit de
cette hypothse a posteriori en comparant la distribution empirique des
perturbations estimes une distribution normale de mme variance.
- Dans le cadre d'une exprience o les facteurs influenant a priori Y ne sont pas
contrlables, la distribution de Y dans chacun des groupes a bien peu de chances
d'tre gaussienne. Il n'est que de considrer le cas du salaire des hommes et des
femmes voqu plus haut: la distribution des salaires dans une population n'a
jamais srieusement pu tre modlise comme gaussienne! (Elle est parfois
rpute suivre approximativement une loi de Pareto).
Il convient dans tous les cas, surtout en l'absence d'arguments probabilistes
solides, d'effectuer un test de normalit des observations dans chacun des
groupes.

### Il reste encore un (gros) problme: mme si le modle semble pouvoir


s'ajuster trs bien aux donnes, il est bien possible que l'effet dcel du facteur de
groupe sur Y ne soit que trs indirect, et ne puisse donc pas vraiment tre
interprt en soi. Par exemple, pour les diffrences salariales, supposons que l'on
trouve un effet de groupe trs net (une diffrence de salaire moyen entre hommes
et femmes trs grande devant les diffrences l'intrieur de chaque sexe). Y a-t-il
pour autant ncessairement discrimination sexiste en matire salariale? Supposons
que l'on examine les diplmes des femmes et ceux des hommes, et que l'on y
constate une grande diffrence de niveau d'tudes entre les deux sexes, les
diffrences de salaires pourraient bien n'tre dues qu' cela. L'"effet" du sexe sur le
salaire pourrait n'tre en fait qu'un effet de diplme cach (ce facteur n'tant pas
dans le modle), si diplme gal un homme et une femme gagnaient la mme
chose Dans un tel cas, la discrimination salariale serait inexistante, alors qu'il
faudrait chercher le pourquoi d'une discrimination scolaire!
On voit que l'oubli dans le modle d'un facteur d'influence, si celui-ci est corrl
au facteur du modle, peut engendrer une interprtation totalement erronne des
"effets" dcels. On croit estimer l'effet d'un facteur, celui du modle, alors qu'on
estime en fait celui d'un autre facteur, qui est cach.
Il est possible de se prmunir dans une certaine mesure d'une telle confusion
d'effets: il suffit pour cela que tous les ventuels facteurs d'influence - hormis celui
du modle soient distribus indpendamment du facteur de groupe dans
l'chantillon. On montre en effet que dans ce cas, l'oubli de ces autres facteurs
dans le modle n'introduit pas de biais dans l'estimation des effets du facteur
incorpor dans le modle. L'effet de groupe de ce facteur peut alors tre interprt
comme tel. Il faut donc vrifier l'indpendance entre chaque facteur "oubli" et le
facteur de groupe, par exemple en faisant un test d'indpendance du chi-2. Mais il
faut aussi tre sr d'avoir bien recens tous les facteurs "oublis"!
### En conclusion, on comprend bien:
1/ pourquoi l'Analyse de la Variance est le plus souvent utilise par les botanistes
ou les industriels qui peuvent contrler leurs facteurs - que par les conomistes
ou les sociologues!
2/ pourquoi l'on voit tant, en sciences humaines en particulier, d'interprtations
erronnes, illgitimes, voire frauduleuses de rsultats de prtendues analyses
statistiques1.
c) Les estimateurs des diffrents effets
Les estimateurs des diffrents effets sont calculs de la manire (trs intuitive) suivante:

L'histoire de l'anthropomtrie (particulirement dans tout ce qui concerne la mesure de l'intelligence) regorge de telles fraudes, souvent
grossires mais parfois plus subtiles, et systmatiquement orientes vers la lgitimation de politiques discriminatoires en matire raciale, et
prtendant en donner une justification "scientifique". Mention spciale pour le best-seller amricain intitul The bell curve (Herrnstein &
Murray 1994), ouvrage pseudo-scientifique de 800 pages tentant de prouver l'infriorit intellectuelle des noirs partir d'analyses statistiques
qui ont par suite t invalides dans des revues scientifiques prestigieuses comme La Recherche, Scientific American, etc. Pour un panorama
gnral de ces fraudes, on se reportera l'excellent ouvrage "La mal-mesure de l'Homme" de Stephen Jay Gould Le livre de poche.

effet commun:
b y
effet spcifique du groupe k:
bk yk y
perturbation:
uik yik yk

Dans l'exemple des plantes, on obtient:

y1 16. 33 ; y2 18.8 ; y3 15.14 ; y 16.55


b1 0.22 ; b2 2 . 25 ; b3 1. 41

d) Critre d'influence du facteur de groupe sur Y


### L'ide est la suivante:
Si le facteur de groupe induisait des diffrences sur la variable Y, toutes autres
influences mises part, on obtiendrait une dispersion de Y qui traduirait ces groupes:
Y

groupe k

groupe k '

groupe k "

On aurait donc une dispersion entre les groupes petite par rapport la dispersion
l'intrieur des groupes.
### mesure de la dispersion:
- La dispersion est mesure par la variance.
- On peut d'ores et dj tablir une dcomposition intressante de la variance totale de
Y:

10

1 K Ik
1 K Ik
2
V ( Y ) ( yik y ) ( ( yik y k ) ( y k y ) )2
I k 1 i 1
I k 1 i 1
1 K Ik
( ( yik y k )2 ( yk y )2 2( yik y k )( yk y ) )
I k 1 i 1
1 K Ik
1 K Ik
2 K Ik
2
2
( yik yk ) ( yk y ) ( yik yk )( y k y ) )
I k 1 i 1
I k 1 i 1
I k 1 i 1

Ik 1
(

Ik
k 1 I

Ik

( yik yk )2 )
i 1

Ik
Vk ( Y )

k 1 I

Ik
Ik
2 K
2
(
y

y
)

(
y

y
)
( yik y k ) )

k
k
I k 1
k 1 I
i 1
K

Ik
2 K
2
(
y

y
)

( yk y ).0
k
I k 1
k 1 I

K
Ik
I
Vk ( Y ) k ( yk y )2
k 1 I
k 1 I
On remarque que le premier terme de cette somme est la moyenne des variances
internes aux groupes pondres par leurs effectifs, il s'agit donc d'une variance interne
moyenne, ou: variance dans les groupes. Quant au second terme, c'est clairement la
variance des moyennes des diffrents groupes, soit une variance entre les groupes.

La dcomposition ci-dessus de la variance de Y s'interprte donc tout simplement


comme:
Variance totale = Variance dans les classes + Variance entre les classes
On notera:
- la variance dans les classes:
- la variance entre les classes:

Ik
Vk ( Y )
k 1 I
K
I
V e ( Y ) k ( y k y )2
k 1 I
V d (Y )

Dans l'exemple des plantes, on obtient:

V1 ( Y ) 1.139 ; V2 ( Y ) 1. 06 ; V3 ( Y ) 1. 05
V ( Y ) 3. 27
6
5
7
Vd
V1 ( Y ) V2 ( Y ) V3 ( Y ) 1. 082
18
18
18
6
2
5
2
7
2
Ve
b1 b2 b3 2 .188
18
18
18
### Le critre et le test:

11

L'ide est la suivante: si le rapport

dispersion entre
dispersion dans

est grand, on admet la significativit

de l'influence dpiste du facteur de groupe sur la variable Y.


Formule du test
Sous l'hypothse que le facteur de groupe n'induit aucune diffrence sur Y entre les
groupes (i.e. aucun effet spcifique, autrement dit tous les bk = 0), la statistique
suivante:
V e(Y ) .K K 1
F d
V (Y ) .I I K
suit une loi bien prcise: la loi de Fisher respectivement K-1 et I-K degrs de libert,
note F(K-1,I-K).
On calcule donc la statistique F sur les observations, et l'on regarde si elle est tombe
dans une rgion "peu probable" de cette loi (i.e. par exemple une rgion dans laquelle F
ne devrait tomber que dans 5% des cas, et o la densit de probabilit est faible). Si
c'est la cas, on est enclin considrer que l'hypothse de non-influence est trop peu
plausible, et donc admettre l'hypothse d'une influence du groupe sur Y. A contrario,
si F est tombe en dehors de la rgion "peu probable", tout parat normal, et l'on n'a pas
rejeter l'hypothse de non-influence. On ne considre donc pas que le groupe ait une
influence significative sur Y.
On compare donc F au fractile d'ordre 95% de la loi F(K-1,I-K), not f0.95(K-1,I-K):

rgion "peu probable" (5%)

95%

f 0.95 (K-1,I-K)
Si F tombe dans cette rgion
l'influence du groupe est significative

Si F tombe dans cette rgion


l'influence du groupe n'est pas significative

Dans l'exemple des plantes, on obtient ainsi:

2 .188 3 3 1
2.53
1. 082 1818 3

12

Cette valeur doit tre compare f 0.95(2,15) = 3.68 . Dans ce cas, on considre donc que l'influence
dcele du groupe n'est pas significative (au seuil 5%).

Remarque: la probabilit ### de tomber dans la rgion "peu probable" sous l'hypothse
de non-influence du groupe est appele niveau du test. On a considr la valeur
"traditionnelle" ### = 5%, pour fixer les ides, mais en fait, on peut le choisir plus ou
moins arbitrairement. Prendre un niveau plus grand revient sur notre dessin largir la
rgion "peu probable" vers la gauche. En augmentant sa probabilit, on rend plus
probable notre rejet de l'hypothse de non-influence. On admettra ainsi plus facilement
l'influence du groupe sur Y.
Symtriquement, diminuer ### revient rejeter plus difficilement la non-influence du
groupe.
Le niveau ### peut donc tre interprt comme notre "peu d'attachement" l'hypothse
que l'on teste: s'il est grand, c'est qu'on est prt rejeter cette hypothse assez
facilement, et s'il est petit, c'est qu'au contraire, avant de rejeter cette hypothse, on
demandera que les observations l'infirment trs nettement. Il est conseill de faire le test
avec plusieurs valeurs pour le niveau, afin de voir si les conclusions du test se
maintiennent relativement bien, ou si les conclusions changent ds que l'on modifie le
niveau.
Parfois, le logiciel qui effectue l'analyse de la variance fournit la probabilit critique
correspondant la valeur calcule de F , c'est dire la probabilit qu'a cette valeur
d'tre dpasse:

probabilit de cette rgion =


probabilit critique

valeur calcule de F

Si cette probabilit critique est infrieure au niveau dsir, on rejette l'hypothse, sinon
on l'accepte.
Remarque sur F:
On notera que la variance qui se trouve au dnominateur de F n'est autre que la
variance des rsidus estims (qui sont de moyenne nulle):
1 K Ik
1 K Ik 2
d
2
V ( Y ) ( yik yk ) ( uik )
I k 1 i 1
I k 1 i 1

13

La variance figurant au numrateur est la part de la variance qui est en rapport avec les
diffrences de modalit du facteur. On la voit souvent comme la variance "explique" de
Y. On remarquera qu'elle est gale la variance des effets estims bj* des diffrentes
modalits:
K
I
I K
V e ( Y ) k ( y k y )2 k ( bk )2
I k 1
k 1 I
L'quation de dcomposition de la variance:
Variance totale = Variance entre les classes + Variance dans les classes
... peut aussi s'interprter comme:
Variance totale = Variance "explique" + Variance "rsiduelle"

...et F est proportionnelle un rapport du type:


var iance " exp lique"
var iance " rsiduelle"
... ou encore peut s'interprter comme:
Variance totale = Variance des effets + Variance des rsidus
...et F est proportionnelle un rapport du type:
var iance des effets
var iance des rsidus
Le test pratiqu avec F signifie que l'on considre le modle comme d'autant plus valide
que la part explique de la variance est grande devant la variance rsiduelle.
TABLEAU RESUME pour le calcul pratique du test d'ANAVAR 1
Les rsultats de l'Analyse de la Variance 1 facteur sont souvent prsents de la manire
suivante, pour en simplifier le calcul:
Somme des carrs
(SC)
K

entre groupes

( yk y )2

k 1
K Ik

dans les groupes

( y

ik

k 1 i 1
K Ik

Total

( y

ik

k 1 i 1

yk )2
y )2

Degrs de Libert
(DL)

SC / DL

statistique de Fisher
(F)

F
K-1

I-K

A
B

I-1

On remarquera que, pour SC comme pour DL, la somme "entre groupes" + "dans les
groupes" fait bien le "total".
14

15

Modle d' Analyse de la Variance 2 facteurs

1 - Exemple introductif
Notre horticulteur reconnat que la croissance d'une plante ne dpend pas que de
l'engrais utilis. Il pense que l'arrosage est un facteur important en soi, mais aussi
susceptible d'interagir avec le facteur engrais (certains engrais pouvant ventuellement
tre plus efficaces lorsqu'ils sont associs certaines frquences d'arrosage).
Il conoit alors l'exprience suivante: il forme des groupes de plantes de mme effectif,
chacun tant soumis un engrais et une frquence d'arrosage bien particuliers (de sorte
qu'il y ait un et un seul groupe de plantes soumis chaque possibilit engrais-frquence
d'arrosage). En fin de croissance, il obtient les tailles suivantes:
engrais 1

engrais 2

engrais 3

1 fois / jour 17 , 16 , 18 , 19

13 , 14 , 15 , 11

12 , 14 , 13 , 10

2 fois / jour

18 , 16 , 20 , 19

11 , 10 , 13 , 11

14 , 12 , 16 , 13

L'horticulteur se pose alors, au vu de ces observations, les questions suivantes:


- puis-je conclure que l'engrais induit, en soi, des diffrences de croissance? Si oui,
lesquelles?
- puis-je conclure que la frquence d'arrosage induit, en soi, des diffrences de
croissance? Si oui, lesquelles?
- puis-je conclure qu'outre les ventuels effets spcifiques de l'engrais en soi et de
la frquence d'arrosage en soi, il existe des effets d'interaction entre les deux? Et si
oui, lesquels?
Remarque: on a ici deux facteurs. Pour qu'il n'y ait pas de confusion entre leurs effets, il
faut qu'ils soient distribus indpendamment l'un de l'autre dans l'chantillon. Il est clair
par exemple que si un groupe d'engrais tait arros 2 fois par jour alors que les autres
ne l'taient qu'une fois, on ne pourrat plus faire la part entre l'effet de cet engrais sur la
croissance des plantes et l'effet de l'arrosage bi-quotidien. L'galit des effectifs de tous
les groupes engrais ### arrosage a prcisment pour but d'assurer cette indpendance.

16

2 - Notations
On appellera:
Y la variable quantitative (taille des plantes)
yijk la valeur de Y pour l'observation i du groupe (j,k) correspondant la
modalit j du 1er facteur et la modalit k du second.
J le nombre de modalits du 1er facteur.
K le nombre de modalits du 2nd facteur.
n le nombre d'observations dans chaque groupe.
Le nombre total d'observations ralises est clairement I = nJK.
Le nombre d'observations correspondant la modalit j du 1er facteur est: Ij. =
nK.
Le nombre d'observations correspondant la modalit k du 2nd facteur est: I.k =
nJ.
On appellera groupe j le groupe des observations caractrises par la modalit j du 1er
facteur, et groupe k le groupe des observations caractrises par la modalit k du 2nd
facteur.
moyennes:
1 n
yijk est la moyenne de Y dans le groupe (j,k).
n i 1
1 K n
y j.
yijk est la moyenne des observations de Y correspondant la
nK k 1 i 1
modalit j du 1er facteur.
1 J n
y.k
yijk est la moyenne des observations de Y correspondant la
nJ j 1 i 1
modalit k du 2nd facteur.
1 J K n
y
yijk est la moyenne globale de Y.
nJK j 1 k 1 i 1
y jk

K I
1 1 K n
j.
(
y
)

y j . . Mais on a bien

ijk
j 1 J nK k 1 i 1
k 1 I
K
K
1 1 J n
I .k
y

(
y
)

y.k . La moyenne globale est


entendu aussi:

ijk
k 1 K nJ j 1 i 1
k 1 I
donc une moyenne des moyennes des groupes pondres par leurs effectifs, quels
que soient ces groupes.

Remarque vidente: y

variances:
17

(note: toutes les variances qui suivent ne sont pas importantes pour les tests de
significativit qui seront exposs aprs. Les variances utilises pour ces tests sont
indiques l'aide du symbole ### . Les autres variances peuvent tre utilises
pour faire des tests dans le cadre de modles d'Anavar 1 l'intrieur de chaque
groupe j (ou k) sparment )
### ### variance de Y l'intrieur du groupe (j,k):
1 n
V jk ( Y ) 2jk ( Y ) ( yijk y jk )2
n i 1
K n
1
V j . ( Y ) 2j . ( Y )
###
est la variance des
( yijk y j . )2
nK k 1 i 1
observations de Y correspondant la modalit j du 1er facteur.
1 J n
V.k ( Y ) 2.k ( Y )
( yijk y.k )2
est la variance des observations de

nJ j 1 i 1
Y correspondant la modalit k du 2nd facteur.
1 J K n
2
V
(
Y
)

(
Y
)

### Variance totale de Y:


( yijk y )2
nJK j 1 k 1 i 1

Dans l'exemple des plantes, on obtient:


engrais 1
1 fois / jour

2 fois / jour

engrais 2

engrais 3

y1. 14. 33
y12 13. 25
y13 12 . 25
V12 ( Y ) 2 .1875 V13 ( Y ) 2 .1875 V1. ( Y ) 7.055

y11 17.5
V11 ( Y ) 1. 25

y2. 14 .42
y21 13. 75
y22 18. 25
y23 11. 25
V21 ( Y ) 2 .1875 V22 ( Y ) 2 .1875 V23 ( Y ) 1.1875 V2. ( Y ) 10.24

y.1 15. 625


V.1 ( Y ) 5.23

y.2 15. 75
V.2 ( Y ) 8. 44

y.3 11. 75
V.3 ( Y ) 1.94

y 14 .375
V ( Y ) 8. 65

On peut galement dfinir les variances "entre" groupes, et les variances "dans"
les groupes, pour les diffrents groupements possibles:
### Variance entre groupes (j,k) correspondant une mme modalit j:
1 K
V je. ( Y ) ( y jk y j . )2
K k 1
(c'est donc la variance des moyennes y j1 , ... , y jK )
Variance dans les groupes (j,k) correspondant une mme modalit j:
1 K n
1 K
2
V jd. ( Y )
(
y

y
)

V jk ( Y )
ijk jk K
nK k 1 i 1
k 1
18

(c'est donc la moyenne des variances Vj1(Y) , ... , VjK(Y) )


On peut vrifier que leur somme fait bien la variance de toutes les observations
correspondant la modalit j:
V j . ( Y ) V je. ( Y ) V jd. ( Y )
On peut de la mme manire calculer les variances suivantes:
### Variance entre groupes (j,k) correspondant une mme modalit k:
1 J
e
V.k ( Y ) ( y jk y.k )2
J j 1
(c'est donc la variance des moyennes y1k , ... , y Jk )
Variance dans les groupes (j,k) correspondant une mme modalit k:
1 n J
1 J
V.kd ( Y )
( yijk y jk )2 V jk ( Y )

nJ i 1 j 1
J j 1
(c'est donc la moyenne des variances V1k(Y) , ... , VJk(Y) )
On peut vrifier que leur somme fait bien la variance de toutes les observations
correspondant la modalit k:
V.k ( Y ) V.ke ( Y ) V.kd ( Y )
On peut aussi calculer (en considrant les facteurs 1 et 2 sparment):
### ### Variance entre groupes j correspondant aux modalits du facteur 1:
1 J
V( e1 ) ( Y ) ( y j . y )2
J j 1
(c'est donc la variance des moyennes y1. , ... , y J . )
Variance dans les groupes j correspondant aux modalits du facteur 1:
1 n K
V( d1 ) ( Y )
( yijk y j . )2
nK i 1 k 1
On vrifie bien que:
V ( Y ) V( e1 ) ( Y ) V( d1 ) ( Y )
###

### Variance entre groupes k correspondant aux modalits du facteur 2:


1 K
V( e2 ) ( Y ) ( y.k y )2
K k 1
(c'est donc la variance des moyennes y.1 , ... , y.K )
Variance dans les groupes k correspondant aux modalits du facteur 2:
1 n J
V( d2 ) ( Y )
( yijk y.k )2
nJ i 1 j 1

19

On vrifie bien que:

V ( Y ) V( e2 ) ( Y ) V( d2 ) ( Y )

Enfin, on peut calculer:


### Variance entre les groupes (j,k):

V e(Y )

1 J K
( y jk y )2
JK j 1 k 1

(c'est la variance de toutes les moyennes y jk )


###
###
Variance
dans
n
J
K
1
V d (Y )
( yijk y jk )2

nJK i 1 j 1 k 1
(c'est la moyenne de toutes les variances Vjk(Y))

les

groupes

(j,k):

... dont la somme fait bien la variance totale:


Ve(Y) + Vd(Y) = V(Y)

On obtient ainsi dans l'exemple des plantes:

V.1e 3.516 ; V.1d 1. 719

V1e. 5.18 ; V1d. 1.875

V.2e 6. 25 ; V.2d 2 .1875

V2e. 8. 39 ; V2d. 1.854


V( e1 ) 0.002
V( e2 ) 3. 45

V.3e 0. 25 ; V.3d 1. 6875

; V( d1 ) 8. 647
; V( d2 ) 5.2
V e 6. 786 ; V d 1.864

3 - Modle sans interactions


L'horticulteur, ngligeant de prime abord la possibilit d'interactions entre l'engrais et
l'arrosage (pour simplifier son modle), se pose seulement les questions suivantes:
- l'engrais en soi induit-il des diffrences significatives de croissance (et si oui,
lesquelles?)
- l'arrosage en soi induit-il des diffrences significatives de croissance (et si oui,
lesquelles?)
a) modle:
On considre ici le modle ainsi spcifi:

20

yijk a b j ck uijk

uijk N ( 0 , 2 )

i , j , k

(...autrement dit dans notre exemple: la croissance de la plante i du groupe (j,k)


s'exprime comme somme d'une croissance "commune" + un effet spcifique la
frquence d'arrosage j + un effet spcifique l'engrais k + une perturbation alatoire de
moyenne nulle propre la plante)
remarque: ainsi spcifi, le modle a trop de paramtres inconnus pour tre estimable de
manire bien dtermine. On rajoute donc les contraintes - assez naturelles - suivantes:
J

j 1

k 1

Elles signifient intuitivement que les effets spcifiques sont en moyenne nuls, ce qui est
naturel, car ce sont des effets "diffrentiels" par rapport l'effet "moyen" a.
### critique du modle
### Ici encore, il faut avoir de bonnes raisons de penser que les facteurs principaux
dterminant Y sont bien les deux facteurs retenus, et que le reste n'est qu'une
perturbation alatoire assez "rsiduelle" pour tre considre comme gaussienne.
Le meilleur moyen d'en tre sr est videmment de contrler tous les autres facteurs
susceptibles d'influencer Y, et de s'assurer qu'ils ont la mme valeur pour l'ensemble des
individus tudis. C'est en particulier le cas dans une grande partie des expriences
controles faites en botanique ou en mdecine.
Mais c'est en gnral totalement irralisable en sciences sociales, o les facteurs
d'influence sont le plus souvent nombreux, et o il n'y a pas d'expriences contrles
proprement parler. Comment supposer, par exemple, que le salaire n'est, une "petite"
perturbation prs, fonction que du sexe et du diplme ? Soit il faut tre assez fou pour
imaginer que les effets de l'anciennet, du secteur d'activit, du pays, de l'entreprise etc.
ne reprsentent globalement qu'une perturbation gaussienne ayant la mme distribution
dans toutes les CSP des deux sexes. Soit il faut s'tre assur que les valeurs de ces
facteurs sont les mmes pour tous les individus tudis - ce qui oblige les choisir la
limite dans la mme entreprise, ayant la mme anciennet et le mme type d'emploi! On
risque fort dans ce cas de ne pas trouver grand-monde: le contrle des facteurs est ce
niveau impossible.
On se contente donc de vrifier que les ventuels autres facteurs d'influence sont
distribus indpendamment des deux facteurs du modle, et on espre que la
perturbation qu'ils engendrent ne sera pas d'amplitude assez grande pour noyer
l'influence des deux facteurs retenus (voir pour cela les tests de significativit proposs
la fin).
### De plus, on fait ici une hypothse trs forte: les effets des facteurs 1 et 2 sur Y
s'additionnent! Autrement dit: quelle que soit la valeur fixe du facteur 1, le facteur 2
induira toujours les mmes diffrences sur Y (dans notre exemple, quel que soit
l'engrais, la frquence d'arrosage induira toujours la mme diffrence de taille entre les
plantes). C'est ngliger, comme nous l'avons dit, la possibilit d'interactions entre les
21

facteurs, c'est--dire la possibilit que ce soient des associations particulires de valeurs


de ces facteurs qui induisent des diffrences sur Y (dans l'exemple, peut-tre un engrais
n'est-il efficace qu'associ un arrosage modr, et devient-il nfaste lorsque l'on arrose
trop souvent...)
remarque: bien des modles peuvent se ramener au modle additif. Par exemple les
modles suivants:
###
modle
multiplicatif:
2
yijk . j . k .( 1 uijk )
; uijk N ( 0 , ) petit devant 1
(il suffit en effet de prendre le logarithme des deux membres, et d'admettre l'quivalence:
Log( 1 u ) u )

1 u

### modle exponentiel: yijk ( ( j ) k ) ijk ; uijk 1


En prenant le logarithme une fois, il vient: Log( yijk ) ( 1 uijk ) k Log( j ) ; et en
reprenant le logarithme, il vient:
Log Log yijk Log Log Log j Log k Log( 1 uijk )
En admettant alors que Log( 1 u ) u , on obtient un modle additif gaussien standard.
... mais ces modles continuent ne pas envisager la forme la plus gnrale d'interaction
(i.e. une interaction de forme non spcifie a priori).
b) Estimateurs:
L'estimation contrainte des diffrents paramtres donne:
a y
b j y j . y
ck y.k y

uijk
yijk y j . y.k y

Dans notre exemple:

effet commun: a* = 14.375


effets spcifiques:
arrosage: b1.* = - 0.045 ;
engrais: c1.* = 1.25
;

b2.* = + 0.045
c2.* = 1.375 ;

c3.* = -2.625

rsidus:

1 fois / jour

22

engrais 1

engrais 2

engrais 3

1.42 , 0.42 ,
2.42 , 3.42

-2.705 , -1.705 ,
-0.705 , -4.705

0.295 , 2.295 ,
1.295 , -1.705

2 fois / jour

-1.67 , -3.67 ,
0.33 , -0.67

2.205 , 0.205 ,
4.205 , 3.205

-0.795 , -1.795 ,
1.205 , -0.795

c) critres d'influence des facteurs sur Y , et test de ces influences:


Bien entendu, les effets prcdemment estims des facteurs 1 et 2 sur Y ne sont peuttre pas statistiquement significatifs, dans la mesure o ils peuvent provenir des
perturbations alatoires. Il convient donc de tester leur significativit.
La mthode est essentiellement la mme que dans le modle 1 facteur: on fonde le test
var iance " exp lique"
var iance des effets
sur des rapports de type :
, ou encore
.
var iance " rsiduelle"
var iance des rsidus
Ici, dans le test de l'influence d'un facteur en soi, la variance "explique" est la variance
de Y en rapport avec les diffrentes modalits de ce facteur, c'est--dire la variance entre
les groupes correspondant ces modalits. La variance "rsiduelle" est la variance des
rsidus.
On obtient ainsi les rgles de dcision suivantes:
### test de l'influence du 1er facteur en soi:
Les effets considrs ici sont les effets des modalits du facteur 1 en soi, c'est--dire les
bj*.
J

1 . ( b )2
J j 1 j

var iance des effets


V ( b )

Le rapport
est donc:
var iance des rsidus
V ( u )
1

(u )
nJK i
, j ,k

ijk

V( e1 ) ( Y )
V ( u )

On considre que l'influence du 1er facteur est significative (au niveau 5%)
lorsque:
V( e1 ) .( J J 1 )
F1
V ( u ).( nJK nJK J K 1 )

f 0.95 ( J 1, nJK J K 1 )

### test de l'influence du 2nd facteur en soi:


1

var iance des effets


V ( c )

Ici, Le rapport
est :
var iance des rsidus
V ( u )
1

2
K . ( ck )
k 1

nJK ( u )

ijk

i , j ,k

23

V( e2 ) ( Y )
V ( u )

On considre que l'influence du 1er facteur est significative (au niveau 5%)
lorsque:
F2

V( e2 ) .( K K 1 )
V ( u ).( nJK nJK J K 1 )

f 0.95 ( K 1, nJK J K 1 )

(Dans notre exemple, nous obtenons ainsi:

V(u*) = 4.92 ; F1 = 0.00067 < f0.95(1,20) = 4.35 ; F2 = 0.87 < f0.95(2,20) = 3.49
Donc, finalement, on accepte l'hypothse de non-influence pour chacun des facteurs...
Pourtant, regarder les donnes, il semble vident d'une part que l'engrais n'est pas
indiffrent (le troisime a l'air vraiment moins bon que les autres) et d'autre part, que
l'arrosage n'est pas indiffrent, du moins en association avec certains engrais. Notre modle
n'a pas l'air de bien rendre compte de ce qui se passe. En particulier de cette importance de
l'arrosage selon l'engrais utilis. Il faut par consquent respcifier le modle, en prvoyant la
possibilit d'interactions entre les facteurs)

24

TABLEAU RESUME pour le calcul pratique des tests d'ANAVAR 2 sans interactions
Les rsultats de l'Analyse de la Variance 2 facteurs sans interactions sont souvent
prsents de la manire suivante, pour en simplifier le calcul:

Somme des Carrs


(SC)

Degrs de Libert
(DL)

SC / DL

statistique de Fisher
(F)

nK ( y j . y )2

Effets spcifiques du
facteur 1

j 1
K

J-1

k 1

K-1

nJK - J - K +1

nJ ( y.k y )2

Effets spcifiques du
facteur 2
n

( y

ijk

Rsidus

i 1 j 1 k 1
n
J

y j . y.k y )2

( y

ijk

Total

y )2

A
C
B

F( 1 )
F( 2 )

nJK-1

i 1 j 1 k 1

4 - Modle avec interactions


L'horticulteur se dit en examinant ses observations plus attentivement, qu'il y a des
chances que l'engrais et le mode d'arrosage interfrent. Il respcifie donc son modle de
la faon suivante:
a) Modle :
yijk a b j ck d jk uijk

uijk N ( 0 , 2 )

La variable expliquer est donc vue comme la somme d'un effet commun, d'un effet
spcifique la modalit prise par le facteur 1, d'un effet spcifique la modalit prise
par le facteur 2, d'un effet d'interaction de ces deux modalits, et d'une perturbation
alatoire gaussienne nulle en moyenne.
Les paramtres tant encore plus nombreux que dans le modle sans interactions, on
doit leur imposer les contraintes "naturelles" suivantes (qui reviennent bien sparer les
rles des diffrents effets):
les effets spcifiques des modalits d'un facteur sont en moyenne nuls:
J

0 ;

j 1

k 1

les termes d'interaction sont en moyenne nuls pour chaque modalit d'un des deux
facteurs:

25

j ,

d jk 0

k ,

k 1

jk

j 1

### critique du modle:


### ce modle est l'vidence moins critiquable que le prcdent, mais il subsiste ce
ct additif des effets, qui peut paratre gnant, car la vrit, bien peu de choses sont
additives! Il ne s'agit donc que d'une faon bien particulire de regarder les observations
(il faut savoir s'en souvenir temps, avant que d'noncer des "vrits").
On remarquera ici aussi que certains modles non additifs (multiplicatifs ou
exponentiels) peuvent se ramener une formulation additive au prix d'une
transformation (par le logarithme par exemple).
### Les termes d'interaction sont assez libres quand mme. La forme de l'interaction
n'est pas formalise de manire stricte, ce qui est un grand atout de la mthode, il faut le
reconnatre, car a priori, la presque totalit des interactions deviennent dcelables dans
un tel modle.
### Il faut nanmoins toujours s'assurer que les facteurs autres que ceux retenus dans le
modle et susceptibles d'influencer notablement Y ont les mmes valeurs pour toutes les
observations (ou ne produisent globalement qu'une perturbation gaussienne de mme
distribution dans tous les groupes (j,k) forms par les deux facteurs retenus et sont
distribus indpendamment des deux facteurs du modle).
b) Estimateurs:
On obtient les estimations assez intuitives suivantes:
a y
b j y j . y
ck y.k y
d jk y jk y j . y.k y

uijk
yijk y jk

remarque: on voit bien ce qui change par rapport au modle sans interactions: les
perturbations estimes dans le modle sans interactions sont ici dcomposes en: un
terme d'interaction et un terme rsiduel de perturbation. Dans le modle sans
interactions, il est donc clair que l'on voyait - en quelque sorte - les interactions comme
du "dchet". Les effets spcifiques des modalits des facteurs ne changent pas.

Dans notre exemple, on obtient:


effet commun: a* = 14.375

26

effets spcifiques:
arrosage: b1.* = - 0.045 ;
engrais: c1.* = 1.25
;

b2.* = + 0.045
c2.* = 1.375 ;

c3.* = -2.625

interactions:
engrais 1

engrais 2

engrais 3

1 fois / jour

1.92

-2.455

0.545

2 fois / jour

-1.92

2.455

-0.545

Il semble donc que l'engrais 1 associ un arrosage journalier


produise de bons rsultats, ainsi que l'engrais 2 associ deux
arrosages quotidiens - alors que l'engrais 3, peu performant dans
l'ensemble, produit les pires rsultats lorsque l'on arrose deux fois par
jour)

c) critres d'influence des facteurs sur Y , et test de ces influences:


On utilise toujours des rapports de la forme

var iance des effets


.
var iance des rsidus

Les influences en soi des deux facteurs ne se testent donc pas exactement comme dans
le modle sans interactions. En effet, si les effets estims des facteurs en soi sont les
mmes, par contre les rsidus estims de notre modle avec interactions ne sont plus les
mmes.
On remarquera que la variance des rsidus est cette fois la variance dans les classes (i,j),
note Vd(Y).
La significativit des effets spcifiques des facteurs se teste ici de la manire suivante:
### test de l'influence du 1er facteur en soi:
J

1 . ( b )2
J j 1 j

var iance des effets


V ( b )

Ici, Le rapport
est :
var iance des rsidus
V ( u )
1

nJK ( u )

ijk

V( e1 ) ( Y )
V d (Y )

i , j ,k

On considre que l'influence du 1er facteur est significative (au niveau 5%)
lorsque:
F1

V( e1 ) . ( J J 1 )
V d . ( nJK ( n 1 ) JK )

27

f 0.95 ( J 1,( n 1 ) JK )

### test de l'influence du 2me facteur en soi:


1

var iance des effets


V ( c )

Ici, Le rapport
est :
var iance des rsidus
V ( u )
1

2
K . ( ck )
k 1

(u )
nJK i
, j ,k

ijk

V( e2 ) ( Y )
V d (Y )

On considre que l'influence du 2me facteur est significative (au niveau 5%)
lorsque:
V( e2 ) .( K K 1 )
F2 d
V . ( nJK ( n 1 ) JK )

f 0.95 ( K 1,( n 1 ) JK )

### test de significativit des effets d'interaction:


1

var iance des effets


V(d )

Ici, Le rapport
est :
var iance des rsidus
V ( u )
1

2
JK . ( d jk )
j 1

2
( uijk
)
nJK i
, j ,k

V(d )
V d (Y )

On considre qu'il y a des effets d'interaction statistiquement significatifs (au


niveau 5%) lorsque:
Fint er

V ( d ) .( JK ( J 1 )( K 1 ) )

V d .( nJK ( n 1 ) JK )

f 0.95 ( ( J 1 )( K 1 ),( n 1 ) JK )

(Dans notre exemple, on obtient ainsi:

F1

0. 002

2
1

1.864 24

0. 0016

f 0.95 ( 1,18 ) 4 . 41

18

3. 45 3

2 2 . 775 f
0.95 ( 2 ,18 ) 3. 55
24
1. 864
18
3. 34 6
2 4 . 027 f
Fint eractions
0.95 ( 2 ,18 ) 3. 55
24
1. 864
18
F2

Le facteur arrosage n'a, selon ce modle, aucune influence en soi significative au


niveau 5% sur la croissance des plantes, ainsi que le facteur engrais. Mais dans le
cas de ce dernier, c'est dj beaucoup moins net!

28

Par contre, les effets d'interaction dcels sont ce niveau globalement significatifs.
On voit donc bien l'importance qu'a la spcification du modle: le modle sans
interactions n'aboutit rien, alors que le modle avec interactions nous donne une
plus grande significativit pour l'effet spcifique de l'engrais, mais surtout dcle de
fortes influences de l'association engrais-arrosage sur la croissance des plantes.

remarques:
### Il faut bien comprendre pourquoi le test de significativit des effets spcifiques n'est
pas le mme dans le modle sans interactions et dans le modle avec interactions. Dans
le premier cas, les rsidus renferment les interactions non dceles: celles-ci agissent
donc comme un bruit supplmentaire nuisant la discrimination des groupes. Alors que
dans le second cas, les interactions tant dceles comme telles, elles sont tes du bruit
rsiduel, et les groupes n'en deviennent que plus facilement distinguables les uns des
autres.
C'est d'ailleurs le mme type d'argumentation qui explique que le test de significativit
de l'influence du facteur 1 dans ce modle, par exemple, ne soit pas le mme que celui
qu'on obtiendrait en "oubliant" le facteur 2, c'est--dire en faisant l'anavar de Y sur le
seul facteur 1. Si on faisait cette anavar un facteur, les effets du facteur 2 se
retrouveraient dans le bruit, et non dpists comme tels. La discrimination des groupes
relatifs aux modalits du facteur 1 pourrait en devenir plus difficile.
### La spcification du modle est, on l'a vu, un problme tout--fait crucial: un test
pratiqu sur les rsultats d'estimation d'un modle mal spcifi n'a aucune valeur! (tout
comme en logique: quelle est la valeur des conclusions d'une dmonstration juste fonde
sur des hypothses fausses?).
On a galement vu que le domaine de validit des modles proposs ici tait bien troit,
tant les hypothses taient fortes!
Il faut donc se mfier systmatiquement des analyses de variance prsentes et l
pour "dmontrer" la validit d'hypothses diverses et varies! Rappelons encore une fois
que cette mthode a t trs largement utilise - toujours en dehors de son domaine de
validit - par des gens peu scrupuleux, pour tablir "scientifiquement" des prjugs
sociaux et raciaux. Le vernis pseudo-scientifique apport par l'emploi de mthodes
statistiques est trompeur pour l'immense majorit des non-spcialistes (et certains
spcialistes aussi, de temps en temps). Il faut ainsi, devant une affirmation
"statistiquement prouve", toujours se demander s'il n'tait pas possible de dmontrer
son contraire en spcifiant le modle diffremment!
TABLEAU RESUME pour le calcul pratique des tests d'ANAVAR 2 avec interactions

Les rsultats de l'Analyse de la Variance 2 facteurs avec interactions sont souvent


prsents de la manire suivante, pour en simplifier le calcul:
Somme des Carrs
(SC)

Degrs de Libert
(DL)

SC / DL

Effets spcifiques du
facteur 1

nK ( y j . y )2

J-1

j 1

29

statistique de Fisher
(F)

F( 1 )

A
D

nJ ( y.k y )2

Effets spcifiques du
facteur 2

k 1

Effets d'interaction

n ( y jk y j . y.k y )2
j 1 k 1
n

Rsidus

Total

K-1

(J - 1)(K - 1)

(n - 1) J K

( y

ijk

i 1 j 1 k 1
n
J
K

( y

ijk

y jk )2
y )2

B
D
C

F( 2 )
Fint er

nJK-1

i 1 j 1 k 1

On remarquera que le tableau correspondant aux tests de significativit du modle sans


interactions s'obtient partir de celui-ci en sommant les SC et DL des effets
d'interaction et des rsidus, et en prenant la ligne ainsi agrge comme nouvelle ligne
"rsidus".

30

Bibliographie
BRAY & MAXWELL: Multivariate Analysis of Variance - SAGE University Papers, Quantitative
Applications for the Social Sciences.
GIRDEN: ANOVA: repeated measures - SAGE University Papers, Quantitative Applications for the Social
Sciences.
IVERSEN & NORPOTH: Analysis of Variance - SAGE University Papers, Quantitative Applications for the
Social Sciences.
JACKSON & BRASHERS: Random Factors in ANOVA - SAGE University Papers, Quantitative Applications
for the Social Sciences.
LEBART L., MORINEAU A., FENELON J-P.: Traitement des donnes statistiques - Dunod 1979.
SAPORTA G.:

Thories et mthodes de la statistique - Technip 1978.


Probabilits, Analyse des Donnes et Statistique - Technip 1989.

TASSI P.: Mthodes statistiques - Economica 1989.


WONNACOTT & WONNACOTT: Statistique - Economica.

LOGICIELS:
STATBOX (Grimmer logiciels, Paris);
STATLAB (SLP Statistiques, Ivry);
SPADN (CISIA, St Mand);
STATA (Stata corp. USA; E-mail: stata@stata.com)
SPSS (SPSS Inc. Chicago, USA)
LADDAD (ADDAD, Paris)

31

Vous aimerez peut-être aussi