Vous êtes sur la page 1sur 19

UNIVERSITEUNIVERSITEUNIVERSITEUNIVERSITE CATHOLIQUECATHOLIQUECATHOLIQUECATHOLIQUE DEDEDEDE L’AFRIQUEL’AFRIQUEL’AFRIQUEL’AFRIQUE DEDEDEDE L’OUESTL’OUESTL’OUESTL’OUEST

UNITEUNITEUNITEUNITE UNIVERSITAIREUNIVERSITAIREUNIVERSITAIREUNIVERSITAIRE DUDUDUDU TOGOTOGOTOGOTOGO

DUDUDUDU TOGOTOGOTOGOTOGO UCAO-UUT

UCAO-UUT

\Ç|à|tà|ÉÇ\Ç|à|tà|ÉÇ\Ç|à|tà|ÉÇ\Ç|à|tà|ÉÇ õõõõ Ä:TÇtÄçáxÄ:TÇtÄçáxÄ:TÇtÄçáxÄ:TÇtÄçáx wxwxwxwx ÄtÄtÄtÄt itÜ|tÇvxitÜ|tÇvxitÜ|tÇvxitÜ|tÇvx õõõõ DDDD xàxàxàxà õõõõ EEEE ytvàxâÜáytvàxâÜáytvàxâÜáytvàxâÜá

Albert K. ETOUDJI

Ingénieur Statisticien Economiste

E-mail : etoudji2000@yahoo.fr Cel : (+228) 929 43 46 / 942 32 97

Sommaire :

Introduction

2

I- Analyse de la Variance à 1 facteur

4

1.1 - Exemple introductif

4

1.2 Formalisation du modèle d'Analyse de la Variance à 1 facteur

4

II- Analyse de la Variance à 2 facteurs

9

2.1 1 - Exemple introductif

9

2.2 Formalisation du modèle d'Analyse de la Variance à 2 facteurs

9

2.3 - Modèle sans interactions

12

IINNTTRROODDUUCCTTIIOONN

L'Analyse de la Variance (à 1 ou à plusieurs facteurs) forme avec l'Analyse Factorielle Discriminante un corpus de méthodes d'étude des rapports entre variables quantitatives et variables qualitatives. La situation est au départ la suivante: On suppose être en présence d'un certain nombre d'unités statistiques (appelées individus) décrites par des variables quantitatives. Ces descriptions sont mises sous forme de tableau statistique.

Par ailleurs, on dispose, sur ces mêmes unités statistiques, de groupement en classes (ou ce qui revient au même, d'observations qualitatives)

Pour chacune de ces méthodes, il y a une variable particulière censée être explicable à partir des autres. En Analyse de la Variance, il n'y a qu'une variable quantitative, et c'est cette variable que l'on cherche à "expliquer" à partir des variables de classe (qualitatives), tandis qu'en Analyse Discriminante, c'est la variable de classe qui est seule, et que l'on essaie d'"expliquer" à partir des variables quantitatives.

Le principe d'étude adopté est globalement le même dans les deux cas de figure: On cherche les rapports pouvant exister entre la dispersion des individus du point de vue des variables quantitatives et les groupements de ces individus en classes.

Le principe intuitivement énoncé ci-dessus montre bien que l'outil utilisé sera d'ordre métrique (il est fondé sur des mesures de dispersion). Or, ces techniques semblent pourtant s'être donné une vocation "explicative", donc d'ordre plutôt logique, au sens où elles essaient d'expliquer (puis de prédire) les groupements par les descriptions quantitatives ou l'inverse. Cette contradiction apparente est cependant facile à résoudre: c'est l'écriture (sous forme linéaire) d'un modèle causal, issu d'une réflexion sur un plan purement logique, qui peut donner une valeur explicative aux résultats. L'outil métrique, lui, ne fait en définitive qu'ajuster au mieux ce modèle aux données. Si le modèle est absurde, l'ajustement aura beau sembler bon, les résultats n'auront aucune valeur explicative.

Prenons un exemple simple: pour un grand nombre d'individus âgés, on relève le fait ou non d'avoir développé une tumeur cancéreuse au poumon (variable Y qualitative), ainsi que la consommation mensuelle moyenne de cigarettes au cours de leur vie (variable X quantitative) antérieurement à l'apparition de la tumeur s'il y en a eu une. Statistiquement, ces variables sont très liées. L'Analyse de Variance par exemple pourrait bien le montrer. Néanmoins, cette AV peut correspondre à l'ajustement de deux modèles causaux bien distincts:

Modèle causal 1:

Y = f(X)

(attraper un cancer du poumon est fonction de la consommation de cigarettes)

Modèle causal 2:

X = f(Y)

(la consommation moyenne de cigarettes au cours de la vie dépend du fait qu'on a attrapé par suite un cancer du poumon)

De ces deux modèles, seul le premier est pertinent, le second inversant la cause et l'effet. Par conséquent, bien que l'ajustement de ces deux modèles aux données aboutisse exactement à la même opération statistique, seul le modèle 1 est explicatif.

Malgré cette évidence, on ne peut que constater que les résultats fournis par les techniques d'AV et d'AD sont beaucoup trop souvent interprétés en soi comme de véritables modèles

- ANOVA à 1 et 2 facteurs -

Par Albert K. ETOUDJI, Ingénieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

2
2

explicatifs des données, sans que l'"analyste" ait vraiment réfléchi, au plan causal, sur le phénomène étudié. Une telle situation est bien sûr scandaleuse: un modèle réellement explicatif doit avant tout avoir un fondement logique solide (il prétend traiter des causes et des effets!) établi par un expert. Un simple ajustement métrique réalisé par ordinateur à partir d'un pseudo-modèle n'a évidemment aucune valeur explicative.

Par conséquent, à moins de disposer dès le départ d'un véritable modèle explicatif des données compatible avec les techniques que nous allons voir, mieux vaut n'employer celles-ci qu'à titre purement exploratoire, et se défier de toutes les applications décisionnelles que ces techniques semblent permettre d'emblée (et qui sont très tentantes).

II-- AANNAALLYYSSEE DDEE LLAA VVAARRIIAANNCCEE AA 11 FFAACCTTEEUURR

1.1 - Exemple introductif

Un horticulteur expérimente 3 engrais différents sur une même espèce de plante, dont il observe la croissance. Il a ainsi fait 3 groupes de plantes, chaque groupe correspondant à l'engrais employé. En fin de croissance, l'horticulteur observe la taille atteinte par les plantes, et se demande: "les différents engrais ont-ils induit des tailles finales différentes?"

Les tailles observées des plantes sont les suivantes:

groupe 1: 15 , 18 , 16 , 16 , 15.5 , 17.5 groupe 2: 17 , 19 , 19.5 , 18.5 , 20 groupe 3: 14 , 17 , 15 , 14.5 , 15.5 , 16 , 14

L'horticulteur cherche donc s'il y a un rapport entre les groupes et la disparité des croissances des plantes. C'est-à-dire un rapport entre la dispersion d'une variable quantitative (la taille des plantes) et une variable qualitative (engrais utilisé).

L'horticulteur formule alors inconsciemment dans sa tête l'hypothèse principale du modèle d'Analyse de la Variance à 1 facteur: "A peu de choses près (a de relativement modestes perturbations près) les plantes d'un même groupe ont la même taille, et cette taille "commune" aux plantes d'un groupe varie d'un groupe à l'autre si le type d'engrais utilisé a de l'importance.

1.2 Formalisation du modèle d'Analyse de la Variance à 1 facteur

a) Notations:

Rappels: moyenne et variance

Soient J observations: z j ; j = 1 à J, d'un caractère Z.

On notera z la moyenne de ce caractère, définie par: z

=

On notera V(Z) ou 2 ( Z ) la variance de Z, définie par: V

(

On appellera:

Y

la variable quantitative (taille des plantes) la valeur de Y pour l'observation i du groupe k.

y ik

K le nombre de groupes

I k le nombre d'observations dans le groupe k.

I

le nombre total d'observations réalisées

(

I

=

K

k = 1

I k

y

k

=

1

I

k

I k

i = 1

y

ik

est la moyenne de Y dans le groupe k.

)

1

J

Z

J

i = 1

)

=

z j

1

J

J

j = 1

(

z

j

z

)

2

y

=

1

I

K

I

k

∑∑

k =

1

i

=

1

y ik

est la moyenne globale de Y.

Dans l'exemple des plantes, on obtient:

y =

1

16.33;

y =

2

18.8;

y =

3

15.14

Remarque: y

=

K

1

k =

I

k

I

(

1

I

k

I

k

i =

1

y ik

)

=

;

K

k =

1

y = 16.56 I k y k I
y
= 16.56
I
k
y
k
I

La moyenne globale est donc une moyenne des moyennes des groupes pondérées par leurs effectifs.

1

I k

i = 1

V ( Y ) = k k. 2 V ( Y ) =
V
(
Y
)
=
k
k.
2
V
(
Y
)
=

2

 

k

(

Y

)

=

(

Y

)

=

I

1

k

K

( y

I

k

ik

y

k

)

2

est la variance de Y à l'intérieur du groupe

est la variance totale de Y.

1.05

;

V ( Y )

=

3.27

I

y

ik

y

)

2

 

;

V

3

(

Y

)

=

y

ik

=

b

+

b

k

+

u

ik

∑∑

k =

1

i

=

1

(

= 1.06

Dans l'exemple des plantes, on obtient:

V

1

(

Y

)

= 1.139

;

V

2

(

Y

)

b) Le modèle:

Il s'écrit très simplement:

Autrement dit, la taille d'une plante est vue comme la somme de trois choses: un effet de croissance commun à toutes les plantes (b), un effet de croissance spécifique au groupe auquel la plante appartient et commun à toutes les plantes de ce groupe (b k ), et un effet perturbant propre à cette plante particulière (u ik ).

Remarque: Ainsi spécifié, le modèle a trop de paramètres inconnus pour être estimable de manière bien déterminée. On rajoute donc la contrainte - assez naturelle -

suivante:

sont vus comme des effets différentiels à l'effet global)

= 0 (c'est-à-dire que les effets spécifiques sont en moyenne nulle; ils

K

k = 1

I

k

I

k

b

Dans la mesure où dans notre modèle, la variable de groupe est le seul facteur recensé susceptible d'expliquer des différences de croissance, on considère assez naturellement les u ik comme des perturbations aléatoires. Ces perturbations matérialisent l'effet éventuel de tous les facteurs influençant Y que l'on aurait oublié dans le modèle. Pour que le modèle puisse prétendre expliquer assez bien Y, il faut que les perturbations restent relativement petites. On fait donc les hypothèses suivantes:

Les u ik sont des aléas de moyenne nulle, indépendants et de même loi, supposée

gaussienne:

d'influence

"oubliés" ont une résultante en moyenne nulle.

u

ik

N

(0,

2 )

.

Ceci

veut

dire

en

particulier

que

les

facteurs

c) Les estimateurs des différents effets

Les estimateurs des différents effets sont calculés de la manière (très intuitive) suivante:

 

effet commun:

 

b

=

y

effet spécifique du groupe k:

   
 

b

 

k

=

y

k

y

perturbation:

 

u

ik

=

y

ik

 

y

k

y

2

= 18.8

;

y

3

= 15.14

;

y

= 16.55

b

2

=

2 25

.

;

b

3

=

1 41

.

 

Dans l'exemple des plantes, on obtient:

y

b

1

1

=

=

16. 33

0 22

.

;

;

d) Critère d'influence du facteur de groupe sur Y

L'idée est la suivante:

Si le facteur de groupe induisait des différences sur la variable Y, toutes autres influences mises à part, on obtiendrait une dispersion de Y qui traduirait ces groupes: On aurait donc une dispersion entre les groupes petite par rapport à la dispersion à l'intérieur des groupes.

Mesure de la dispersion:

- La dispersion est mesurée par la variance.

- On peut d'ores et déjà établir une décomposition intéressante de la variance totale de Y:

V

(

Y

) =

=

=

=

=

=

1

I

1

I

1

I

K

k = 1

k = 1

k = 1

K

k = 1

K

1

K

I

∑∑

K I

∑∑

K I k

∑∑

k

(

y

ik

y

)

2

=

1 I ∑∑

k

K

I

(( y

ik

k

)

+

(

y

k

 

y

))

2

y

ik

 

y

k

)(

y

k

y

))

 

2

 

K

I

k

)

2 +

∑∑

(

y

ik

y

k

)(

y

k

 

y

 

I

k

=

1

i

=

1

 

2

K

I

k

 

y

)

2

+

(

y

k

y

)

(

y

ik

 

I

k

=

1

 

i

=

1

y

2(

y

k

y

).0

k =

i =

1

k

=

1

i

=

1

k

 

((

y

ik

 

y

k

)

2

+

(

y

k

y

)

2

+

i =

1

 

1

I

 

K

 

I

k

 

(

y

ik

y

k

)

2

+

∑∑

(

y

k

i =

1

 

k

=

1

i

=

1

 

1

I

I

k

K

I

(

(

y

ik

 

y

k

)

2

)

+

k

I

(

 

k

i

=

1

k

=

1

 

K

2

V

(

Y

)

+

 

I

k

(

)

2

+

   

y

k

y

I

 

k

=

1

I

 

K

V

(

Y

)

+

   

I

k

(

)

2

 

 

y

k

y

k = 1

I

k

I

I

k

I k

I

k

I

k

k

=

1

I

y

k

K

(

k = 1

y

k = 1 I k I I k I k I k I k k =

))

y

k

))

On remarque que le premier terme de cette somme est la moyenne des variances internes aux groupes pondérées par leurs effectifs, il s'agit donc d'une variance interne moyenne, ou:

variance dans les groupes. Quant au second terme, c'est clairement la variance des moyennes des différents groupes, soit une variance entre les groupes.

La décomposition ci-dessus de la variance de Y s'interprète donc tout simplement comme:

Variance totale = Variance dans les classes + Variance entre les classes

On notera:

- la variance dans les classes:

- la variance entre les classes:

Dans l'exemple des plantes, on obtient:

V

V

d

(

Y

)

e )

(

Y

=

=

K

k = 1

K

k = 1

I

k

I

V

k

(

Y

)

I

k

I

(

y

k

y

V Y

(

V

1

(

Y

)

)

V d

=

V

e

=

=

=

6

18

6

18

1 139

.

3 27

.

;

V

1

(

Y

)

+

b

2 5

1 +

18

V

2

(

Y

)

5

18

V

2

(

Y

b

2

2 7

+

18

=

) +

b

3

2

1 06

.

;

7

18

=

V

3

(

Y

)

2 188

.

V

3

=

(

Y

)

=

1 082

.

)

2

1 05

.

Le critère et le test:

L'idée est la suivante: si le rapport dispersion

entre

dispersion dans

est grand, on admet la significativité de

l'influence dépistée du facteur de groupe sur la variable Y.

Formule du test Sous l'hypothèse que le facteur de groupe n'induit aucune différence sur Y entre les groupes (i.e. aucun effet spécifique, autrement dit tous les b k = 0), la statistique suivante:

e V ( Y ) . K K d V ( Y ) . I
e
V
(
Y
)
.
K K
d
V
(
Y
)
.
I I

F

1 suit une loi bien précise: la loi de Fisher à respectivement K-1 et I-K K

=

degrés de liberté, notée F(K-1,I-K).

On calcule donc la statistique F sur les observations, et l'on regarde si elle est tombée dans une région "peu probable" de cette loi (i.e. par exemple une région dans laquelle F ne devrait tomber que dans 5% des cas, et où la densité de probabilité est faible). Si c'est la cas, on est enclin à considérer que l'hypothèse de non-influence est trop peu plausible, et donc à admettre l'hypothèse d'une influence du groupe sur Y. A contrario, si F est tombée en dehors de la région "peu probable", tout paraît normal, et l'on n'a pas à rejeter l'hypothèse de non- influence. On ne considère donc pas que le groupe ait une influence significative sur Y.

On compare donc F au fractile d'ordre 95% de la loi F(K-1,I-K), noté f 0.95 (K-1,I-K):

Dans l'exemple des plantes, on obtient ainsi:

2 . 188 3 3 1 F = = 2 53 . 1 . 082
2
. 188 3 3
1
F =
= 2 53
.
1 .
082 18 18
3

Cette valeur doit être comparée à f 0.95 (2,15) = 3.68 . Dans ce cas, on considère donc que l'influence décelée du groupe n'est pas significative (au seuil 5%).

Exemple2 : Existe-t-il un lien entre le revenu d’un ménage et la zone habitée? Pour répondre à cette question, un étudiant collecte des informations sur le revenu de 20 ménages dans trois zones différentes (zone 1, zone 2, zone 3). Dans cet exemple, la variable discriminante est la zone. Nous allons donc séparer l’échantillon en trois sous groupes : la zone1, la zone 2 et la zone 3. Pour chaque groupe, nous pouvons calculer la moyenne, la variance et l’écart-type.

Zone

Effectif

Moyenne

Variance

Ecart-type

Zone 1

6

3,28

1,37

1,17

Zone 2

9

21,82

108,92

10,44

Zone 3

5

132,33

824,63

28,72

On calcule ensuite la variance intra classe et la variance interclasse. Dans notre exemple, on a :

5*824,63

6*1,37

+

9*108,92

+

V

int ra

=

20

=

255,58

.

Pour calculer la variance interclasse, il faut d’abord calculer le revenu moyen de tout

l’échantillon.

6*3, 28

+

9*21,82

+

5*132,33

Re

venu moyen =

20

=

43,89

.

V

int er

=

6*(3,28

43,89)

2

+

9*(21,82

43,89)

2

+

5*(132,33

43,89)

2

20

=

2669,35

.

Vous

pouvez vérifier que la somme des deux variances donne la variance totale.

Nous déterminons enfin la statistique du test :

V

inter

/

k

1

V

intra

/

n

k

. Ici k=3 et n=20 donc la valeur

calculée est 88,78. Cette statistique suit une loi à respectivement k-1 et n-k degrés de liberté,

notée F(k-1,n-k). En lisant la table du F(2,17), on constate que la valeur critique

3,59 ; ce qui est inférieur à la valeur calculée. On conclut donc qu’au seuil 1 de 5% le revenu d’un ménage dépend de sa zone de résidence.

à 5% est :

1 Le risque n’est pas forcément fixé à 5% ; on peut aussi choisir 1% , 10%, … Pour obtenir rapidement la valeur théorique, tapez dans une cellule de Excel = INVERSE.LOI.F(risque;ddl1,ddl2)

IIII-- AANNAALLYYSSEE DDEE LLAA VVAARRIIAANNCCEE AA 22 FFAACCTTEEUURRSS

2.1 - Exemple introductif

Notre horticulteur reconnaît que la croissance d'une plante ne dépend pas que de l'engrais utilisé. Il pense que l'arrosage est un facteur important en soi, mais aussi susceptible d'interagir avec le facteur engrais (certains engrais pouvant éventuellement être plus efficaces lorsqu'ils sont associés à certaines fréquences d'arrosage). Il conçoit alors l'expérience suivante: il forme des groupes de plantes de même effectif, chacun étant soumis à un engrais et une fréquence d'arrosage bien particuliers (de sorte qu'il y ait un et un seul groupe de plantes soumis à chaque possibilité engrais-fréquence d'arrosage). En fin de croissance, il obtient les tailles suivantes:

 

engrais 1

engrais 2

engrais 3

1 fois / jour

17 , 16 , 18 , 19

13

, 14 , 15 , 11

12

, 14 , 13 , 10

2 fois / jour

14 , 12 , 16 , 13

18

, 16 , 20 , 19

11

, 10 , 13 , 11

L'horticulteur se pose alors, au vu de ces observations, les questions suivantes:

1. Puis-je conclure que l'engrais induit, en soi, des différences de croissance? Si oui,

lesquelles?-

2. Puis-je conclure que la fréquence d'arrosage induit, en soi, des différences de croissance? Si oui, lesquelles?

3. Puis-je conclure qu'outre les éventuels effets spécifiques de l'engrais en soi et de la fréquence d'arrosage en soi, il existe des effets d'interaction entre les deux? Et si oui, lesquels?

Remarque: on a ici deux facteurs. Pour qu'il n'y ait pas de confusion entre leurs effets, il faut qu'ils soient distribués indépendamment l'un de l'autre dans l'échantillon. Il est clair par exemple que si un groupe d'engrais était arrosé 2 fois par jour alors que les autres ne l'étaient qu'une fois, on ne pourraît plus faire la part entre l'effet de cet engrais sur la croissance des plantes et l'effet de l'arrosage bi-quotidien. L'égalité des effectifs de tous les groupes engrais arrosage a précisément pour but d'assurer cette indépendance.

2.2 Formalisation du modèle d'Analyse de la Variance à 2 facteurs

On appellera:

Y

y ijk

la variable quantitative (taille des plantes) la valeur de Y pour l'observation i du groupe (j,k) correspondant à la modalité j du 1er

facteur et à la modalité k du second.

J

le nombre de modalités du 1er facteur.

K

le nombre de modalités du 2nd facteur.

n

le nombre d'observations dans chaque groupe.

Le nombre total d'observations réalisées est clairement I = nJK. Le nombre d'observations correspondant à la modalité j du 1er facteur est: I j. = nK. Le nombre d'observations correspondant à la modalité k du 2nd facteur est: I .k = nJ.

On appellera groupe j le groupe des observations caractérisées par la modalité j du 1er facteur, et groupe k le groupe des observations caractérisées par la modalité k du 2nd facteur.

moyennes:

y

jk

y

j

.

=

=

1

n

n

i = 1

y

ijk

1

nK

K

n

∑∑

k =

1

i

=

1

est la moyenne de Y dans le groupe (j,k).

y

ijk

est la moyenne des observations de Y correspondant à la

modalité j du 1er facteur.

y

. k

=

1

nJ

J

n

∑∑

j =

1

i

=

1

y

ijk

est la moyenne des observations de Y correspondant à la

modalité k du 2nd facteur.

y

=

1

nJK

J

K

n

∑∑∑

j =

1

k

=

1

i

=

1

y

ijk

est la moyenne globale de Y.

Remarque évidente:

entendu aussi:

y

=

y

K

k =

1

=

1

K

K

n K

J

1

1

(

∑∑

y ijk

)

J

i =

n K

k =

1

1

∑∑

y ijk

)

=

j

=

1

i

=

1

k

=

1

(

j =

1 J

1

nJ

nK

= ∑ k = 1 I . k y . k I
=
k =
1
I
.
k
y
. k
I
I j . y j . I
I
j .
y
j .
I

.

Mais on a bien

. La moyenne globale est

donc une moyenne des moyennes des groupes pondérées par leurs effectifs, quels que soient ces groupes.

variances:

(note: toutes les variances qui suivent ne sont pas importantes pour les tests de significativité qui seront exposés après. Les variances utilisées pour ces tests sont

. Les autres variances peuvent être utilisées pour

faire des tests dans le cadre de modèles d'Anavar 1 à l'intérieur de chaque groupe j

indiquées à l'aide du symbole

(ou k) séparément )

variance de Y à l'intérieur du groupe (j,k):

(

1

n

i = 1

2

j

.

(

Y

)

V

jk

=

Y

1

)

nK

=

K

n

2

jk

(

Y

)

=

y

j

.

n

)

2

∑∑∑∑V

j

.

(

Y

)

∑∑

k =

1

i

=

1

(

y

ijk

=

(

y

ijk

y

jk

)

2

est la variance des observations de

Y correspondant à la modalité j du 1er facteur.

V

nJ

correspondant à la modalité k du 2nd facteur.

Variance totale de Y:

1

J

n

.

k

(

Y

)

2

.

k

(

Y

)

∑∑

j =

1

V

i

(

=

1

Y

(

)

y

ijk

=

y

2

(

.

k

Y

)

2

)

=

=

est la variance des observations de Y

1

J

K

n

∑∑∑

j =

1

k

=

1

i

=

1

(

y

ijk

y

)

2

=

nJK Dans l'exemple des plantes, on obtient:

   

engrais 1

   

engrais 2

   

engrais 3

   
   

=

17 5

   

=

13 25

   

y

=

12 25

   

y

= 14 33

.

 

1 fois / jour

 

y

V

11

11

(

Y

)

.

=

1 25

.

 

y

V

12

12

(

Y

)

.

=

2 1875

.

13

V

13

(

Y

)

.

=

2 1875

.

1

.

V

1

.

(

Y

)

.

= 7 055

   

= 13 75

   

=

18 25

   

=

11 25

   

y

= 14 42

.

 

2 fois / jour

y

V

21

21

(

Y

)

.

= 2 1875

.

y

V

22

22

(

Y

)

.

=

2 1875

.

 

y

V

23

23

(

Y

)

.

=

1 1875

.

2

V

2

.

(

.

Y

)

= 10 24

.

   

y

.

1

=

15 625

.

 

y

.

2

= 15 75

.

   

y

.

3

= 11 75

.

   

y = 14 375

.

V

.

1

(

Y

)

=

5 23

.

V

.

2

(

Y

)

.

= 8 44

V

.

3

(

Y

)

.

= 1 94

V

(

Y

)

= 8 65

.

On peut également définir les variances "entre" groupes, et les variances "dans" les groupes, pour les différents groupements possibles:

Variance entre groupes (j,k) correspondant à une même modalité j:

e

j .

V

(

Y

) =

1

K

K

k = 1

(

y

jk

y

j .

)

2

(c'est donc la variance des moyennes

Variance dans les groupes (j,k) correspondant à une même modalité j:

y

j1

,

,

y

jK

)

1

K

n

d

V

j .

(

Y

) =

∑∑

(

y

ijk

y

jk

nK (c'est donc la moyenne des variances V j1 (Y) ,

k

=

1

i

=

1

2

) =

1

K

K

=

1

k

V

jk

, V jK (Y) )

(

Y

)

On peut vérifier que leur somme fait bien la variance de toutes les observations correspondant à la modalité j:

V

j

.

(

Y

) =

e

.

V

j

(

Y

) +

d

.

V

j

(

Y

)

On peut de la même manière calculer les variances suivantes:

Variance entre groupes (j,k) correspondant à une même modalité k:

V

.

e

k

(

Y

) =

1

J

J

j = 1

(

y

jk

y

.

k

)

2

(c'est donc la variance des moyennes

y

1k

,

,

y

Jk

)

Variance dans les groupes (j,k) correspondant à une même modalité k:

V

.

d

k

(

Y

) =

1

nJ

n

J

∑∑

i

=

1

j

=

1

(

y

ijk

y

jk

2

) =

1

J

J

=

1

j

V

jk

(

(c'est donc la moyenne des variances V 1k (Y) ,

Y

)

, V Jk (Y) )

On peut vérifier que leur somme fait bien la variance de toutes les observations correspondant à la modalité k:

V

.

k

(

Y

) =

V

.

e

k

(

Y

) +

d

V

. k

(

Y

)

On peut aussi calculer (en considérant les facteurs 1 et 2 séparément):

Variance entre groupes j correspondant aux modalités du facteur 1:

V

(

e

1

)

(

Y

)

=

1

J

J

j = 1

(

y

j

.

y

)

2

(c'est donc la variance des moyennes

y

1.

,

,

y

J.

)

Variance dans les groupes j correspondant aux modalités du facteur 1:

On vérifie bien que:

V

(

d

1

)

V

(

Y

)

Y

( )

=

1

nK

n K

∑∑

1

k

1

i =

=

=

V

(

e

1

)

(

Y

)

(

y

+

ijk

V

(

d

1

)

y

j

(

Y

.

)

)

2

Variance entre groupes k correspondant aux modalités du facteur 2:

V

(

e

2

)

(

Y

)

=

(c'est donc la variance des moyennes

1

K

y

.

1

K

k

,

1

=

(

y

. k

,

y

.K

y

)

)

2

Variance dans les groupes k correspondant aux modalités du facteur 2:

1

n J

V

(

d

2

V

)

(

Y

) =

(

Y

)

=

 

∑∑

(

 

)

2

y

ijk

y

.

k

 

i

=

1

j

=

1

 

e

 

d

 

(

2

)

(

Y

)

+

V

(

2

)

(

Y

)

 

1

 

J

K

 

V

e

(

Y

) =

JK

∑∑

 

j

=

1

k =

1

 

y jk )

 
 

V

d

(

Y

) =

 

1

 

nJ

V

nJK

(

y

jk

y

)

2

n

J

K

∑∑∑

i

=

1

j

=

1

k

=

1

( y

On vérifie bien que:

Enfin, on peut calculer:

Variance entre les groupes (j,k):

(c'est la variance de toutes les moyennes

Variance dans les groupes (j,k):

ijk

(c'est la moyenne de toutes les variances V jk (Y))

dont la somme fait bien la variance totale:

V e (Y) +

V d (Y) =

V(Y)

On obtient ainsi dans l'exemple des plantes:

e

.

e

.

V

1

V

2

V

(

V

(

e

1

e

2

=

=

)

)

5

8

=

=

.

.

18

39

;

;

0 002

.

3 45

.

V

1

d

.

d

.

V

2

;

;

=

=

1 875

.

1 854

.

V

(

d

1

V

(

d

2

)

)

=

=

8 647

.

5 2

.

V

e

= 6.786

;

V

d

= 1.864

2.3 - Modèle sans interactions

V

.

V

.

V

.

e

1

e

2

e

3

=

=

=

3

6

0

516

.

. ;

25

25

. ;

;

y

jk

)

2

d

1

V

V

.

V

.

.

d

2

d

3

=

=

=

.

.

.

1 719

2 1875

1 6875

L'horticulteur, négligeant de prime abord la possibilité d'interactions entre l'engrais et l'arrosage (pour simplifier son modèle), se pose seulement les questions suivantes:

- l'engrais en soi induit-il des différences significatives de croissance (et si oui, lesquelles?)

- l'arrosage en soi induit-il des différences significatives de croissance (et si oui, lesquelles?)

a) modèle:

On considère ici le modèle ainsi spécifié:

= a + b + c + u ; u N (0, 2 ) i
=
a
+
b
+
c
+
u
;
u
N
(0,
2 )
i
,
j k
,
y ijk
j
k
ijk
ijk

Autrement dit dans notre exemple: la croissance de la plante i du groupe (j,k) s'exprime comme somme d'une croissance "commune" + un effet spécifique à la fréquence d'arrosage j + un effet spécifique à l'engrais k + une perturbation aléatoire de moyenne nulle propre à la plante)

Remarque: ainsi spécifié, le modèle a trop de paramètres inconnus pour être estimable de manière bien déterminée. On rajoute donc les contraintes - assez naturelles - suivantes:

J

1

j =

b

j

=

0

;

K

=

k

1

c

k

=

0

Elles signifient intuitivement que les effets spécifiques sont en moyenne nuls, ce qui est naturel, car ce sont des effets "différentiels" par rapport à l'effet "moyen" a.

b) Estimateurs:

L'estimation contrainte des différents paramètres donne:

effet commun: a * = 14.375 effets spécifiques:

a = y b = y y j j . c = y y k
a
= y
b
= y
y
j
j .
c
= y
y
k
. k
u
=
y
y
y
+
y
ijk
ijk
j
.
.
k

Dans notre exemple:

arrosage:

engrais:

b 1. * =

c 1. * =

résidus:

1

fois / jour

2

fois / jour

- 0.045

;

b 2. * =

+ 0.045

1.25

;

c 2. * =

1.375

;

c 3. * =

-2.625

engrais 1

engrais 2

engrais 3

1.42 , 0.42 ,

-2.705 , -1.705 ,

0.295

, 2.295 ,

2.42

, 3.42

-0.705 , -4.705

1.295

, -1.705

-1.67 , -3.67 ,

2.205 , 0.205 ,

-0.795 , -1.795 ,

0.33

, -0.67

4.205 , 3.205

1.205

, -0.795

c) critères d'influence des facteurs sur Y , et test de ces influences:

Bien entendu, les effets précédemment estimés des facteurs 1 et 2 sur Y ne sont peut-être pas statistiquement significatifs, dans la mesure où ils peuvent provenir des perturbations aléatoires. Il convient donc de tester leur significativité.

La méthode est essentiellement la même que dans le modèle à 1 facteur: on fonde le test

sur des rapports de type : var var

iance

" exp

liquée

iance

"

résiduelle

"

"

, ou encore

var

iance des effets

var iance des résidus .

Ici, dans le test de l'influence d'un facteur en soi, la variance "expliquée" est la variance de Y en rapport avec les différentes modalités de ce facteur, c'est-à-dire la variance entre les groupes correspondant à ces modalités. La variance "résiduelle" est la variance des résidus.

On obtient ainsi les règles de décision suivantes:

test de l'influence du 1er facteur en soi:

Les effets considérés ici sont les effets des modalités du facteur 1 en soi, c'est-à-dire les

b j *.

Le rapport

var

iance des effets

résidus est donc: V b

u

(

)

V

(

)

var iance des

=

J 1 2 ∑ ( b ) J . j j = 1 1 2
J
1
2
(
b
)
J .
j
j = 1
1
2
(
u
)
nJK
ijk
i ,
j k
,

=

e (

(

1 )

(

V

V

u

Y

)

)