Vous êtes sur la page 1sur 19

UNIVERSITE CATHOLIQUE DE LAFRIQUE DE LOUEST

UNITE UNIVERSITAIRE DU TOGO

UCAO-UUT

\||t| :Ttx wx t it|tvx D x E ytvx


Albert K. ETOUDJI
Ingnieur Statisticien Economiste
E-mail : etoudji2000@yahoo.fr Cel : (+228) 929 43 46 / 942 32 97 Sommaire : Introduction ............................................................................................................................................................. 2 I- Analyse de la Variance 1 facteur ...................................................................................................................... 4 1.1 - Exemple introductif .................................................................................................................................... 4 1.2 Formalisation du modle d'Analyse de la Variance 1 facteur .................................................................. 4 II- Analyse de la Variance 2 facteurs ................................................................................................................... 9 2.1 1 - Exemple introductif ................................................................................................................................. 9 2.2 Formalisation du modle d'Analyse de la Variance 2 facteurs ................................................................. 9 2.3 - Modle sans interactions ........................................................................................................................... 12

Lom, Lom, Juin 2010.

INTRODUCTION
L'Analyse de la Variance ( 1 ou plusieurs facteurs) forme avec l'Analyse Factorielle Discriminante un corpus de mthodes d'tude des rapports entre variables quantitatives et variables qualitatives. La situation est au dpart la suivante: On suppose tre en prsence d'un certain nombre d'units statistiques (appeles individus) dcrites par des variables quantitatives. Ces descriptions sont mises sous forme de tableau statistique. Par ailleurs, on dispose, sur ces mmes units statistiques, de groupement en classes (ou ce qui revient au mme, d'observations qualitatives) Pour chacune de ces mthodes, il y a une variable particulire cense tre explicable partir des autres. En Analyse de la Variance, il n'y a qu'une variable quantitative, et c'est cette variable que l'on cherche "expliquer" partir des variables de classe (qualitatives), tandis qu'en Analyse Discriminante, c'est la variable de classe qui est seule, et que l'on essaie d'"expliquer" partir des variables quantitatives. Le principe d'tude adopt est globalement le mme dans les deux cas de figure: On cherche les rapports pouvant exister entre la dispersion des individus du point de vue des variables quantitatives et les groupements de ces individus en classes. Le principe intuitivement nonc ci-dessus montre bien que l'outil utilis sera d'ordre mtrique (il est fond sur des mesures de dispersion). Or, ces techniques semblent pourtant s'tre donn une vocation "explicative", donc d'ordre plutt logique, au sens o elles essaient d'expliquer (puis de prdire) les groupements par les descriptions quantitatives ou l'inverse. Cette contradiction apparente est cependant facile rsoudre: c'est l'criture (sous forme linaire) d'un modle causal, issu d'une rflexion sur un plan purement logique, qui peut donner une valeur explicative aux rsultats. L'outil mtrique, lui, ne fait en dfinitive qu'ajuster au mieux ce modle aux donnes. Si le modle est absurde, l'ajustement aura beau sembler bon, les rsultats n'auront aucune valeur explicative. Prenons un exemple simple: pour un grand nombre d'individus gs, on relve le fait ou non d'avoir dvelopp une tumeur cancreuse au poumon (variable Y qualitative), ainsi que la consommation mensuelle moyenne de cigarettes au cours de leur vie (variable X quantitative) antrieurement l'apparition de la tumeur s'il y en a eu une. Statistiquement, ces variables sont trs lies. L'Analyse de Variance par exemple pourrait bien le montrer. Nanmoins, cette AV peut correspondre l'ajustement de deux modles causaux bien distincts: Modle causal 1: Y = f(X) (attraper un cancer du poumon est fonction de la consommation de cigarettes) Modle causal 2: X = f(Y) (la consommation moyenne de cigarettes au cours de la vie dpend du fait qu'on a attrap par suite un cancer du poumon) De ces deux modles, seul le premier est pertinent, le second inversant la cause et l'effet. Par consquent, bien que l'ajustement de ces deux modles aux donnes aboutisse exactement la mme opration statistique, seul le modle 1 est explicatif. Malgr cette vidence, on ne peut que constater que les rsultats fournis par les techniques d'AV et d'AD sont beaucoup trop souvent interprts en soi comme de vritables modles
- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr
2

explicatifs des donnes, sans que l'"analyste" ait vraiment rflchi, au plan causal, sur le phnomne tudi. Une telle situation est bien sr scandaleuse: un modle rellement explicatif doit avant tout avoir un fondement logique solide (il prtend traiter des causes et des effets!) tabli par un expert. Un simple ajustement mtrique ralis par ordinateur partir d'un pseudo-modle n'a videmment aucune valeur explicative. Par consquent, moins de disposer ds le dpart d'un vritable modle explicatif des donnes compatible avec les techniques que nous allons voir, mieux vaut n'employer celles-ci qu' titre purement exploratoire, et se dfier de toutes les applications dcisionnelles que ces techniques semblent permettre d'emble (et qui sont trs tentantes).

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

I- ANALYSE DE LA VARIANCE A 1 FACTEUR


1.1 - Exemple introductif
Un horticulteur exprimente 3 engrais diffrents sur une mme espce de plante, dont il observe la croissance. Il a ainsi fait 3 groupes de plantes, chaque groupe correspondant l'engrais employ. En fin de croissance, l'horticulteur observe la taille atteinte par les plantes, et se demande: "les diffrents engrais ont-ils induit des tailles finales diffrentes?" Les tailles observes des plantes sont les suivantes: groupe 1: 15 , 18 , 16 , 16 , 15.5 , 17.5 groupe 2: 17 , 19 , 19.5 , 18.5 , 20 groupe 3: 14 , 17 , 15 , 14.5 , 15.5 , 16 , 14 L'horticulteur cherche donc s'il y a un rapport entre les groupes et la disparit des croissances des plantes. C'est--dire un rapport entre la dispersion d'une variable quantitative (la taille des plantes) et une variable qualitative (engrais utilis). L'horticulteur formule alors inconsciemment dans sa tte l'hypothse principale du modle d'Analyse de la Variance 1 facteur: "A peu de choses prs (a de relativement modestes perturbations prs) les plantes d'un mme groupe ont la mme taille, et cette taille "commune" aux plantes d'un groupe varie d'un groupe l'autre si le type d'engrais utilis a de l'importance.

1.2 Formalisation du modle d'Analyse de la Variance 1 facteur


a) Notations: Rappels: moyenne et variance Soient J observations: zj ; j = 1 J, d'un caractre Z. On notera z la moyenne de ce caractre, dfinie par: z =

1 J zj J i =1
1 J ( z j z )2 J j =1

On notera V(Z) ou 2 ( Z ) la variance de Z, dfinie par: V ( Z ) =


On appellera: Y la variable quantitative (taille des plantes) yik la valeur de Y pour l'observation i du groupe k. K le nombre de groupes Ik le nombre d'observations dans le groupe k. I le nombre total d'observations ralises ( I = 1 yk = Ik
K

I
k =1

y
i =1

Ik

ik

est la moyenne de Y dans le groupe k.

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

1 K Ik y = yik I k =1 i =1

est la moyenne globale de Y.

Dans l'exemple des plantes, on obtient:

y1 =16.33; y2 =18.8; y3 =15.14 ;


K

y = 16.56

K I k 1 Ik I Remarque: y = ( yik ) = k yk I k i =1 k =1 I k =1 I La moyenne globale est donc une moyenne des moyennes des groupes pondres par leurs effectifs.

1 Ik Vk ( Y ) = ( Y ) = ( yik yk )2 est la variance de Y l'intrieur du groupe I k i =1 k. 1 K Ik 2 V ( Y ) = ( Y ) = ( yik y )2 est la variance totale de Y. I k =1 i =1


2 k

V1 ( Y ) = 1.139 ; V2 ( Y ) = 1.06 ; V3 ( Y ) = 1.05 ;


b) Le modle:
Il s'crit trs simplement:

Dans l'exemple des plantes, on obtient:

V ( Y ) = 3. 27

yik = b + bk + uik
Autrement dit, la taille d'une plante est vue comme la somme de trois choses: un effet de croissance commun toutes les plantes (b), un effet de croissance spcifique au groupe auquel la plante appartient et commun toutes les plantes de ce groupe (bk), et un effet perturbant propre cette plante particulire (uik).

Remarque: Ainsi spcifi, le modle a trop de paramtres inconnus pour tre estimable de manire bien dtermine. On rajoute donc la contrainte - assez naturelle K I suivante: k bk = 0 (c'est--dire que les effets spcifiques sont en moyenne nulle; ils k =1 I sont vus comme des effets diffrentiels l'effet global)
Dans la mesure o dans notre modle, la variable de groupe est le seul facteur recens susceptible d'expliquer des diffrences de croissance, on considre assez naturellement les uik comme des perturbations alatoires. Ces perturbations matrialisent l'effet ventuel de tous les facteurs influenant Y que l'on aurait oubli dans le modle. Pour que le modle puisse prtendre expliquer assez bien Y, il faut que les perturbations restent relativement petites. On fait donc les hypothses suivantes: Les uik sont des alas de moyenne nulle, indpendants et de mme loi, suppose 2 gaussienne: uik N ( 0 , ) . Ceci veut dire en particulier que les facteurs d'influence "oublis" ont une rsultante en moyenne nulle.

c) Les estimateurs des diffrents effets


Les estimateurs des diffrents effets sont calculs de la manire (trs intuitive) suivante:

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

effet commun:

b = y effet spcifique du groupe k: bk = yk y perturbation: uik = yik yk


Dans l'exemple des plantes, on obtient:

y1 = 16.33 ; y2 = 18.8 ; y3 = 15.14 ; y = 16.55 b1 = 0. 22 ; b2 = 2 . 25 ; b3 = 1. 41


d) Critre d'influence du facteur de groupe sur Y
L'ide est la suivante: Si le facteur de groupe induisait des diffrences sur la variable Y, toutes autres influences mises part, on obtiendrait une dispersion de Y qui traduirait ces groupes: On aurait donc une dispersion entre les groupes petite par rapport la dispersion l'intrieur des groupes.

Mesure de la dispersion:
- La dispersion est mesure par la variance. - On peut d'ores et dj tablir une dcomposition intressante de la variance totale de Y: 1 K Ik 1 K Ik V (Y ) = ( yik y ) 2 = (( yik y k ) + ( y k y )) 2 I k =1 i =1 I k =1 i =1

= =

1 K Ik (( yik yk ) 2 + ( y k y ) 2 + 2( yik yk )( yk y )) I k =1 i =1
K Ik K Ik 1 K Ik 2 1 2 2 ( y y ) + ( y y ) + ik k I ( yik yk )( yk y)) k I k =1 i =1 I k =1 i =1 k =1 i =1 K

=
k =1 K

Ik 1 ( I Ik

( yik yk ) 2 ) +
i =1 k =1 K

Ik

Ik Ik 2 K ( yk y ) 2 + ( yk y ) ( yik yk )) I I k =1 i =1

=
k =1 K

Ik I 2 K Vk (Y ) + k ( y k y ) 2 + ( yk y ).0 I I k =1 k =1 I

K Ik I Vk (Y ) + k ( y k y ) 2 k =1 I k =1 I On remarque que le premier terme de cette somme est la moyenne des variances internes aux groupes pondres par leurs effectifs, il s'agit donc d'une variance interne moyenne, ou: variance dans les groupes. Quant au second terme, c'est clairement la variance des moyennes des diffrents groupes, soit une variance entre les groupes.

La dcomposition ci-dessus de la variance de Y s'interprte donc tout simplement comme: Variance totale = Variance dans les classes + Variance entre les classes On notera:

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

- la variance dans les classes: - la variance entre les classes:


Dans l'exemple des plantes, on obtient:

Ik Vk ( Y ) k =1 I K I V e ( Y ) = k ( yk y )2 k =1 I V d (Y ) =

V1 ( Y ) = 1.139 ; V2 ( Y ) = 1. 06 ; V3 ( Y ) = 1. 05 V ( Y ) = 3. 27 6 5 7 Vd = V1 ( Y ) + V2 ( Y ) + V3 ( Y ) = 1. 082 18 18 18 6 2 5 2 7 2 Ve = b1 + b2 + b3 = 2 .188 18 18 18 Le critre et le test: L'ide est la suivante: si le rapport


dispersion entre dispersion dans

est grand, on admet la significativit de

l'influence dpiste du facteur de groupe sur la variable Y. Formule du test Sous l'hypothse que le facteur de groupe n'induit aucune diffrence sur Y entre les groupes (i.e. aucun effet spcifique, autrement dit tous les bk = 0), la statistique suivante: V e(Y ) .K K 1 F = d suit une loi bien prcise: la loi de Fisher respectivement K-1 et I-K V (Y ) .I I K degrs de libert, note F(K-1,I-K). On calcule donc la statistique F sur les observations, et l'on regarde si elle est tombe dans une rgion "peu probable" de cette loi (i.e. par exemple une rgion dans laquelle F ne devrait tomber que dans 5% des cas, et o la densit de probabilit est faible). Si c'est la cas, on est enclin considrer que l'hypothse de non-influence est trop peu plausible, et donc admettre l'hypothse d'une influence du groupe sur Y. A contrario, si F est tombe en dehors de la rgion "peu probable", tout parat normal, et l'on n'a pas rejeter l'hypothse de noninfluence. On ne considre donc pas que le groupe ait une influence significative sur Y. On compare donc F au fractile d'ordre 95% de la loi F(K-1,I-K), not f0.95(K-1,I-K):
Dans l'exemple des plantes, on obtient ainsi:

F=

2 .188 3 3 1 = 2 .53 1. 082 1818 3

Cette valeur doit tre compare f0.95(2,15) = 3.68 . Dans ce cas, on considre donc que l'influence dcele du groupe n'est pas significative (au seuil 5%).

Exemple2 : Existe-t-il un lien entre le revenu dun mnage et la zone habite? Pour rpondre cette question, un tudiant collecte des informations sur le revenu de 20 mnages dans trois zones diffrentes (zone 1, zone 2, zone 3). Dans cet exemple, la variable discriminante est la zone. Nous allons donc sparer lchantillon en trois sous groupes : la zone1, la zone 2 et la zone 3. Pour chaque groupe, nous pouvons calculer la moyenne, la variance et lcart-type.
Zone Effectif Moyenne Variance Ecart-type
7

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

Zone 1 Zone 2 Zone 3

6 9 5

3,28 21,82 132,33

1,37 108,92 824,63

1,17 10,44 28,72

On calcule ensuite la variance intra classe et la variance interclasse. Dans notre exemple, on a :
6*1,37 + 9*108, 92 + 5*824, 63 = 255,58 . 20 Pour calculer la variance interclasse, il faut dabord calculer le revenu moyen de tout 6*3, 28 + 9* 21,82 + 5*132,33 lchantillon. Re venu moyen = = 43,89 . 20 Vint ra = 6*(3, 28 43,89) 2 + 9* (21,82 43,89)2 + 5*(132,33 43,89)2 Vint er = = 2669,35 . 20 pouvez vrifier que la somme des deux variances donne la variance totale. Nous dterminons enfin la statistique du test : Vous

Vinter / k 1 . Ici k=3 et n=20 donc la valeur Vintra / n k calcule est 88,78. Cette statistique suit une loi respectivement k-1 et n-k degrs de libert, note F(k-1,n-k). En lisant la table du F(2,17), on constate que la valeur critique 5% est : 3,59 ; ce qui est infrieur la valeur calcule. On conclut donc quau seuil1 de 5% le revenu dun mnage dpend de sa zone de rsidence.

Le risque nest pas forcment fix 5% ; on peut aussi choisir 1% , 10%, Pour obtenir rapidement la valeur thorique, tapez dans une cellule de Excel = INVERSE.LOI.F(risque;ddl1,ddl2) - ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr
8

II- ANALYSE DE LA VARIANCE A 2 FACTEURS


2.1 - Exemple introductif
Notre horticulteur reconnat que la croissance d'une plante ne dpend pas que de l'engrais utilis. Il pense que l'arrosage est un facteur important en soi, mais aussi susceptible d'interagir avec le facteur engrais (certains engrais pouvant ventuellement tre plus efficaces lorsqu'ils sont associs certaines frquences d'arrosage). Il conoit alors l'exprience suivante: il forme des groupes de plantes de mme effectif, chacun tant soumis un engrais et une frquence d'arrosage bien particuliers (de sorte qu'il y ait un et un seul groupe de plantes soumis chaque possibilit engrais-frquence d'arrosage). En fin de croissance, il obtient les tailles suivantes:
engrais 1 1 fois / jour 17 , 16 , 18 , 19 engrais 2 13 , 14 , 15 , 11 engrais 3 12 , 14 , 13 , 10

2 fois / jour

14 , 12 , 16 , 13

18 , 16 , 20 , 19

11 , 10 , 13 , 11

L'horticulteur se pose alors, au vu de ces observations, les questions suivantes: 1. Puis-je conclure que l'engrais induit, en soi, des diffrences de croissance? Si oui, lesquelles?2. Puis-je conclure que la frquence d'arrosage induit, en soi, des diffrences de croissance? Si oui, lesquelles? 3. Puis-je conclure qu'outre les ventuels effets spcifiques de l'engrais en soi et de la frquence d'arrosage en soi, il existe des effets d'interaction entre les deux? Et si oui, lesquels? Remarque: on a ici deux facteurs. Pour qu'il n'y ait pas de confusion entre leurs effets, il faut qu'ils soient distribus indpendamment l'un de l'autre dans l'chantillon. Il est clair par exemple que si un groupe d'engrais tait arros 2 fois par jour alors que les autres ne l'taient qu'une fois, on ne pourrat plus faire la part entre l'effet de cet engrais sur la croissance des plantes et l'effet de l'arrosage bi-quotidien. L'galit des effectifs de tous les groupes engrais arrosage a prcisment pour but d'assurer cette indpendance.

2.2 Formalisation du modle d'Analyse de la Variance 2 facteurs


On appellera: Y la variable quantitative (taille des plantes) yijk la valeur de Y pour l'observation i du groupe (j,k) correspondant la modalit j du 1er facteur et la modalit k du second. J le nombre de modalits du 1er facteur. K le nombre de modalits du 2nd facteur. n le nombre d'observations dans chaque groupe. Le nombre total d'observations ralises est clairement I = nJK. Le nombre d'observations correspondant la modalit j du 1er facteur est: Ij. = nK. Le nombre d'observations correspondant la modalit k du 2nd facteur est: I.k = nJ.
- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr
9

On appellera groupe j le groupe des observations caractrises par la modalit j du 1er facteur, et groupe k le groupe des observations caractrises par la modalit k du 2nd facteur. moyennes:

1 n y jk = yijk est la moyenne de Y dans le groupe (j,k). n i =1 1 K n y j. = yijk est la moyenne des observations de Y correspondant la nK k =1 i =1 modalit j du 1er facteur. 1 J n y.k = est la moyenne des observations de Y correspondant la yijk nJ j =1 i =1 modalit k du 2nd facteur. 1 J K n y = yijk est la moyenne globale de Y. nJK j =1 k =1 i =1
K I 1 1 K n j. ( y ) = y j . . Mais on a bien ijk j =1 J nK k =1 i =1 k =1 I K K 1 1 J n I entendu aussi: y = ( yijk ) = .k y.k . La moyenne globale est k =1 K nJ j =1 i =1 k =1 I donc une moyenne des moyennes des groupes pondres par leurs effectifs, quels que soient ces groupes.

Remarque vidente: y =

variances:
(note: toutes les variances qui suivent ne sont pas importantes pour les tests de significativit qui seront exposs aprs. Les variances utilises pour ces tests sont indiques l'aide du symbole . Les autres variances peuvent tre utilises pour faire des tests dans le cadre de modles d'Anavar 1 l'intrieur de chaque groupe j (ou k) sparment )

variance de Y l'intrieur du groupe (j,k): 1 n V jk ( Y ) = 2jk ( Y ) = ( yijk y jk )2 n i =1 K n 1 V j . ( Y ) = 2j . ( Y ) = ( yijk y j . )2 est la variance des observations de nK k =1 i =1 Y correspondant la modalit j du 1er facteur. 1 J n V.k ( Y ) = .2k ( Y ) = ( yijk y.k )2 est la variance des observations de Y nJ j =1 i =1 correspondant la modalit k du 2nd facteur. 1 J K n Variance totale de Y: V ( Y ) = 2 ( Y ) = ( yijk y )2 nJK j =1 k =1 i =1 Dans l'exemple des plantes, on obtient:

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

10

engrais 1 1 fois / jour

engrais 2

engrais 3

y11 = 17 .5 V11 ( Y ) = 1. 25

y12 = 13. 25 V12 ( Y ) = 2 .1875

y1. = 14. 33 V13 ( Y ) = 2 .1875 V1. ( Y ) = 7 .055

y13 = 12 . 25

2 fois / jour

y2 . = 14. 42 y21 = 13. 75 y22 = 18. 25 y23 = 11. 25 V21 ( Y ) = 2 .1875 V22 ( Y ) = 2 .1875 V23 ( Y ) = 1.1875 V2. ( Y ) = 10.24

y.1 = 15. 625 V.1 ( Y ) = 5. 23

y.2 = 15. 75 V.2 ( Y ) = 8. 44

y.3 = 11. 75 V.3 ( Y ) = 1. 94

y = 14 . 375 V ( Y ) = 8. 65

On peut galement dfinir les variances "entre" groupes, et les variances "dans" les groupes, pour les diffrents groupements possibles: Variance entre groupes (j,k) correspondant une mme modalit j: 1 K V je. ( Y ) = ( y jk y j . )2 K k =1 (c'est donc la variance des moyennes y j1 , ... , y jK ) Variance dans les groupes (j,k) correspondant une mme modalit j: 1 K n 1 K 2 V jd. ( Y ) = ( y y ) = V jk ( Y ) ijk jk K nK k =1 i =1 k =1 (c'est donc la moyenne des variances Vj1(Y) , ... , VjK(Y) ) On peut vrifier que leur somme fait bien la variance de toutes les observations correspondant la modalit j: V j . ( Y ) = V je. ( Y ) + V jd. ( Y )

On peut de la mme manire calculer les variances suivantes: Variance entre groupes (j,k) correspondant une mme modalit k: 1 J V.ke ( Y ) = ( y jk y.k )2 J j =1 (c'est donc la variance des moyennes y1k , ... , y Jk ) Variance dans les groupes (j,k) correspondant une mme modalit k: 1 n J 1 J 2 V.kd ( Y ) = ( y y ) = V jk ( Y ) ijk jk J nJ i =1 j =1 j =1 (c'est donc la moyenne des variances V1k(Y) , ... , VJk(Y) )

On peut vrifier que leur somme fait bien la variance de toutes les observations correspondant la modalit k: V.k ( Y ) = V.ke ( Y ) + V.kd ( Y ) On peut aussi calculer (en considrant les facteurs 1 et 2 sparment):
Variance entre groupes j correspondant aux modalits du facteur 1:
- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr
11

V( e 1) ( Y ) =

1 J ( y j . y )2 J j =1

(c'est donc la variance des moyennes y1. , ... , y J . ) Variance dans les groupes j correspondant aux modalits du facteur 1: 1 n K V( d ( Y ) = ( yijk y j . )2 1) nK i =1 k =1 On vrifie bien que: d V ( Y ) = V( e 1 ) ( Y ) + V( 1 ) ( Y ) Variance entre groupes k correspondant aux modalits du facteur 2: 1 K V( e ( y.k y )2 2)( Y ) = K k =1 (c'est donc la variance des moyennes y.1 , ... , y.K ) Variance dans les groupes k correspondant aux modalits du facteur 2: 1 n J = V( d ( Y ) ( yijk y.k )2 2) nJ i =1 j =1 On vrifie bien que: d V ( Y ) = V( e 2 ) ( Y ) + V( 2 ) ( Y ) Enfin, on peut calculer: Variance entre les groupes (j,k): V e(Y ) = 1 J K ( y jk y )2 JK j =1 k =1 1 n J K ( yijk y jk )2 nJK i =1 j =1 k =1

(c'est la variance de toutes les moyennes y jk ) Variance dans les groupes (j,k):
V d (Y ) =

(c'est la moyenne de toutes les variances Vjk(Y)) ... dont la somme fait bien la variance totale:
Ve(Y) + Vd(Y) = V(Y)
On obtient ainsi dans l'exemple des plantes:

V = 5.18 ; V = 1.875
e 1. e 2. d 1.

V.1e = 3.516 ; V.1d = 1.719 V.2e = 6.25 ; V.2d = 2.1875 V.3e = 0.25 ; V.3d = 1.6875

V = 8. 39 ; V = 1.854
d 2.

V( e 1 ) = 0. 002

; V( d 1 ) = 8. 647

V( e ; V( d 2 ) = 3. 45 2 ) = 5. 2 V e = 6. 786 ; V d = 1.864

2.3 - Modle sans interactions


L'horticulteur, ngligeant de prime abord la possibilit d'interactions entre l'engrais et l'arrosage (pour simplifier son modle), se pose seulement les questions suivantes: - l'engrais en soi induit-il des diffrences significatives de croissance (et si oui, lesquelles?)
- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr
12

- l'arrosage en soi induit-il des diffrences significatives de croissance (et si oui, lesquelles?)

a) modle: On considre ici le modle ainsi spcifi: yijk = a + b j + ck + uijk ; uijk N ( 0 , 2 ) i , j , k

Autrement dit dans notre exemple: la croissance de la plante i du groupe (j,k) s'exprime comme somme d'une croissance "commune" + un effet spcifique la frquence d'arrosage j + un effet spcifique l'engrais k + une perturbation alatoire de moyenne nulle propre la plante) Remarque: ainsi spcifi, le modle a trop de paramtres inconnus pour tre estimable de manire bien dtermine. On rajoute donc les contraintes - assez naturelles - suivantes:

bj = 0
j =1

c
k =1

= 0

Elles signifient intuitivement que les effets spcifiques sont en moyenne nuls, ce qui est naturel, car ce sont des effets "diffrentiels" par rapport l'effet "moyen" a.

b) Estimateurs:
L'estimation contrainte des diffrents paramtres donne: a = y b j = y j. y
ck = y.k y uijk = yijk y j . y.k + y

Dans notre exemple: effet commun: a* = 14.375 effets spcifiques: arrosage: b1.* = - 0.045 ; b2.* = + 0.045 engrais: c1.* = 1.25 ; c2.* = 1.375 ; rsidus: engrais 1 1 fois / jour 1.42 , 0.42 , 2.42 , 3.42 engrais 2 -2.705 , -1.705 , -0.705 , -4.705 engrais 3 0.295 , 2.295 , 1.295 , -1.705 c3.* = -2.625

2 fois / jour

-1.67 , -3.67 , 0.33 , -0.67

2.205 , 0.205 , 4.205 , 3.205

-0.795 , -1.795 , 1.205 , -0.795

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

13

c) critres d'influence des facteurs sur Y , et test de ces influences: Bien entendu, les effets prcdemment estims des facteurs 1 et 2 sur Y ne sont peut-tre pas statistiquement significatifs, dans la mesure o ils peuvent provenir des perturbations alatoires. Il convient donc de tester leur significativit. La mthode est essentiellement la mme que dans le modle 1 facteur: on fonde le test var iance " exp lique" var iance des effets sur des rapports de type : , ou encore . var iance " rsiduelle" var iance des rsidus Ici, dans le test de l'influence d'un facteur en soi, la variance "explique" est la variance de Y en rapport avec les diffrentes modalits de ce facteur, c'est--dire la variance entre les groupes correspondant ces modalits. La variance "rsiduelle" est la variance des rsidus. On obtient ainsi les rgles de dcision suivantes: test de l'influence du 1er facteur en soi: Les effets considrs ici sont les effets des modalits du facteur 1 en soi, c'est--dire les bj *.

var iance des effets V ( b ) Le rapport est donc: = V ( u ) var iance des rsidus 1

1 . ( b )2 J j =1 j nJK ( u )
i , j ,k ijk 2

V( e 1) ( Y ) V ( u )

On considre que l'influence du 1er facteur est significative (au niveau 5%) lorsque: F1 = J V( e 1 ) .( J 1) V ( u ).( nJK nJK J K + 1 ) > f 0.95 ( J 1, nJK J K + 1 )

test de l'influence du 2nd facteur en soi:

var iance des effets V ( c ) Ici, Le rapport est : = var iance des rsidus V ( u ) 1

2 K . ( ck ) k =1 ijk

=
2

V( e 2)( Y ) V ( u )

nJK ( u
i , j ,k

On considre que l'influence du 1er facteur est significative (au niveau 5%) lorsque: K V( e 2 ) .( K 1) F2 = V ( u ).( nJK nJK J K + 1 )
(Dans notre exemple, nous obtenons ainsi:

>

f 0.95 ( K 1, nJK J K + 1 )

V(u*) = 4.92 ; F1 = 0.00067 < f0.95(1,20) = 4.35 ; F2 = 0.87 < f0.95(2,20) = 3.49
Donc, finalement, on accepte l'hypothse de non-influence pour chacun des facteurs...

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

14

Pourtant, regarder les donnes, il semble vident d'une part que l'engrais n'est pas indiffrent (le troisime a l'air vraiment moins bon que les autres) et d'autre part, que l'arrosage n'est pas indiffrent, du moins en association avec certains engrais. Notre modle n'a pas l'air de bien rendre compte de ce qui se passe. En particulier de cette importance de l'arrosage selon l'engrais utilis. Il faut par consquent respcifier le modle, en prvoyant la possibilit d'interactions entre les facteurs)

TABLEAU RESUME pour le calcul pratique des tests d'ANAVAR 2 sans interactions Les rsultats de l'Analyse de la Variance 2 facteurs sans interactions sont souvent prsents de la manire suivante, pour en simplifier le calcul:
Somme des Carrs (SC) Effets spcifiques du facteur 1 Effets spcifiques du facteur 2
n J

Degrs de Libert (DL)

SC / DL

statistique de Fisher (F)

nK ( y j . y )2
j =1

F( 1 ) =
J-1 A

nJ ( y.k y )2
k =1 K ijk K ijk

F( 2 )
K-1 B

A C B = C

( y
Rsidus
i =1 j =1 k =1 n J

y j . y.k + y )2
nJK - J - K +1 C

( y
Total
i =1 j =1 k =1

y )2
nJK-1

2.4 - Modle avec interactions L'horticulteur se dit en examinant ses observations plus attentivement, qu'il y a des chances que l'engrais et le mode d'arrosage interfrent. Il respcifie donc son modle de la faon suivante: a) Modle : yijk = a + b j + ck + d jk + uijk ; uijk N ( 0 , 2 )

La variable expliquer est donc vue comme la somme d'un effet commun, d'un effet spcifique la modalit prise par le facteur 1, d'un effet spcifique la modalit prise par le facteur 2, d'un effet d'interaction de ces deux modalits, et d'une perturbation alatoire gaussienne nulle en moyenne. Les paramtres tant encore plus nombreux que dans le modle sans interactions, on doit leur imposer les contraintes "naturelles" suivantes (qui reviennent bien sparer les rles des diffrents effets): les effets spcifiques des modalits d'un facteur sont en moyenne nuls:
J K

bj = 0 ;
j =1

c
k =1

=0

les termes d'interaction sont en moyenne nuls pour chaque modalit d'un des deux facteurs:

j ,

d jk = 0
k =1

k ,

d
j =1

jk

=0

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

15

b) Estimateurs: On obtient les estimations assez intuitives suivantes:


a = y b j = y j. y
ck = y.k y

d jk = y jk y j . y.k + y
uijk = yijk y jk

Remarque: on voit bien ce qui change par rapport au modle sans interactions: les perturbations estimes dans le modle sans interactions sont ici dcomposes en: un terme d'interaction et un terme rsiduel de perturbation. Dans le modle sans interactions, il est donc clair que l'on voyait - en quelque sorte - les interactions comme du "dchet". Les effets spcifiques des modalits des facteurs ne changent pas.
Dans notre exemple, on obtient: effet commun: a* = 14.375 effets spcifiques: arrosage: b1.* = - 0.045 ; b2.* = + 0.045 engrais: c1.* = 1.25 ; c2.* = 1.375 ; interactions: engrais 1 1 fois / jour 1.92 engrais 2 -2.455 engrais 3 0.545

c3.* = -2.625

2 fois / jour

-1.92

2.455

-0.545

Il semble donc que l'engrais 1 associ un arrosage journalier produise de bons rsultats, ainsi que l'engrais 2 associ deux arrosages quotidiens - alors que l'engrais 3, peu performant dans l'ensemble, produit les pires rsultats lorsque l'on arrose deux fois par jour)

c) critres d'influence des facteurs sur Y , et test de ces influences: On utilise toujours des rapports de la forme

var iance des effets . var iance des rsidus Les influences en soi des deux facteurs ne se testent donc pas exactement comme dans le modle sans interactions. En effet, si les effets estims des facteurs en soi sont les mmes, par contre les rsidus estims de notre modle avec interactions ne sont plus les mmes.

On remarquera que la variance des rsidus est cette fois la variance dans les classes (i,j), note Vd(Y). La significativit des effets spcifiques des facteurs se teste ici de la manire suivante:
- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr
16

test de l'influence du 1er facteur en soi:

var iance des effets V ( b ) Ici, Le rapport est : = var iance des rsidus V ( u ) 1

1 . ( b )2 J j =1 j nJK ( u )
i , j ,k ijk 2

V( e 1) ( Y ) V d (Y )

On considre que l'influence du 1er facteur est significative (au niveau 5%) lorsque:

J V( e 1 ) .( J 1) F1 = d V .( nJK ( n 1 ) JK )
test de l'influence du 2me facteur en soi:

>

f 0.95 ( J 1,( n 1 ) JK )

var iance des effets V ( c ) Ici, Le rapport est : = var iance des rsidus V ( u ) 1

2 K . ( ck ) k =1 ijk 2

V( e 2)( Y ) V d (Y )

nJK ( u )
i , j ,k

On considre que l'influence du 2me facteur est significative (au niveau 5%) lorsque:

K V( e 2 ) .( K 1) F2 = d V .( nJK ( n 1 ) JK )

>

f 0.95 ( K 1,( n 1 ) JK )

test de significativit des effets d'interaction: Ici, Le rapport

var iance des effets V(d ) est : = var iance des rsidus V ( u ) 1

2 JK . ( d jk ) j =1 2 ( uijk ) nJK i , j ,k

V(d ) V d (Y )

On considre qu'il y a des effets d'interaction statistiquement significatifs (au niveau 5%) lorsque:
Fint er = V ( d ) .( JK ( J 1 )( K 1 ) d V . ( nJK ( n 1 ) JK ) ) > f 0.95 ( ( J 1 )( K 1 ),( n 1 ) JK )

(Dans notre exemple, on obtient ainsi:

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

17

F1 =

0. 002

2 1 18 = 2 . 775 3. 34 6 < f 0.95 ( 2 ,18 ) = 3. 55 = 0. 0016 < f 0.95 ( 1,18 ) = 4 . 41

1. 864 24 3. 45 3

F2 =

2 18

1. 864 24

Fint eractions =

2 = 4 . 027 24 1. 864 18

>

f 0.95 ( 2 ,18 ) = 3. 55

Le facteur arrosage n'a, selon ce modle, aucune influence en soi significative au niveau 5% sur la croissance des plantes, ainsi que le facteur engrais. Mais dans le cas de ce dernier, c'est dj beaucoup moins net! Par contre, les effets d'interaction dcels sont ce niveau globalement significatifs. On voit donc bien l'importance qu'a la spcification du modle: le modle sans interactions n'aboutit rien, alors que le modle avec interactions nous donne une plus grande significativit pour l'effet spcifique de l'engrais, mais surtout dcle de fortes influences de l'association engrais-arrosage sur la croissance des plantes.

Remarques: Il faut bien comprendre pourquoi le test de significativit des effets spcifiques n'est pas le mme dans le modle sans interactions et dans le modle avec interactions. Dans le premier cas, les rsidus renferment les interactions non dceles: celles-ci agissent donc comme un bruit supplmentaire nuisant la discrimination des groupes. Alors que dans le second cas, les interactions tant dceles comme telles, elles sont tes du bruit rsiduel, et les groupes n'en deviennent que plus facilement distinguables les uns des autres. C'est d'ailleurs le mme type d'argumentation qui explique que le test de significativit de l'influence du facteur 1 dans ce modle, par exemple, ne soit pas le mme que celui qu'on obtiendrait en "oubliant" le facteur 2, c'est--dire en faisant l'anavar de Y sur le seul facteur 1. Si on faisait cette anavar un facteur, les effets du facteur 2 se retrouveraient dans le bruit, et non dpists comme tels. La discrimination des groupes relatifs aux modalits du facteur 1 pourrait en devenir plus difficile. La spcification du modle est, on l'a vu, un problme tout--fait crucial: un test pratiqu sur les rsultats d'estimation d'un modle mal spcifi n'a aucune valeur! (tout comme en logique: quelle est la valeur des conclusions d'une dmonstration juste fonde sur des hypothses fausses?). On a galement vu que le domaine de validit des modles proposs ici tait bien troit, tant les hypothses taient fortes! Il faut donc se mfier systmatiquement des analyses de variance prsentes et l pour "dmontrer" la validit d'hypothses diverses et varies! Rappelons encore une fois que cette mthode a t trs largement utilise - toujours en dehors de son domaine de validit - par des gens peu scrupuleux, pour tablir "scientifiquement" des prjugs sociaux et raciaux. Le vernis pseudo-scientifique apport par l'emploi de mthodes statistiques est trompeur pour l'immense majorit des non-spcialistes (et certains spcialistes aussi, de temps en temps). Il faut ainsi, devant une affirmation "statistiquement prouve", toujours se demander s'il n'tait pas possible de dmontrer son contraire en spcifiant le modle diffremment!

TABLEAU RESUME pour le calcul pratique des tests d'ANAVAR 2 avec interactions

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

18

Les rsultats de l'Analyse de la Variance 2 facteurs avec interactions sont souvent prsents de la manire suivante, pour en simplifier le calcul:
Somme des Carrs (SC) Effets spcifiques du facteur 1 Effets spcifiques du facteur 2
J K

Degrs de Libert (DL)

SC / DL

statistique de Fisher (F)

nK ( y j . y )2
j =1

J-1

nJ ( y.k y )2
k =1

K-1

Effets d'interaction

n ( y jk y j . y.k + y )2
j =1 k =1
n J K ijk

(J - 1)(K - 1)

A D B F( 2 ) = D C Fint er = D F( 1 ) =

( y
Rsidus
i =1 j =1 k =1 n J K

y jk )2
(n - 1) J K D

( y
Total
i =1 j =1 k =1

ijk

y )2
nJK-1

On remarquera que le tableau correspondant aux tests de significativit du modle sans interactions s'obtient partir de celui-ci en sommant les SC et DL des effets d'interaction et des rsidus, et en prenant la ligne ainsi agrge comme nouvelle ligne "rsidus".

- ANOVA 1 et 2 facteurs Par Albert K. ETOUDJI, Ingnieur Statisticien Economiste - Mail : etoudji2000@ yahoo.fr

19

Vous aimerez peut-être aussi