Académique Documents
Professionnel Documents
Culture Documents
ANALYSE DE LA VARIANCE
1. INTRODUCTION.
En analyse de la variance, on cherche expliquer les variations dune variable mtrique Y par un ou
plusieurs facteurs explicatifs nominaux. Le principe de l 'analyse de variance consiste tester l'galit des
moyennes de J populations normales dans lesquelles on suppose que les variances sont gales.
Ho: m1 = m2 = ... = mJ
Quand l'hypothse de l'galit des moyennes est rejete, les mthodes de comparaisons multiples permettent
de dterminer o se situent en ralit les diffrences importantes.
Les modles varient selon le nombre de facteurs contrls. On aura ainsi le modle un facteur, le
modle 2 facteurs sans interaction et le modle 2 facteurs avec interaction.
Lanalyse de la variance un facteur, ANOVA1 permet dexpliquer les variations de la variable dpendante
Y par un seul facteur explicatif. Les donnes proviennent d'chantillons prlevs alatoirement dans des
populations normales dans lesquelles les variances sont supposes gales. Les donnes sont regroupes dans
un tableau appel matrice de donnes.
Le modle est dit effets fixes quand l'infrence statistique dcoulant de l'analyse de la variance porte
seulement sur les modalits du facteur considr, c'est--dire seulement sur les J traitements utiliss dans
l'exprience. Un tel modle est parfois appel modle I. Une rptition de l'exprience alatoire ferait appel
ncessairement aux mmes traitements.
1
Analyse des donnes.
2.2- Modle effets alatoires.
Le modle est dit effets alatoires ou modle II quand l'infrence statistique ne porte pas sur les quelques
traitements choisis dans une exprience particulire, mais bien sur l'ensemble des traitements possibles et
disponibles. Les traitements sont choisis alatoirement dans une population de traitements chaque fois que
l'on rpte l'exprience.
Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il existe des diffrences
importantes entre certaines des moyennes de ces populations normales. Dans ce cas, la comparaison
multiples de moyennes cherche dterminer un classement des moyennes en indiquant les diffrences
significatives et celles qui ne le sont pas.
La thorie statistique a dvelopp plusieurs mthodes de comparaisons multiples de moyennes :
Mthode de Tukey : Cette mthode s'applique pour toutes les comparaisons possibles; elle est cependant
recommande pour des comparaisons impliquant seulement deux moyennes. Nous lappliquerons ici
uniquement pour des comparaisons par paires.
24 vendeurs ont utilis 6 techniques de vente diffrentes pour constituer 4 rptitions et on a enregistr
les ventes moyennes quotidiennes dun produit en nombre dunits vendues :
T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Au seuil de 5 %, existe-t-il une diffrence significative quant leffet des diffrentes techniques de vente
sur les ventes moyennes quotidiennes de ce produit ?
Pour rpondre cette question, il faut comparer les ventes moyennes quotidiennes des 6 techniques de
vente. Il sagit de tester l'galit de plusieurs moyennes, cest une analyse de variance un facteur
(ANOVA1).
Il sagit de tester globalement l'galit des moyennes des 6 populations supposes normales dans
lesquelles on suppose que les variances sont gales.
Ho: m1 = m2 = m3 = m4 = m5 = m6
Le logiciel SPSS fournit directement le tableau danalyse de la variance par la procdure suivante :
Analyse
Comparer les moyennes
Moyennes...
Dans la boite de dialogue ANOVA un facteur :
3
Analyse des donnes.
Comparaisons multiples
Intervalle de confiance
Diffrence de 95%
moyennes Erreur Borne Borne
(I) Techniques de vente
(J) Techniques de vente
(I-J) standard Signification infrieure suprieure
T1 T2 197,50* 45,97 ,005 51,41 343,59
T3 127,50 45,97 ,108 -18,59 273,59
T4 22,50 45,97 ,996 -123,59 168,59
T5 92,50 45,97 ,374 -53,59 238,59
T6 -17,50 45,97 ,999 -163,59 128,59
T2 T1 -197,50* 45,97 ,005 -343,59 -51,41
T3 -70,00 45,97 ,655 -216,09 76,09
T4 -175,00* 45,97 ,014 -321,09 -28,91
T5 -105,00 45,97 ,250 -251,09 41,09
T6 -215,00* 45,97 ,002 -361,09 -68,91
T3 T1 -127,50 45,97 ,108 -273,59 18,59
T2 70,00 45,97 ,655 -76,09 216,09
T4 -105,00 45,97 ,250 -251,09 41,09
T5 -35,00 45,97 ,971 -181,09 111,09
T6 -145,00 45,97 ,052 -291,09 1,09
T4 T1 -22,50 45,97 ,996 -168,59 123,59
T2 175,00* 45,97 ,014 28,91 321,09
T3 105,00 45,97 ,250 -41,09 251,09
T5 70,00 45,97 ,655 -76,09 216,09
T6 -40,00 45,97 ,949 -186,09 106,09
T5 T1 -92,50 45,97 ,374 -238,59 53,59
T2 105,00 45,97 ,250 -41,09 251,09
T3 35,00 45,97 ,971 -111,09 181,09
T4 -70,00 45,97 ,655 -216,09 76,09
T6 -110,00 45,97 ,210 -256,09 36,09
T6 T1 17,50 45,97 ,999 -128,59 163,59
T2 215,00* 45,97 ,002 68,91 361,09
T3 145,00 45,97 ,052 -1,09 291,09
T4 40,00 45,97 ,949 -106,09 186,09
T5 110,00 45,97 ,210 -36,09 256,09
*.La diffrence de moyennes est significative au niveau .05.
Daprs le tableau des comparaisons multiples selon la mthode de tukey, une signification infrieure au
seuil de 0,05 permet de reprer les techniques de vente qui donnent des rsultats diffrents, ainsi les
techniques T1 et T2 permettent des ventes quotidiennes moyennes diffrentes (signification = 0,005), il
en est de mme pour les techniques T2 et T4 (signification = 0,014) et les techniques T2 et T6
(signification = 0,02).
Lanalyse de la variance deux facteurs, ANOVA2 permet dexpliquer les variations de la variable
dpendante Y par deux facteurs explicatifs. Les donnes proviennent d'chantillons prlevs
alatoirement dans des populations normales dans lesquelles les variances sont supposes gales. Les
donnes sont regroupes dans un tableau appel matrice de donnes.
4
Analyse des donnes.
Le modle est dit effets fixes quand l'infrence statistique dcoulant de l'analyse de la variance porte
seulement sur les modalits des facteurs A et B considrs, c'est--dire seulement sur les IJ traitements
utiliss dans l'exprience. Un tel modle est appel modle I. Une rptition de l'exprience alatoire ferait
appel ncessairement aux mmes traitements.
Le modle est dit effets alatoires ou modle II quand l'infrence statistique ne porte pas sur les IJ
traitements choisis dans une exprience particulire donne, mais bien sur l'ensemble des traitements
disponibles. les modalits des facteurs A et B sont choisies alatoirement dans des populations de
modalits chaque fois que l'on rpte l'exprience
Quand les diffrents niveaux d'un premier facteur sont les mmes d'une exprience l'autre alors que les
niveaux d'un autre facteur sont choisis alatoirement chaque reprise de l'exprience, on dit que le
modle est effets mixtes, aussi appel modle III.
L'exprience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et ge sur la consommation
d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a t offert 100 personnes choisies
au hasard. La consommation, en nombre dunits achetes, est donne dans le tableau qui suit:
Quant au nombre dunits achetes en moyenne, peut-on affirmer au niveau 5% qu'il y a une diffrence
significative entre hommes et femmes d'une part, et entre les trois groupes d'ge, d'autre part?
Pour rpondre cette question, il faut comparer la consommation moyenne du produit de luxe dans
chacun des 6 groupes. Il sagit de tester l'galit de plusieurs moyennes, cest une analyse de variance
deux facteurs (ANOVA2) sans interaction.
Le logiciel SPSS fournit directement le tableau danalyse de la variance par la procdure suivante :
5
Analyse des donnes.
Analyse
Modle linaire gnral
Univari...
Dans la boite de dialogue Univari :
Lanalyse de la variance deux facteurs avec rptitions permet dexpliquer les variations de la variable
dpendante Y par deux facteurs explicatifs et de vrifier si l'interaction entre les deux facteurs est
importante. La prsence dinteraction entre les deux facteurs signifie que les rsultats sous les niveaux
d'un facteur se comportent diffremment selon les diffrents niveaux de l'autre facteur.
Les donnes proviennent d'chantillons prlevs alatoirement dans des populations normales dans
lesquelles les variances sont supposes gales. Les donnes sont regroupes dans un tableau appel
matrice de donnes.
Application numrique.
Les ventes quotidiennes d'ordinateurs ralises par une socit informatique durant les 3 premiers mois
de 2010, du lundi au jeudi sont comme suit :
6
Analyse des donnes.
Janvier 2010 Fvrier 2010 Mars 2010
lundi 13 9 7
9 5 15
8 8 14
7 12 10
mardi 8 11 17
6 4 14
6 9 12
7 5 13
mercredi 6 10 6
10 2 14
7 8 12
4 3 13
jeudi 1 6 10
10 10 8
7 12 4
5 9 9
Pour rpondre cette question, il faut comparer Les ventes quotidiennes moyennes d'ordinateurs des 12
combinaisons jour/mois. Il sagit de tester l'galit de plusieurs moyennes, cest une analyse de variance
deux facteurs (ANOVA2) avec interaction.
Le logiciel SPSS fournit directement le tableau danalyse de la variance par la procdure suivante :
Analyse
Modle linaire gnral
Univari...
Dans la boite de dialogue Univari :
7
Analyse des donnes.
Tests des effets inter-sujets
5. Exercices
5.1. Vous tudiez lefficacit de diffrentes techniques utilises pour faire diminuer le taux
dabsentisme dans les cours de niveau premier cycle luniversit. Quatre techniques sont compares :
donner des travaux supplmentaires aux tudiants qui sabsentent plus de deux priodes, accorder des
points pour la prsence en classe, rendre la prsence en classe indispensable en y prsentant des
informations indites et sensibiliser les tudiants limportance dassister aux cours. La variable
dpendante est le taux dabsentisme au cours dune session pour lensemble des cours. Effectuez
lanalyse approprie afin de dterminer, au seuil de 5%, sil existe une diffrence entre ces techniques
en ce qui concerne le taux dabsentisme en classe.
Techniques
Travaux Points pour la Information indite Sensibilisation
supplmentaires prsence en classe
26 9 21 11
25 5 18 20
19 9 24 12
31 7 19 7
22 3 27 10
24 6 24 8
25 4 31 13
27 8 26 11
33 7 17 15
28 7 22 16
5.2. On a mis au point quatre techniques diffrentes, T1, T2, T3, et T4 pour la promotion dun produit.
On a alors dcid de toutes les essayer et d'utiliser les oprateurs qualifis pour comparer les dites
techniques. On s'attend ce qu'il y ait des diffrences importantes entre oprateurs et peut-tre aussi
entre techniques. 5 oprateurs ont t assigns aux 4 techniques. Voici les nombres dunits vendues
enregistres lors de ces tests.
8
Analyse des donnes.
Oprateurs \ Techniques T1 T2 T3 T4
O1 42 45 55 50
O2 39 41 52 46
O3 38 39 48 42
O4 43 45 54 48
O5 44 45 56 49
Y a-t-il des diffrences significatives au niveau 5% entre les cinq oprateurs d'une part et entre les
quatre techniques d'autre part quant au nombre moyen dunits vendues ?
5.3. On a demand 24 ouvriers de prdire le nombre dheures ncessaires pour lassemblage dune
machine. Les ouvriers ont t classifis selon leur type dexprience et leur nombre dannes
dexprience. Quand le projet fut termin, tous sans exception avaient sous-estim le temps
effectivement requis pour accomplir cette tche. Dans le tableau qui suit, on a ces erreurs de prvision
(en heures).
Donnes numriques
Que ce soit sous l'angle Type d'exprience ou Nombre d'annes d'exprience, existe-t-il
globalement des diffrences significatives entre les groupes (seuil 5%)?
5.3. Un manufacturier japonais de puces lectroniques songe implanter une nouvelle usine au Maroc afin
de desservir tout le march nord-africain. Il hsite entre trois villes: Tanger, Casablanca et Eljadida. Selon
son point de vue, le critre le plus important prendre en considration pour dterminer l'emplacement de
cette nouvelle usine est l'assiduit au travail des ouvriers.
Le manufacturier a visit au hasard dans chacune des villes considres cinq grandes usines de fabrication et
il a obtenu des administrateurs le taux d'absentisme par 3500 journes de travail. Les rsultats sont
reproduits dans le tableau ci-dessous.
Ville Echantillon
Tanger 141; 127 ; 111; 124 ; 144
Casablanca 157; 131; 105; 132 ; 163
Eljadida 183; 161; 145 ; 157 ; 189
9
Analyse des donnes.
A un seuil de 5%, peut-on conclure que le taux d'absentisme au travail est le mme en moyenne dans ces 3
villes?
10