Vous êtes sur la page 1sur 10

Analyse des donnes.

ANALYSE DE LA VARIANCE

1. INTRODUCTION.

En analyse de la variance, on cherche expliquer les variations dune variable mtrique Y par un ou
plusieurs facteurs explicatifs nominaux. Le principe de l 'analyse de variance consiste tester l'galit des
moyennes de J populations normales dans lesquelles on suppose que les variances sont gales.

Lanalyse de la variance permet de tester les hypothses suivantes :

Ho: m1 = m2 = ... = mJ

H1: au moins une des moyennes est diffrente des autres.

Quand l'hypothse de l'galit des moyennes est rejete, les mthodes de comparaisons multiples permettent
de dterminer o se situent en ralit les diffrences importantes.

Les modles varient selon le nombre de facteurs contrls. On aura ainsi le modle un facteur, le
modle 2 facteurs sans interaction et le modle 2 facteurs avec interaction.

2. ANALYSE DE LA VARIANCE UN FACTEUR.

Lanalyse de la variance un facteur, ANOVA1 permet dexpliquer les variations de la variable dpendante
Y par un seul facteur explicatif. Les donnes proviennent d'chantillons prlevs alatoirement dans des
populations normales dans lesquelles les variances sont supposes gales. Les donnes sont regroupes dans
un tableau appel matrice de donnes.

2.1- Modle effets fixes.

Le modle est dit effets fixes quand l'infrence statistique dcoulant de l'analyse de la variance porte
seulement sur les modalits du facteur considr, c'est--dire seulement sur les J traitements utiliss dans
l'exprience. Un tel modle est parfois appel modle I. Une rptition de l'exprience alatoire ferait appel
ncessairement aux mmes traitements.

1
Analyse des donnes.
2.2- Modle effets alatoires.

Le modle est dit effets alatoires ou modle II quand l'infrence statistique ne porte pas sur les quelques
traitements choisis dans une exprience particulire, mais bien sur l'ensemble des traitements possibles et
disponibles. Les traitements sont choisis alatoirement dans une population de traitements chaque fois que
l'on rpte l'exprience.

2.3- Comparaisons multiples de moyennes.

Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il existe des diffrences
importantes entre certaines des moyennes de ces populations normales. Dans ce cas, la comparaison
multiples de moyennes cherche dterminer un classement des moyennes en indiquant les diffrences
significatives et celles qui ne le sont pas.
La thorie statistique a dvelopp plusieurs mthodes de comparaisons multiples de moyennes :

Mthode de Tukey : Cette mthode s'applique pour toutes les comparaisons possibles; elle est cependant
recommande pour des comparaisons impliquant seulement deux moyennes. Nous lappliquerons ici
uniquement pour des comparaisons par paires.

2.4. Application numrique.

24 vendeurs ont utilis 6 techniques de vente diffrentes pour constituer 4 rptitions et on a enregistr
les ventes moyennes quotidiennes dun produit en nombre dunits vendues :

T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740

Au seuil de 5 %, existe-t-il une diffrence significative quant leffet des diffrentes techniques de vente
sur les ventes moyennes quotidiennes de ce produit ?

Pour rpondre cette question, il faut comparer les ventes moyennes quotidiennes des 6 techniques de
vente. Il sagit de tester l'galit de plusieurs moyennes, cest une analyse de variance un facteur
(ANOVA1).

Formulation de lhypothse nulle

Il sagit de tester globalement l'galit des moyennes des 6 populations supposes normales dans
lesquelles on suppose que les variances sont gales.

Ho: m1 = m2 = m3 = m4 = m5 = m6

H1: au moins une des moyennes est diffrente des autres.


2
Analyse des donnes.

Le logiciel SPSS fournit directement le tableau danalyse de la variance par la procdure suivante :

A partir du menu, slectionnez :

Analyse
Comparer les moyennes
Moyennes...
Dans la boite de dialogue ANOVA un facteur :

Dans variables dpendantes, slectionnez la variable expliquer mtrique.


Dans critre, slectionnez le facteur explicatif.
Dans PostHoc, slectionnez les mthodes de comparaison multiples de moyennes.
ANOVA

Ventes quotidiennes moyennes


Somme Moyenne
des carrs ddl des carrs F Signification
Inter-groupes 139520,833 5 27904,167 6,602 ,001
Intra-groupes 76075,000 18 4226,389
Total 215595,833 23

3
Analyse des donnes.
Comparaisons multiples

Variable dpendante: Ventes quotidiennes moyennes


Test de Tukey

Intervalle de confiance
Diffrence de 95%
moyennes Erreur Borne Borne
(I) Techniques de vente
(J) Techniques de vente
(I-J) standard Signification infrieure suprieure
T1 T2 197,50* 45,97 ,005 51,41 343,59
T3 127,50 45,97 ,108 -18,59 273,59
T4 22,50 45,97 ,996 -123,59 168,59
T5 92,50 45,97 ,374 -53,59 238,59
T6 -17,50 45,97 ,999 -163,59 128,59
T2 T1 -197,50* 45,97 ,005 -343,59 -51,41
T3 -70,00 45,97 ,655 -216,09 76,09
T4 -175,00* 45,97 ,014 -321,09 -28,91
T5 -105,00 45,97 ,250 -251,09 41,09
T6 -215,00* 45,97 ,002 -361,09 -68,91
T3 T1 -127,50 45,97 ,108 -273,59 18,59
T2 70,00 45,97 ,655 -76,09 216,09
T4 -105,00 45,97 ,250 -251,09 41,09
T5 -35,00 45,97 ,971 -181,09 111,09
T6 -145,00 45,97 ,052 -291,09 1,09
T4 T1 -22,50 45,97 ,996 -168,59 123,59
T2 175,00* 45,97 ,014 28,91 321,09
T3 105,00 45,97 ,250 -41,09 251,09
T5 70,00 45,97 ,655 -76,09 216,09
T6 -40,00 45,97 ,949 -186,09 106,09
T5 T1 -92,50 45,97 ,374 -238,59 53,59
T2 105,00 45,97 ,250 -41,09 251,09
T3 35,00 45,97 ,971 -111,09 181,09
T4 -70,00 45,97 ,655 -216,09 76,09
T6 -110,00 45,97 ,210 -256,09 36,09
T6 T1 17,50 45,97 ,999 -128,59 163,59
T2 215,00* 45,97 ,002 68,91 361,09
T3 145,00 45,97 ,052 -1,09 291,09
T4 40,00 45,97 ,949 -106,09 186,09
T5 110,00 45,97 ,210 -36,09 256,09
*.La diffrence de moyennes est significative au niveau .05.

Daprs le tableau des comparaisons multiples selon la mthode de tukey, une signification infrieure au
seuil de 0,05 permet de reprer les techniques de vente qui donnent des rsultats diffrents, ainsi les
techniques T1 et T2 permettent des ventes quotidiennes moyennes diffrentes (signification = 0,005), il
en est de mme pour les techniques T2 et T4 (signification = 0,014) et les techniques T2 et T6
(signification = 0,02).

3. ANALYSE DE LA VARIANCE DEUX FACTEURS SANS REPETITION.

Lanalyse de la variance deux facteurs, ANOVA2 permet dexpliquer les variations de la variable
dpendante Y par deux facteurs explicatifs. Les donnes proviennent d'chantillons prlevs
alatoirement dans des populations normales dans lesquelles les variances sont supposes gales. Les
donnes sont regroupes dans un tableau appel matrice de donnes.

4
Analyse des donnes.

3.1. Modles danalyse de la variance.

3.1.1. Modle effets fixes.

Le modle est dit effets fixes quand l'infrence statistique dcoulant de l'analyse de la variance porte
seulement sur les modalits des facteurs A et B considrs, c'est--dire seulement sur les IJ traitements
utiliss dans l'exprience. Un tel modle est appel modle I. Une rptition de l'exprience alatoire ferait
appel ncessairement aux mmes traitements.

3.1.2. Modle effets alatoires.

Le modle est dit effets alatoires ou modle II quand l'infrence statistique ne porte pas sur les IJ
traitements choisis dans une exprience particulire donne, mais bien sur l'ensemble des traitements
disponibles. les modalits des facteurs A et B sont choisies alatoirement dans des populations de
modalits chaque fois que l'on rpte l'exprience

3.1.3. Modle effets mixtes.

Quand les diffrents niveaux d'un premier facteur sont les mmes d'une exprience l'autre alors que les
niveaux d'un autre facteur sont choisis alatoirement chaque reprise de l'exprience, on dit que le
modle est effets mixtes, aussi appel modle III.

3.2. Application numrique.

L'exprience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et ge sur la consommation
d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a t offert 100 personnes choisies
au hasard. La consommation, en nombre dunits achetes, est donne dans le tableau qui suit:

Sexe Catgorie d'ge


Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Fminin 27 39 54
Masculin 32 45 62
Total 59 84 116

Quant au nombre dunits achetes en moyenne, peut-on affirmer au niveau 5% qu'il y a une diffrence
significative entre hommes et femmes d'une part, et entre les trois groupes d'ge, d'autre part?

Pour rpondre cette question, il faut comparer la consommation moyenne du produit de luxe dans
chacun des 6 groupes. Il sagit de tester l'galit de plusieurs moyennes, cest une analyse de variance
deux facteurs (ANOVA2) sans interaction.

Le logiciel SPSS fournit directement le tableau danalyse de la variance par la procdure suivante :

5
Analyse des donnes.

A partir du menu, slectionnez :

Analyse
Modle linaire gnral
Univari...
Dans la boite de dialogue Univari :

Dans variables dpendantes, slectionnez la variable expliquer mtrique.


Dans Facteur(s), slectionnez les deux facteurs explicatifs.
Dans Spcifier le modle, cocher Autre.
Dans Terme(s) construit(s), choisissez effets principaux.
Dans modle, glisser les deux facteurs explicatifs.
Dans somme des carrs, spcifiez le type de modle.
Tests des effets inter-sujets

Variable dpendante: consommation, en nombre d'units achetes


Somme
des carrs Moyenne
Source de type I ddl des carrs F Signification
Modle corrig 876,500a 3 292,167 250,429 ,004
Constante 11180,167 1 11180,167 9583,000 ,000
SEXE 60,167 1 60,167 51,571 ,019
AGE 816,333 2 408,167 349,857 ,003
Erreur 2,333 2 1,167
Total 12059,000 6
Total corrig 878,833 5
a. R deux = ,997 (R deux ajust = ,993)

4. ANALYSE DE LA VARIANCE DEUX FACTEURS AVEC REPETITIONS.

Lanalyse de la variance deux facteurs avec rptitions permet dexpliquer les variations de la variable
dpendante Y par deux facteurs explicatifs et de vrifier si l'interaction entre les deux facteurs est
importante. La prsence dinteraction entre les deux facteurs signifie que les rsultats sous les niveaux
d'un facteur se comportent diffremment selon les diffrents niveaux de l'autre facteur.

Les donnes proviennent d'chantillons prlevs alatoirement dans des populations normales dans
lesquelles les variances sont supposes gales. Les donnes sont regroupes dans un tableau appel
matrice de donnes.

Application numrique.

Les ventes quotidiennes d'ordinateurs ralises par une socit informatique durant les 3 premiers mois
de 2010, du lundi au jeudi sont comme suit :

6
Analyse des donnes.
Janvier 2010 Fvrier 2010 Mars 2010
lundi 13 9 7
9 5 15
8 8 14
7 12 10
mardi 8 11 17
6 4 14
6 9 12
7 5 13
mercredi 6 10 6
10 2 14
7 8 12
4 3 13
jeudi 1 6 10
10 10 8
7 12 4
5 9 9

Pour rpondre cette question, il faut comparer Les ventes quotidiennes moyennes d'ordinateurs des 12
combinaisons jour/mois. Il sagit de tester l'galit de plusieurs moyennes, cest une analyse de variance
deux facteurs (ANOVA2) avec interaction.

Le logiciel SPSS fournit directement le tableau danalyse de la variance par la procdure suivante :

A partir du menu, slectionnez :

Analyse
Modle linaire gnral
Univari...
Dans la boite de dialogue Univari :

Dans variables dpendantes, slectionnez la variable expliquer mtrique.


Dans Facteur(s), slectionnez les deux facteurs explicatifs.
Dans Spcifier le modle, cocher Complet .
Dans somme des carrs, spcifiez le type de modle.

7
Analyse des donnes.
Tests des effets inter-sujets

Variable dpendante: VENTE


Somme
des carrs Moyenne
Source de type I ddl des carrs F Signification
Modle corrig 284,229a 11 25,839 2,900 ,008
Constante 3588,021 1 3588,021 402,708 ,000
JOUR 40,229 3 13,410 1,505 ,230
MOIS 150,042 2 75,021 8,420 ,001
JOUR * MOIS 93,958 6 15,660 1,758 ,136
Erreur 320,750 36 8,910
Total 4193,000 48
Total corrig 604,979 47
a. R deux = ,470 (R deux ajust = ,308)

5. Exercices

5.1. Vous tudiez lefficacit de diffrentes techniques utilises pour faire diminuer le taux
dabsentisme dans les cours de niveau premier cycle luniversit. Quatre techniques sont compares :
donner des travaux supplmentaires aux tudiants qui sabsentent plus de deux priodes, accorder des
points pour la prsence en classe, rendre la prsence en classe indispensable en y prsentant des
informations indites et sensibiliser les tudiants limportance dassister aux cours. La variable
dpendante est le taux dabsentisme au cours dune session pour lensemble des cours. Effectuez
lanalyse approprie afin de dterminer, au seuil de 5%, sil existe une diffrence entre ces techniques
en ce qui concerne le taux dabsentisme en classe.

Techniques
Travaux Points pour la Information indite Sensibilisation
supplmentaires prsence en classe
26 9 21 11
25 5 18 20
19 9 24 12
31 7 19 7
22 3 27 10
24 6 24 8
25 4 31 13
27 8 26 11
33 7 17 15
28 7 22 16

5.2. On a mis au point quatre techniques diffrentes, T1, T2, T3, et T4 pour la promotion dun produit.
On a alors dcid de toutes les essayer et d'utiliser les oprateurs qualifis pour comparer les dites
techniques. On s'attend ce qu'il y ait des diffrences importantes entre oprateurs et peut-tre aussi
entre techniques. 5 oprateurs ont t assigns aux 4 techniques. Voici les nombres dunits vendues
enregistres lors de ces tests.

8
Analyse des donnes.

Oprateurs \ Techniques T1 T2 T3 T4
O1 42 45 55 50
O2 39 41 52 46
O3 38 39 48 42
O4 43 45 54 48
O5 44 45 56 49

Y a-t-il des diffrences significatives au niveau 5% entre les cinq oprateurs d'une part et entre les
quatre techniques d'autre part quant au nombre moyen dunits vendues ?

5.3. On a demand 24 ouvriers de prdire le nombre dheures ncessaires pour lassemblage dune
machine. Les ouvriers ont t classifis selon leur type dexprience et leur nombre dannes
dexprience. Quand le projet fut termin, tous sans exception avaient sous-estim le temps
effectivement requis pour accomplir cette tche. Dans le tableau qui suit, on a ces erreurs de prvision
(en heures).
Donnes numriques

TYPE NOMBRE DANNES DEXPRIENCE


DEXPRIENCE Moins de 2 ans Entre 2 et 5 Plus de 5 ans
ans
Dans grande 25 12 10
entreprise 22 10 9
18 14 11
20 8 8
Dans petite 30 20 14
entreprise 38 28 15
45 29 26
44 28 24

Que ce soit sous l'angle Type d'exprience ou Nombre d'annes d'exprience, existe-t-il
globalement des diffrences significatives entre les groupes (seuil 5%)?

5.3. Un manufacturier japonais de puces lectroniques songe implanter une nouvelle usine au Maroc afin
de desservir tout le march nord-africain. Il hsite entre trois villes: Tanger, Casablanca et Eljadida. Selon
son point de vue, le critre le plus important prendre en considration pour dterminer l'emplacement de
cette nouvelle usine est l'assiduit au travail des ouvriers.
Le manufacturier a visit au hasard dans chacune des villes considres cinq grandes usines de fabrication et
il a obtenu des administrateurs le taux d'absentisme par 3500 journes de travail. Les rsultats sont
reproduits dans le tableau ci-dessous.
Ville Echantillon
Tanger 141; 127 ; 111; 124 ; 144
Casablanca 157; 131; 105; 132 ; 163
Eljadida 183; 161; 145 ; 157 ; 189

9
Analyse des donnes.
A un seuil de 5%, peut-on conclure que le taux d'absentisme au travail est le mme en moyenne dans ces 3
villes?

10

Vous aimerez peut-être aussi