Vous êtes sur la page 1sur 10

Analyse des données.

ANALYSE DE LA VARIANCE

1. INTRODUCTION.

En analyse de la variance, on cherche à expliquer les variations d’une variable métrique Y par un ou
plusieurs facteurs explicatifs nominaux. Le principe de l 'analyse de variance consiste à tester l'égalité des
moyennes de J populations normales dans lesquelles on suppose que les variances sont égales.

L’analyse de la variance permet de tester les hypothèses suivantes :

Ho: m1 = m2 = ... = mJ

H1: au moins une des moyennes est différente des autres.

Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de comparaisons multiples permettent
de déterminer où se situent en réalité les différences importantes.

Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le modèle à un facteur, le
modèle à 2 facteurs sans interaction et le modèle à 2 facteurs avec interaction.

2. ANALYSE DE LA VARIANCE À UN FACTEUR.

L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations de la variable dépendante
Y par un seul facteur explicatif. Les données proviennent d'échantillons prélevés aléatoirement dans des
populations normales dans lesquelles les variances sont supposées égales. Les données sont regroupées dans
un tableau appelé matrice de données.

2.1- Modèle à effets fixes.

Le modèle est dit à effets fixes quand l'inférence statistique découlant de l'analyse de la variance porte
seulement sur les modalités du facteur considéré, c'est-à-dire seulement sur les J «traitements» utilisés dans
l'expérience. Un tel modèle est parfois appelé modèle I. Une répétition de l'expérience aléatoire ferait appel
nécessairement aux mêmes traitements.

1
Analyse des données.
2.2- Modèle à effets aléatoires.

Le modèle est dit à effets aléatoires ou modèle II quand l'inférence statistique ne porte pas sur les quelques
traitements choisis dans une expérience particulière, mais bien sur l'ensemble des traitements possibles et
disponibles. Les traitements sont choisis aléatoirement dans une population de traitements à chaque fois que
l'on répète l'expérience.

2.3- Comparaisons multiples de moyennes.

Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il existe des différences
importantes entre certaines des moyennes de ces populations normales. Dans ce cas, la comparaison
multiples de moyennes cherche à déterminer un classement des moyennes en indiquant les différences
significatives et celles qui ne le sont pas.
La théorie statistique a développé plusieurs méthodes de comparaisons multiples de moyennes :

Méthode de Tukey : Cette méthode s'applique pour toutes les comparaisons possibles; elle est cependant
recommandée pour des comparaisons impliquant seulement deux moyennes. Nous l’appliquerons ici
uniquement pour des comparaisons par paires.

2.4. Application numérique.

24 vendeurs ont utilisé 6 techniques de vente différentes pour constituer 4 répétitions et on a enregistré
les ventes moyennes quotidiennes d’un produit en nombre d’unités vendues :

T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740

Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes techniques de vente
sur les ventes moyennes quotidiennes de ce produit ?

Pour répondre à cette question, il faut comparer les ventes moyennes quotidiennes des 6 techniques de
vente. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à un facteur
(ANOVA1).

Formulation de l’hypothèse nulle

Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales dans
lesquelles on suppose que les variances sont égales.

Ho: m1 = m2 = m3 = m4 = m5 = m6

H1: au moins une des moyennes est différente des autres.


2
Analyse des données.

Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure suivante :

A partir du menu, sélectionnez :

Analyse
Comparer les moyennes
Moyennes...
Dans la boite de dialogue ANOVA à un facteur :

Dans variables dépendantes, sélectionnez la variable à expliquer métrique.


Dans critère, sélectionnez le facteur explicatif.
Dans PostHoc, sélectionnez les méthodes de comparaison multiples de moyennes.
ANOVA

Ventes quotidiennes moyennes


Somme Moyenne
des carrés ddl des carrés F Signification
Inter-groupes 139520,833 5 27904,167 6,602 ,001
Intra-groupes 76075,000 18 4226,389
Total 215595,833 23

3
Analyse des données.
Comparaisons multiples

Variable dépendante: Ventes quotidiennes moyennes


Test de Tukey

Intervalle de confiance à
Différence de 95%
moyennes Erreur Borne Borne
(I) Techniques de vente
(J) Techniques de vente
(I-J) standard Signification inférieure supérieure
T1 T2 197,50* 45,97 ,005 51,41 343,59
T3 127,50 45,97 ,108 -18,59 273,59
T4 22,50 45,97 ,996 -123,59 168,59
T5 92,50 45,97 ,374 -53,59 238,59
T6 -17,50 45,97 ,999 -163,59 128,59
T2 T1 -197,50* 45,97 ,005 -343,59 -51,41
T3 -70,00 45,97 ,655 -216,09 76,09
T4 -175,00* 45,97 ,014 -321,09 -28,91
T5 -105,00 45,97 ,250 -251,09 41,09
T6 -215,00* 45,97 ,002 -361,09 -68,91
T3 T1 -127,50 45,97 ,108 -273,59 18,59
T2 70,00 45,97 ,655 -76,09 216,09
T4 -105,00 45,97 ,250 -251,09 41,09
T5 -35,00 45,97 ,971 -181,09 111,09
T6 -145,00 45,97 ,052 -291,09 1,09
T4 T1 -22,50 45,97 ,996 -168,59 123,59
T2 175,00* 45,97 ,014 28,91 321,09
T3 105,00 45,97 ,250 -41,09 251,09
T5 70,00 45,97 ,655 -76,09 216,09
T6 -40,00 45,97 ,949 -186,09 106,09
T5 T1 -92,50 45,97 ,374 -238,59 53,59
T2 105,00 45,97 ,250 -41,09 251,09
T3 35,00 45,97 ,971 -111,09 181,09
T4 -70,00 45,97 ,655 -216,09 76,09
T6 -110,00 45,97 ,210 -256,09 36,09
T6 T1 17,50 45,97 ,999 -128,59 163,59
T2 215,00* 45,97 ,002 68,91 361,09
T3 145,00 45,97 ,052 -1,09 291,09
T4 40,00 45,97 ,949 -106,09 186,09
T5 110,00 45,97 ,210 -36,09 256,09
*.La différence de moyennes est significative au niveau .05.

D’après le tableau des comparaisons multiples selon la méthode de tukey, une signification inférieure au
seuil de 0,05 permet de repérer les techniques de vente qui donnent des résultats différents, ainsi les
techniques T1 et T2 permettent des ventes quotidiennes moyennes différentes (signification = 0,005), il
en est de même pour les techniques T2 et T4 (signification = 0,014) et les techniques T2 et T6
(signification = 0,02).

3. ANALYSE DE LA VARIANCE À DEUX FACTEURS SANS REPETITION.

L’analyse de la variance à deux facteurs, ANOVA2 permet d’expliquer les variations de la variable
dépendante Y par deux facteurs explicatifs. Les données proviennent d'échantillons prélevés
aléatoirement dans des populations normales dans lesquelles les variances sont supposées égales. Les
données sont regroupées dans un tableau appelé matrice de données.

4
Analyse des données.

3.1. Modèles d’analyse de la variance.

3.1.1. Modèle à effets fixes.

Le modèle est dit à effets fixes quand l'inférence statistique découlant de l'analyse de la variance porte
seulement sur les modalités des facteurs A et B considérés, c'est-à-dire seulement sur les IJ traitements
utilisés dans l'expérience. Un tel modèle est appelé modèle I. Une répétition de l'expérience aléatoire ferait
appel nécessairement aux mêmes traitements.

3.1.2. Modèle à effets aléatoires.

Le modèle est dit à effets aléatoires ou modèle II quand l'inférence statistique ne porte pas sur les IJ
traitements choisis dans une expérience particulière donnée, mais bien sur l'ensemble des traitements
disponibles. les modalités des facteurs A et B sont choisies aléatoirement dans des «populations» de
modalités à chaque fois que l'on répète l'expérience

3.1.3. Modèle à effets mixtes.

Quand les différents niveaux d'un premier facteur sont les mêmes d'une expérience à l'autre alors que les
niveaux d'un autre facteur sont choisis aléatoirement à chaque reprise de l'expérience, on dit que le
modèle est à effets mixtes, aussi appelé modèle III.

3.2. Application numérique.

L'expérience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et Âge sur la consommation
d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a été offert à 100 personnes choisies
au hasard. La consommation, en nombre d’unités achetées, est donnée dans le tableau qui suit:

Sexe Catégorie d'âge


Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54
Masculin 32 45 62
Total 59 84 116

Quant au nombre d’unités achetées en moyenne, peut-on affirmer au niveau 5% qu'il y a une différence
significative entre hommes et femmes d'une part, et entre les trois groupes d'âge, d'autre part?

Pour répondre à cette question, il faut comparer la consommation moyenne du produit de luxe dans
chacun des 6 groupes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à
deux facteurs (ANOVA2) sans interaction.

Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure suivante :

5
Analyse des données.

A partir du menu, sélectionnez :

Analyse
Modèle linéaire général
Univarié...
Dans la boite de dialogue Univarié :

Dans variables dépendantes, sélectionnez la variable à expliquer métrique.


Dans Facteur(s), sélectionnez les deux facteurs explicatifs.
Dans Spécifier le modèle, cocher Autre.
Dans Terme(s) construit(s), choisissez effets principaux.
Dans modèle, glisser les deux facteurs explicatifs.
Dans somme des carrés, spécifiez le type de modèle.
Tests des effets inter-sujets

Variable dépendante: consommation, en nombre d'unités achetées


Somme
des carrés Moyenne
Source de type I ddl des carrés F Signification
Modèle corrigé 876,500a 3 292,167 250,429 ,004
Constante 11180,167 1 11180,167 9583,000 ,000
SEXE 60,167 1 60,167 51,571 ,019
AGE 816,333 2 408,167 349,857 ,003
Erreur 2,333 2 1,167
Total 12059,000 6
Total corrigé 878,833 5
a. R deux = ,997 (R deux ajusté = ,993)

4. ANALYSE DE LA VARIANCE À DEUX FACTEURS AVEC REPETITIONS.

L’analyse de la variance à deux facteurs avec répétitions permet d’expliquer les variations de la variable
dépendante Y par deux facteurs explicatifs et de vérifier si l'interaction entre les deux facteurs est
importante. La présence d’interaction entre les deux facteurs signifie que les résultats sous les niveaux
d'un facteur se comportent différemment selon les différents niveaux de l'autre facteur.

Les données proviennent d'échantillons prélevés aléatoirement dans des populations normales dans
lesquelles les variances sont supposées égales. Les données sont regroupées dans un tableau appelé
matrice de données.

Application numérique.

Les ventes quotidiennes d'ordinateurs réalisées par une société informatique durant les 3 premiers mois
de 2010, du lundi au jeudi sont comme suit :

6
Analyse des données.
Janvier 2010 Février 2010 Mars 2010
lundi 13 9 7
9 5 15
8 8 14
7 12 10
mardi 8 11 17
6 4 14
6 9 12
7 5 13
mercredi 6 10 6
10 2 14
7 8 12
4 3 13
jeudi 1 6 10
10 10 8
7 12 4
5 9 9

Pour répondre à cette question, il faut comparer Les ventes quotidiennes moyennes d'ordinateurs des 12
combinaisons jour/mois. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance
à deux facteurs (ANOVA2) avec interaction.

Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure suivante :

A partir du menu, sélectionnez :

Analyse
Modèle linéaire général
Univarié...
Dans la boite de dialogue Univarié :

Dans variables dépendantes, sélectionnez la variable à expliquer métrique.


Dans Facteur(s), sélectionnez les deux facteurs explicatifs.
Dans Spécifier le modèle, cocher Complet .
Dans somme des carrés, spécifiez le type de modèle.

7
Analyse des données.
Tests des effets inter-sujets

Variable dépendante: VENTE


Somme
des carrés Moyenne
Source de type I ddl des carrés F Signification
Modèle corrigé 284,229a 11 25,839 2,900 ,008
Constante 3588,021 1 3588,021 402,708 ,000
JOUR 40,229 3 13,410 1,505 ,230
MOIS 150,042 2 75,021 8,420 ,001
JOUR * MOIS 93,958 6 15,660 1,758 ,136
Erreur 320,750 36 8,910
Total 4193,000 48
Total corrigé 604,979 47
a. R deux = ,470 (R deux ajusté = ,308)

5. Exercices

5.1. Vous étudiez l’efficacité de différentes techniques utilisées pour faire diminuer le taux
d’absentéisme dans les cours de niveau premier cycle à l’université. Quatre techniques sont comparées :
donner des travaux supplémentaires aux étudiants qui s’absentent à plus de deux périodes, accorder des
points pour la présence en classe, rendre la présence en classe indispensable en y présentant des
informations inédites et sensibiliser les étudiants à l’importance d’assister aux cours. La variable
dépendante est le taux d’absentéisme au cours d’une session pour l’ensemble des cours. Effectuez
l’analyse appropriée afin de déterminer, au seuil de 5%, s’il existe une différence entre ces techniques
en ce qui concerne le taux d’absentéisme en classe.

Techniques
Travaux Points pour la Information inédite Sensibilisation
supplémentaires présence en classe
26 9 21 11
25 5 18 20
19 9 24 12
31 7 19 7
22 3 27 10
24 6 24 8
25 4 31 13
27 8 26 11
33 7 17 15
28 7 22 16

5.2. On a mis au point quatre techniques différentes, T1, T2, T3, et T4 pour la promotion d’un produit.
On a alors décidé de toutes les essayer et d'utiliser les opérateurs qualifiés pour comparer les dites
techniques. On s'attend à ce qu'il y ait des différences importantes entre opérateurs et peut-être aussi
entre techniques. 5 opérateurs ont été assignés aux 4 techniques. Voici les nombres d’unités vendues
enregistrées lors de ces tests.

8
Analyse des données.

Opérateurs \ Techniques T1 T2 T3 T4
O1 42 45 55 50
O2 39 41 52 46
O3 38 39 48 42
O4 43 45 54 48
O5 44 45 56 49

Y a-t-il des différences significatives au niveau 5% entre les cinq opérateurs d'une part et entre les
quatre techniques d'autre part quant au nombre moyen d’unités vendues ?

5.3. On a demandé à 24 ouvriers de prédire le nombre d’heures nécessaires pour l’assemblage d’une
machine. Les ouvriers ont été classifiés selon leur type d’expérience et leur nombre d’années
d’expérience. Quand le projet fut terminé, tous sans exception avaient sous-estimé le temps
effectivement requis pour accomplir cette tâche. Dans le tableau qui suit, on a ces erreurs de prévision
(en heures).
Données numériques

TYPE NOMBRE D’ANNÉES D’EXPÉRIENCE


D’EXPÉRIENCE Moins de 2 ans Entre 2 et 5 Plus de 5 ans
ans
Dans grande 25 12 10
entreprise 22 10 9
18 14 11
20 8 8
Dans petite 30 20 14
entreprise 38 28 15
45 29 26
44 28 24

Que ce soit sous l'angle «Type d'expérience» ou «Nombre d'années d'expérience», existe-t-il
globalement des différences significatives entre les groupes (seuil 5%)?

5.3. Un manufacturier japonais de puces électroniques songe à implanter une nouvelle usine au Maroc afin
de desservir tout le marché nord-africain. Il hésite entre trois villes: Tanger, Casablanca et Eljadida. Selon
son point de vue, le critère le plus important à prendre en considération pour déterminer l'emplacement de
cette nouvelle usine est l'assiduité au travail des ouvriers.
Le manufacturier a visité au hasard dans chacune des villes considérées cinq grandes usines de fabrication et
il a obtenu des administrateurs le taux d'absentéisme par 3500 journées de travail. Les résultats sont
reproduits dans le tableau ci-dessous.
Ville Echantillon
Tanger 141; 127 ; 111; 124 ; 144
Casablanca 157; 131; 105; 132 ; 163
Eljadida 183; 161; 145 ; 157 ; 189

9
Analyse des données.
A un seuil de 5%, peut-on conclure que le taux d'absentéisme au travail est le même en moyenne dans ces 3
villes?

10