Académique Documents
Professionnel Documents
Culture Documents
Anova PDF
Anova PDF
ANALYSE DE LA VARIANCE
1. INTRODUCTION.
En analyse de la variance, on cherche à expliquer les variations d’une variable métrique Y par un ou
plusieurs facteurs explicatifs nominaux. Le principe de l 'analyse de variance consiste à tester l'égalité des
moyennes de J populations normales dans lesquelles on suppose que les variances sont égales.
Ho: m1 = m2 = ... = mJ
Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de comparaisons multiples permettent
de déterminer où se situent en réalité les différences importantes.
Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le modèle à un facteur, le
modèle à 2 facteurs sans interaction et le modèle à 2 facteurs avec interaction.
L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations de la variable dépendante
Y par un seul facteur explicatif. Les données proviennent d'échantillons prélevés aléatoirement dans des
populations normales dans lesquelles les variances sont supposées égales. Les données sont regroupées dans
un tableau appelé matrice de données.
Le modèle est dit à effets fixes quand l'inférence statistique découlant de l'analyse de la variance porte
seulement sur les modalités du facteur considéré, c'est-à-dire seulement sur les J «traitements» utilisés dans
l'expérience. Un tel modèle est parfois appelé modèle I. Une répétition de l'expérience aléatoire ferait appel
nécessairement aux mêmes traitements.
1
Analyse des données.
2.2- Modèle à effets aléatoires.
Le modèle est dit à effets aléatoires ou modèle II quand l'inférence statistique ne porte pas sur les quelques
traitements choisis dans une expérience particulière, mais bien sur l'ensemble des traitements possibles et
disponibles. Les traitements sont choisis aléatoirement dans une population de traitements à chaque fois que
l'on répète l'expérience.
Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il existe des différences
importantes entre certaines des moyennes de ces populations normales. Dans ce cas, la comparaison
multiples de moyennes cherche à déterminer un classement des moyennes en indiquant les différences
significatives et celles qui ne le sont pas.
La théorie statistique a développé plusieurs méthodes de comparaisons multiples de moyennes :
Méthode de Tukey : Cette méthode s'applique pour toutes les comparaisons possibles; elle est cependant
recommandée pour des comparaisons impliquant seulement deux moyennes. Nous l’appliquerons ici
uniquement pour des comparaisons par paires.
24 vendeurs ont utilisé 6 techniques de vente différentes pour constituer 4 répétitions et on a enregistré
les ventes moyennes quotidiennes d’un produit en nombre d’unités vendues :
T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes techniques de vente
sur les ventes moyennes quotidiennes de ce produit ?
Pour répondre à cette question, il faut comparer les ventes moyennes quotidiennes des 6 techniques de
vente. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à un facteur
(ANOVA1).
Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales dans
lesquelles on suppose que les variances sont égales.
Ho: m1 = m2 = m3 = m4 = m5 = m6
Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure suivante :
Analyse
Comparer les moyennes
Moyennes...
Dans la boite de dialogue ANOVA à un facteur :
3
Analyse des données.
Comparaisons multiples
Intervalle de confiance à
Différence de 95%
moyennes Erreur Borne Borne
(I) Techniques de vente
(J) Techniques de vente
(I-J) standard Signification inférieure supérieure
T1 T2 197,50* 45,97 ,005 51,41 343,59
T3 127,50 45,97 ,108 -18,59 273,59
T4 22,50 45,97 ,996 -123,59 168,59
T5 92,50 45,97 ,374 -53,59 238,59
T6 -17,50 45,97 ,999 -163,59 128,59
T2 T1 -197,50* 45,97 ,005 -343,59 -51,41
T3 -70,00 45,97 ,655 -216,09 76,09
T4 -175,00* 45,97 ,014 -321,09 -28,91
T5 -105,00 45,97 ,250 -251,09 41,09
T6 -215,00* 45,97 ,002 -361,09 -68,91
T3 T1 -127,50 45,97 ,108 -273,59 18,59
T2 70,00 45,97 ,655 -76,09 216,09
T4 -105,00 45,97 ,250 -251,09 41,09
T5 -35,00 45,97 ,971 -181,09 111,09
T6 -145,00 45,97 ,052 -291,09 1,09
T4 T1 -22,50 45,97 ,996 -168,59 123,59
T2 175,00* 45,97 ,014 28,91 321,09
T3 105,00 45,97 ,250 -41,09 251,09
T5 70,00 45,97 ,655 -76,09 216,09
T6 -40,00 45,97 ,949 -186,09 106,09
T5 T1 -92,50 45,97 ,374 -238,59 53,59
T2 105,00 45,97 ,250 -41,09 251,09
T3 35,00 45,97 ,971 -111,09 181,09
T4 -70,00 45,97 ,655 -216,09 76,09
T6 -110,00 45,97 ,210 -256,09 36,09
T6 T1 17,50 45,97 ,999 -128,59 163,59
T2 215,00* 45,97 ,002 68,91 361,09
T3 145,00 45,97 ,052 -1,09 291,09
T4 40,00 45,97 ,949 -106,09 186,09
T5 110,00 45,97 ,210 -36,09 256,09
*.La différence de moyennes est significative au niveau .05.
D’après le tableau des comparaisons multiples selon la méthode de tukey, une signification inférieure au
seuil de 0,05 permet de repérer les techniques de vente qui donnent des résultats différents, ainsi les
techniques T1 et T2 permettent des ventes quotidiennes moyennes différentes (signification = 0,005), il
en est de même pour les techniques T2 et T4 (signification = 0,014) et les techniques T2 et T6
(signification = 0,02).
L’analyse de la variance à deux facteurs, ANOVA2 permet d’expliquer les variations de la variable
dépendante Y par deux facteurs explicatifs. Les données proviennent d'échantillons prélevés
aléatoirement dans des populations normales dans lesquelles les variances sont supposées égales. Les
données sont regroupées dans un tableau appelé matrice de données.
4
Analyse des données.
Le modèle est dit à effets fixes quand l'inférence statistique découlant de l'analyse de la variance porte
seulement sur les modalités des facteurs A et B considérés, c'est-à-dire seulement sur les IJ traitements
utilisés dans l'expérience. Un tel modèle est appelé modèle I. Une répétition de l'expérience aléatoire ferait
appel nécessairement aux mêmes traitements.
Le modèle est dit à effets aléatoires ou modèle II quand l'inférence statistique ne porte pas sur les IJ
traitements choisis dans une expérience particulière donnée, mais bien sur l'ensemble des traitements
disponibles. les modalités des facteurs A et B sont choisies aléatoirement dans des «populations» de
modalités à chaque fois que l'on répète l'expérience
Quand les différents niveaux d'un premier facteur sont les mêmes d'une expérience à l'autre alors que les
niveaux d'un autre facteur sont choisis aléatoirement à chaque reprise de l'expérience, on dit que le
modèle est à effets mixtes, aussi appelé modèle III.
L'expérience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et Âge sur la consommation
d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a été offert à 100 personnes choisies
au hasard. La consommation, en nombre d’unités achetées, est donnée dans le tableau qui suit:
Quant au nombre d’unités achetées en moyenne, peut-on affirmer au niveau 5% qu'il y a une différence
significative entre hommes et femmes d'une part, et entre les trois groupes d'âge, d'autre part?
Pour répondre à cette question, il faut comparer la consommation moyenne du produit de luxe dans
chacun des 6 groupes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à
deux facteurs (ANOVA2) sans interaction.
Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure suivante :
5
Analyse des données.
Analyse
Modèle linéaire général
Univarié...
Dans la boite de dialogue Univarié :
L’analyse de la variance à deux facteurs avec répétitions permet d’expliquer les variations de la variable
dépendante Y par deux facteurs explicatifs et de vérifier si l'interaction entre les deux facteurs est
importante. La présence d’interaction entre les deux facteurs signifie que les résultats sous les niveaux
d'un facteur se comportent différemment selon les différents niveaux de l'autre facteur.
Les données proviennent d'échantillons prélevés aléatoirement dans des populations normales dans
lesquelles les variances sont supposées égales. Les données sont regroupées dans un tableau appelé
matrice de données.
Application numérique.
Les ventes quotidiennes d'ordinateurs réalisées par une société informatique durant les 3 premiers mois
de 2010, du lundi au jeudi sont comme suit :
6
Analyse des données.
Janvier 2010 Février 2010 Mars 2010
lundi 13 9 7
9 5 15
8 8 14
7 12 10
mardi 8 11 17
6 4 14
6 9 12
7 5 13
mercredi 6 10 6
10 2 14
7 8 12
4 3 13
jeudi 1 6 10
10 10 8
7 12 4
5 9 9
Pour répondre à cette question, il faut comparer Les ventes quotidiennes moyennes d'ordinateurs des 12
combinaisons jour/mois. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance
à deux facteurs (ANOVA2) avec interaction.
Le logiciel SPSS fournit directement le tableau d’analyse de la variance par la procédure suivante :
Analyse
Modèle linéaire général
Univarié...
Dans la boite de dialogue Univarié :
7
Analyse des données.
Tests des effets inter-sujets
5. Exercices
5.1. Vous étudiez l’efficacité de différentes techniques utilisées pour faire diminuer le taux
d’absentéisme dans les cours de niveau premier cycle à l’université. Quatre techniques sont comparées :
donner des travaux supplémentaires aux étudiants qui s’absentent à plus de deux périodes, accorder des
points pour la présence en classe, rendre la présence en classe indispensable en y présentant des
informations inédites et sensibiliser les étudiants à l’importance d’assister aux cours. La variable
dépendante est le taux d’absentéisme au cours d’une session pour l’ensemble des cours. Effectuez
l’analyse appropriée afin de déterminer, au seuil de 5%, s’il existe une différence entre ces techniques
en ce qui concerne le taux d’absentéisme en classe.
Techniques
Travaux Points pour la Information inédite Sensibilisation
supplémentaires présence en classe
26 9 21 11
25 5 18 20
19 9 24 12
31 7 19 7
22 3 27 10
24 6 24 8
25 4 31 13
27 8 26 11
33 7 17 15
28 7 22 16
5.2. On a mis au point quatre techniques différentes, T1, T2, T3, et T4 pour la promotion d’un produit.
On a alors décidé de toutes les essayer et d'utiliser les opérateurs qualifiés pour comparer les dites
techniques. On s'attend à ce qu'il y ait des différences importantes entre opérateurs et peut-être aussi
entre techniques. 5 opérateurs ont été assignés aux 4 techniques. Voici les nombres d’unités vendues
enregistrées lors de ces tests.
8
Analyse des données.
Opérateurs \ Techniques T1 T2 T3 T4
O1 42 45 55 50
O2 39 41 52 46
O3 38 39 48 42
O4 43 45 54 48
O5 44 45 56 49
Y a-t-il des différences significatives au niveau 5% entre les cinq opérateurs d'une part et entre les
quatre techniques d'autre part quant au nombre moyen d’unités vendues ?
5.3. On a demandé à 24 ouvriers de prédire le nombre d’heures nécessaires pour l’assemblage d’une
machine. Les ouvriers ont été classifiés selon leur type d’expérience et leur nombre d’années
d’expérience. Quand le projet fut terminé, tous sans exception avaient sous-estimé le temps
effectivement requis pour accomplir cette tâche. Dans le tableau qui suit, on a ces erreurs de prévision
(en heures).
Données numériques
Que ce soit sous l'angle «Type d'expérience» ou «Nombre d'années d'expérience», existe-t-il
globalement des différences significatives entre les groupes (seuil 5%)?
5.3. Un manufacturier japonais de puces électroniques songe à implanter une nouvelle usine au Maroc afin
de desservir tout le marché nord-africain. Il hésite entre trois villes: Tanger, Casablanca et Eljadida. Selon
son point de vue, le critère le plus important à prendre en considération pour déterminer l'emplacement de
cette nouvelle usine est l'assiduité au travail des ouvriers.
Le manufacturier a visité au hasard dans chacune des villes considérées cinq grandes usines de fabrication et
il a obtenu des administrateurs le taux d'absentéisme par 3500 journées de travail. Les résultats sont
reproduits dans le tableau ci-dessous.
Ville Echantillon
Tanger 141; 127 ; 111; 124 ; 144
Casablanca 157; 131; 105; 132 ; 163
Eljadida 183; 161; 145 ; 157 ; 189
9
Analyse des données.
A un seuil de 5%, peut-on conclure que le taux d'absentéisme au travail est le même en moyenne dans ces 3
villes?
10