Vous êtes sur la page 1sur 29

Analyse statistique préliminaire des données

L’analyse préliminaire des données consiste à faire une étude à la fois descriptive et
explicative des variables ou caractères concernés. Ceci doit donc précéder toute analyse
factorielle ou économétrique. Cette étape primordiale repose sur une analyse uni variée en
premier lieu et une analyse bi variée ou bidimensionnelle par la suite.

I. Analyse statistique univariée des données.

L’analyse uni variée concerne l’étude d’une variable déterminée, elle en fait une description
graphique et numérique (analyse descriptive) et aussi une comparaison des valeurs observées
à une ou plusieurs valeurs prédéterminées correspondant à un objectif à atteindre ou à un
résultat d’une étude précédente (inférence).
Les techniques employées dépendent des propriétés de mesure de la variable étudiée :

Objectif Type
Métrique Ordinal Nominal
1. Description
a. Tendance centrale Moyenne Médiane Mode
b. Dispersion
Ecart type Quartile Fréquence

2. Inférence Test de moyenne Test de Test binomial


Test Kolmogorov Test de 2
d’adéquation Smirnov

1. Analyse d’une variable nominale.

Exemple : Produit acheté impulsivement (Enquête sur l’achat impulsif).


Dans l’étude élaborée par enquête sur les déterminants de l’achat impulsif, il s’agit de savoir
entre autre s’il y a une uniformité des produits achetés d’une manière impulsive. Les résultats
de l’enquête sont les suivants :
Analyse descriptive.
Ce type d’analyse peut être numérique :
Produit

Cumulative
Frequency Percent Valid Percent Percent

Valid Alimentation 223 44,6 44,6 44,6

Textile 38 7,6 7,6 52,2

cosmétique 108 21,6 21,6 73,8

Hygiène 48 9,6 9,6 83,4

Autres 83 16,6 16,6 100,0


Produit

Cumulative
Frequency Percent Valid Percent Percent

Valid Alimentation 223 44,6 44,6 44,6

Textile 38 7,6 7,6 52,2

cosmétique 108 21,6 21,6 73,8

Hygiène 48 9,6 9,6 83,4

Autres 83 16,6 16,6 100,0

Total 500 100,0 100,0

Les résultats montrent une prédominance des produits alimentaires qui coïncide avec la
tendance centrale dans ce cas le mode ou la modalité correspondant à l’effectif le plus élevé.

Cette description peut aussi être graphique :

Analyse explicative.

L’analyse explicative consiste essentiellement à faire des tests d’hypothèses. Parmi les tests
non paramétriques d’ajustement qui sont concevables dans le cas d’une variable nominale, on
cite le test de 2.
L’estimation par intervalle de confiance nous donne une autre possibilité d’analyse
explicative.

2.1 Le test de 2
.
Reprenons l’exemple précédent, il s’agit de tester l’hypothèse selon laquelle il n’y a pas de
différence significative entre les différents produits. On veut savoir si un produit se détache
des autres, ou encore est-ce que le caractère impulsif est plus nuancé pour un certain produit.
H0 : Il n’y a pas de différences significatives entre les produits. (Hypothèse nulle)
H1 : Il y a un produit qui se détache des autres. (Hypothèse alternative)

On rejette l’hypothèse nulle si la valeur d (sous H0) qui correspond au 2 calculé et qui suit
une loi de 2n-1 où n est le nombre de modalité de la variable, dépasse la valeur critique de 2
pour un seuil de signification  fixé à 5%.
Avec :
d= Σ (effectifs observés – effectifs théoriques)2/effectifs théoriques

et  = p(rejeter H0/ H0 vraie) appelée erreur de type I.

Produit
Test Statistics
Effectif Effectif
observé théorique Ecart prod11
a
Alimentation 223 100,0 123,0 Chi-Square 220,300

Textile 38 100,0 -62,0 df 4

cosmétique 108 100,0 8,0 Asymp. Sig. ,000

hygiène 48 100,0 -52,0

Autres 83 100,0 -17,0

Total 500

Le khi deux (2 ) calculé est égal à 220.3 et le khi deux théorique lu sur la table de la loi de 2
pour un risque d’erreur fixé à 5% et un degré de liberté (df) égal à 4 (nombre de modalité-1)
est 9.488 nettement inférieur à d . Par conséquent on rejette l’hypothèse nulle et on conclut
par l’absence d’uniformité des produits achetés impulsivement. L’alimentation est
significativement le produit le plus impulsivement acheté. Ce résultat n’est pas spécifique au
comportement consommateur tunisien, ceci a été confirmé par M. Giraud (Giraud 2004) dans
une étude similaire dans un seul point de vente en France.
Une autre façon de conclure dans ce test d’hypothèse consiste à comparer le risque  fixé
d’avance à la signification asymptotique. On rejette H0 si la signification est inférieur à .

Ces résultats ont été obtenus à partir du logiciel SPSS 17.0. Dans le menu, on clique sur la
fonction analyse et après sur tests non paramétriques, on à la fenêtre suivante :
En sélectionne la variable étudiée dans ce cas le produit libellé (prod11) et en clique sur
option pour choisir les résultats descriptifs, les résultats du test de khi deux sont obtenus en
appuyant sur OK.

2.2. Intervalle de confiance.


La vraie fréquence ou proportion de la modalité d’une variable est p0 dans une population
totale de taille N et p la proportion sur l’échantillon de taille n qui a été trouvée. Cette
proportion p suit une loi normale de moyenne p0 et d’écart type p.

p → N (p0, p) p = [p (1-p)/n]1/2

Au risque d’erreur, l’intervalle de confiance est obtenu par l’expression :


[p - z/2 p, p + z/2 p]
Généralement pour calculer p on prend p = 0.5

4
Exemple :
Dans le cadre d’une étude de notoriété 25% des personnes interrogées ont déclaré connaître la
marque M pour un échantillon de 100 individus.
Donnons un encadrement du vrai taux de notoriété pour un risque d’erreur =5%.
p= [(0.5x0.5)/1000]1/2 =0.0158
z/2 = 1.96 d’où :
IC = [0.25-1.96x0.0158, 0.25+1.96x0.0158]
Le vrai taux de notoriété est compris entre 22% et 28%.

2. Analyse d’une variable ordinale.

Dans l’étude sur le positionnement des marques de pâtes de dentifrice, on s’intéresse entre
autre sur le niveau d’utilisation (variable ordinale). Les variables ordinales sont des variables
nominales dont les modalités sont ordonnées, donc pour le traitement, on ajoute la notion de
rang. Les résultats de l’enquête sont les suivants :
Niveau d’utilité effectif Fréquence
Inutile 10 4.17
Utile 90 37.5
Très utile 80 33.3
Indispensable 60 25

2.1 Analyse descriptive.


La description dans ce cas se limite à la donnée des quartiles :
- Le premier quartile Q1 correspond à la modalité utile, c'est-à-dire 25% des clients pensent
que les pâtes de dentifrice sont au plus utile.
- Le deuxième quartile Q2 (médiane) correspond à la modalité très utile, on a autant de
clients qui trouve le dentifrice au mois très utile qu’au plus très utile.
- Le troisième quartile Q3 est la modalité non indispensable, en effet 75% des clients
pensent que le dentifrice est au plus très utile.

2.2. Analyse explicative.

Le test de Kolmogorov Smirnov (K.S) est un test d’ajustement préféré au test de 2 car il
n’impose pas la condition restrictive d’avoir un effectif théorique pour chaque classe
supérieur ou égal à 5.
Le test demande le calcul des fréquences relatives cumulées observées Fo et théoriques Fth
des modalités de la variable. Pour chaque modalité la valeur Fo (j) –Fth (j)  est calculée. Un
indicateur D est établi tel que : D = max Fo (j) –Fth (j). D est comparé à une valeur
théorique lue sur la table de Kolmogorov pour un seuil  donné.

5
Pour  = 5% et pour un effectif total dépassant 35 on a une approximation du D théorique ou
critique égale à 1.36/n1/2.

Niveau d’utilisation nj fj Fo (j) fth (j) Fth(j) Ecart


Inutile 10 0.0417 0.0417 0.25 0.25 0.2083
Utile 90 0.375 0.4167 0.25 0.5 0.0833
Très utile 80 0.33 0.75 0.25 0.75 0
Indispensable 60 0.25 1 0.25 1 0

D = 0.2083
Dcritique = 0.0878 = 1.36/240
1/2
pour  = 5%
D > Dcritique donc on rejette H0.
Les répondants ont des points de vue différents sur l’utilité du dentifrice.
Le test de 2 donne aussi le même résultat.
De la même façon que dans le cas d’un test de khi deux et utilisant le logiciel SPSS, on
choisit cette fois le test K.S et on arrive à rejeter l’hypothèse nulle pour une signification
inférieur à .

3. Analyse d’une variable métrique.


Reprenons l’exemple précédent, on s’intéresse maintenant à la fréquence d’utilisation du
dentifrice, donc nous somme en présence d’une variable métrique ou quantitative.

3.1 Analyse descriptive.

Nombre d’utilisation ni fi fi xi fixi2


0 60 0.2 0 0
1 120 0.4 0.4 0.4
2 80 0.267 0.534 1.068
3 et plus 40 0.133 0.394 1.197
Total 300 1 1.33

6
Fonction de distribution
120,00

100,00

80,00
Valeur effectif

60,00

40,00

20,00

0,00
,00 1,00 2,00 3 et plus
utilisation

Fonction de répartition
1
fréquence cumulée

0,8
0,6
0,4
0,2
0
0 1 2 3 4
utilisation

La description numérique pour une variable métrique est complète, c’est d’ailleurs son seul
avantage dans une étude de marché en marketing. On peut calculer les paramètres de position
et de dispersion.
- Le mode M0 =1. L’utilisation la plus fréquente est une seule fois par jours.
- La médiane Me = 1. Une seule utilisation du dentifrice par jour départage l’ensemble de
l’échantillon des clients.
- La moyenne empirique m= x =Σ fi xi =1.33.
- L’écart type  = [Σ fi xi2 - x 2]1/2 = 0.947.
- Le coefficient de variation  / x = 0.71. permet de définir la dispersion par rapport à la
moyenne (par exemple, pour des variables mesurées sur des échelles différentes, ce
coefficient nous permet de comparer les dispersions).

3.2 Analyse explicative

Tous les tests précédents sont applicables aux variables métriques que nous pouvons étendre
aux tests d’adéquation (la variable peut-elle suivre une loi théorique ?)

7
Test d’adéquation à une loi de Poisson.

H0 : la distribution du nombre d’utilisation suit une loi de Poisson de paramètre  estimé par
la moyenne empirique x .
H1 : La distribution ne suit pas la loi de Poisson.

Le principe du test est le même que les tests précédents. On aura à comparer un khi deux
calculé à une valeur critique. L’effectif théorique N pi où N est la taille de l’échantillon et pi la
proportion correspondant à la valeur xi du critère étudié.
xi

pi = p(X =xi) = e

;  est estimé par la moyenne empirique x =1.33
xi!
xi ni pi N pi (ni – N pi)2 /N pi:
0 60 0.2636 79.08 4.6035
1 120 0.3115 105.45 2.0076
2 80 0.2343 70.29 1.3414
3 et plus 40 0.1506 45.18 0.5939

Total N = 300 1 300 = 8.5464

Le khi deux calculé est égal donc à 8.5464 et le khi deux critique à N-1-1=2 degré de liberté
et un risque  = 5% vaut 5.99. Par conséquent on rejette l’hypothèse selon laquelle la
distribution de la fréquence d’utilisation suit une loi Poisson.

3.3 Autre exemple. Utilisation du logiciel SPSS.

Dans l’étude sur l’achat impulsif on s’intéresse à la distribution de la fréquence de visite du


magasin (nombre de visites par semaine). Dans le menu « Analyse » et en cliquant sur
nonparamétric test et après sur 1-sample K-S test, la fenêtre suivante s’affiche qui nous
permet de tester par exemple la loi normale et la loi uniforme. En appuyant sur « OK » après
avoir choisit l’option descriptive nous avons les résultats suivants :

8
Descriptive Statistics

Percentiles

N Mean Std. Deviation Minimum Maximum 25th 50th (Median) 75th

feq 500 3,0100 ,99794 ,00 4,00 2,0000 3,0000 4,0000

La fréquence minimale et maximale sont données ainsi que les quartiles, la moyenne et
l’écart-type. On remarque que la fréquentation moyenne par semaine est voisine de 3 qui
correspond à la valeur qui départage les consommateurs concernés par l’achat impulsif. Nous
vérifierons dans l’analyse bivariée que l’achat impulsif dépend de la fréquentation du
magasin.

One-Sample Kolmogorov-Smirnov Test1

Feq

N 500
a,,b
Normal Parameters Mean 3,0100

Std. Deviation ,99794

Most Extreme Differences Absolute ,236

Positive ,161

Negative -,236

Kolmogorov-Smirnov Z 5,277

Asymp. Sig. (2-tailed) 0,000

Les résultats du test1 concernant l’adéquation à une loi normale c'est-à-dire la distribution des
fréquences de visites épouse la forme d’une courbe en cloche montrent que cette hypothèse
est rejetée. En effet la signification asymptotique (Asymp Sig) est nulle donc inférieure à tout
risque  fixé. La même conclusion est faite pour le test2 concernant l’adéquation à une loi
uniforme (absence d’uniformité dans la distribution des fréquences de visites).
One-Sample Kolmogorov-Smirnov Test 2

Feq

N 500
a,,b
Uniform Parameters Minimum ,00

Maximum 4,00

Most Extreme Differences Absolute ,490

Positive ,012

Negative -,490

Kolmogorov-Smirnov Z 10,957

Asymp. Sig. (2-tailed) 0,000

9
II Analyse statistique bidimensionnelle des données.
L’analyse bidimensionnelle ou bivariée des données appelée aussi le tri croisé, a pour objectif
de mettre en évidence les relations éventuelles qui existent entre deux variables analysées
simultanément. Dans la plupart des cas, l’analyse cherche à expliquer une des deux variables
(dite variable à expliquer) à l’aide d’une autre variable (dite variable explicative).A titre
d’exemple :
- Le fait de changer de conditionnement à t-il un effet sur le niveau des ventes d’un produit
donné ? Le conditionnement est la variable explicative appelée aussi facteur et le niveau
ou volume des ventes est la variable à expliquer.
- Les dépenses des entreprises tunisiennes en R&D dépendent elles de la taille de
l’entreprise (CA ou nombre d’employés) ?
- La superficie des rayons d’une chaîne de magasin a elle un effet significatif sur le chiffre
d’affaire ?

Le mode de traitement comme pour l’analyse unidimensionnelle ou univariée diffère en


fonction de la nature de la variable étudiée :

Variable Nominale Variable Ordinale Variable métrique

Variable - Test de khi deux. - Test de Kruskal - Test F


Nominale - Test K-S. Wallis. (ANOVA)
- Test de comparaison - Test de - Test de
des fréquences Wilcoxon.de rangs comparaison
et de signes. des moyennes
- Test de Wilcoxon
de la somme des
rangs
Variable - Test de corrélation
Ordinale des rangs de
Spearman.
- Test de Kendall
Variable - Test de
Métrique corrélation de
Pearson.
- Test de
comparaison
des moyennes

1. Croisement de deux variables métriques.

Le croisement de deux variables métriques ou quantitatives peut être effectué dans les cas
suivants :
- Comparaison des résultats obtenus pour une variable observée dans deux ou plusieurs
populations indépendantes.

10
- Comparaison des résultats obtenus d’une variable observée sur deux ou plusieurs
échantillons appariés.
- Comparaison des résultats obtenus par deux variables observées dans la même
population.

Analyse d’une variable dans deux populations indépendantes.


Soient deux populations A et B d’effectifs nA et nB , XA et XB les moyennes empiriques
respectives de la variable X , A et B les écarts types respectifs.
XA (XB ) suit une loi normale de moyenne théorique mA (mB ) et d’écart type A (B ). On
montre que la différence D = XA - XB suit une loi normale de moyenne mA - mB et de variance
2D = 2A / nA + 2B/ nB .
Il s’agit de comparer les moyennes mA et mB de la variable X dans les populations
indépendantes. Soit le test de comparaison des moyennes :
H0 : mA = mB
H1 : mA ≠ mB
Sous l’hypothèse nulle H0 , la différence D centrée et réduite s’écrit :
X  X
Z 
A B
qui suit un loi normale centrée réduite N(0,1).
 
2 2
2 2
A B

n A
n B

La procédure de décision dans ce test d’hypothèse consiste à rejeter l’hypothèse H 0 pour un


risque d’erreur  = 5% si la valeur calculée de Z est supérieur à la valeur critique lue sur une
table de loi standard égale à Z/2 = 1.96 , ou encore si la différence observée D= XA - XB est
en dehors de l’intervalle de confiance de la différence théorique mA - mB .
Une autre alternative décisionnelle consiste au rejet de H0 si la signification asymptotique est
inférieure au risque  fixé d’avance.
Exemple :
Dans le cadre d’une étude élaborée par une compagnie aérienne, le croisement du nombre de
vols/an et du motif de voyage a fait apparaître les résultats suivants :
- Voyage pour affaire (A) : XA =10, nA =155, 2A =64.
- Voyage pour loisir (B) : XB =3 , nB =75 , 2B =25.
On a : 2D = 64/155 +25/ 75 = 0.75 d’où D = 0.86.
Z = (10-3)/0.86 > Z/2 = 1.96, donc on rejette H0 au risque 5% : Il existe une différence
significative entre les nombres de vols pour les deux motifs.
Remarque :
a. Pour des petits échantillons (nA et nB <30), la différence D suit alors une loi de Student à
(nA + nB -2 ) degré de liberté.
nA
1
b. Si  2
A et  2
B sont inconnues, elles sont estimées par SA2 =  (x i  X A
)
2
et SB2 =
n A
1i 1

nA
1
 (x i  X
2
B
) .La variance de la différence est estimée par :
n B
1 i 1

 1) S A  ( n  1) S B
2 2
(n 1 1
2D = A B
(  )
n A
 n B
 2 n A
n B

c. Quand plus de deux populations sont concernées, on aura recours au test de Fisher. Si
l’hypothèse de normalité évoquée plus haut n’est pas justifiée on pourra utiliser le test de
Kruskal Wallis.

11
Analyse d’une variable observée par deux échantillons appariés.
A chaque individu du premier groupe A est associé un individu du second groupe B (groupe
témoin) offrant les mêmes caractéristiques.
Pour chaque couple i (Xi , Yi ) de deux individus appariés, une différence Di = Xi –Yi est
calculée sur l’ensemble n des couples étudiés, la différence moyenne est donnée par :
n n
1 1
D   et la variance des différences est alors : S 2D   (D  D )
2
D i
n i 1 n 1 i 1

D  N (m  m
2
On montre que : A B
,S D ).

Croisement de deux variables métriques.


Coefficient de corrélation linéaire de Pearson.
L’objectif est d’étudier si deux variables métriques mesurées sur le même ensemble
d’observations varient de façon analogue. Le coefficient de corrélation linéaire est défini
comme un indice de la relation entre deux variables noté R est compris entre 1 et -1
Soient xi et yi les valeurs observées par les variables métriques X et Y.
n

cov ariance ( X , Y ) 1
 ( x i  X )( y i  Y )
i 1
R  
XY n XY

Test du coefficient de corrélation.


Le coefficient de corrélation  peut faire l’objet d’un test d’hypothèse en supposant que X et
Y suivent des lois normales.
H0 : ρ = 0
H1 : ρ ≠ 0
R n  2
Soit la statistique : tc 
1 R
2

Si n<30 alors tc suit la loi de student st(n-2, ) à n-2 degré de liberté et au risque .
Si n≥ 30 alors tc sut la loi normale centrée et réduite N(0,1).
On rejette H0 si la valeur absolue de tc est supérieure à la valeur critique lue sur la table
statistique correspondante. A partir du résultat de ce test effectué à partir du logiciel S PSS,
on rejette H0 si la signification asymptotique est inférieur à .
Exemple.
Soit à étudier la relation entre le total bilan et le chiffre d’affaire d’une firme pendant une
période de huit ans.
Chiffre d’affaires (Y) Total Actif (X)
420 1332
400 1250
400 1162
320 1031
320 928
315 840
280 765
270 641
N.B : les données sont en 10000 dinars

12
Dans le menu choisir « correlete » et « bivariate » ou correlation bivariée , la fenêtre suivante
s’affiche Sélectionner alors les deux variables concernées et cliquez sur Pearson en référence
au test de correlation de Pearson et sur « Two-tailed » pour signifier que le test est bilatéral.

Les résultats suivants s’affichent après avoir appuyé sur « OK »

13
Correlations

Ciffre d'affaire Total actif


**
Ciffre d'affaire Pearson Correlation 1 ,966

Sig. (2-tailed) ,000

N 8 8
**
Total actif Pearson Correlation ,966 1

Sig. (2-tailed) ,000

N 8 8

**. Correlation is significant at the 0.01 level (2-tailed).

Le coefficient de corrélation R est égal à 0.966. Donc il existe un relation linéaire entre le
chiffre d’affaire de l’entreprise et le total actif. Cette relation est significative comme s’est
indiqué au bas du tableau du résultat. L’hypothèse H0 est donc rejetée car la signification est
nulle et inférieur au risque , quelque soit sa valeur.

La droite de régression ou d’ajustement de Y en X est obtenue par la méthode des moindres


carrés (MCO) d’équation : Y = b1X + constante à partir du logiciel SPSS ainsi :

Dans le menu on clique dans la rubrique « analyse » sur régression et après sur « curve
estimation », on a alors les résultats suivants :

14
Model Summary and Parameter Estimates

Dependent Variable: Chiffre d'affaire

Model Summary Parameter Estimates

Equation R Square F df1 df2 Sig. Constant b1

Linear ,933 83,203 1 6 ,000 112,023 ,230

The independent variable is Total actif.

2. Analyse de deux variables ordinales.


Test de corrélation des rangs de Spearman
Ce test permet de repérer le caractère significatif de la relation qui pourrait exister entre deux
classements. Soit n le nombre d’objets à classer : Xi le rang de l’objet i dans un premier
classement et Yi dans un second classement, Di = │Xi –Yi │.
Le coefficient de corrélation des rangs de Spearman a pour expression :

2
D i
R s
1 6
 1)
2
n (n
Le coefficient de corrélation des rangs (Rs ) se comporte comme celui de la corrélation de
Pearson entre deux variables métriques ( R).
Si Rs est proche de 1 , alors les classements sont proches.
Si Rs est proche de 0 , alors les classements sont très différents.
La signification statistique de Rs est testée d’une manière similaire que précédemment et sur
la base de la statistique suivante :
n  2
ts  R S
qui suit une loi de Student st(n-2) à n-2 degré de liberté.
1 R
2
s

15
Exemples

a. Dans l’enquête sur l’achat impulsif, il s’agit ici d’étudier la relation entre la perception du
prix ( faible , moyen , élevé) du premier produit acheté impulsivement et le prix du deuxième
produit. L’utilisation du logiciel SPSS se fait de la même manière que précédemment mais en
sélectionnant la corrélation des rangs de Spearman :

Rs obtenue est égal à 0.02 et la signification est égale à 0.976. Donc on remarque qu’il existe
une absence totale de relation entre les perceptions des prix du premier et du second produit
acheté d’une manière impulsive. Ceci accentue le caractère impulsif de l’achat unique ou
répété.
Correlations

prix2 prix1

Spearman's rho prix2 Correlation Coefficient 1,000 ,002

Sig. (2-tailed) . ,972

N 500 500

prix1 Correlation Coefficient ,002 1,000

Sig. (2-tailed) ,972 .

N 500 500

b. Les préférences des passagers aux sujets des projets d’amélioration des prestations de
service d’une compagnie aérienne sont données par :

16
Propositions Classement Classement de la Di Di2

des passagers compagnie

A : un vol gratuit tous les cinq vols 2 5 3 9


B : 60% de réduction pour le conjoint 1 4 3 9
C : 30% de réduction pour la location de voiture 3 3 0 0
D : réservation par internet. 5 1 4 16
E : service boissons gratuit. 4 2 2 4
Le coefficient de corrélation des rangs Rs est égal à -0.9. Donc nous pouvons dire qu’il existe
une relation inverse entre les préférences des passagers et de la compagnie.
La valeur calculée ts du test de signification est égale à -3,576 et la valeur critique lue sur la
table de la loi de student pour un degré de liberté égal à 3(nombre de modalités moins 2) et un
risque évalué à 5% est égale à 3 ,182.
On rejette donc l’hypothèse H0 selon laquelle il y a absence totale de relation et on conclut
qu’il existe une relation inverse et significative entre les préférences de la compagnie et des
passagers, la valeur calculée en valeur absolue critique.

3. Relation entre deux variables nominales


Exemple : Croisement du produit acheté d’une manière impulsive et le magasin fréquenté.
Le croisement du produit acheté d’une manière impulsive et le lieu d’achat a donné le tableau
suivant à partir du logiciel SPSS. Dans la rubrique « analyse » , on sélectionne « statistique
descriptives » et on clique après sur crosstabs (tableau croisé).

17
Dans la rubrique crosstabs l’option « statistics » permet de choisir le test de Chi-deux
approprié pour ce type d’analyse. Le coefficient de contingence (contingency coeffcient)
donne l’intensité de cette relation si elle existe.

18
L’option « Cells » permet d’afficher les effectifs observés, les effectifs théoriques (expected),
les pourcentages lignes et colonnes afin de mieux interpréter la relation entre les deux
variables et les totaux.

produit1 * magasin Crosstabulation

Produit1 Magasin

Monoprix M.Général Champion Carrefour Géant Total

PAlimentation Count 49 59 53 31 31 223


r
Expected Count 44,6 44,6 44,6 44,6 44,6 223,0
o
% within prod11 22,0% 26,5% 23,8% 13,9% 13,9% 100,0%
d
u % within magasin 49,0% 59,0% 53,0% 31,0% 31,0% 44,6%
i % of Total 9,8% 11,8% 10,6% 6,2% 6,2% 44,6%
t
textile Count 6 4 7 9 12 38
1
Expected Count 7,6 7,6 7,6 7,6 7,6 38,0

% within prod11 15,8% 10,5% 18,4% 23,7% 31,6% 100,0%

% within magasin 6,0% 4,0% 7,0% 9,0% 12,0% 7,6%

% of Total 1,2% ,8% 1,4% 1,8% 2,4% 7,6%

cosmétique Count 27 15 22 19 25 108

Expected Count 21,6 21,6 21,6 21,6 21,6 108,0

% within prod11 25,0% 13,9% 20,4% 17,6% 23,1% 100,0%

19
% within magasin 27,0% 15,0% 22,0% 19,0% 25,0% 21,6%

% of Total 5,4% 3,0% 4,4% 3,8% 5,0% 21,6%

hygiènema Count 13 11 13 5 6 48

Expected Count 9,6 9,6 9,6 9,6 9,6 48,0

% within prod11 27,1% 22,9% 27,1% 10,4% 12,5% 100,0%

% within magasin 13,0% 11,0% 13,0% 5,0% 6,0% 9,6%

% of Total 2,6% 2,2% 2,6% 1,0% 1,2% 9,6%

autre Count 5 11 5 36 26 83

Expected Count 16,6 16,6 16,6 16,6 16,6 83,0

% within prod11 6,0% 13,3% 6,0% 43,4% 31,3% 100,0%

% within magasin 5,0% 11,0% 5,0% 36,0% 26,0% 16,6%

% of Total 1,0% 2,2% 1,0% 7,2% 5,2% 16,6%

Total Count 100 100 100 100 100 500

Expected Count 100,0 100,0 100,0 100,0 100,0 500,0

% within prod11 20,0% 20,0% 20,0% 20,0% 20,0% 100,0%

% within magasin 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

% of Total 20,0% 20,0% 20,0% 20,0% 20,0% 100,0%

Interprétation du tableau
On remarque d’après le tableau croisé .que les produits alimentaires constituent 44.9% de
l’achat impulsif et que ceci est détenu d’une manière équivalente par les trois premiers points
de ventes respectivement : 22%, 26.5% ,23.8%. Les produits cométiques viennent en second
lieu avec 21.6% des ventes essentiellement dans le magasin Monoprix (27%) suivi par Géant
(25%). Les produits autre (matériels auto, bureautique, électronique…) représentent 16.6%
des ventes dont la part de lion est détenue par l’hypermarché Carrefour (43.4%).
Nous pouvons donc avancer l’existence d’une relation entre l’achat impulsif ou non
programmé et le magasin fréquenté. La confirmation la significativité et l’intensité de cette
relation sont données ci-après :

Test de Khi deux


Le test d’indépendance de Khi deux étudie l’existence d’une relation entre les deux variables
qualitatives nominales respectivement à p et k modalités:
H0 : L’achat impulsif est indépendant du point de ventre.
H1 : l’achat impulsif dépend du lieu d’achat.
La procédure de décision consiste à calculer la statistique :
 (  ˆ ij )
2
ji
T  appelée khi deux calculé qui mesure les différences relatives entre
ˆ ij

les effectifs théoriques et observés. Θij est l’effectif observé du produit i et du point de vente j.
̂ ij est l’effectif théorique sous l’hypothèse d’indépendance H0 et égal au produit des sommes

20
de la ligne i par la colonne j , divisé par l’effectif total qui n’est autre que la taille de
l’échantillon.
Ce terme est comparé au khi deux critiques lu sur la table de khi deux à (p-1)(k-1)=16 degré
de liberté et au risque  fixé généralement à 5%. On rejette l’indépendance donc H0 si T est
supérieur au khi deux critique ou encore si la signification asymptotique est inférieur à .
Chi-Square Tests

Value df Asymp. Sig. (2-sided)


a
Pearson Chi-Square 76,340 16 ,000

Likelihood Ratio 77,273 16 ,000

Linear-by-Linear Association 21,699 1 ,000

N of Valid Cases 500

a. 0 cells (,0%) have expected count less than 5. The minimum expected
count is 7,60.

Nous pouvons donc conclure à l’existence d’une relation significative entre l’achat impulsif
et le point de vente. L’intensité de cette relation est mesurée par le coefficient de contingence:
C donné par :
T
C  Compris entre 0 et 0.707. Pour C=0 on aura une absence totale de relation.
T  n

Symmetric Measures

Value Approx. Sig.

Nominal by Nominal Contingency Coefficient ,364 ,000

N of Valid Cases 500

4. Relation entre une variable nominale et une variable métrique.


Analyse de la variance
L’analyse de la variance à un ou plusieurs facteurs (ANOVA) cherche à déterminer si
une ou plusieurs variables explicatives ont ou non une influence sur une variable à expliquer.
Elle permet de tester la signification des différences de moyennes observées sur plusieurs
populations sous les deux conditions de normalité de la variable à expliquer et de
l’homoscédasticité (absence de différences entre les variances des populations étudiées).
Autrement le test de Kruskal Wallis serait le mieux approprié.
Les variables explicatives appelées facteurs sont généralement qualitatives. La variable à
expliquer est quantitative. Une extension de l’analyse de la variance se situe dans deux
directions :
- L’analyse multi variée de la variance correspond au cas où il y a plusieurs variables à
expliquer
- L’analyse de la covariance qui correspond au cas où certaines variables explicatives sont
quantitatives (de proportion ou d’intervalles) et qui peut être étendue à l’analyse multi variée
de la covariance.

21
1. Analyse de la variance à un facteur.

L’analyse de la variance à un facteur peut être considérée comme une généralisation du


test de comparaison des moyennes, au lieu de comparer deux moyennes on à comparer p
moyennes correspondant à p modalités de la variable à expliquer ou facteur.

Exemple :
Jours Rouge Or Argent
L’entreprise Multimark vient de mettre un 1 29 34 36
nouveau produit sur le marché et 2 36 30 19
s’intéresse à l’effet de la couleur de 3 24 18 22
l’emballage sur les ventes. Trois couleurs 4 22 21 31
sont présentement à l’étude ; soit rouge, or 5 24 39 34
et argent. Un point de vente a été 6 26 24 20
sélectionné au hasard avec un 7 31 30 21
aménagement identique pour les trois types 8 24 29 27
d’emballages. 9 32 33 18
Le nombre d’unités vendues de ce nouveau 10 25 21 36
produit avec chaque type d’emballage a été Total 273 279 264
enregistré pour une période de 10 jours.

La variable dépendante (à expliquer) est le nombre d’unités vendues et le facteur dont on veut
évaluer l’effet sur la variable à expliquer est la couleur de l’emballage qui comporte trois
modalités. L’hypothèse de base à tester est :
H0 : Le niveau des ventes est identique quelque soit la couleur de l’emballage.

Procédure de décision

On note par :Y : moyenne de la variable à expliquer.


Yk : moyenne de la variable Y pour la modalité k.
Yik : la valeur de Y pour l’observation i appartenant à la modalité k.
nk : effectif de la modalité k (n=Σnk)
Soit la décomposition de la variance :
  Y    Y   
2 2 2

ik
Y  ik
 Yk   nk Yk  Y
k i k i

somme des carrés somme des carrés somme des carrés


totale intra modalités inter modalités

On a : S2 = SA2 + SR2
S2 = 1/n   Y ik
Y 2 la variance totale de Y.
k i

Y 
2
Avec SR2 = 1/n   ik
 Yk = 1/n  nk Sk2 la variance résiduelle.
k i k

 
2
SA2 = 1/n  nk Yk  Y la variance due au facteur.

22
Le test consiste à comparer la variance inter modalités et la variance intra modalités exprimée
par le rapport :
 n k (Y k  Y ) / p  1
2 Si le Fisher calculé est supérieur au Fisher
F 
k
 F ( p  1, n  p )
lu sur la table de la loi théorique, on rejette
  ( Y ik  Y k ) / n  p
2
l’hypothèse nulle H0 (il n’y a pas de
k i différence entre les modalités) donc on
conclu à une influence significative du
Après avoir calculé F, on fixe un risque facteur sur la variable à expliquer.
d’erreur  (en général égal à 5%).

Application :
Reprenons l’exemple précédent le Fisher calculé est égal à :
2
S A
p 1 11 . 4 / 2 5 .7
F= =   0.144.
1065 . 4 /( 30  3 )
2
SR 39 . 46
n  p
Le Fisher critique F (=0.05 ; p-1=2 ; n –p =27) = 3.354. H0 est par conséquent acceptée, on
note une absence d’influence significative du facteur couleur de l’emballage sur le nombre
d’unités vendues.

2. Analyse de la variance à deux facteurs

Analyse sans interaction.

Exemple :
La directrice de marketing d’une entreprise chacune des combinaisons expérimentales.
veut étudier à l’aide d’un plan Les nombres d’unités vendues sont
expérimental l’effet de deux facteurs sur présentés dans le tableau suivant :
les ventes d’une denrée alimentaire et ceci
pendant une période de 15 jours. Les Hauteur de la tablette
facteurs considérés : la hauteur de la Positionnement 45cm 75cm 115cm
de l’allée
tablette et la position de l’allée. Neuf à l’avant 70 82 106
magasins similaires ont été sélectionnés au milieu 38 40 52
pour participer à cette étude, chaque à 48 60 80
magasin ayant été affecté au hasard à l’arrière
L’équation de la variance s’écrit :
p

S A  q  (Y i .  Y )
2 2

i 1

 ( Y ij  Y )  S  SB  SR S B  p  (Y . j  Y )
2 2 2 2 2 2
A
Avec
j 1

SR   ( Y ij  Y i .  Y . j  Y )
2 2

i j

On compare donc S A et S B au terme d’interaction pris pour terme résiduel ce qui empêche
2 2

de tester l’interaction.
Etudions l’existence au seuil de signification  =5% d’une différence significative dans le
niveau moyen des ventes selon :

a. La position de l’allée où se trouve la denrée.

23
H0 : le niveau moyen des ventes est identique quelque soit la position de l’allée.
H1 : le niveau diffère selon la position.
On a :
2
S A
p 1
F= 2
=39.5 et pour  =5% F ( ;p-1=2 ;(p-1)(q-1)=4) = 6.944.
SR
( p  1 )( q  1 )
On rejette l’hypothèse nulle : la position à l’avant présente un niveau moyen des ventes plus
élevé.

b. La hauteur de la tablette.

H0 : Le niveau des ventes est identique quelque soit la hauteur de la tablette.


H1 : Le niveau diffère selon la hauteur.
On a :
2
SB
q 1
F= 2
= 16.885 ; F ( ; q-1=2 ;(p-1)(q-1)=4) = 6.944.
SR
( p  1 )( q  1 )

On rejette l’hypothèse nulle : la hauteur 115cm correspond à un niveau plus élevé du volume
de vente.

Analyse avec interaction.

Exemple 45cm 75cm 115cm


Reprenons l’exemple précédent, mais au
lieu de neuf magasins, on considère cette Avant 70 82 106
fois-ci 18 magasins (similaires) 60 74 92
sélectionnés et que deux magasins ont été Milieu 38 40 52
affectés à chaque traitement. On a le 36 34 44
tableau ci-contre. Arrière 48 60 80
44 48 66

24
p

S A  qr  ( Y i ..  Y )
2 2

i 1

S B  pr  (Y . j .  Y )
2 2

  ( Y ijk  Y )  S  SB  S  SR
2 2 2 2 2
A AB
Avec j 1

S AB  r  
i j k
( Y ij .  Y . j .  Y i ..  Y )
2 2

i j

SR    ( Y ijk  Y ij . )
2 2

i j k

a. Facteur A : position de l’allée

H0 : Le facteur A n’a pas d’effet sur les niveaux de ventes.


H1 : Le facteur A a un effet sur les ventes.

2
S A
p 1
On a F= 2
=53.078 et F ( ;p-1=2 ;pq(r-1)=9) =4.26.
SR
pq ( r  1 )
Il y a donc un effet significatif sur les ventes.

b. Facteur B : hauteur de la tablette.

H0 : Le facteur B n’a pas d’effet sur les niveaux de ventes.


H1 : Le facteur B a un effet sur les ventes

2
SB
q 1
F= 2
= 20.063 et F ( ;q-1=2 ;p q(r-1)=9)=4.26.
SR
pq ( r  1 )

La hauteur de la tablette a donc un effet significatif sur les ventes.

c. Interaction AxB.

H0 : L’interaction des facteurs n’a pas d’effet sur le niveau de vente.


H1 : L’interaction a un niveau sur les ventes

2
S AB
( p  1 )( q  1 )
F= 2
=1.5372
SR
pq ( r  1 )

Et Fcritique[,(p-1)(q-1),p q(r-1)]=F(0.05,4,9)=3.63

Rejet de H1 : l’interaction n’a aucun effet significatif sur les volumes des ventes

Utilisation du logiciel SPSS


a. Analyse de la variance à un facteur

25
Dans le menu, la rubrique « analyse » permet de choisir la fonction « compare means » pour
l’analyse de la variance à un facteur « one way Anova ».

L’option « descriptive » permet d’afficher les résultats suivants :

26
Descriptives

feq

95% Confidence Interval


for Mean

Std. Upper
N Mean Deviation Std. Error Lower Bound Bound Minimum Maximum

Monoprix 100 3,1600 ,99209 ,09921 2,9631 3,3569 ,00 4,00

M.général 100 3,2700 ,86287 ,08629 3,0988 3,4412 1,00 4,00

Champion 100 3,2800 ,93290 ,09329 3,0949 3,4651 ,00 4,00

Carrefour 100 2,7900 1,01797 ,10180 2,5880 2,9920 1,00 4,00

Géant 100 2,5500 ,97830 ,09783 2,3559 2,7441 ,00 4,00

Total 500 3,0100 ,99794 ,04463 2,9223 3,0977 ,00 4,00

ANOVA

feq

Sum of Squares df Mean Square F Sig.

Between Groups 42,300 4 10,575 11,514 ,000

Within Groups 454,650 495 ,918

Total 496,950 499

Dans le tableau des résultats descriptifs on remarque une différence entre les moyennes des
fréquences de visites (variable à expliquer) pour les différents points de ventes. Le test Anova
confirme ce résultat et donne un fisher calculé (F) =11.514 supérieur au fisher critique pour
un risque  et un degré de liberté (p-1, k-1).
Autrement la signification (sig) est inférieur à  donc on rejette H0 et on conclut à l’existence
d’une relation significative entre la fréquence de visite et le point de ventes.

b . Analyse de la variance à deux facteurs.


Pour une variable dépendante unique et plusieurs facteurs explicatifs , la rubrique « General
linear model » est sélectionnée et dans le cas univarié « univariate ». Si plusieurs variables
sont étudiées le modèle multivarié est donc utilisé « multivariate »

27
Soit donc à étudier l’effet du point de vente et de la catégorie socioprofessionnelle sur la
fréquence de visites.

28
Tests of Between-Subjects Effects

Dependent Variable:feq

Type III Sum of


Source Squares df Mean Square F Sig.
a
Corrected Model 74,290 33 2,251 2,482 ,000

Intercept 1089,030 1 1089,030 1200,700 ,000

magasin 29,469 4 7,367 8,123 ,000

csa 5,316 7 ,759 ,837 ,557

magasin * csa 26,681 22 1,213 1,337 ,141

Error 422,660 466 ,907

Total 5027,000 500

Corrected Total 496,950 499

a. R Squared = ,149 (Adjusted R Squared = ,089)

Nous remarquons que ni la catégorie socioprofessionnelle, ni son interaction avec le point de


vente sont significatives, seulement le point de vente est un facteur significatif dans le modèle
linéaire général.

D’autres tests non paramétriques pour des échantillons indépendants (Mann Withney) ou pour
des échantillons appariés (Wilcoxon) peuvent être utilisées :

29

Vous aimerez peut-être aussi