Académique Documents
Professionnel Documents
Culture Documents
L’analyse préliminaire des données consiste à faire une étude à la fois descriptive et
explicative des variables ou caractères concernés. Ceci doit donc précéder toute analyse
factorielle ou économétrique. Cette étape primordiale repose sur une analyse uni variée en
premier lieu et une analyse bi variée ou bidimensionnelle par la suite.
L’analyse uni variée concerne l’étude d’une variable déterminée, elle en fait une description
graphique et numérique (analyse descriptive) et aussi une comparaison des valeurs observées
à une ou plusieurs valeurs prédéterminées correspondant à un objectif à atteindre ou à un
résultat d’une étude précédente (inférence).
Les techniques employées dépendent des propriétés de mesure de la variable étudiée :
Objectif Type
Métrique Ordinal Nominal
1. Description
a. Tendance centrale Moyenne Médiane Mode
b. Dispersion
Ecart type Quartile Fréquence
Cumulative
Frequency Percent Valid Percent Percent
Cumulative
Frequency Percent Valid Percent Percent
Les résultats montrent une prédominance des produits alimentaires qui coïncide avec la
tendance centrale dans ce cas le mode ou la modalité correspondant à l’effectif le plus élevé.
Analyse explicative.
L’analyse explicative consiste essentiellement à faire des tests d’hypothèses. Parmi les tests
non paramétriques d’ajustement qui sont concevables dans le cas d’une variable nominale, on
cite le test de 2.
L’estimation par intervalle de confiance nous donne une autre possibilité d’analyse
explicative.
2.1 Le test de 2
.
Reprenons l’exemple précédent, il s’agit de tester l’hypothèse selon laquelle il n’y a pas de
différence significative entre les différents produits. On veut savoir si un produit se détache
des autres, ou encore est-ce que le caractère impulsif est plus nuancé pour un certain produit.
H0 : Il n’y a pas de différences significatives entre les produits. (Hypothèse nulle)
H1 : Il y a un produit qui se détache des autres. (Hypothèse alternative)
On rejette l’hypothèse nulle si la valeur d (sous H0) qui correspond au 2 calculé et qui suit
une loi de 2n-1 où n est le nombre de modalité de la variable, dépasse la valeur critique de 2
pour un seuil de signification fixé à 5%.
Avec :
d= Σ (effectifs observés – effectifs théoriques)2/effectifs théoriques
Produit
Test Statistics
Effectif Effectif
observé théorique Ecart prod11
a
Alimentation 223 100,0 123,0 Chi-Square 220,300
Total 500
Le khi deux (2 ) calculé est égal à 220.3 et le khi deux théorique lu sur la table de la loi de 2
pour un risque d’erreur fixé à 5% et un degré de liberté (df) égal à 4 (nombre de modalité-1)
est 9.488 nettement inférieur à d . Par conséquent on rejette l’hypothèse nulle et on conclut
par l’absence d’uniformité des produits achetés impulsivement. L’alimentation est
significativement le produit le plus impulsivement acheté. Ce résultat n’est pas spécifique au
comportement consommateur tunisien, ceci a été confirmé par M. Giraud (Giraud 2004) dans
une étude similaire dans un seul point de vente en France.
Une autre façon de conclure dans ce test d’hypothèse consiste à comparer le risque fixé
d’avance à la signification asymptotique. On rejette H0 si la signification est inférieur à .
Ces résultats ont été obtenus à partir du logiciel SPSS 17.0. Dans le menu, on clique sur la
fonction analyse et après sur tests non paramétriques, on à la fenêtre suivante :
En sélectionne la variable étudiée dans ce cas le produit libellé (prod11) et en clique sur
option pour choisir les résultats descriptifs, les résultats du test de khi deux sont obtenus en
appuyant sur OK.
4
Exemple :
Dans le cadre d’une étude de notoriété 25% des personnes interrogées ont déclaré connaître la
marque M pour un échantillon de 100 individus.
Donnons un encadrement du vrai taux de notoriété pour un risque d’erreur =5%.
p= [(0.5x0.5)/1000]1/2 =0.0158
z/2 = 1.96 d’où :
IC = [0.25-1.96x0.0158, 0.25+1.96x0.0158]
Le vrai taux de notoriété est compris entre 22% et 28%.
Dans l’étude sur le positionnement des marques de pâtes de dentifrice, on s’intéresse entre
autre sur le niveau d’utilisation (variable ordinale). Les variables ordinales sont des variables
nominales dont les modalités sont ordonnées, donc pour le traitement, on ajoute la notion de
rang. Les résultats de l’enquête sont les suivants :
Niveau d’utilité effectif Fréquence
Inutile 10 4.17
Utile 90 37.5
Très utile 80 33.3
Indispensable 60 25
Le test de Kolmogorov Smirnov (K.S) est un test d’ajustement préféré au test de 2 car il
n’impose pas la condition restrictive d’avoir un effectif théorique pour chaque classe
supérieur ou égal à 5.
Le test demande le calcul des fréquences relatives cumulées observées Fo et théoriques Fth
des modalités de la variable. Pour chaque modalité la valeur Fo (j) –Fth (j) est calculée. Un
indicateur D est établi tel que : D = max Fo (j) –Fth (j). D est comparé à une valeur
théorique lue sur la table de Kolmogorov pour un seuil donné.
5
Pour = 5% et pour un effectif total dépassant 35 on a une approximation du D théorique ou
critique égale à 1.36/n1/2.
D = 0.2083
Dcritique = 0.0878 = 1.36/240
1/2
pour = 5%
D > Dcritique donc on rejette H0.
Les répondants ont des points de vue différents sur l’utilité du dentifrice.
Le test de 2 donne aussi le même résultat.
De la même façon que dans le cas d’un test de khi deux et utilisant le logiciel SPSS, on
choisit cette fois le test K.S et on arrive à rejeter l’hypothèse nulle pour une signification
inférieur à .
6
Fonction de distribution
120,00
100,00
80,00
Valeur effectif
60,00
40,00
20,00
0,00
,00 1,00 2,00 3 et plus
utilisation
Fonction de répartition
1
fréquence cumulée
0,8
0,6
0,4
0,2
0
0 1 2 3 4
utilisation
La description numérique pour une variable métrique est complète, c’est d’ailleurs son seul
avantage dans une étude de marché en marketing. On peut calculer les paramètres de position
et de dispersion.
- Le mode M0 =1. L’utilisation la plus fréquente est une seule fois par jours.
- La médiane Me = 1. Une seule utilisation du dentifrice par jour départage l’ensemble de
l’échantillon des clients.
- La moyenne empirique m= x =Σ fi xi =1.33.
- L’écart type = [Σ fi xi2 - x 2]1/2 = 0.947.
- Le coefficient de variation / x = 0.71. permet de définir la dispersion par rapport à la
moyenne (par exemple, pour des variables mesurées sur des échelles différentes, ce
coefficient nous permet de comparer les dispersions).
Tous les tests précédents sont applicables aux variables métriques que nous pouvons étendre
aux tests d’adéquation (la variable peut-elle suivre une loi théorique ?)
7
Test d’adéquation à une loi de Poisson.
H0 : la distribution du nombre d’utilisation suit une loi de Poisson de paramètre estimé par
la moyenne empirique x .
H1 : La distribution ne suit pas la loi de Poisson.
Le principe du test est le même que les tests précédents. On aura à comparer un khi deux
calculé à une valeur critique. L’effectif théorique N pi où N est la taille de l’échantillon et pi la
proportion correspondant à la valeur xi du critère étudié.
xi
pi = p(X =xi) = e
; est estimé par la moyenne empirique x =1.33
xi!
xi ni pi N pi (ni – N pi)2 /N pi:
0 60 0.2636 79.08 4.6035
1 120 0.3115 105.45 2.0076
2 80 0.2343 70.29 1.3414
3 et plus 40 0.1506 45.18 0.5939
Le khi deux calculé est égal donc à 8.5464 et le khi deux critique à N-1-1=2 degré de liberté
et un risque = 5% vaut 5.99. Par conséquent on rejette l’hypothèse selon laquelle la
distribution de la fréquence d’utilisation suit une loi Poisson.
8
Descriptive Statistics
Percentiles
La fréquence minimale et maximale sont données ainsi que les quartiles, la moyenne et
l’écart-type. On remarque que la fréquentation moyenne par semaine est voisine de 3 qui
correspond à la valeur qui départage les consommateurs concernés par l’achat impulsif. Nous
vérifierons dans l’analyse bivariée que l’achat impulsif dépend de la fréquentation du
magasin.
Feq
N 500
a,,b
Normal Parameters Mean 3,0100
Positive ,161
Negative -,236
Kolmogorov-Smirnov Z 5,277
Les résultats du test1 concernant l’adéquation à une loi normale c'est-à-dire la distribution des
fréquences de visites épouse la forme d’une courbe en cloche montrent que cette hypothèse
est rejetée. En effet la signification asymptotique (Asymp Sig) est nulle donc inférieure à tout
risque fixé. La même conclusion est faite pour le test2 concernant l’adéquation à une loi
uniforme (absence d’uniformité dans la distribution des fréquences de visites).
One-Sample Kolmogorov-Smirnov Test 2
Feq
N 500
a,,b
Uniform Parameters Minimum ,00
Maximum 4,00
Positive ,012
Negative -,490
Kolmogorov-Smirnov Z 10,957
9
II Analyse statistique bidimensionnelle des données.
L’analyse bidimensionnelle ou bivariée des données appelée aussi le tri croisé, a pour objectif
de mettre en évidence les relations éventuelles qui existent entre deux variables analysées
simultanément. Dans la plupart des cas, l’analyse cherche à expliquer une des deux variables
(dite variable à expliquer) à l’aide d’une autre variable (dite variable explicative).A titre
d’exemple :
- Le fait de changer de conditionnement à t-il un effet sur le niveau des ventes d’un produit
donné ? Le conditionnement est la variable explicative appelée aussi facteur et le niveau
ou volume des ventes est la variable à expliquer.
- Les dépenses des entreprises tunisiennes en R&D dépendent elles de la taille de
l’entreprise (CA ou nombre d’employés) ?
- La superficie des rayons d’une chaîne de magasin a elle un effet significatif sur le chiffre
d’affaire ?
Le croisement de deux variables métriques ou quantitatives peut être effectué dans les cas
suivants :
- Comparaison des résultats obtenus pour une variable observée dans deux ou plusieurs
populations indépendantes.
10
- Comparaison des résultats obtenus d’une variable observée sur deux ou plusieurs
échantillons appariés.
- Comparaison des résultats obtenus par deux variables observées dans la même
population.
nA
1
(x i X
2
B
) .La variance de la différence est estimée par :
n B
1 i 1
1) S A ( n 1) S B
2 2
(n 1 1
2D = A B
( )
n A
n B
2 n A
n B
c. Quand plus de deux populations sont concernées, on aura recours au test de Fisher. Si
l’hypothèse de normalité évoquée plus haut n’est pas justifiée on pourra utiliser le test de
Kruskal Wallis.
11
Analyse d’une variable observée par deux échantillons appariés.
A chaque individu du premier groupe A est associé un individu du second groupe B (groupe
témoin) offrant les mêmes caractéristiques.
Pour chaque couple i (Xi , Yi ) de deux individus appariés, une différence Di = Xi –Yi est
calculée sur l’ensemble n des couples étudiés, la différence moyenne est donnée par :
n n
1 1
D et la variance des différences est alors : S 2D (D D )
2
D i
n i 1 n 1 i 1
D N (m m
2
On montre que : A B
,S D ).
cov ariance ( X , Y ) 1
( x i X )( y i Y )
i 1
R
XY n XY
Si n<30 alors tc suit la loi de student st(n-2, ) à n-2 degré de liberté et au risque .
Si n≥ 30 alors tc sut la loi normale centrée et réduite N(0,1).
On rejette H0 si la valeur absolue de tc est supérieure à la valeur critique lue sur la table
statistique correspondante. A partir du résultat de ce test effectué à partir du logiciel S PSS,
on rejette H0 si la signification asymptotique est inférieur à .
Exemple.
Soit à étudier la relation entre le total bilan et le chiffre d’affaire d’une firme pendant une
période de huit ans.
Chiffre d’affaires (Y) Total Actif (X)
420 1332
400 1250
400 1162
320 1031
320 928
315 840
280 765
270 641
N.B : les données sont en 10000 dinars
12
Dans le menu choisir « correlete » et « bivariate » ou correlation bivariée , la fenêtre suivante
s’affiche Sélectionner alors les deux variables concernées et cliquez sur Pearson en référence
au test de correlation de Pearson et sur « Two-tailed » pour signifier que le test est bilatéral.
13
Correlations
N 8 8
**
Total actif Pearson Correlation ,966 1
N 8 8
Le coefficient de corrélation R est égal à 0.966. Donc il existe un relation linéaire entre le
chiffre d’affaire de l’entreprise et le total actif. Cette relation est significative comme s’est
indiqué au bas du tableau du résultat. L’hypothèse H0 est donc rejetée car la signification est
nulle et inférieur au risque , quelque soit sa valeur.
Dans le menu on clique dans la rubrique « analyse » sur régression et après sur « curve
estimation », on a alors les résultats suivants :
14
Model Summary and Parameter Estimates
15
Exemples
a. Dans l’enquête sur l’achat impulsif, il s’agit ici d’étudier la relation entre la perception du
prix ( faible , moyen , élevé) du premier produit acheté impulsivement et le prix du deuxième
produit. L’utilisation du logiciel SPSS se fait de la même manière que précédemment mais en
sélectionnant la corrélation des rangs de Spearman :
Rs obtenue est égal à 0.02 et la signification est égale à 0.976. Donc on remarque qu’il existe
une absence totale de relation entre les perceptions des prix du premier et du second produit
acheté d’une manière impulsive. Ceci accentue le caractère impulsif de l’achat unique ou
répété.
Correlations
prix2 prix1
N 500 500
N 500 500
b. Les préférences des passagers aux sujets des projets d’amélioration des prestations de
service d’une compagnie aérienne sont données par :
16
Propositions Classement Classement de la Di Di2
17
Dans la rubrique crosstabs l’option « statistics » permet de choisir le test de Chi-deux
approprié pour ce type d’analyse. Le coefficient de contingence (contingency coeffcient)
donne l’intensité de cette relation si elle existe.
18
L’option « Cells » permet d’afficher les effectifs observés, les effectifs théoriques (expected),
les pourcentages lignes et colonnes afin de mieux interpréter la relation entre les deux
variables et les totaux.
Produit1 Magasin
19
% within magasin 27,0% 15,0% 22,0% 19,0% 25,0% 21,6%
hygiènema Count 13 11 13 5 6 48
autre Count 5 11 5 36 26 83
Interprétation du tableau
On remarque d’après le tableau croisé .que les produits alimentaires constituent 44.9% de
l’achat impulsif et que ceci est détenu d’une manière équivalente par les trois premiers points
de ventes respectivement : 22%, 26.5% ,23.8%. Les produits cométiques viennent en second
lieu avec 21.6% des ventes essentiellement dans le magasin Monoprix (27%) suivi par Géant
(25%). Les produits autre (matériels auto, bureautique, électronique…) représentent 16.6%
des ventes dont la part de lion est détenue par l’hypermarché Carrefour (43.4%).
Nous pouvons donc avancer l’existence d’une relation entre l’achat impulsif ou non
programmé et le magasin fréquenté. La confirmation la significativité et l’intensité de cette
relation sont données ci-après :
les effectifs théoriques et observés. Θij est l’effectif observé du produit i et du point de vente j.
̂ ij est l’effectif théorique sous l’hypothèse d’indépendance H0 et égal au produit des sommes
20
de la ligne i par la colonne j , divisé par l’effectif total qui n’est autre que la taille de
l’échantillon.
Ce terme est comparé au khi deux critiques lu sur la table de khi deux à (p-1)(k-1)=16 degré
de liberté et au risque fixé généralement à 5%. On rejette l’indépendance donc H0 si T est
supérieur au khi deux critique ou encore si la signification asymptotique est inférieur à .
Chi-Square Tests
a. 0 cells (,0%) have expected count less than 5. The minimum expected
count is 7,60.
Nous pouvons donc conclure à l’existence d’une relation significative entre l’achat impulsif
et le point de vente. L’intensité de cette relation est mesurée par le coefficient de contingence:
C donné par :
T
C Compris entre 0 et 0.707. Pour C=0 on aura une absence totale de relation.
T n
Symmetric Measures
21
1. Analyse de la variance à un facteur.
Exemple :
Jours Rouge Or Argent
L’entreprise Multimark vient de mettre un 1 29 34 36
nouveau produit sur le marché et 2 36 30 19
s’intéresse à l’effet de la couleur de 3 24 18 22
l’emballage sur les ventes. Trois couleurs 4 22 21 31
sont présentement à l’étude ; soit rouge, or 5 24 39 34
et argent. Un point de vente a été 6 26 24 20
sélectionné au hasard avec un 7 31 30 21
aménagement identique pour les trois types 8 24 29 27
d’emballages. 9 32 33 18
Le nombre d’unités vendues de ce nouveau 10 25 21 36
produit avec chaque type d’emballage a été Total 273 279 264
enregistré pour une période de 10 jours.
La variable dépendante (à expliquer) est le nombre d’unités vendues et le facteur dont on veut
évaluer l’effet sur la variable à expliquer est la couleur de l’emballage qui comporte trois
modalités. L’hypothèse de base à tester est :
H0 : Le niveau des ventes est identique quelque soit la couleur de l’emballage.
Procédure de décision
ik
Y ik
Yk nk Yk Y
k i k i
On a : S2 = SA2 + SR2
S2 = 1/n Y ik
Y 2 la variance totale de Y.
k i
Y
2
Avec SR2 = 1/n ik
Yk = 1/n nk Sk2 la variance résiduelle.
k i k
2
SA2 = 1/n nk Yk Y la variance due au facteur.
22
Le test consiste à comparer la variance inter modalités et la variance intra modalités exprimée
par le rapport :
n k (Y k Y ) / p 1
2 Si le Fisher calculé est supérieur au Fisher
F
k
F ( p 1, n p )
lu sur la table de la loi théorique, on rejette
( Y ik Y k ) / n p
2
l’hypothèse nulle H0 (il n’y a pas de
k i différence entre les modalités) donc on
conclu à une influence significative du
Après avoir calculé F, on fixe un risque facteur sur la variable à expliquer.
d’erreur (en général égal à 5%).
Application :
Reprenons l’exemple précédent le Fisher calculé est égal à :
2
S A
p 1 11 . 4 / 2 5 .7
F= = 0.144.
1065 . 4 /( 30 3 )
2
SR 39 . 46
n p
Le Fisher critique F (=0.05 ; p-1=2 ; n –p =27) = 3.354. H0 est par conséquent acceptée, on
note une absence d’influence significative du facteur couleur de l’emballage sur le nombre
d’unités vendues.
Exemple :
La directrice de marketing d’une entreprise chacune des combinaisons expérimentales.
veut étudier à l’aide d’un plan Les nombres d’unités vendues sont
expérimental l’effet de deux facteurs sur présentés dans le tableau suivant :
les ventes d’une denrée alimentaire et ceci
pendant une période de 15 jours. Les Hauteur de la tablette
facteurs considérés : la hauteur de la Positionnement 45cm 75cm 115cm
de l’allée
tablette et la position de l’allée. Neuf à l’avant 70 82 106
magasins similaires ont été sélectionnés au milieu 38 40 52
pour participer à cette étude, chaque à 48 60 80
magasin ayant été affecté au hasard à l’arrière
L’équation de la variance s’écrit :
p
S A q (Y i . Y )
2 2
i 1
( Y ij Y ) S SB SR S B p (Y . j Y )
2 2 2 2 2 2
A
Avec
j 1
SR ( Y ij Y i . Y . j Y )
2 2
i j
On compare donc S A et S B au terme d’interaction pris pour terme résiduel ce qui empêche
2 2
de tester l’interaction.
Etudions l’existence au seuil de signification =5% d’une différence significative dans le
niveau moyen des ventes selon :
23
H0 : le niveau moyen des ventes est identique quelque soit la position de l’allée.
H1 : le niveau diffère selon la position.
On a :
2
S A
p 1
F= 2
=39.5 et pour =5% F ( ;p-1=2 ;(p-1)(q-1)=4) = 6.944.
SR
( p 1 )( q 1 )
On rejette l’hypothèse nulle : la position à l’avant présente un niveau moyen des ventes plus
élevé.
b. La hauteur de la tablette.
On rejette l’hypothèse nulle : la hauteur 115cm correspond à un niveau plus élevé du volume
de vente.
24
p
S A qr ( Y i .. Y )
2 2
i 1
S B pr (Y . j . Y )
2 2
( Y ijk Y ) S SB S SR
2 2 2 2 2
A AB
Avec j 1
S AB r
i j k
( Y ij . Y . j . Y i .. Y )
2 2
i j
SR ( Y ijk Y ij . )
2 2
i j k
2
S A
p 1
On a F= 2
=53.078 et F ( ;p-1=2 ;pq(r-1)=9) =4.26.
SR
pq ( r 1 )
Il y a donc un effet significatif sur les ventes.
2
SB
q 1
F= 2
= 20.063 et F ( ;q-1=2 ;p q(r-1)=9)=4.26.
SR
pq ( r 1 )
c. Interaction AxB.
2
S AB
( p 1 )( q 1 )
F= 2
=1.5372
SR
pq ( r 1 )
Et Fcritique[,(p-1)(q-1),p q(r-1)]=F(0.05,4,9)=3.63
Rejet de H1 : l’interaction n’a aucun effet significatif sur les volumes des ventes
25
Dans le menu, la rubrique « analyse » permet de choisir la fonction « compare means » pour
l’analyse de la variance à un facteur « one way Anova ».
26
Descriptives
feq
Std. Upper
N Mean Deviation Std. Error Lower Bound Bound Minimum Maximum
ANOVA
feq
Dans le tableau des résultats descriptifs on remarque une différence entre les moyennes des
fréquences de visites (variable à expliquer) pour les différents points de ventes. Le test Anova
confirme ce résultat et donne un fisher calculé (F) =11.514 supérieur au fisher critique pour
un risque et un degré de liberté (p-1, k-1).
Autrement la signification (sig) est inférieur à donc on rejette H0 et on conclut à l’existence
d’une relation significative entre la fréquence de visite et le point de ventes.
27
Soit donc à étudier l’effet du point de vente et de la catégorie socioprofessionnelle sur la
fréquence de visites.
28
Tests of Between-Subjects Effects
Dependent Variable:feq
D’autres tests non paramétriques pour des échantillons indépendants (Mann Withney) ou pour
des échantillons appariés (Wilcoxon) peuvent être utilisées :
29