Académique Documents
Professionnel Documents
Culture Documents
Mise en situation
Une enseigne de grande distribution ‘Maxi’ dispose d’un réseau de 29 points de vente réparti
sur tout le territoire tunisien. L’enseigne désire analyser les ventes de son réseau afin
d’apprécier la structure du potentiel commercial et sa dimension moyenne.
Quels sont les traitements quantitatifs à effectuer afin de :
-Etudier l’évolution du chiffre d’affaires des points de vente (en volume, en valeur) et de leur
part du marché.
-Connaitre les préférences des acheteurs des différents points de vente.
-Mesurer le taux de notoriété de chacun des points de vente par rapport à la concurrence
présente dans le secteur.
Cette partie ne traite pas toutes les statistiques calculables à partir d’une série de valeurs et des
tests qui leur sont associés1. Il s’agit plus modestement de répondre à la question : comment
exprimer rapidement et simplement, dans une phase descriptive, l’information contenue dans
une masse importante de données ?
INTRODUCTION
1
Des ouvrages plus académiques peuvent être consultés dans cette optique.
1
Cours Analyse des données MPQSE ISET Charguia
dire de préciser dans quelles mesures les valeurs observées s’écartent les unes des autres
ou s’écartent de la valeur centrale.
3) Les caractéristiques de forme : Elles donnent une idée de la symétrie et de l’aplatissement
d’une distribution. Ces dernières sont toute fois d’usage moins fréquent. Il est à noter que
les caractéristiques des séries statistiques dépendent des propriétés de mesure de la
variable étudiée.
En plus de la description des données, l’analyse unidimensionnelle permet l'inférence.
Il s'agit dans ce cas de comparer des valeurs observées à une ou des valeurs prédéterminées
(correspondant par exemple à un objectif à atteindre ou à un résultat d'étude précédente).
I. ETUDE DESCRIPTIVE
Après la collecte de données statistiques, la première étape consiste à les présenter sous forme
de tableau. Ce tableau doit comporter trois principales rubriques :
- les modalités de la variable étudiée (Xi).
- Les effectifs correspondants à chaque modalité.
- Les fréquences relatives à chaque modalité.
Le type des modalités (Xi) diffère selon qu’il s’agit d’un caractère quantitatif discret,
quantitatif continu ou qualitatif.
L’effectif ni représente le nombre d’individus de la population obéissant à la modalité xi du
caractère étudié. Il est à noter que la somme de tous les effectifs doit être égale à N qui
k
représente la taille de la population étudiée appelé aussi effectif total. ni = n
i =1
fi = 1
n i =1
I.1.1.Variable nominale :
2
Cours Analyse des données MPQSE ISET Charguia
La variable nominale est celle qui possède le moins de propriétés mathématiques. On peut
compter le nombre d'observations appartenant à chaque catégorie (modalité) de la variable,
c'est à dire effectuer une tabulation simple (Tri à plat).
La tendance sera représentée par le mode.
Le mode MO est la modalité dont la fréquence la plus élevée (autrement dit, la modalité la
plus observée).
Application
Combien y a-t-il de personnes qui ont acheté le produit Nadhif du point de vente Magasin
Général sur les 1000 personnes interrogées ?
Code Nombre de Pourcentage de Pourcentage
Réponses
réponses (ni) réponse (fi%) cumulé
Oui 1 550 55 55
Non 2 450 45 100
Total n=1000 100%
Le mode correspond à la réponse oui, ceci signifie que la tendance centrale est d'acheter le
produit Nadhif de ce point de vente.
I.1.2.Variable ordinale : Il s'agit ici d'une variable qualitative dont les modalités sont
ordonnées. Pour une variable ordinale, la tendance est représentée par la
médiane.
La médiane Me: est la valeur qui divise la population étudiée en deux parties égales.c’est la
valeur de la variable, telle que la moitié de la population ont une valeur inférieure à M e et
l’autre moitié a une valeur supérieure à Me .
La dispersion d’une variable ordinale est indiquée par les fractiles.
Les fractiles correspondent à des valeurs de la variable statistique partageant la série
ordonnée en l catégorie d'effectifs égaux.
Les plus usuels sont les quartiles (partage de la population en 4 catégories d'effectifs égaux ;
ou les déciles (partage en 10 parties égales). Si l =4 , il y a trois quartiles : Q1, Q2, Q3.
3
Cours Analyse des données MPQSE ISET Charguia
Indispensable 60 35 100
n= 240 100
La médiane étant la valeur du caractère qui sépare la série, préalablement ordonnée en deux
séries d'effectifs égaux. La médiane correspond ici à la modalité "très utile", ceci veut dire
qu'il y a autant de personnes qui trouvent le produit au moins très utile que des personnes qui
le considèrent au plus très utile.
Le premier quartile (Q1) est "utile" c'est à dire qu'il y a 25% de répondants qui pensent que la
dentifrice est inutile ou simplement utile.
Le troisième quartile (Q3) est "indispensable" c'est à dire, il y a 75% de répondants qui
trouvent le produit au plus indispensable.
D'après l'intervalle interquartile, on déduit qu'il y a au moins 50% des répondants qui estiment
que le produit est utile ou indispensable.
I.2.LES VARIABLES QUANTITATIVES
Dans le cas d'une variable métrique, la tendance centrale est mesurée par la moyenne et la
dispersion par la variance ou l'écart type.
Toute la statistique prend un sens concret, lorsqu'on réalise ce que représentent la valeur
centrale et la dispersion d'un ensemble de d'observations et d'usage que l'on peut en faire dans
divers domaines d'application.
I.2.1.La mesure de tendance centrale
La moyenne arithmétique : x
La moyenne d'une série x1, x2, x3,…, xn est la valeur centrale de référence. Elle permet de
N
n
N
Le mode MO:
Si la variable est discrète, le mode correspond à la valeur du caractère pour laquelle l’effectif est le plus
important.
Si la variable est continue, le mode se calcule en deux étapes :
1. Le calcul de la classe modale à laquelle correspond l’effectif le plus important.
2. MO = borne inférieure de la classe modale
La médiane Me: c’est la valeur de la variable, telle que la moitié de la population ont une
valeur inférieure à Me et l’autre moitié a une valeur supérieure à Me.
4
Cours Analyse des données MPQSE ISET Charguia
On détermine tout d’abord les bornes de la classe médiane : ; telque F(ei-1) < 0.5<
F(ei).
On procède ensuite par interpolation linéaire :
F(ei-1)
Me 0.5 =
F(ei).
Me = . (0.5- F(ei-1))
б'² =
n (x i =1
i i − x)²
la variance d’une distribution statistique.
n
N
n ( x − x)² i i
S²= i =1 la variance corrigée d’une distribution statistique2.
n −1
N
Une série qui est peu dispersée c.à.d. présentant des observations qui sont très regroupées
autour de la moyenne arithmétique, conduit à une valeur de l'écart type plutôt faible.
s
Le coefficient de variation noté CV = *100 : il
x
permet d'apprécier la représentativité de la moyenne
arithmétique par rapport à l'ensemble de des observations.
Le coefficient de variation inférieur à 15% semble être, dans bien des cas, une indication
d'une bonne homogénéité de la distribution des observations.
2
Voir guide statistique
5
Cours Analyse des données MPQSE ISET Charguia
Une distribution est dite symétrique si les valeurs de la variable statistique sont également
dispersées de part et d'autre d'une valeur centrale.
Distribution symétrique x = Me = Mo
Distribution
asymétrique,
étalement à
gauche.
Il convient de signaler que les propriétés des variables métriques peuvent être appliquées sur
les variables quantitatives de type échelle.
En effet, la particularité des variables d'échelle (ex : échelles d'importance, échelle de
satisfaction) permet de les analyser sous deux formes complémentaires :
- elles peuvent être considérées comme qualitatives dans un premier temps (si elles ne
vérifient que la première propriété des nombres à savoir ‘Les nombres sont ordonnés’)
- Si on émet comme hypothèse : « la distance entre les nombres sont proportionnelles entre
elles », les variables vérifient désormais les deux propriétés des nombres à savoir : ordre et
distance. Il s’agit donc d’une échelle d’intervalle et de ce fait, ces variables vont être
traitées comme des variables quantitatives.
Exemple :
6
Cours Analyse des données MPQSE ISET Charguia
Une société de service réalise une enquête (par questionnaire) dont l’objet est d’évaluer la
qualité de sa prestation, auprès de ses clients, sur la base d’un certain nombre de critères de
jugement :
- Capacité de résolution des conflits.
- Empathie des vendeurs.
Les données étaient collectées sous la forme d’une échelle à cinq modalités du type :
Très peu important- peu important- moyennement important- important- très important.
Il est donc demandé aux clients de cette société de juger l’importance des critères selon cette
échelle.
La répartition entre les différentes modalités de réponses pour le critère ‘capacité de
résolution des conflits’ est la suivante :
Il paraît raisonnable de penser que la perception des « écarts » entre les modalités successives
est identique pour un individu interrogé. Il est alors possible d’attribuer une note à chaque
modalité. Par exemple 5 pour très important, 4 pour important et ainsi de suite jusqu’à 1 pour
très peu important. La variable est alors du type métrique et il est alors concevable de calculer
une moyenne et un écart type.
La moyenne = f x
i
i i = 4,14 (note moyenne).
Rendre métrique les variables d'échelle permet de simplifier les comparaisons. Concernant, le
critère " Empathie des vendeurs " on obtient une moyenne de 2,44 d'après la distribution de
fréquence suivante :
Les clients de cette société sont donc surtout attentifs à la capacité de résolution des incidents
et très peu à l’Empathie des vendeurs. (Cette dernière remarque doit cependant être modulée).
Toutefois, malgré la faible moyenne obtenue par le critère "Empathie des vendeurs",
on constate tout de même que 25% des clients le considèrent comme important, voire très
important. Il existe donc un ensemble de clients ayant des jugements spécifiques et il
conviendra à l'aide d'analyses bidimensionnelles, par exemple, de mettre en évidence les
particularités de ceux-ci.
I.4.APPLICATION SUR SPSS
7
Cours Analyse des données MPQSE ISET Charguia
Sélectionner les variables pour lesquelles on souhaite connaître les fréquences. Les introduire
dans le cadre « variable » en cliquant sur la flèche et cliquer sur OK.
8
Cours Analyse des données MPQSE ISET Charguia
I.4.3.Sélectionner un graphique
IMMONOPR
400 IMCARREF IMPROMOG
600
assez bonne
200 300
200
Fréquence
100
Fréquence
0 N = 800,00
-2,0 0,0 2,0 4,0 6,0
0
tres bonne
trés mauvaise ni bonne ni mauvaise tres bonne IMPROMOG
assez mauvaise assez bonne
IMMONOPR 9
Cours Analyse des données MPQSE ISET Charguia
Considérons le cas d’une question à choix multiple ou le répondant peut cocher plus d’une
réponse. Exemple :
Quels sont les magasins que vous fréquentez ? Les réponses possibles :
- Carrefour
- Géant
- Monoprix
- Magasin général
Le codage retenu est le suivant : nous avons crée autant de variables que de magasins
proposés. Lorsqu’on a un magasin est cité comme étant fréquenté, il est codé « 1 », sinon
« 0 », s’il n’est pas cité.
Dans ce cas, on a créé autant de variables que de modalités de réponses, chacune étant codée
de façon binaire. Il serait fastidieux de sortir un tableau de fréquences pour chaque variable
ainsi créée. De plus, l’interprétation ne serait pas aisée. Le logiciel SPSS permet de faire les
calculs pour l’ensemble des modalités des réponses en un seul tableau.
10
Cours Analyse des données MPQSE ISET Charguia
Sélectionner le vecteur
et cliquer sur « ok »
11
Cours Analyse des données MPQSE ISET Charguia
I .4.5. Les caractéristiques de forme d’une distribution (la normalité des variables):
Cocher dans
distributions : skewness
et kurtosis
12
Cours Analyse des données MPQSE ISET Charguia
IMPPARKI
400
300
La courbe gaussienne
représente la courbe
200
théorique de normalité.
100
Fréquence
Sigma = 1,28
Moyenne = 4,0
0 N = 800,00
1,0 2,0 3,0 4,0 5,0
IMPPARKI
L'inférence statistique regroupe l'ensemble des méthodes qui, à partir d'un échantillon
prélevé dans une population, permettent de tirer des conclusions soit sur les paramètres
d'une variable étudiée dans cette population, soit sur la distribution ou tout autre aspect de
cette variable.
Traditionnellement l'inférence statistique, a été divisée en deux grandes parties: l'estimation
et les tests d'hypothèses.
Les problèmes d'estimation sont fréquents aussi bien dans la vie de tous les jours que dans le
monde de la gestion, des sciences, etc.
Ainsi, un gérant des ventes doit pouvoir régulièrement estimer les ventes des mois à venir
pour pouvoir répondre à la demande; un gérant de crédit doit pouvoir estimer les chances
qu'un acheteur acquitte effectivement sa dette; un financier doit pouvoir estimer l'évolution
des taux d'intérêt dans l'avenir, etc.
Un test d'hypothèses implique deux hypothèses. Il y a d'abord une hypothèse de base au sujet
de , que l'on note H0, et que l'on appelle hypothèse nulle. H0 est l'hypothèse que l'on ne
voudrait pas rejeter à moins d'avoir suffisamment d'évidence contre elle. Selon l'approche
classique, cette évidence est fournie par l'information contenue dans l'échantillon aléatoire. Le
problème se pose comme suit: à partir du résultat d'un échantillon, on doit dire si cet
échantillon provient d'une population dont les caractéristiques coïncident avec l'hypothèse de
13
Cours Analyse des données MPQSE ISET Charguia
base, ou s'il provient d'une population ayant d'autres caractéristiques. Le test sera significatif
si l'écart constaté entre l'hypothèse de base et l'image, de la réalité fournie par l'échantillon est
plus grand que ce que l'on petit considérer comme le simple produit des f1uctuations
aléatoires. Le niveau de signification du test détermine la grandeur de l’écart qui peut être
attribuée à ces fluctuations. Si l'on rejette H0, il doit donc y avoir une autre hypothèse qui est
acceptable concernant la valeur de . On est ainsi amené à formuler une deuxième hypothèse
relativement à la valeur de : cette deuxième hypothèse, que l'on note H1, est appelée
hypothèse alternative.
On peut aborder le problème de la normalité des variables autrement en utilisant le test
d’hypothèses et plus spécifiquement le test d’ajustement à la loi normale.
Un test d’hypothèses est en fait une démarche qui, à partir d’un échantillon aléatoire de taille
n tiré dans la population, permet de faire un choix entre 2 hypothèses statistiques H0 et H1.
L’hypothèse statistique est une affirmation qui concernant les caractéristiques d’une
population (ex. forme de la distribution, valeurs des paramètres, …). On distingue deux types
des tests : les tests d’ajustement (dits aussi non paramétriques) et les tests paramétriques:
II.1.TEST D’AJUSTEMENT :
a) Règle de décision :
La valeur observée X20 est calculée pour la statistique dans l'échantillon.
La valeur lue dans une table de khi deux est X 2 ,v , telle que : P (X2 > X2 , v ) = ;
k
(oi − Ti )²
On rejette H0 si : X o2 = X 2,v
i =1 Ti
Avec
• : niveau de signification.
• v : degré de liberté ( v = k – l – l).
• k : étant le nombre de classes dans la distribution de fréquence ou T 5 après
regroupement.
14
Cours Analyse des données MPQSE ISET Charguia
Paramètres
Distribution du nécessaire pour
Estimation l
caractère X calculer la
probabilité
P̂ 1
Binomiale p
2
Poisson ̂ 0
Normale m et σ²
x et S²
On suppose connue la forme de la distribution de X, mais la (ou les) valeur(s) d'un (ou
plusieurs) paramètre(s) de cette distribution est (sont) inconnue(s).
On désigne par le paramètre inconnu; il peut s'agir, par exemple, du paramètre p d'une
Bernouilli, de m et 2 dans le cas d'une distribution normale.
Les étapes d’un test paramétrique :
a. Choix de H0 et H1:
- Hypothèse nulle (simple) H0 : = 0
- Hypothèse alternative (contre hypothèse) qui peut prendre l’une des formes suivantes :
•H1 : 1
•H1 : < 0
•H1 : 0
b. Préciser les conditions du test :
•Distribution de la population
•Taille de l’échantillon
•Variance connue ou inconnue
•Le niveau de signification
c. Spécifier, selon la distribution de l’écart réduit, la région critique au niveau de signification
a.
d. Calculer l’écart réduit et préciser, selon les données du problème, la distribution de l’écart
réduit (voir le Tableau).
e. Prendre une décision (voir le Tableau de synthèse).
Le test sera significatif et amène au rejet de H0, si l'écart constaté entre l'hypothèse de base et
l'image de la réalité fournie par l'échantillon est plus grand que ce que l'on petit considérer
comme le simple produit des f1uctuations aléatoires. Le niveau de signification du test
détermine la grandeur de l’écart qui peut être attribuée à ces fluctuations.
16
Cours Analyse des données MPQSE ISET Charguia
17
Cours Analyse des données MPQSE ISET Charguia
Z
V
C2
Z : valeur critique
o
o
a
H0 : = 0
n
n
H1 : 0
lee 1−
e
2 2
d
0
d
’u
e
a
r
c
rc
e
e
c
jp
ret
tia
t
tid
ie
o
n
q
H d
u
e
0
e
H
0
:
C
1
18
Cours Analyse des données MPQSE ISET Charguia
Z
C
Z : valeur critique
o
o 0
n
H0 : =
n H1 : 0
e
e 1−
d
0
d
’
e
a
c
rc
e
e
jp
e
t
ta
t
id
o
e
n
H d
e
0
H
0
19
Cours Analyse des données MPQSE ISET Charguia
Z
V
Z
o
o
a
H0 : = 0
n
n
H1 : 0
lee 1−
e
0
d
d
’u
e
a
r
c
rc
e
e
c
jp
ret
tia
t
tid
ie
o
n
q
H d
u
e
0
e
H
0
:
C
II.3. APPLICATION SUR SPSS
La perception de l’image d’une enseigne est mesurée selon une échelle d’attitude à 5 points :
(-2 : très mauvaise 2 : très bonne)
On voudrait tester si la perception moyenne des personnes interrogées est neutre (c.-à-d.: ni
bonne, ni mauvaise). Il s’agit d’un test sur la moyenne m qui consiste à confronter les 2
hypothèses suivantes:
Variables à tester: imagepro
H0 : m=0
H1 : m≠0
Sélectionner :
Analyse comparer les moyennes test T pour échantillons unique
20
Cours Analyse des données MPQSE ISET Charguia
21