CHAPITRE 2 Analyse Unidimensionnelle

Cours Analyse des données MPQSE ISET Charguia
CHAPITRE 2. ANALYSE UNIDIMENSIONNELLE
Mise en situation
Une enseigne de grande distribution ‘Maxi’ dispose d’un réseau de 29 points de vente réparti
sur tout le territoire tunisien. L’enseigne désire analyser les ventes de son réseau afin
d’apprécier la structure du potentiel commercial et sa dimension moyenne.
Quels sont les traitements quantitatifs à effectuer afin de :
-Etudier l’évolution du chiffre d’affaires des points de vente (en volume, en valeur) et de leur
part du marché.
-Connaitre les préférences des acheteurs des différents points de vente.
-Mesurer le taux de notoriété de chacun des points de vente par rapport à la concurrence
présente dans le secteur.
Cette partie ne traite pas toutes les statistiques calculables à partir d’une série de valeurs et des
tests qui leur sont associés1. Il s’agit plus modestement de répondre à la question : comment
exprimer rapidement et simplement, dans une phase descriptive, l’information contenue dans
une masse importante de données ?
INTRODUCTION
L’analyse unidimensionnelle permet de caractériser la distribution des valeurs observées pour

une variable statistique pris isolément.
Cette caractérisation sera obtenue par :
-des graphiques adéquates, intuitives et faciles à interpréter.
-un certain nombre de statistiques qui pourraient résumer d’une façon suffisamment
complète l’ensemble des valeurs de la distribution.
Ces nombres représentatifs que nous nommons caractéristiques des séries statistiques,
permettront d’ajouter une signification concrète à l’interprétation des résultats et facilement la
comparaison de deux ou plusieurs séries.
On distingue trois types de caractéristiques :
1) Les caractéristiques (ou mesures) de tendance centrale: elles permettent d’obtenir une idée
de l’ordre de grandeur des valeurs constituant la série et indique également la position où
semblent se rassembler les valeurs de la série.
2) Les caractéristiques de dispersion : Elles quantifient les fluctuations des valeurs observées
autour de la valeur centrale. Elles permettent d’apprécier l’étalement de la série c’est à
1
Des ouvrages plus académiques peuvent être consultés dans cette optique.
1
dire de préciser dans quelles mesures les valeurs observées s’écartent les unes des autres
ou s’écartent de la valeur centrale.
3) Les caractéristiques de forme : Elles donnent une idée de la symétrie et de l’aplatissement
d’une distribution. Ces dernières sont toute fois d’usage moins fréquent. Il est à noter que
les caractéristiques des séries statistiques dépendent des propriétés de mesure de la
variable étudiée.
En plus de la description des données, l’analyse unidimensionnelle permet l'inférence.
Il s'agit dans ce cas de comparer des valeurs observées à une ou des valeurs prédéterminées
(correspondant par exemple à un objectif à atteindre ou à un résultat d'étude précédente).
I. ETUDE DESCRIPTIVE
Après la collecte de données statistiques, la première étape consiste à les présenter sous forme
de tableau. Ce tableau doit comporter trois principales rubriques :
- les modalités de la variable étudiée (Xi).
- Les effectifs correspondants à chaque modalité.
- Les fréquences relatives à chaque modalité.
Variable Effectifs Fréquences

Xi ni fi
X1 n1 f1
X2 n2 f2
. . .
. . .
Xi ni fi
. . .
. . .
Xk nk fk
Total N 1
Le type des modalités (Xi) diffère selon qu’il s’agit d’un caractère quantitatif discret,
quantitatif continu ou qualitatif.
L’effectif ni représente le nombre d’individus de la population obéissant à la modalité xi du
caractère étudié. Il est à noter que la somme de tous les effectifs doit être égale à N qui
k
représente la taille de la population étudiée appelé aussi effectif total.  ni = n
i =1
La fréquence fi représente le pourcentage d'individus de la population obéissant à la modalité

mi du caractère étudié.
Les fréquences fi sont calculées en rapportant les effectifs n i à l’effectif total N. Ainsi la
somme de toutes les fréquences doit être égale à 1. fi = ni et
k
 fi = 1
n i =1
I.1.LES VARIABLES QUALITATIVES
I.1.1.Variable nominale :
2
La variable nominale est celle qui possède le moins de propriétés mathématiques. On peut
compter le nombre d'observations appartenant à chaque catégorie (modalité) de la variable,
c'est à dire effectuer une tabulation simple (Tri à plat).
La tendance sera représentée par le mode.
Le mode MO est la modalité dont la fréquence la plus élevée (autrement dit, la modalité la
plus observée).
Application
Combien y a-t-il de personnes qui ont acheté le produit Nadhif du point de vente Magasin
Général sur les 1000 personnes interrogées ?
Code Nombre de Pourcentage de Pourcentage
Réponses
réponses (ni) réponse (fi%) cumulé
Oui 1 550 55 55
Non 2 450 45 100
Total n=1000 100%
Le mode correspond à la réponse oui, ceci signifie que la tendance centrale est d'acheter le
produit Nadhif de ce point de vente.
I.1.2.Variable ordinale : Il s'agit ici d'une variable qualitative dont les modalités sont
ordonnées. Pour une variable ordinale, la tendance est représentée par la
médiane.
La médiane Me: est la valeur qui divise la population étudiée en deux parties égales.c’est la
valeur de la variable, telle que la moitié de la population ont une valeur inférieure à M e et
l’autre moitié a une valeur supérieure à Me .
La dispersion d’une variable ordinale est indiquée par les fractiles.
Les fractiles correspondent à des valeurs de la variable statistique partageant la série
ordonnée en l catégorie d'effectifs égaux.
Les plus usuels sont les quartiles (partage de la population en 4 catégories d'effectifs égaux ;
ou les déciles (partage en 10 parties égales). Si l =4 , il y a trois quartiles : Q1, Q2, Q3.
25% 25% 25% 25%

Q1 Q2 Q3
50% 50%
Chaque partie de la population contient 25% de l’ensemble des observations de la série

ordonnée. Par exemple : 25% des valeurs prises par la variable statistique sont inférieures à
Q1, ou encore ou encore 25% des individus ayant les plus faibles valeurs sont dans le premier
quartile. Les 25% les plus forts sont supérieurs au 3éme quartile.
Puisque Q2 partage la population en deux parties égales, par conséquent Q2 = Me.
Notons que Q3 –Q1 est appelé l’intervalle interquartile et comporte 50% des observations. Ils
sont les seuls paramètres de dispersion que l'on peut déterminer pour les variables ordinales.
Elles servent aussi à calculer certaines caractéristiques de forme comme le coefficient
d’aplatissement et de symétrie.
Application
Niveau d'utilité Effectifs (ni) Fréquences (fi%) Fréquences cumulées (%)
Inutile 10 4,17 4,17
Utile 90 27,5 31,67
Très utile 80 33,33 65
3
Indispensable 60 35 100
n= 240 100
La médiane étant la valeur du caractère qui sépare la série, préalablement ordonnée en deux
séries d'effectifs égaux. La médiane correspond ici à la modalité "très utile", ceci veut dire
qu'il y a autant de personnes qui trouvent le produit au moins très utile que des personnes qui
le considèrent au plus très utile.
Le premier quartile (Q1) est "utile" c'est à dire qu'il y a 25% de répondants qui pensent que la
dentifrice est inutile ou simplement utile.
Le troisième quartile (Q3) est "indispensable" c'est à dire, il y a 75% de répondants qui
trouvent le produit au plus indispensable.
D'après l'intervalle interquartile, on déduit qu'il y a au moins 50% des répondants qui estiment
que le produit est utile ou indispensable.
I.2.LES VARIABLES QUANTITATIVES
Dans le cas d'une variable métrique, la tendance centrale est mesurée par la moyenne et la
dispersion par la variance ou l'écart type.
Toute la statistique prend un sens concret, lorsqu'on réalise ce que représentent la valeur
centrale et la dispersion d'un ensemble de d'observations et d'usage que l'on peut en faire dans
divers domaines d'application.
I.2.1.La mesure de tendance centrale
La moyenne arithmétique : x
La moyenne d'une série x1, x2, x3,…, xn est la valeur centrale de référence. Elle permet de
N
résumer par un seul nombre l'ensemble des observations de la série statistique. x =  x Si la i =1

i
n
N
série est groupée, x est égale à  n x

i =1
i i
Le mode MO:
Si la variable est discrète, le mode correspond à la valeur du caractère pour laquelle l’effectif est le plus
important.
Si la variable est continue, le mode se calcule en deux étapes :
1. Le calcul de la classe modale à laquelle correspond l’effectif le plus important.
2. MO = borne inférieure de la classe modale
La médiane Me: c’est la valeur de la variable, telle que la moitié de la population ont une
valeur inférieure à Me et l’autre moitié a une valeur supérieure à Me.
Cas d’une variable discrète :

- Les observations ne sont pas groupées par classe :
Il faut tout d’abord ranger les observations par ordre de grandeur croissant (ou décroissant).
-Nombre impair d’observations : la médiane est alors parfaitement déterminée, elle
correspond à la observation dans la série ordonnée. Il y a donc observations de
chaque coté de Me.
-Nombre pair d’observations : la médiane sera généralement la moyenne arithmétique des

deux observations centrales dans la série ordonnée. Ainsi, si n = 2K, Me est la moyenne de la kéme
et (k+1) éme observations.
4
- Les observations sont groupées par classe :

La médiane se définit à partir de la fonction de répartition : F(x)= P(X x) ; Me est telle que
F(Me) 0.5
Cas d’une variable continue :

La médiane se définit simplement comme solution de l’équation : F(Me) = 0.5
On détermine tout d’abord les bornes de la classe médiane : ; telque F(ei-1) < 0.5<
F(ei).
On procède ensuite par interpolation linéaire :
F(ei-1)
Me 0.5 =
F(ei).
Me = . (0.5- F(ei-1))
I.2.2. Mesure de la dispersion

La variance d’un jeu de données exprime à quel point les valeurs xi sont dispersées autour de
la valeur moyenne. Plus la variance est grande, plus les données sont dispersées.
N
б'² =
 n (x i =1
i i − x)²
la variance d’une distribution statistique.
n
N
 n ( x − x)² i i
S²= i =1 la variance corrigée d’une distribution statistique2.
n −1
N
S=  n ( x − x)² L'écart type indique avec une plus grande

i =1
i i
précision entre quelles valeurs
n −1
peuvent varier les observations d'une variable statistique.
Une série qui est peu dispersée c.à.d. présentant des observations qui sont très regroupées
autour de la moyenne arithmétique, conduit à une valeur de l'écart type plutôt faible.
s
Le coefficient de variation noté CV = *100 : il
x
permet d'apprécier la représentativité de la moyenne
arithmétique par rapport à l'ensemble de des observations.
Le coefficient de variation inférieur à 15% semble être, dans bien des cas, une indication
d'une bonne homogénéité de la distribution des observations.
I.2.3.Caractéristiques de forme : Asymétrie et Aplatissement
2
Voir guide statistique
5
Une distribution est dite symétrique si les valeurs de la variable statistique sont également
dispersées de part et d'autre d'une valeur centrale.
Dans une distribution parfaitement symétrique, la moyenne, la

médiane et le mode sont confondus.
Moyenne = Médiane = Mode.
Distribution symétrique x = Me = Mo
Coefficient d'asymétrie : une mesure descriptive qui permet de caractériser le degré de

symétrie est le coefficient d'asymétrie dit coefficient de Pearson :
3( x − M e ) (x − M e )
Sk = ou S k =
S S
Sk est généralement compris entre -1 et 1.
Les distributions peuvent présenter les formes suivantes :
x > Me > Mo
Distribution
asymétrique,
étalement à
droite.
Distribution
asymétrique,
étalement à
gauche.
I.3.TRANSFORMATION xD’<UNE VARIABLE QUALITATIVE EN UNE VARIABLE QUANTITATIVE

Me < Mo
Il convient de signaler que les propriétés des variables métriques peuvent être appliquées sur
les variables quantitatives de type échelle.
En effet, la particularité des variables d'échelle (ex : échelles d'importance, échelle de
satisfaction) permet de les analyser sous deux formes complémentaires :
- elles peuvent être considérées comme qualitatives dans un premier temps (si elles ne
vérifient que la première propriété des nombres à savoir ‘Les nombres sont ordonnés’)
- Si on émet comme hypothèse : « la distance entre les nombres sont proportionnelles entre
elles », les variables vérifient désormais les deux propriétés des nombres à savoir : ordre et
distance. Il s’agit donc d’une échelle d’intervalle et de ce fait, ces variables vont être
traitées comme des variables quantitatives.
Exemple :
6
Une société de service réalise une enquête (par questionnaire) dont l’objet est d’évaluer la
qualité de sa prestation, auprès de ses clients, sur la base d’un certain nombre de critères de
jugement :
- Capacité de résolution des conflits.
- Empathie des vendeurs.
Les données étaient collectées sous la forme d’une échelle à cinq modalités du type :
Très peu important- peu important- moyennement important- important- très important.
Il est donc demandé aux clients de cette société de juger l’importance des critères selon cette
échelle.
La répartition entre les différentes modalités de réponses pour le critère ‘capacité de
résolution des conflits’ est la suivante :
Réponse Très peu Peu Moy. Important Très

important important Important important
Fi 4/100 8/100 8/100 30/100 50/100
Il paraît raisonnable de penser que la perception des « écarts » entre les modalités successives
est identique pour un individu interrogé. Il est alors possible d’attribuer une note à chaque
modalité. Par exemple 5 pour très important, 4 pour important et ainsi de suite jusqu’à 1 pour
très peu important. La variable est alors du type métrique et il est alors concevable de calculer
une moyenne et un écart type.
La moyenne = f x
i
i i = 4,14 (note moyenne).
Rendre métrique les variables d'échelle permet de simplifier les comparaisons. Concernant, le
critère " Empathie des vendeurs " on obtient une moyenne de 2,44 d'après la distribution de
fréquence suivante :
Réponse Très peu Peu Moy. Importa Très

important important Important nt important
Xi 1 2 3 4 5
fi 22/100 45/100 8/100 17/100 8/100
Xi fi 22/100 90/100 24/100 68/100 40/100  X i fi =
244/100
Les clients de cette société sont donc surtout attentifs à la capacité de résolution des incidents
et très peu à l’Empathie des vendeurs. (Cette dernière remarque doit cependant être modulée).
Toutefois, malgré la faible moyenne obtenue par le critère "Empathie des vendeurs",
on constate tout de même que 25% des clients le considèrent comme important, voire très
important. Il existe donc un ensemble de clients ayant des jugements spécifiques et il
conviendra à l'aide d'analyses bidimensionnelles, par exemple, de mettre en évidence les
particularités de ceux-ci.
I.4.APPLICATION SUR SPSS
I.4.1.Distribution des fréquences
7
Sélectionner : analyse statistiques effectifs
Sélectionner les variables pour lesquelles on souhaite connaître les fréquences. Les introduire
dans le cadre « variable » en cliquant sur la flèche et cliquer sur OK.
I.4.2.Les autres indicateurs :
Sélectionner : analyse statistiques descriptives effectifs statistiques
Cliquer sur statistiques et sélectionner les éléments désirés :
• Pour une variable nominale : mode, distribution de fréquences, minimum, maximum

• Pour une variable ordinale : mode, distribution de fréquences, minimum, maximum,
médiane.
• Pour une variable métrique : écart type, moyenne, minimum, maximum.
8
I.4.3.Sélectionner un graphique
Application sur SPSS
Sélectionner : analyse statistiques descriptives effectifs diagramme
IMMONOPR
400 IMCARREF IMPROMOG
600
trés mauvaise 500

300
ni bonne ni mauvaise
400
assez bonne
200 300
200
Fréquence
100
Fréquence
100 Sigma = 1,16

Moyenne = ,2
0 N = 800,00
-2,0 0,0 2,0 4,0 6,0
0
tres bonne
trés mauvaise ni bonne ni mauvaise tres bonne IMPROMOG
assez mauvaise assez bonne
IMMONOPR 9
I.4.4.Les tableaux à réponse multiple :
Considérons le cas d’une question à choix multiple ou le répondant peut cocher plus d’une
réponse. Exemple :
Quels sont les magasins que vous fréquentez ? Les réponses possibles :
- Carrefour
- Géant
- Monoprix
- Magasin général
Le codage retenu est le suivant : nous avons crée autant de variables que de magasins
proposés. Lorsqu’on a un magasin est cité comme étant fréquenté, il est codé « 1 », sinon
« 0 », s’il n’est pas cité.
Dans ce cas, on a créé autant de variables que de modalités de réponses, chacune étant codée
de façon binaire. Il serait fastidieux de sortir un tableau de fréquences pour chaque variable
ainsi créée. De plus, l’interprétation ne serait pas aisée. Le logiciel SPSS permet de faire les
calculs pour l’ensemble des modalités des réponses en un seul tableau.
PROCEDURE SUR SPSS
Pour calculer des fréquences sur un tableau multiple, il faut :

-Créer un vecteur (analyse- réponses multiples- définir des groupes de variables).
-Demander les fréquences (analyse- réponses multiple- fréquences).
10
Indiquer quelle est la Sélectionner Ajouter le

valeur comptée. Si oui est l’ensemble des nouveau vecteur
codé 1 et non codé 0, la variables de la liste des
valeur comptée est 1 correspondant aux vecteurs, puis
différentes modalités fermer.
de réponses
Sélectionner le vecteur
et cliquer sur « ok »
11
Pour les 835 réponses

obtenues, 32%
correspondent à magasin
général
66,8% des 400 individus

ont cité magasin général
comme étant fréquenté par
eux.
400 individus ont répondu
et ils ont cité 835 Magasins.
I .4.5. Les caractéristiques de forme d’une distribution (la normalité des variables):
De nombreuses méthodes statistiques reposent sur l’hypothèse de la normalité des variables

métriques (ou de certaines variables ordinales, considérées comme métriques par usage, telles
que les variables mesurées par des échelles de Likert).
APPLICATION SUR SPSS
Sélectionner : analyse statistiques descriptives effectifs statistiques
Cocher dans
distributions : skewness
et kurtosis
Statistiques Pour que la variable puisse être

IMCARREF considérée comme suivant une loi
N Valide 800 normale le coefficient d’asymétrie
Manquant e 0 ou Skewness doit être en valeur
Asy métrie -1,917
Erreur std. d'asy métrie ,086
absolue inférieur à 1et le coefficient
Aplatissement 3,362 d’aplatissement ou Kurtosis (ou
Erreur std. d'aplatissement
,173 encore de concentration) doit être en
valeur absolue inférieur à 1.5
12
Il est possible d’obtenir une représentation graphique qui superpose l’histogramme de la

variable considérée et la courbe gaussienne théorique.
Sélectionner : analyse - statistiques descriptives – effectifs - diagrammes histogramme

et courbe gaussienne
IMPPARKI
400
300
La courbe gaussienne
représente la courbe
200
théorique de normalité.
100
Fréquence
Sigma = 1,28
Moyenne = 4,0
0 N = 800,00
1,0 2,0 3,0 4,0 5,0
IMPPARKI
II. INFERENCE STATISTIQUE
L'inférence statistique regroupe l'ensemble des méthodes qui, à partir d'un échantillon
prélevé dans une population, permettent de tirer des conclusions soit sur les paramètres
d'une variable étudiée dans cette population, soit sur la distribution ou tout autre aspect de
cette variable.
Traditionnellement l'inférence statistique, a été divisée en deux grandes parties: l'estimation
et les tests d'hypothèses.
Les problèmes d'estimation sont fréquents aussi bien dans la vie de tous les jours que dans le
monde de la gestion, des sciences, etc.
Ainsi, un gérant des ventes doit pouvoir régulièrement estimer les ventes des mois à venir
pour pouvoir répondre à la demande; un gérant de crédit doit pouvoir estimer les chances
qu'un acheteur acquitte effectivement sa dette; un financier doit pouvoir estimer l'évolution
des taux d'intérêt dans l'avenir, etc.
Un test d'hypothèses implique deux hypothèses. Il y a d'abord une hypothèse de base au sujet
de , que l'on note H0, et que l'on appelle hypothèse nulle. H0 est l'hypothèse que l'on ne
voudrait pas rejeter à moins d'avoir suffisamment d'évidence contre elle. Selon l'approche
classique, cette évidence est fournie par l'information contenue dans l'échantillon aléatoire. Le
problème se pose comme suit: à partir du résultat d'un échantillon, on doit dire si cet
échantillon provient d'une population dont les caractéristiques coïncident avec l'hypothèse de
13
base, ou s'il provient d'une population ayant d'autres caractéristiques. Le test sera significatif
si l'écart constaté entre l'hypothèse de base et l'image, de la réalité fournie par l'échantillon est
plus grand que ce que l'on petit considérer comme le simple produit des f1uctuations
aléatoires. Le niveau de signification du test détermine la grandeur de l’écart qui peut être
attribuée à ces fluctuations. Si l'on rejette H0, il doit donc y avoir une autre hypothèse qui est
acceptable concernant la valeur de . On est ainsi amené à formuler une deuxième hypothèse
relativement à la valeur de  : cette deuxième hypothèse, que l'on note H1, est appelée
hypothèse alternative.
On peut aborder le problème de la normalité des variables autrement en utilisant le test
d’hypothèses et plus spécifiquement le test d’ajustement à la loi normale.
Un test d’hypothèses est en fait une démarche qui, à partir d’un échantillon aléatoire de taille
n tiré dans la population, permet de faire un choix entre 2 hypothèses statistiques H0 et H1.
L’hypothèse statistique est une affirmation qui concernant les caractéristiques d’une
population (ex. forme de la distribution, valeurs des paramètres, …). On distingue deux types
des tests : les tests d’ajustement (dits aussi non paramétriques) et les tests paramétriques:
II.1.TEST D’AJUSTEMENT :
Les Hypothèses statistiques peuvent s’énoncer comme suit :

H0: Les observations suivent la distribution théorique spécifiée.
H1: Les observations ne suivent pas la distribution théorique spécifiée.
Repère théorique
On regroupe les valeurs observées dans l'échantillon en classes, et à partir de ces classes, on obtient
la distribution de fréquence de l'échantillon pour valeurs groupées.
Supposons que l'on ait k classes, et notons par ni la fréquence observée de la classe i , i = 1 , .... k.
Selon l'hypothèse H0, la distribution empirique peut être ajustée par une loi binomiale de
paramètres n et pi.
On peut calculer la probabilité théorique d'obtenir une observation appartenant à la ième classe,
probabilité que l'on va noter pi. En conséquence, la fréquence théorique espérée des observations
appartenant à la ième classe, que l'on va noter Ti, est donnée par: Ti = n pi , i = 1,..., k.
Pour vérifier si l'échantillon obtenu vient bien d'une population dont la distribution est spécifiée par
H0, on considère l'écart entre les fréquences observées oi et 1es fréquences théoriques espérées T i
pour chacune des k classes. On considère le carré des écarts, c'est-à-dire (oi - Ti)2 , et l'on est ainsi
amené à définir la statistique k
(oi − Ti )² qui suit approximativement
= 
2
X
i =1 Ti
une distribution du X² à (k - l -1) degrés de liberté.
a) Règle de décision :
La valeur observée X20 est calculée pour la statistique dans l'échantillon.
La valeur lue dans une table de khi deux est X 2 ,v , telle que : P (X2 > X2  , v ) =  ;
k
(oi − Ti )²
On rejette H0 si : X o2 =   X 2,v
i =1 Ti
Avec
•  : niveau de signification.
• v : degré de liberté ( v = k – l – l).
• k : étant le nombre de classes dans la distribution de fréquence ou T  5 après
regroupement.
14
• l : nombre de paramètres à estimer.

• Oi: effectif observé.
• Ti: effectif théorique.
Paramètres
Distribution du nécessaire pour
Estimation l
caractère X calculer la
probabilité
P̂ 1
Binomiale p
2
Poisson  ̂ 0
Normale m et σ²
x et S²
APPLICATION SUR SPSS
Test Kolmogorov-Smirnov pour un

échantillon
AGE
Le test d'ajustement
N 155 est significatif, on
Paramètres Moyenne 1,68 rejette H0. Les
normauxa,b Ecart type ,709 observations ne
peuvent avoir été
déduites de la
15 normale.
distribution
Différences les plus Absolue ,291

extrêmes Positif ,291
Négatif -,214
Statistiques de test ,291
Sig. asymptotique (bilatérale) ,000c
a. La distribution du test est Normale.
I.2. LE TEST PARAMÉTRIQUE
On suppose connue la forme de la distribution de X, mais la (ou les) valeur(s) d'un (ou
plusieurs) paramètre(s) de cette distribution est (sont) inconnue(s).
On désigne par  le paramètre inconnu; il peut s'agir, par exemple, du paramètre p d'une
Bernouilli, de m et 2 dans le cas d'une distribution normale.
Les étapes d’un test paramétrique :
a. Choix de H0 et H1:
- Hypothèse nulle (simple) H0 :  = 0
- Hypothèse alternative (contre hypothèse) qui peut prendre l’une des formes suivantes :
•H1 :  1
•H1 : < 0
•H1 :  0
b. Préciser les conditions du test :
•Distribution de la population
•Taille de l’échantillon
•Variance connue ou inconnue
•Le niveau de signification
c. Spécifier, selon la distribution de l’écart réduit, la région critique au niveau de signification
a.
d. Calculer l’écart réduit et préciser, selon les données du problème, la distribution de l’écart
réduit (voir le Tableau).
e. Prendre une décision (voir le Tableau de synthèse).
La décision consiste à accepter ou à rejeter H0 en se basant sur une estimation du paramètre

concerné de la population. Cette estimation est calculée à partir de données recueillies dans
l’échantillon.
On accepte H0 si l’estimation est relativement proche de la valeur du paramètre prévue par
H0. On dit que l’écart n’est pas significatif et qu’il est dû au hasard de l’échantillonnage.
Dans ce cas on donne le bénéfice du doute à H0.
Le test sera significatif et amène au rejet de H0, si l'écart constaté entre l'hypothèse de base et
l'image de la réalité fournie par l'échantillon est plus grand que ce que l'on petit considérer
comme le simple produit des f1uctuations aléatoires. Le niveau de signification du test
détermine la grandeur de l’écart qui peut être attribuée à ces fluctuations.
II.2.1.Tableau1:Test d’hypothèses sur une moyenne

Condition d’application Condition d’application Condition d’application
population normale de Echantillon de grande Echantillon réduit
variance connue. taille (n30) prélevé au (n<30) population
hasard. normale de variance
inconnue
16
Hypothèse nulle : Hypothèse nulle : H0 : Hypothèse nulle:

H0 : m=m0 m=m0 H0 : m=m0
Seuil de Seuil de Seuil de
signification :  signification :  signification : 
Ecart réduit de sa Ecart réduit de sa Ecart réduit de sa
distribution : distribution : distribution :
X − m0 X − m0 est X − m0
Z = est Z= t= est
/ n s/ n s/ n
distribué selon la loi distribué selon la loi distribué selon la loi
normale centrée normale centrée de student avec n-1
réduite. réduite. degré de liberté
Hypothèses Règles de Hypothèse Règles de Hypothèses Règles de
alternatives décision alternative décision alternatives décision
H1: Rejeter H0 H1 : Rejeter H0 H1 :

Rejeter H0
mm0 si :Z>Z/2 mm0 si :
si : Z>Z/2 mm0
Z<-Z/2 Z<-Z/2 t>t/2,n-1
t<-t/2,n-1
H1 :m>m0 Rejeter H1 : Rejeter H1: Rejeter
H0 m>m0 H0 m>m0 H0 si :
si :Z>Z si :Z>Z t>t, n-1
H1 :m<m0 Rejeter H1: Rejeter H1 :m<m0 Rejeter
H0 si : m<m0 H0 si : H0 si :
Z<-Z Z<-Z t<-t, n-1
Tableau 2 : calcul de l’écart réduit en fonction du niveau de signification 
Hypothèses Seuil de signification et valeur critique

statistiques
Distribution normale distribution de student
Taille de l’échantillon n=20
=0.05 =0.01 =0.05 =0.01

H1 :mm0
Z/2= 1.96 Z/2=2.58 t/2=2.086 t/2=2.845
H1 :m>m0
Z=1.645 Z=2 .33 t=1.725 t=2.528
H1 :m<m0
-Z=-1.645 -Z=-2.33 -t=-1.725 -t=-2.528
17
Z
V
C2
Z : valeur critique
o
o
a
H0 :  = 0
n
n
H1 :   0
lee 1−
e
 
2 2
d
0
d
’u
e
a
r
c
rc
e
e
c
jp
ret
tia
t
tid
ie
o
n
q
H d
u
e
0
e
H
0
:
C
1
18
Z
C
Z : valeur critique
o
o  0
n
H0 : =
n H1 :   0
e
e 1−
d
0
d
’
e
a
c
rc
e
e
jp
e
t
ta
t
id
o
e
n
H d
e
0
H
0
19
Z
V
Z
o
o
a
H0 :  = 0
n
n
H1 :   0
lee 1−
e
0
d
d
’u
e
a
r
c
rc
e
e
c
jp
ret
tia
t
tid
ie
o
n
q
H d
u
e
0
e
H
0
:
C
II.3. APPLICATION SUR SPSS
La perception de l’image d’une enseigne est mesurée selon une échelle d’attitude à 5 points :
(-2 : très mauvaise 2 : très bonne)
On voudrait tester si la perception moyenne des personnes interrogées est neutre (c.-à-d.: ni
bonne, ni mauvaise). Il s’agit d’un test sur la moyenne m qui consiste à confronter les 2
hypothèses suivantes:
Variables à tester: imagepro
H0 : m=0
H1 : m≠0
Sélectionner :
Analyse comparer les moyennes test T pour échantillons unique
20
21

CHAPITRE 2 Analyse Unidimensionnelle

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CHAPITRE 2 Analyse Unidimensionnelle

Transféré par

Droits d'auteur :

Formats disponibles

Cours Analyse des données MPQSE ISET Charguia

CHAPITRE 2. ANALYSE UNIDIMENSIONNELLE

L’analyse unidimensionnelle permet de caractériser la distribution des valeurs observées pour

Variable Effectifs Fréquences

La fréquence fi représente le pourcentage d'individus de la population obéissant à la modalité

I.1.LES VARIABLES QUALITATIVES

25% 25% 25% 25%

Chaque partie de la population contient 25% de l’ensemble des observations de la série

résumer par un seul nombre l'ensemble des observations de la série statistique. x =  x Si la i =1

série est groupée, x est égale à  n x

Cas d’une variable discrète :

-Nombre pair d’observations : la médiane sera généralement la moyenne arithmétique des

- Les observations sont groupées par classe :

Cas d’une variable continue :

I.2.2. Mesure de la dispersion

S=  n ( x − x)² L'écart type indique avec une plus grande

I.2.3.Caractéristiques de forme : Asymétrie et Aplatissement

Dans une distribution parfaitement symétrique, la moyenne, la

Coefficient d'asymétrie : une mesure descriptive qui permet de caractériser le degré de

I.3.TRANSFORMATION xD’<UNE VARIABLE QUALITATIVE EN UNE VARIABLE QUANTITATIVE

Réponse Très peu Peu Moy. Important Très

Fi 4/100 8/100 8/100 30/100 50/100

Réponse Très peu Peu Moy. Importa Très

I.4.1.Distribution des fréquences

Sélectionner : analyse statistiques effectifs

I.4.2.Les autres indicateurs :

Sélectionner : analyse statistiques descriptives effectifs statistiques

Cliquer sur statistiques et sélectionner les éléments désirés :

• Pour une variable nominale : mode, distribution de fréquences, minimum, maximum

Application sur SPSS

Sélectionner : analyse statistiques descriptives effectifs diagramme

trés mauvaise 500

100 Sigma = 1,16

I.4.4.Les tableaux à réponse multiple :

PROCEDURE SUR SPSS

Pour calculer des fréquences sur un tableau multiple, il faut :

Indiquer quelle est la Sélectionner Ajouter le

Pour les 835 réponses

66,8% des 400 individus

De nombreuses méthodes statistiques reposent sur l’hypothèse de la normalité des variables

APPLICATION SUR SPSS

Sélectionner : analyse statistiques descriptives effectifs statistiques

Statistiques Pour que la variable puisse être

Il est possible d’obtenir une représentation graphique qui superpose l’histogramme de la

Sélectionner : analyse - statistiques descriptives – effectifs - diagrammes histogramme

II. INFERENCE STATISTIQUE

Les Hypothèses statistiques peuvent s’énoncer comme suit :

• l : nombre de paramètres à estimer.

APPLICATION SUR SPSS

Test Kolmogorov-Smirnov pour un

Différences les plus Absolue ,291

I.2. LE TEST PARAMÉTRIQUE

La décision consiste à accepter ou à rejeter H0 en se basant sur une estimation du paramètre

II.2.1.Tableau1:Test d’hypothèses sur une moyenne

Hypothèse nulle : Hypothèse nulle : H0 : Hypothèse nulle:

H1: Rejeter H0 H1 : Rejeter H0 H1 :

Hypothèses Seuil de signification et valeur critique

=0.05 =0.01 =0.05 =0.01

Vous aimerez peut-être aussi