Vous êtes sur la page 1sur 59

Master Management Digital et

système d’information

Cours d’analyse des données et prise de décision


20121/2022

Wahiba Bali Kalboussi


Partie I. Les méthodes d’analyse des données
quantitatives

Chapitre 1. Analyse unidimensionnelle


Introduction

 La statistique est l'ensemble des méthodes qui ont pour


objet la collecte, le traitement et l'interprétation de
données d'observation relatives à un groupe d'individus
ou d'unités.

Wahiba Kalboussi 3
statistique

Descriptive Inférentielle

Wahiba Kalboussi 4
- La statistique descriptive

 La statistique est l’ensemble des méthodes scientifiques visant à corriger, à résumer, à organiser
et à analyser des données numériques, de même qu’a tirer des conclusions valables et à
prendre des décisions raisonnables sur la base de cette analyse.

 Elle utilise pour cela des représentations de données sous forme de graphiques, de tableaux et
d'indicateurs numériques (par exemple des moyennes).

 Elle permet de dégager les caractéristiques essentielles du phénomène étudié et de suggérer


des hypothèses pour une étude ultérieure plus sophistiquée. Les probabilités n'ont ici qu'un rôle
mineur.

Wahiba Kalboussi 5
- La statistique inférentielle

 Elle va au delà de la simple description des données. Elle a pour but de faire des
prévisions et de prendre des décisions au vu des observations.
 En général, il faut pour cela proposer des modèles probabilistes du phénomène aléatoire
étudié et savoir gérer les risques d'erreurs.
 Les probabilités jouent ici un rôle fondamental.

Wahiba Kalboussi 6
Analyse des données
multidimensionnelle
L’analyse des données permet de traiter un nombre très important de données et de dégager les
aspects les plus intéressants de la structure de celles-ci.

-Reposent sur des méthodes géométriques.

-permettent de ressortir les relations pouvant exister entre les différentes données et à en tirer une
information statistique qui permet de décrire de façon plus succincte les principales informations
contenues dans ces données.

-regrouper les données de façon à faire apparaître clairement ce qui les rend homogènes, et ainsi
mieux les connaître.
PARTIE I

Wahiba Kalboussi 8
Analyse univariée
(unidimensionnelle)

Wahiba Kalboussi 9
LES VARIABLES STATISTIQUES

Quantitative Qualitative

Echelle de Echelle de

nominale ordinale
intervalle proportion
I.1.Les variables qualitatives

Wahiba Kalboussi 11
I.1.Les variables qualitatives

 L’échelle nominale:
 les données permettent des classifications sans relation d’ordre.
 Etat matrimonial :
 célibataire Marié veuf/ divorcé

 Genre :
 homme femme
 I.1.1.Variable nominale :
 Possède le moins de propriétés mathématiques.
 Tri à plat: le nombre d'observations appartenant à chaque catégorie
(modalité) de la variable, c'est à dire effectuer une tabulation simple
 La tendance sera représentée par le Mode MO est la modalité dont la
fréquence la plus élevée (autrement dit, la modalité la plus observée).

Wahiba Kalboussi 13
Application
Combien y a-t-il de personnes qui ont acheté le produit Nadhif du point de vente Magasin
Général sur les 1000 personnes interrogées ?
Le mode correspond à la réponse oui, ceci signifie que la tendance centrale est d'acheter le
produit Nadhif de ce point de vente.

Codes Nombre de Pourcentage Pourcentage


Réponses réponses de réponse cumulé

Oui 1 550 55 55

Non 2 450 45 100

Total 1000 100%

Wahiba Kalboussi 14
L’échelle ordinale:
Echelle ordinale: les données sont rangées par ordre sans
que l’intervalle entre chaque niveau de la variable ne soit
constant.
Exemple:
- Classement des marques.
- Ordre de préférence.
L’échelle ordinale:
traitement statistique

 La tendance est représentée par la médiane.


médiane Me: est la valeur qui divise la population étudiée en
deux parties égales. c’est la valeur de la variable, telle que la
moitié de la population a une valeur inférieure à Me et l’autre
moitié a une valeur supérieure à Me .

 La dispersion d’une variable ordinale est indiquée par les fractiles.


Les fractiles correspondent à des valeurs de la variable
statistique partageant la série ordonnée en l catégorie
d'effectifs égaux.
Wahiba Kalboussi 16
Exemple de fractiles:
les quartiles (partage de la population en 4 catégories d'effectifs
égaux ; ou de déciles (partage en 10 parties égales).

Q l Si l =4 , il y a donc trois quartiles : Q1 Q2, Q3.

Q1 Q2 Q3.
25% 25% 25% 25%

Wahiba Kalboussi 17
Niveau d'utilité Effectifs Fréquences Fréq cumulés
Inutile 10 4,17 4,17
Utile 90 37,5 41,67
Très utile 80 33,33 75
Indispensable 60 25 100
240 100
.
La médiane: la modalité « très utile » : il y a autant de personnes qui trouvent le produit au
moins très utile que des personnes qui le considèrent au plus très utile.

Le premier quartile (Q1) est "utile" : il y a 25% de répondant qui pensent que la dentifrice
est inutile ou simplement utile .

Le quartile Q3 est « très utile" c'est à dire, il y a 75% de répondant qui trouvent le produit au
plus très utile mais pas indispensable.
Les intervalles (interquartile, interdécile) sont les seuls paramètres de dispersion que l'on
peut déterminer pour les variables ordinales.
intervalle interquartile: il y a au moins 50% des répondants qui estiment que le produit est
utile ou très utile.
Wahiba Kalboussi 18
I.2.Les variables quantitatives
(métriques)

Wahiba Kalboussi 19
Les outils statistiques propres aux
variables quantitatives
 Dans le cas d'une variable métrique, la tendance
centrale est mesurée par la moyenne et la dispersion
par la variance ou l'écart type.

Wahiba Kalboussi 20
Mesure de la tendance centrale
La moyenne arithmétique :

 La moyenne arithmétique d'une série x1, x2, x3,…, xN est la valeur centrale
de référence. Elle permet de résumer par un seul nombre l'ensemble des
observations de la série. Elle est égale à :
N

 = x i
x i =1

Wahiba Kalboussi 21
Mesure de la tendance centrale
Le mode MO:

 Si la variable est discrète, le mode correspond à la valeur du caractère pour laquelle l’effectif
est le plus important.
 Si la variable est continue, le mode se calcule en deux étapes :
 On calcule la classe modale à laquelle correspond l’effectif le plus important.
 On calcule ensuite, la valeur du mode :

 MO= borne inférieure de la classe modale +


 * ((eff classe modale – eff classe précédente)/ ((eff classe modale – eff classe préc) + eff
classe modale –eff classe suivante)) )

Wahiba Kalboussi 24
 Mo=2000+ 1000(0.46-0.32)/ (0.46-0.32) +(0.46-0.15)
 Mo ≈ 2311.1
Mesure de la tendance centrale
La médiane Me

Cas d’une variable discrète :


 Les observations ne sont pas groupées par classe :
 Il faut tout d’abord ranger les observations par ordre de grandeur croissant (ou
décroissant).

Wahiba Kalboussi 26
Mesure de la tendance centrale
La médiane

Cas d’une Variable continue


 Les observations sont groupées par classes :
 La médiane se définit à partir de la fonction de répartition : F(x)= P(X x)

 Me est telle que F(Me) 0.5

Wahiba Kalboussi 28
Wahiba Kalboussi 29
 F(275)= 0.3067
 F(Me)=0.5
 F(295)= 0.6
 (295 -275)/(295 –Me) = (0.6 -0.3067)/ (0.6 -0.5)
 Me= 288.18
Mesure de dispersion

Wahiba Kalboussi 36
Dispersion relative
Paramètres de forme:
asymétrie et aplatissement

Symétrie

Asymétrie positive

Asymétrie négative
Codification des variables sur SPSS
 Vue des variables
Codification d’une Variable qualitative
échelle nominale
 Variable: Genre
Codification d’une Variable qualitative
échelle nominale
 Vente:
 Oui
 Non
 Gestion:
 Oui
 Non
 Planfication:
 Oui
 Non
 Région:
 Gafsa
 Gabes
 Tunis
 Spécialité:
 Génie mécanique
 Génie électrique
Codification d’une variable ordinale
 Degré de satisfaction
Codification d’une Variable
quantitative
 Exemple: salaire
Analyse univariée sur SPSS

Wahiba Kalboussi 45
Analyse univariée:
Analyse descriptive
Tri simple
Le calcul de paramètres statistiques

 Cliquer sur statistiques et sélectionner les éléments désirés :


 Pour une variable nominale : mode, distribution de fréquences, minimum,
maximum
 Pour une variable ordinale : mode, distribution de fréquences, minimum,
maximum, médiane.
 Pour une variable métrique : écart type, moyenne, minimum, maximum.

wahiba kalboussi 48
Le calcul de paramètres statistiques

wahiba kalboussi 49
Asymétrie
 La distribution normale

 La distribution normale est symétrique et a une valeur d’asymétrie égale à 0.

En pratique: on compare l’asymétrie et l’erreur standard

Asymétrie/ES(M) si < -2 ou >2 Anormalité:


Asymétrie/ES(M)>0 étalement vers la droite
Asymétrie/ES(M)<0 étalement vers
Wahiba la gauche
Kalboussi 50
Rapport de kurtosis

Leptokurtique k>0

Mesokutique k=0

Platykurtiquek<0

 Si k=0 Distribution normale (Mesokutique )


 Si k >0 : Les extrémités sont plus allongées qu’une distribution normale (leptokurtique)
 k <0 : Les extrémités sont plus courte qu’une distribution normale (platykurtique)
Wahiba Kalboussi 51
Erreur standard de la moyenne

 Si X − m < -2 ou >2 différence significative entre les 2 moyennes


 / n

Wahiba Kalboussi 52
wahiba kalboussi 53
Output de SPSS

 Base

wahiba kalboussi 54
Vérification des non réponses
Recherche des erreurs
 Utilisation de l’option de recherche
Graphiques
IMPROMOG
600

500

400

300

200
IMMONOPR IMCARREF
400

Fréquence
100 Sigma = 1,16
trés mauv aise
Moy enne = ,2
ni bonne ni m auv ais e
300
0 N = 800,00
-2,0
as 0,0
sez bonne 2,0 4,0 6,0

200
IMPROMOG

100
Fréquence

tres bonne
0
trés mauv aise ni bonne ni m auv ais e tres bonne
as sez mauv aise as sez bonne

IMMONOPR

wahiba kalboussi 58
Wahiba Kalboussi 59

Vous aimerez peut-être aussi