Vous êtes sur la page 1sur 18

Gestion des données

industrielles

Statistiques descriptives

ESTIA – Cycle ingénieur 2ième année


1
STATISTIQUES DESCRIPTIVES

Statistiques descriptives 2
Définitions
Paramètres / mesures de tendance centrale

• Loi Normale : origine : si l'on fait la moyenne d'un −1ൗ2 −1ൗ 2


grand nombre de variables aléatoires 𝑦 = 2𝜋 ×𝑒 2𝑥
indépendantes et de même ordre de grandeur, le
résultat obtenu correspond à une nouvelle variable
dont la loi à toujours la même forme : une cloche
(distribution gaussienne ou de Gauss)

• Moyenne : est une mesure qui exprime la grandeur


qu’aurait chacun des membres de l’ensemble 1
(population/échantillon) s’ils étaient tous identiques. 𝑥=𝑚= ෍ 𝑥𝑖
• → variable quantitative. On ne peut pas faire le total
𝑛
des valeurs d'une variable qualitative. Quand la
variable est ordinale, on lui préférera la médiane.
Effectif impair pair
• Médiane : est une valeur qui permet de couper
l’ensemble des valeurs en deux parties égales. Cette 𝑥𝑛 + 𝑥𝑛+1
𝑀 = 𝑥𝑛+1 2 2
valeur se trouve au percentile 50 : 50% des effectifs 2 𝑀=
(nombre d’individu) est au dessus, 50% en dessous.
2
• Mode : valeur la plus fréquente d’une variable, celle
qui caractérise le mieux une population

Statistiques descriptives 3
Exemple: Moyenne et médiane
la distribution des salaires
On a souvent l’impression que la moyenne est « au milieu ». Cette intuition est bien
souvent fausse.

Ensemble Hommes Femmes


Le salaire moyen, correspondant
10 % des salariés gagnent 1200 € 1254 € 1154 €
moins de… à la moyenne de l’ensemble des
30 % des salariés gagnent 1471 € 1559 € 1374 € salaires, était de 2 202 euros et le
moins de… salaire médian, tel que la moitié
50 % des salariés gagnent 1772 € 1882 € 1619 € des salariés de la population
moins de… considérée gagne moins et
70 % des salariés gagnent 2244 € 2405 € 2029 €
moins de…
l’autre moitié gagne plus, était
90 % des salariés gagnent 3544 € 3892 € 3036 €
de 1 772 euros. Le salaire médian
moins de… est donc nettement inférieur (de
Salaire moyen 2202 € 2389 € 1934 € 24 %) au salaire moyen
Salaire médian 1772 € 1882 € 1619 €
Source : Insee. Année des données : 2013

Plus de la moitié de la population gagne moins que la moyenne et


moins de la moitié gagne plus
Cela est dû au fait qu’une petite partie de la population perçoit
un salaire très élevé, ce qui tire la moyenne vers le haut.
Statistiques descriptives 4
Définitions
Paramètres / mesures de dispersion
𝑛
1
• Étendue : l’écart entre la plus 𝑉 𝑋 = ෍ 𝑥𝑖 − 𝑚 2
grande valeur et la plus petite valeur 𝑛
𝑖=1
• Variance : dispersion des données autour •

Où V(X) est la variance de la variable X
n est le nombre d’individus dans l’échantillon
de la moyenne s², σ² ou V(X). • m est la moyenne de la variable X
• x est la valeur que prend l’individu i pour la
• Ecart-type : racine carré de la variance variable X

s². L’écart-type sert à calculer la dispersion


des données. Une loi normale est faite de
sorte à ce que 95% des valeurs soient 𝜎𝑋 = 𝑉(𝑋)
situées dans un intervalle de +/-1,96 écart-
types.
• Coefficient de variation : quantifie ce 𝜎
que représente l’écart-type par rapport à 𝐶𝑉 =
𝜇
sa moyenne (%)
• Ecart-type de la moyenne : erreur type 𝜎
ou erreur standard (e.s) est une estimation 𝑒𝑠 =
de l’écart type lié à l’erreur de la mesure. 𝑛

Statistiques descriptives 5
Mesures de dispersion
Explications
La variance: est une moyenne des écarts des valeurs avec la moyenne m

• Pour obtenir les écarts, il suffit de soustraire la


UN EXEMPLE: variable X = taille
moyenne m à chaque valeurs xi (ex: la taille
de chaque individu)
• Le bémol: certains écarts peuvent avoir des
m= moyenne
résultats négatifs (ex: les individu qui sont
de l’ensemble
petits auront un écart avec la moyenne des valeurs
négatif). La solution est donc de passer les
écarts au carré.
• Pour obtenir la moyenne des écarts, il nous
faut simplement sommer l’ensemble des
écarts (au carré) et de diviser le tout par le
nombre d’écarts.
• Et nous savons qu’il y a au tant d’écarts que
de valeurs xi c.-à-d. au tant de valeurs que
d’individus dans l’échantillon = n.
𝒏
𝟏 𝟐
𝑽 𝑿 = ෍ 𝒙𝒊 − 𝒎
𝒏
𝒊=𝟏

Statistiques descriptives 6
Mesures de dispersion
Explications
La variance, c’est OK.
Mais pourquoi utiliser d’autres mesures de dispersion???

La variance n’est pas de la même unité que la moyenne!

Nous avons passé les écarts au


carré. Il est donc difficile de c’est comme comparer 4 km
comparer la variance à la parcourus en vélo à un espace
moyenne m (et pourtant ça de 6 m²… ça n’a aucun sens.
serait utile)

Bref, la mesure de dispersion se trouvant à la même unité que celle de


la moyenne est l’écart-type (qui n’est rien d’autre que la racine carré
de la variance)

Statistiques descriptives 7
Mesures de dispersion
Explications

L’erreur standard en quelques mots:

L’erreur standard est considérée comme l’écart-


type de la distribution (théorique) de toutes les
erreurs qui seraient commises au cours des
mesures.

Sinon, ça permet de connaître l’intervalle de confiance de la moyenne …

Statistiques descriptives 8
Mesures de dispersion
Intérêt de l’erreur standard 1/2

Imaginons que votre entreprise compte un total de 600 employé(e)s et que


l'on vous demande de déterminer l'âge moyen de ces employé(e)s.
Différents scénarios s'offrent à vous:

Quel est votre confiance


sur le résultat de la
moyenne ?
Moyenne Ecart-type
Moyenne Écart-typeN N/nn
Scenario 1 vous interrogez la totalité de 0% 100%
cette population 21,8 2.4 600
21,8 2,4 600 "600"
Scenario 2 vous interrogez un échantillon
de grande taille
0% 100%
21,821,8 2,4 2.4 600 300
300
Scenario 3 vous interrogez un échantillon
de taille moyenne 21,821,8 2,4 2.4 600 5050 0% 100%

Scenario 4 vous interrogez un échantillon


de très petite taille
21,821,8 2,4 2.4 600 5 5 0% 100%

Comment connaitre l’intervalle de confiance que je peux avoir au 𝝈


𝒆𝒔 =
résultat de la moyenne obtenue? 𝒏

Statistiques descriptives 9
Mesures de dispersion
Intérêt de l’erreur standard 2/2

intervalle de confiance de la
Moyenne Écart-type N/n e.s
moyenne
Scenario 1 vous interrogez la totalité de
cette population 21,8 2,40 600 ne s'applique pas

Scenario 2 vous interrogez un échantillon


de grande taille 21,8 2,40 300 0,139 21,5 22,1

Scenario 3 vous interrogez un échantillon


de taille moyenne 21,8 2,40 50 0,339 21,1 22,5

Scenario 4 vous interrogez un échantillon


de très petite taille 21,8 2,40 5 1,073 19,7 23,9

Lorsque la distribution des données représentent une courbe de Gauss (loi normale) 95% des valeurs
sont situées dans un intervalle de +/-1,96 écart-types, l’intervalle de confiance à 95% de la
moyenne est quant à lui = +/-1,96*e.s. Donc plus e.s est important plus la valeur calculée de la
moyenne est « approximative »

L'intervalle de confiance (IC) à 95% est un intervalle de valeurs qui a 95% de


chance de contenir la vraie valeur du paramètre estimé.

Avec moins de rigueur, il est possible de dire que l'IC représente la fourchette de
valeurs à l'intérieur de laquelle nous sommes certains à 95% de trouver la vraie
valeur recherchée.
Statistiques descriptives 10
Définitions

• Fréquence : nombre de fois


qu’une donnée apparait
• Quantile / Quartile : le
quantile est la valeur Pα qui
laisse α % des observations
en-dessous et (1 − α) % des
observations au-dessus d’elle.
Les quantiles les plus utilisés
sont P25 (qui laisse 25 % des
observations en-dessous et
75% au-dessus) et P75 (qui
laisse 75 % des observations
en-dessous et 25% en-dessus).
Ce sont des quartiles. La
médiane équivaut à P50.

Statistiques descriptives 11
Définitions
Les seuls indicateurs des variables qualitatives nominales

• Effectif total: c’est le Exemple 1:


• Prenons la série 2, 2, 4, 34, 11, 4, 2
nombre de valeurs dans la • L’effectif total pour cette série est de 7
série statistiques puisqu’il y a 7 valeurs (des nombres ici).
• L’effectif de la valeur 2 est de 3
• Effectif d’une valeur puisque la valeur 2 apparaît 3 fois dans
donnée: c’est le nombre la liste.
de fois ou la valeur • Pour la valeur 4 c’est 2 , puisque le
apparait pour cette série nombre 4 apparaît à 2 reprises.

• Fréquence d’une valeur


donnée: c’est le quotient Exemple 2:
(la division) de l’effectif de • Prenons la série: bleu, bleu, vert, noir,
la valeur par l’effectif total. rouge, vert , bleu, noir, noir
• L’effectif total pour cette série est de 9
– Intuitivement, elle indique puisqu’il y a 9 valeurs (Ici, des couleurs).
la proportion de la • L’effectif de la valeur bleu est de 3
présence de la valeur puisque le bleu apparaît 3 fois dans la
dans la liste. liste.
• Pour la valeur vert c’est 2 , puisque le
vert apparaît à 2 reprises.

Statistiques descriptives 12
Synthèse
Etude d’un seul caractère

Variable

Quantitative Qualitative

Continue Discrète Ordinale Nominale

Mesures de tendance centrale Effectifs


Mesures de dispersion Fréquences

Statistiques descriptives 13
Lien entre 2 variables quantitatives
Coefficient de corrélation
• La qualité de la corrélation peut être mesurée par un coefficient de
corrélation r.

σ 𝑋 − 𝑋ത 𝑌 − 𝑌ത
𝑟=
σ 𝑋 − 𝑋ത 2 × σ 𝑌 − 𝑌ത 2

r=0,6
• Le coefficient de corrélation est compris entre -1 et +1.
• Plus il s'éloigne de zéro, meilleure est la corrélation.
– r = +1 corrélation positive parfaite

– r = -1 corrélation négative parfaite


r=-0,8
– r=0 absence totale de corrélation

Statistiques descriptives 14
Lien entre 2 variables qualitatives
Tableau de contingence
• Outil permettant
– de présenter les liens entre deux variables qualitatives ou plus
– de faciliter la prise de décision

• Etapes pour établir un tableau


de contingence:
– X et Y sont 2 variables qualitatives
mesurées sur un échantillon
– Relever les donner Xi et Yi
mesurées sur l’échantillon
– Définir la fréquence N pour
chaque couple Xi/Yi possible
– Calculer le nombre total de
correspondance de chacune des
variables et de l’échantillon
global n
– Calculer les ratios permettant de
conclure
Statistiques descriptives 15
Exemple
Tableau de contingence
• Les clientes qui achètent par internet achètent elles plus
facilement du haut de gamme ?

Extrait du tableau de données


On compte le nombre de personnes qui:
- Achète du haut de gamme mais pas sur
internet : 52482
- Achète du Haut de Gamme par Internet :
126214
- etc

On construit ce premier tableau de contingence

0 = Faux / 1 = Vrai

Statistiques descriptives 16
Exemple
Tableau de contingence de Fréquence
Probabilité inconditionnelle

• Passage des effectifs de chaque valeur en fréquence

Statistiques descriptives 17
Exemple
Tableau de contingence de Fréquence
Probabilité conditionnelle

• Passage de la probabilité inconditionnelle à la probabilité


conditionnelle:
le total de la probabilité conditionnelle doit être égale à 1 pour
l’ensemble des critères

23,4% des clientes


achètent du haut de
gamme sur internet

38% des clientes qui


achètent sur internet,
achètent du haut de
gamme

Statistiques descriptives 18

Vous aimerez peut-être aussi