Vous êtes sur la page 1sur 38

STATISTIQUE POUR LA LOGISTIQUE

Chapitre 2 : Statistique Descriptive


© A. AIT EL CADI 2021
Abdessamad.aitelcadi@univ-valenciennes.fr
A. AIT EL CADI

Plan de la séance
• Introduction à la statistique descriptive
• Le diagramme tige-feuille
• L’histogramme
• Les mesures de position
• Les mesures de dispersion
• Autres méthodes d’analyse
• Statistique descriptive Cas des données
groupées
A. AIT EL CADI

Introduction

Lors d’une analyse statistique on dispose d’un


grand nombre de données brutes inexploitable.
Le but de la statistique descriptive est de
résumer ces données et de les présenter sous
forme synthétique à pouvoir en dégager des
renseignement utile.

3
A. AIT EL CADI

Introduction
• Pour ce, la statistique descriptive dispose d’outils,
tels que :
 Représentations graphiques : le diagramme « tige-
feuille», l’histogramme, etc…
 Les mesures (indices) de position : la moyenne, la
médiane, le mode, les quantiles.
 Les mesures (indices) de dispersion : l’étendue, l’écart
interquartile, la variance, l’écart-type.
 Autre méthodes d’analyse : le diagramme « Box-
Plot », le diagramme quantile-quantile, le diagramme
de dispersion, la droite des moindres carrés, le
coefficient de corrélation.

4
A. AIT EL CADI

Introduction
Durant tout ce chapitre, on considère une
variable X et un échantillon de population
associée : x1, x2, …, xn.
On suppose que les valeurs de cet
échantillon sont classés selon un ordre
croissant.

5
A. AIT EL CADI

Le diagramme tige-feuille
On l’appelle aussi le diagramme arborescent. C’est le
diagramme le plus simple parmi toutes les
représentation graphique.

6
A. AIT EL CADI

Le diagramme tige-feuille
• Construction
▫ Ce dernier peut être vu comme une sorte
d’histogramme, retenant d’un côté d'avantage
d’information que ce dernier, tout en étant plus
rudimentaire d’un point de vue strictement graphique.

▫ C'est une sorte d’histogramme horizontal construit en


prenant comme base une colonne d’entiers ordonnés
(une tige) représentant les premiers chiffres des
observations, puis en inscrivant à droite de chaque
chiffre de la colonne le deuxième chiffre arrondi (une
feuille) de chacune des observations commençant par ce
chiffre.
7
A. AIT EL CADI

Le diagramme tige-feuille
• Exercice
On considère l’échantillon, résumé dans le tableau ci-
dessous, des durées de 34 opérations de picking en
minutes.

Représenter ces données sous forme d’un diagramme


tige-feuille.

8
A. AIT EL CADI

Le diagramme tige-feuille
• Exercice
Le diagramme tige-feuille associé est le suivant :

9
A. AIT EL CADI

L’histogramme
Le graphique le plus utilisé pour représenter
des variables continues est l’histogramme.
Celui-ci un outil très flexible permettant de se
faire une bonne idée de la densité, de même
que de la variabilité, de l’asymétrie et de
l’aplatissement de la distribution des
observations.

10
A. AIT EL CADI

L’histogramme
• Tableau de distribution des fréquences
▫ La longueur et le nombre des intervalles K sont
arbitraires. Mais leur choix influence de manière
importante la représentation graphique.
▫ Après avoir choisi les intervalles et calculé pour chacun
la fréquence, on ramène les données brutes à un
tableau de fréquence de la forme suivante :

11
A. AIT EL CADI

L’histogramme
• Construction de l’histogramme des
fréquences
Polygone des
▫ Si on pose bj = aj - aj-1(diamètre de fréquences
l’intervalle), l’histogramme est construit en
élevant au-dessus du jieme intervalle un
rectangle de hauteur hj telle que l’aire bjhj
16
est proportionnelle à la fréquence nj.
14
▫ On peut prendre par exemple hj = nj/bj . 12

▫ Si tous les intervalles sont de même 10

longueur, cela revient à prendre hj 8

proportionnelle (voir égale) à nj. 6

▫ Pour certaines données, il est souhaitable de 4


définir des intervalles de longueurs inégales, 2
0
mais nous ne considérerons pas ce cas ici. 0,6 0,8 1,0 1,2 1,4 1,6

12
A. AIT EL CADI

L’histogramme
• Exercice :
On considère le même exemple des opérations de picking :

▫ Déterminer la table de fréquence associée


▫ Dessiner l’histogramme.
▫ Quelle est la probabilité que la durée d’une opération de
commande soit inférieur à 1,5 min.
13
A. AIT EL CADI

L’histogramme
• Exercice :
La table de fréquence associée est :
Effectifs Fréquence
Intervalle Effectifs Fréquences
Cumulés cumulées
1 1 0,03 0,03
9 10 0,26 0,29
14 24 0,41 0,71
2 26 0,06 0,76
4 30 0,12 0,88
4 34 0,12 1,00
Total 34 - 1

14
A. AIT EL CADI

L’histogramme
• Exercice :
L’histogramme associée est :
45%
40%
35%
30%
25%
20%
15%
10%
5%
0%
0.6 0.8 1.0 1.2 1.4 1.6
15
A. AIT EL CADI

L’histogramme
• Exercice : Ogive

L’histogramme cumulé (Graphe en escalier) associée est :


100%100%
90% 90%
0.84
80% 80%
70% 70%
60% 60%
50% 50%
40% 40%
30% 30%
20% 20%
10% 10%
0% 0%
0,6 0,6 0,8 0,8 1,0 1,0 1,2 1,2 1,4 1.5
1,4 1,6 1,6

Remarque : Comment déterminer le nombre d’intervalles (classes) K?


16
A. AIT EL CADI

Les mesures de position


• Moyenne : n

x i
x= i =1
n
• Médiane :
 x n +1 si n est impair
 ( 2 )
~ 
x = xn +xn
( ) ( +1)
 2 2
si n est pair

 2
• Mode : C’est la valeur la plus fréquente. Il n’est pas
unique
A. AIT EL CADI

Les mesures de position


• Les quantiles : xp (0<p<1)
Prop(des xi  x p )  100 p %
Prop(des xi  x p )  100(1 − p )%
▫ Les percentiles : quand p = i /100 avec i = 1,2 …99
▫ Les quartiles :
Q1 = x 0.25 ; Q 2 = x 0.50 ; Q3 = x 0.75
25 % 25 % 25 % 25 %
Q1 Q2 Q3
=Médiane
18
A. AIT EL CADI

Les mesures de position


• Exercice :
Calculer, pour chacun de ces jeux de données, la
moyenne, la médiane et les quartiles
A. AIT EL CADI

Les mesures de position


• Exercice :
La réponse
A. AIT EL CADI

Les mesures de dispersion


• Étendue : n n
R = max( xi ) − min ( xi )
i =1 i =1

• Écart interquartile :
IQR = Q3 − Q1
• Variance :
SSX
s 2
=
n −1
n
Avec SSX =  i
( x
i =1
− x ) 2
A. AIT EL CADI

Les mesures de dispersion


• Écart-type :

s = s 2

• Coefficient de variation échantillonnal (C.V.):

s
C.V . =
x
A. AIT EL CADI

Les mesures de dispersion


• Exercice :
Calculer, pour chacun de ces jeux de données,
l’étendue, l’écart interquartile, la variance, l’écart-type
et le coefficient de variation.
A. AIT EL CADI

Les mesures de dispersion


• Exercice :
La réponse

24
A. AIT EL CADI

Autres Méthodes d’analyse


• Le diagramme de Tukey (ou Box-Plot)
Box Plot (PoidsTaille_Pucerons.sta 4v*410c)
E2 2,0

1,8
I2
1,6 3*IQR

1,4
1.5*IQR
Q3 1,2

Q2 IQR
1,0
Q1
0,8
1.5*IQR
0,6
I1 3*IQR Median = 1,056
25%-75%
0,4
= (0,984, 1,244)
Non-Outlier Range
0,2
E1 = (0,781, 1,619)
Outliers
0,0 Extremes
NewVar
A. AIT EL CADI

Autres Méthodes d’analyse


• Diagramme Quantile-Quantile
Quantile-Quantile Plot of Poids (PoidsTaille_Pucerons.sta 4v*410c)
Distribution: Normal
Poids = 1,1861+0,259*x
0,01 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,99
2,0

1,8

1,6

1,4

1,2

1,0
Observed Value

0,8

0,6

0,4
-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5

Theoretical Quantile
A. AIT EL CADI

Autres Méthodes d’analyse


• Diagramme de dispersion (ou scatter plot)
Scatterpl ot (Poi dsT ai l l e_Pucerons.sta 3v*34c)
1,10

1,05

1,00

0,95

0,90
Taille

0,85

0,80

0,75

0,70
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

Poi ds

Scatterpl ot (Poi dsT ai l l e_Pucerons.sta 3v*34c)


14,5

14,0

13,5

13,0

12,5

12,0
age

11,5

11,0

10,5

10,0

9,5
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

Poi ds
A. AIT EL CADI

Autres Méthodes d’analyse


• Droite des moindres carrées
▫ Lorsque le diagramme de dispersion indique une tendance
linéaire entre les deux variables étudiées soit X et Y, on
peut alors déterminer l’équation de cette droite qui
traduit le lien linéaire entre X et Y.
▫ Cette droite est unique et passe le plus près de tous les
points.
▫ D’où la nomination Droite des moindres carrées (droite de
régression).
A. AIT EL CADI

Autres Méthodes d’analyse


• Droite des moindres carrées
Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)
Taille = 0,5676+0,2499*x
1,10

1,05

1,00

0,95

0,90
Taille

0,85

0,80

0,75

0,70
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

Poids:Taille: r2 = 0,8216; r = 0,9064; p = 0,0000;Poids


y = 0,567573127 + 0,24988182*x
A. AIT EL CADI

Autres Méthodes d’analyse


• Comment déterminer cette droite des moindres carrées
▫ Soit : y = b0 + b1 . x l’équation de cette droite.
▫ On sait que cette droite est la plus proche de tous les
points (xi, yi).
▫ Calculons la somme des distance entre la droite et tous les
points (xi, yi) qui représentent nos deux échantillon:
2
n  y −b x −b 
G (b0 , b1 ) =   i 1 i 0 
i =1  1 + b
2

 1 
A. AIT EL CADI

Autres Méthodes d’analyse


• Comment déterminer cette droite des moindres carrées
▫ Donc pour trouver cette droite, il suffit de trouver b0 et b1
qui minimise l’expression ci-dessus, donc qui vérifient :
 G (b0 , b1 )
 =0
 b0
 G (b , b )
 0 1
=0

 b1
n

▫ On trouve :  (x i − x )( yi − y )
SPXY
b1 = i =1
n
=
SSX
 i
( x
i =1
− x ) 2

b0 = y − b1 x
A. AIT EL CADI

Autres Méthodes d’analyse


• La covariance échantillonnale :
SPXY
S XY =
n −1
• Coefficient de corrélation :
SPXY SXY
r= =
SSX SSY SX .SY

• Coefficient de détermination :
R 2
= r 2
A. AIT EL CADI

Autres Méthodes d’analyse


Poids Taille age
Droite des moindres carrées 0,781
0,917
0,788
0,795
11
10

• Exercice 0,945
0,953
0,847
0,823
12
10
0,954 0,799 14
On considère le tableau suivant qui 0,956
0,984
0,838
0,748
14
11
0,994 0,853 12
résume les mesures de poids de 0,996 0,802 14
0,996 0,826 13
taille et d'âge des pucerons. Et on 1,016
1,021
0,805
0,792
14
10

s’intéresse à l’étude des liens entre 1,030


1,049
0,867
0,817
12
13
1,049 0,841 14
ces différentes mesures deux à deux. 1,056
1,081
0,799
0,858
11
10
1,086 0,837 14
1,105 0,792 10
1,131 0,877 13
1,149 0,808 11
1,162 0,817 14
1,171 0,888 12
1,199 0,855 12
1,244 0,904 10
1,388 0,953 11
1,428 0,924 13
1,493 0,874 14
1,519 0,951 14
1,595 1,000 13
1,619 0,945 12
1,700 1,006 13
1,768 0,999 10
1,794 1,050 10
33
A. AIT EL CADI

Autres Méthodes d’analyse


Droite des moindres carrées (Taille/ Poids)
• Solution Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)
Taille = 0,5676+0,2499*x
1,10

1,05

1,00

0,95

0,90
Taille

0,85

0,80

0,75

0,70
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

Poids:Taille: r2 = 0,8216; r = 0,9064; p = 0,0000;Poids


y = 0,567573127 + 0,24988182*x
A. AIT EL CADI

Autres Méthodes d’analyse


Droite des moindres carrées (Taille/ Poids)

• Solution
La droite des moindre carrés :
Taille = 0,5676+0,2499*poids
Le coefficient de corrélation :
r = 0,9064
Le coefficient de détermination :
R2 = 0,8216 (82,16 %)
A. AIT EL CADI

Autres Méthodes d’analyse


Droite des moindres Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)

carrées (Age/Poids) 14,5


age = 12,2465-0,1335*x

• Solution 14,0

Le coefficient de 13,5

corrélation : 13,0

12,5
r = -0,0233
12,0
Le coefficient de
age

11,5
détermination : 11,0

R2 = 0,005 (0.5 %) 10,5

10,0

9,5
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

Poids:age: r2 = 0,0005; r = -0,0233; p = 0,8957; Poids


y = 12,2465451 - 0,133465567*x
A. AIT EL CADI

Statistique descriptive - Cas des données groupées


• Cas de regroupement par valeur :
Dans ce cas la moyenne devient : Valeurs (xi) Effectifs (ni) Fréquences (fi)

p 0,7 1 0,03
n i xi p 0,9 9 0,26
x = i =1
p
ou =  f i xi 1,1 14 0,41
n
i =1
i
i =1
1,3 2 0,06
1,5 4 0,12
1,7 4 0,12
Et la variance : 34 1
Total
p

n i ( xi − x ) 2 p
s 2
= i =1
p
ou =  f i ( xi − x ) 2
n
i =1
i
i =1

Et idem pour les autres statistiques.


A. AIT EL CADI

Statistique descriptive - Cas des données groupées


• Cas de regroupement par classe :
Dans ce cas on remplace chaque classe par son milieu et on
applique les formules ci-dessus.

Classes Effectifs (ni) Fréquences (fi)

0,7 1 0,03
0,9 9 0,26
1,1 14 0,41
1,3 2 0,06
1,5 4 0,12
1,7 4 0,12
Total 34 1

Vous aimerez peut-être aussi