Vous êtes sur la page 1sur 33

2 – STATISTIQUES DESCRIPTIVES

2.1. Variabilité des processus


Quel que soit le processus de production, c'est-à-dire quels que soient le niveau de sa
conception, celui de sa maintenance, les matières premières utilisées, la qualification
de la main d'œuvre, la méthode, etc., il ne sera jamais possible de créer des produits
ou des caractéristiques exactement identiques. Par exemple, la contenance en crème
de soins dans les flacons, le diamètre d'un piston d'automobile, le poids des pâles
d'hélicoptère, la blancheur d'un papier, la souplesse d'un tissu, le poids des
comprimés d'un médicament, etc., varient d'une unité à l'autre. Si la variabilité du
processus de fabrication est importante, le fournisseur aura des difficultés ou trouvera
trop coûteux de satisfaire ses clients car une partie de sa production devra être
1 / 33
retravaillée, recyclée, mélangée ou rejetée. Cela entraînera donc des coûts de
production plus élevés et, par conséquent, un profit généralement inférieur à celui de
ses concurrents.

Pour prospérer dans le climat économique d'aujourd'hui, il convient d'améliorer


constamment la qualité des produits afin de satisfaire pleinement la clientèle. La clef
de cette amélioration consiste à réduire la variabilité du processus de production.

Il est impossible d'améliorer la qualité sans connaître la variabilité, il est impossible


de connaître la variabilité sans utiliser de méthodes statistiques. Pour obtenir une
précision absolue de la variabilité, il faut mesurer les caractéristiques de qualité
sélectionnées pour chacun des produits fabriqués, ce qui est également trop coûteux
et peu pratique. Il est plus économique d'évaluer un échantillon de produits et
2 / 33
d'utiliser les résultats pour déduire les propriétés de l'ensemble de la production (la
population étudiée).

Les méthodes statistiques permettent d'évaluer la variabilité d'un processus, de la


comparer avec les exigences de la clientèle et d'orienter les actions d'amélioration.

Elles permettent, d'une part, d'établir des prévisions, d'autre part, de réduire les coûts
de production.

2.2. Description de la variabilité d'un procédé


Le tableau 2.1 donne les valeurs des diamètres de 100 pivots. Ces données ont été
collectées à partir d'un échantillon de 100 pivots prélevés au hasard dans la
production.
3 / 33
Certes les limitations dues au système de mesures impliquent que les valeurs des
diamètres et, plus généralement, des variables continues soient présentées sous forme
discrète.

4 / 33
5 / 33
En considérant les valeurs des diamètres on note qu'il existe une variabilité du
diamètre d'une unité à l'autre, mais les données rassemblées « parlent » plus
lorsqu'elles sont présentées sous forme de tables et de diagrammes.

La distribution des fréquences est donnée dans le tableau 2.2. Il s'agit d'une
répartition des valeurs observées selon leur grandeur dans des intervalles de classe. À
partir du tableau de fréquences on établit l'histogramme des fréquences, en associant
à chaque intervalle de classe un rectangle, dont la surface est égale à la fréquence de
la classe.

6 / 33
L'histogramme de fréquences pour le diamètre d'un pivot est représenté figure 2.1.

7 / 33
Certes, l'allure de l'histogramme dépend du nombre et des bornes de ses classes. Il
n'existe pas de règle universelle pour le nombre de classes. Généralement, on utilise
entre 5 et 15 classes de longueur égale. La borne inférieure de la première classe est
légèrement inférieure à la plus petite valeur observée. Dans les logiciels les plus
courants, par défaut, le nombre de classes, noté k, est calculé à partir du nombre n
8 / 33
d'observations
ions (la taille de l'échantillon). L'une ou l'autre des deux formules suivantes
est généralement utilisée :

(2.1)
Le symbole [] désigne la partie entière de l'argument. L'histogramme donne une
description globale de la dispersion de la caractéristique éétudiée
tudiée autour de la valeur
centrale.

À partir du tableau des fréquences on peut également établir la courbe des fréquences
cumulées. Elle est obtenue en joignant par segment de dr
droite les points dont l'abscisse
est égale à la borne supérieure de la classe et l'ordonnée est égale à la fréquence

9 / 33
cumulée de la classe. La figure 2.2 représente la courbe des fréquences cumulées
pour le diamètre d'un pivot.

10 / 33
L’histogramme
histogramme et la courbe des fréquences cumulées estiment respectivement la
fonction de densité de probabilité
obabilité et la fonction de répartition d'une variable aléatoire
à partir des observations d'un échantillon.

2.3. Résumés numériques


2.3.1. Tendance centrale
• Moyenne
Soit x1, x2, ... , xn, un échantillon de taille n. La mesure de tendance centrale la plus
utilisée est la moyenne de l'échantillon, donnée par :

(2.2)
11 / 33
La moyenne de l'échantillon du processus de fabrication de pivots est :

On remarque que la moyenne de l'échantillon est simplement la moyenne


arithmétique des observations. Elle fournit une estimation de la tendance centrale du
processus, c'est-à-dire
dire une valeur autour de laquelle se trouvent les valeurs de la
caractéristique de qualité étudiée pour l'ensemble de la production.

12 / 33
Exemple 2.1
Le tableau 2.3 contient 31 mesures de la teneur en benzène du CO2 vrac, exprimée en
ppm par volume produit sur quatre sites de production différents d'une même société.
Les observations sont ordonnées par ordre croissant.

13 / 33
14 / 33
Les moyennes des teneurs en benzène du CO2 calculées à partir des observations
prélevés dans chaque site de production sont les suivantes :

= 5,098 = 5,094
= 1,53 = 5,19

Les histogrammes de fréquences sont représentés figure 2.3.

15 / 33
16 / 33
On remarque que les moyennes des teneurs en benzène des deux premières unités de
production sont très proches, alors que le comportement des procédés respectifs est
très différent.

La dispersion des valeurs observées pour la deuxième unité de production est très
importante par rapport à la variabilité de la première unité de production. Il convient
donc de compléter l'information fournie par la moyenne par des résumés numériques
qui décriront la dispersion des valeurs observées autour de la valeur centrale.

Les résumés numériques de la variabilité sont présentés au paragraphe 2.3.2.

17 / 33
• Médiane
On remarque également que la moyenne de l'échantillon calculée à partir des données
prélevées dans la quatrième unité de production est « attirée » par les observations
extrêmes.

Généralement, lorsque l'échantillon comporte des valeurs aberrantes (observations


qui sont loin de la majorité des données), l'information fournie par la moyenne n'est
pas pertinente. Dans ce cas il convient d'utiliser des paramètres de tendance centrale,
plus robustes que la moyenne.

L'estimateur de la tendance centrale le plus robuste est la médiane, notée .

18 / 33
La médiane est une valeur de la caractéristique étudiée qui coupe l'échantillon en
deux parties égales. Il y a autant d'observations au
au-dessous de la médiane qu'au-
qu'au
dessus.

Pour calculer la médiane on ordonne d'abord les observations par ordre croissant.
croiss
Ensuite selon la taille de l'échantillon (n un nombre pair ou impair), on détermine la
médiane comme suit :

où (2.3)

19 / 33
Exemple 2.2
Reprenons les données sur les mesures de la teneur en benzène du CO2 vrac du
tableau 2.3. Pour chaque site de prod
production
uction il y a 31 observations, la taille de chaque
échantillon est un nombre impair. Les observations sont ordonnées, ainsi les
médianes des teneurs en benzène pour chaque unité de production sont égales aux
observations du 16ème rang de chaque échantillon
échantillon. On a :

20 / 33
• Quantiles
Le concept de la médiane est généralisé par celui du quantile.

On appelle quantité d'ordre α (0 < α < 1), noté Xα, la valeur de la variable étudiée qui
coupe l'échantillon en deux parties de proportion α et (1 - α).

C'est-à-dire qu'il y a, d'une part, la proportion α des observations ayant une valeur
inférieure ou égale à Xα et, d'autre part, la proportion (1 - α) des observations ayant
une valeur supérieure ou égale à Xα.

21 / 33
La médiane est donc le quantile d'ordre α = 50 %. Les quantités les plus utilisés sont :

les déciles X0,1 … X0,9


les centiles X0,01 … X0,99
les quartiles Q1 = X0,25 ; Q2 = X0,50 ; Q3 = X0,75 ;
la limite supérieure de variabilité naturelle X0,99865
la limite inférieure de variabilité naturelle X0,00135

On remarque que 50 % des observations ont une valeur comprise entre Q1 et Q3, qu'il
y a 25 % des observations dont la valeur ne dépasse pas Q1 et 25 % des observations
dont la valeur est supérieure ou égale à Q3.

22 / 33
On remarque également que 99,73 % des observations ont une valeur comprise entre
X0,00135 et X0,99865.

Pour les observations de la quatrième unité de production du tableau 2.3, les quartiles
sont Q1 = 3,65 ; Q2 = 4,0 ; Q3 = 4,8.

2.3.2. Dispersion
• Variance
L'exemple 2.2 nous montre également que la moyenne de l'échantillon doit être
complétée par d'autres résumés numériques qui montreront comment les valeurs
observées sont dispersées autour de la tendance centrale.

23 / 33
On peut utiliser dans ce but plusieurs résumés numériques de la dispersion, dont les
plus utilisés sont la variance et l'écart
l'écart-type de l'échantillon.

La variance de l'échantillon est donnée par :

(2.4)

• Ecart-type
L'unité de mesure de la variance de l'échantillon est le carré de l'unité de mesure de la
caractéristique de qualité étudiée. C
Ceci
eci entraîne des difficultés d'interprétation.

24 / 33
Il est donc préférable d'utiliser comme mesure de la variabilité l'écart-type
l'écart de
l'échantillon :

(2.5)

Pour le procédé de fabrication de pivots, le calcul de la variance et de l'écart-type


l'écart de
l'échantillon donne : S2 = 0,0000397 et S = 0,0063.

25 / 33
• Etendue
Un autre paramètre de variabilité est l’étendue de l'échantillon, notée R, donnée par :

R = Xmax – Xmin (2.6)

• Ecart interquartile
Un résumé numérique robuste de la dispersion est l’écart interquartile, qui est égal à
la différence entre le troisième et le premier quartile :

Q3 – Q1 (2.7)

26 / 33
2.3.3. Moments centrés
Le moment centré d'ordre k de l'échantillon, noté mk, est calculé par la formule :

(2.8)

• Coefficient d’asymétrie
Le coefficient
ficient d'asymétrie de l'échantillon, noté g2, est une mesure de la symétrie de
la répartition des valeurs d'une variable. Il est nul lorsque la distribution est
symétrique ; il est négatif lorsque la distribution est asymétrique à gauche, et positif
lorsque la distribution est asymétrique à droite. Le coefficient d'aplatissement de
l'échantillon est calculé par la formule :
27 / 33
(2.9)
où m3 est le moment centré d'ordre 3 et S l'écart
l'écart-type
type de l'échantillon.

• Coefficient d’aplatissemennt
Le coefficient d'aplatissement
latissement de l'échantillon, noté g3, est comme son nom l'indique
une mesure de l'aplatissement de la distribution d'une variable. Il est donné par :

(2.10)
où m4 est le moment centré d'ordre 4 et S l'écart
l'écart-type
type de l'échantillon.

28 / 33
2.4. Diagramme en boîte (box
(box-plot)
Le diagramme en boîte représente schématiquement les principales caractéristiques
d'une variable en utilisant les quartiles. Le box
box-plot
plot construit à partir des observations
de la quatrième unité de production du tableau 2.3 est donné figure 2.4.

29 / 33
La longueur de la boîte est égale à l'écart interquartile (Q3 – Q1). La largeur de la
boîte est arbitraire et elle n'a pas de signification. À l'intérieur de la boîte, on trace la
position de la médiane. La moyenne de l'échantillon est représentée par le symbole de
l'addition (+). La boîte est ensuite complétée par deux moustaches reliant les valeurs
adjacentes à la boîte.

30 / 33
Certains auteurs utilisent comme valeurs adjacentes les valeurs extrêmes, d'autres
utilisent les quantiles X0,05 et X0,95. Dans la version la plus utilisée des box-plots, les
valeurs adjacentes sont déterminées comme suit :

la valeur adjacente supérieure est la plus grande observation dont la valeur est
inférieure à
(Q3 + l,5[Q3 – Q1]) (2.11)

la valeur adjacente inférieure est la plus petite valeur de l'échantillon qui est
inférieure à
(Q1 - l,5[Q3 – Q1]) (2.12)

31 / 33
Toute observation dont la valeur se trouve à l'extérieur des moustaches est
représentée par une étoile (*) et elle est suspecte d'être une valeur aberrante.

Dans le box-plot de la figure 2.4, on remarque qu'il y a trois observations susceptibles


d'être des valeurs aberrantes.

32 / 33
La figure 2.5 représente le box
box-plot
plot multiple établi à partir des teneurs en benzène des
quatre unités de production du tableau 2.3.

Le box-plot
plot permet de comparer plusieurs distr
distributions
ibutions d'une même caractéristique de
qualité et de détecter d'éventuelles observations aberrantes.
33 / 33