Vous êtes sur la page 1sur 20

HAUTE ECOLE CHARLEMAGNE

Les Rivageois

STATISTIQUE 1
Statistique et mathématique appliquées Partim 1

1ML LOGISTIQUE BLOC 1

laurent.houart@hech.be
2

Statistique et mathématique appliquées : préliminaires


Les pourcentages
Lorsque la quantité à laquelle le pourcentage s'applique est connue, on parle d'un pourcentage
"en dehors". Par contre, si le pourcentage porte sur une quantité non connue, il faut résoudre
le problème par proportionnalité et règle de trois (méthode arithmétique) ou par mise en
équation du problème (méthode algébrique). On dira qu’il s’agit d’un pourcentage "en
dedans".

Les puissances
a) Exposants naturels Propriétés
an = a . a . a . … . a an . ap = an+p ex : a2 . a5 = a7
(n facteurs) (an)p = an.p ex : (a2)5 = a10
a1 = a a0 = 1 an a7
p
 a n p ex: 2
 a5
a a
b) Exposants entiers négatifs
(a . b)n = an . bn ex : (a . b)2 = a2 . b2
1
ex : a 3  3 a
n
an a
3
a3
a    n ex:    3
c) Exposants fractionnaires b b b b
4 Les propriétés des puissances sont
ex : a  5 a4
5
applicables non seulement aux exposants
naturels, mais aussi aux exposants négatifs
et aux exposants fractionnaires.

Fonctions exponentielles et logarithmiques


Fonction exponentielle de base a Fonction logarithmique de base a
y = ax Par définition, y = log a x est la fonction
(avec a > 0 et a ≠ 1) inverse de y = ax
y = log a x  x = ay

Conséquences Propriétés fondamentales des logarithmes


1) log a a = 1, le logarithme de la base log a (X . Y) = log a X + log a Y
vaut toujours 1 X
2) log a 1 = 0, le logarithme de 1 vaut log a ( ) = log a X – log a Y
Y
toujours 0 log a Xp = p . log a X

Remarque En pratique, on utilise deux systèmes de logarithmes : le logarithme décimal, de


base 10, noté log x; le logarithme naturel ou népérien, de base e (e=2,718...), noté ln x.

Changement de base

log c b
log a b 
log c a
log 3 ln 3
ex : log 7 3 = =
log 7 ln 7

1ML Stat1
3

Partim 1: Introduction à la Statistique


descriptive
Dans l'entreprise, de nombreuses informations doivent être traitées; pour les rendre faciles à
lire et à exploiter, on les présente sous forme de tableaux et de graphiques. Puis, on interprète
et on compare les observations en calculant certains paramètres essentiels. Cette partie de la
statistique qui se propose de rassembler, d'ordonner et de représenter les données s'appelle la
statistique descriptive. La partie qui se préoccupe quant à elle de tirer les conclusions, et à
laquelle les lois du calcul des probabilités servent de base, s’appelle l’inférence statistique.

1 Les tableaux et graphiques descriptifs


Une étude statistique cherche à tirer des conclusions pratiques sur un ensemble d'éléments
observés.
Ex : Nombre annuel de km parcourus par chacun des 120 véhicules de la flotte d’une
entreprise.
L'ensemble des éléments sur lesquels porte une étude statistique s'appelle une population (on
étudie généralement un sous-ensemble de cette population appelé échantillon). Les éléments
de la population s'appellent les individus.

Un caractère statistique est une propriété qui caractérise les éléments de la population
étudiée.
Exemples:
1. Le salaire des différents employés d’une entreprise.
2. Le chiffre d’affaires de différentes entreprises d’un même secteur d’activités.
3. Les différents types d’avions de la flotte d’une compagnie aérienne.
4. Le kilométrage des véhicules de l’ensemble du parc d’une entreprise.
5. Le nombre de véhicules utilisés par différentes entreprises de transport routier.
6. La localisation géographique (zone (aéro)portuaire, nœud autoroutier, périphérie
urbaine,…) des entreprises de logistique sur un territoire E.
7. Le nombre d’articles par référence d’article en stock dans un magasin.
8. Les volumes de flux de produits traités par différents prestataires de services logistiques sur
une période de temps T.

On distingue parmi ces caractères :


- des caractères qualitatifs (non représentables par un nombre).
- des caractères quantitatifs (représentables par un nombre).
Un caractère quantitatif, appelé aussi variable statistique, peut être :
- discontinu ou discret: il ne peut prendre que certaines valeurs déterminées et jamais
des valeurs intermédiaires à celles-là.
- continu : il peut prendre toutes les valeurs (réelles) ou du moins toutes celles qui sont
comprises entre certaines bornes.

Exercice Pour chacun des 8 exemples ci-dessus, indiquer à chaque fois si le caractère est
qualitatif ou quantitatif, et dans ce dernier cas s’il est discret ou continu.

1ML Stat1
4

L'ensemble des données relatives à un caractère statistique s'appelle une série statistique.

Exemple 1. Nombre de quais de (dé)chargement par hall, dans un groupe d’immeubles


logistiques.
Données brutes:
2 3 1 4 2 3 4 3 3 2 4 3 5 3 3 4 1 3 2 4
3 5 3 3 5 3 2 4 3 4 1 2 5 4 1 3 1 4 4 3
3 4 2 4 1 1 3 2 4 5 3 3 3 4 3 4 3 3 4 2
4 3 1 3 4 2 4 3 1 4 3 2 2 2 3 3 2 3 1 2

Série statistique ordonnée et recensée (tableau descriptif)

xi ni fi Ni  Fi (%)  Ni  Fi (%)
1 10 0,125 = 12,5% 10 12,5 80 100
2 15 ....................... 25 31,25 70 87,5
3 30 ....................... ..... ......... ..... .......... ni
fi 
4 20 ....................... ..... ......... ..... .......... n
5 ..... ....................... ...... ......... ..... ..........
n=  f i  ...........
80 = ..........

xi : désigne les différentes valeurs prises par la Ni est la fréquence absolue cumulée
variable (appelées aussi modalités) croissante
ni : s'appelle l'effectif, la répétition ou la Fi est la fréquence relative cumulée
fréquence absolue croissante
fi : s'appelle la fréquence relative Ni est la fréquence absolue cumulée
(exprimée en %) décroissante
n : est l'effectif total Fi est la fréquence relative cumulée
décroissante

Exercices
1. Que signifie le nombre 55 dans la colonne des Ni ?
Rép: 55 halls ont 3 quais de (dé)chargement ou moins que 3 quais.

2. Que signifie le nombre 93,75 dans la colonne des Fi ?


Rép : 93,75 % des halls ont au plus 4 quais.

3. Que signifie le nombre 87,5 dans la colonne des Fi ?


Rép: 87,5 % des halls ont au moins 2 quais.

Ce tableau permet de tracer de nombreux graphiques. On se contentera ici d'examiner les plus
connus (à représenter).
a) Diagramme en bâtons des fréquences (diagramme des fréquences)
b) Diagramme en escalier des fréquences cumulées, croissantes ou décroissantes
(diagramme des fréquences cumulées appelé aussi courbe cumulative ou encore fonction de
répartition)

1ML Stat1
5

Exemple 2.
Nouvelle série statistique : les observations suivantes représentent cette fois les superficies
d’entreposage (x 102 m2) de 50 halls de stockage.
90 127 91 66 83 111 82 106 97 83 Ici, le nombre de valeurs
81 66 69 77 89 76 100 82 125 78 distinctes prises par la variable
56 95 116 80 102 70 71 114 90 79 statistique est très grand. Il n'est
64 88 96 82 47 50 99 75 59 69 pas possible de construire un
55 67 76 58 61 67 70 74 73 64 tableau analogue à celui réalisé
pour l'exemple 1.
Il faut dans ce cas réaliser des groupements en classes. Ce qui donne le tableau descriptif
suivant :
Classes xi (centre ni Ni fi (en %) Fi (en %) Ni Fi (en %)
de classe)
[45, 59 [ 52 5 5 10 10 50 100
[59, 73 [ 66 13 18 ......... 36 45 90
[73, 87 [ ..... 15 ...... ......... ......... ..... ..........
[87, 101 [ ..... 10 ...... ......... ......... ..... ..........
[101, 115 [ ..... 4 ...... ......... ......... ..... ..........
[115, 129 [ ..... ..... ...... ......... ......... ..... ..........
n=  f i  ........
.........
Dans un tableau avec groupement en classes, les valeurs exactes prises par la variable étudiée
sont définitivement perdues. Dans les calculs ultérieurs, on assimilera toutes ces valeurs au
centre de la classe dans laquelle elles se situent.

On ne peut pas donner de règles précises pour la formation des classes. Les conventions
varient d'un statisticien à un autre. De notre côté, nous dirons, de manière très sommaire, que
le nombre de classes devrait idéalement être compris entre 5 et 20 et qu'il est bon que l'effectif
par classe ne soit pas anormalement bas.

Exercice
Estimer le pourcentage des halls qui ont des superficies
a) de moins de 10100 m2 b) d’au moins 7300 m2 c) entre 6500 m2 et 9500 m2
Rép: a) 86% b) 64% c)  56,29%

Ce tableau permet de tracer de nombreux graphiques. Nous nous contenterons de construire


les plus courants (à représenter).
a) Histogramme et polygone des fréquences (diagramme des fréquences)
b) Polygone des fréquences cumulées, croissantes ou décroissantes (diagramme des
fréquences cumulées encore appelé courbe cumulative ou fonction de répartition)

Remarques
1. Le groupement en classes se fait non seulement si la variable est continue, mais aussi
pratiquement toujours si la variable est discrète et qu’elle a un grand nombre de valeurs
possibles.

1ML Stat1
6

2. Il est possible de réaliser des groupements avec des classes de largeurs inégales, les classes
centrales étant plus étroites puisque c'est la partie centrale du tableau qui est la plus
densément peuplée. Cette manière de procéder ne pose pas de problèmes supplémentaires sauf
pour le tracé de l'histogramme des fréquences et du
polygone des fréquences qui lui est associé. Classes xi ni fi (en %)
Reprenons l'exemple 2 et effectuons un groupement en [45, 65 [ 55 9 18
classes différent (voir tableau ci-contre). [65, 75 [ 70 11 22
[75, 85 [ ..... 13 26
[85, 95 [ ..... 5 10
Voici l'ébauche de l'histogramme (à compléter). [95, 105 [ ..... 6 12
[105, 135 [ ..... 6 12
fi
30 On constate
que dans
l'histogramme
c'est l'aire des
20 rectangles qui
représente la
fréquence.
= 1% Ainsi, le
rectangle de
10 base 45-65
qui a une base
double du
rectangle
Classes
0 suivant aura
35 45 135 145 une hauteur
de 9 et non
une hauteur
de 18 comme indiqué dans le tableau pour la fréquence. Il faudra donc tenir compte de la
densité des différentes classes.
3. Parmi les nombreuses autres représentations graphiques utilisées pour représenter un
ensemble de données ou de résultats, il faut citer les graphes circulaires appelés aussi
diagrammes à secteurs (ou "camembert").

Exercices
1. La série statistique suivante donne les loyers (en €/m2/période T) de 80 surfaces
commerciales :
68 84 75 82 68 90 62 88 76 93 73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72 66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71 79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74 86 67 73 81 72 63 76 75 85 77
a) Réaliser un groupement en 7 classes égales de largeur 7. La borne inférieure de la première
classe sera égale à 51.
b) Calculer les fréquences (absolues et relatives) des classes.
c) Calculer les fréquences cumulées croissantes et décroissantes.
d) Représenter, sur un même système d'axes, l'histogramme des fréquences et le polygone des
fréquences.
e) Représenter, sur un même système d'axes, les deux courbes cumulatives des fréquences
(polygones des fréquences cumulées croissantes et décroissantes).

1ML Stat1
7

f) La variable statistique est-elle continue ou discrète ? Pourquoi ?


g) Quel est le nombre de surfaces commerciales qui ont un loyer compris entre 65 et 86
€/m2/période T ? Et la proportion correspondante ?
h) Déterminer la proportion des surfaces qui ont un loyer supérieur à 72 €/m2/période T.
i) Déterminer le nombre de surfaces qui ont un loyer inférieur à 79 €/m2/période T.
j) Estimer la proportion des surfaces qui ont un loyer supérieur à 70 €/m2/période T.
k) Estimer la proportion des surfaces qui ont un loyer inférieur à 80 €/m2/période T.
l) En déduire la proportion des surfaces qui ont un loyer compris entre 70 et 80 €/m2/période.
m) Fusionner les deux premières et les deux dernières classes. Tracer l’histogramme et le
polygone correspondant de cette nouvelle répartition des données.
Eléments de réponse:
f) continue g) 52 et 65% h) 66,25% i) 54 j) 70,89% k) 69,64% l)  40,53%

2. On reprend les exemples 1 et 2. Indiquer pour chacun d’eux si la variable est qualitative ou
quantitative, et dans ce dernier cas si elle est continue ou discrète. Expliquer à chaque fois
pourquoi.
Réponse:
Quantitative discrète pour l’exemple 1 et quantitative continue pour l’exemple 2

1ML Stat1
8

2 Les caractéristiques d'une série statistique


L'analyse d'une série statistique se réalise à partir des graphiques, mais aussi et surtout à partir
de certains paramètres. Nous nous contenterons d'étudier ici les plus connus et les plus
importants1.

a) Les paramètres de position appelés aussi valeurs centrales ou encore caractéristiques de


tendance centrale. Ce sont des nombres autour desquels se groupent les valeurs de la série.
Les plus connus sont le mode, la médiane, la moyenne. Ils s'expriment dans la même unité
que les observations.
b) Les paramètres de dispersion appelés aussi caractéristiques de dispersion. Ce sont des
nombres qui renseignent sur la dispersion plus ou moins forte des valeurs de la série autour
d'une valeur centrale. Les plus connus sont la variance et l'écart type.

A. Les paramètres de position

Le mode ou valeur dominante (mode)


Le mode Mo d'une distribution statistique non groupée est la valeur de la variable pour
laquelle la fréquence est la plus élevée2. Une distribution peut présenter plusieurs modes: elle
est alors plurimodale.
Dans le cas d'un groupement en classes d'égales amplitudes, on parle de classe modale ou de
classe dominante. fi
On peut déterminer graphiquement la valeur du
mode (à l'intérieur de la classe modale) par la Histogramme
méthode des diagonales (voir ci-dessous). 40
Exemple 3

Classes Ni fi
(en %) 20
[10, 20[ 5 10
[20, 30[ 15 30
[30, 40[ 20 40 Classes
[40, 50[ 10 20 0
10 20 30 40 50
Mo = 33
Attention : Si les classes n'ont pas la même
largeur, ce n'est plus la fréquence maximum, mais la densité maximum qui détermine la classe
modale.

1
Il existe aussi les paramètres de forme et les paramètres de concentration. Les paramètres de forme sont des
nombres non dimensionnés qui renseignent sur la forme des distributions statistiques (symétrie, aplatissement de
la courbe des fréquences). Par ailleurs, il est également légitime de chercher à déterminer si la série s'écarte plus
ou moins d'une série "idéale" dans laquelle les écarts entre les observations seraient parfaitement "égalitaires".
Cette mesure est celle de la concentration: on calcule de combien la série observée s'écarte d'une série
"idéalement égalitaire".
2
La notion de mode est due (1895) à l'Anglais Pearson (1857-1936).

1ML Stat1
9

Exemple 4. Une étude portant sur la durée de vie d'une centaine d'appareils électriques du
même type a permis d'établir le tableau ci-contre. Compléter le tableau et déterminer la classe
modale.
Rép: [5000, 6000[

Durée de vie Nombre largeur de densité Deux répartitions des mêmes


en h d'appareils classe n observations avec des classes
ni ou di  i
ai différentes peuvent conduire à
amplitude deux modes différents. Ceci rend
ai donc difficile l'emploi du mode
[0, 2000[ 8 ......... ......... qui, par ailleurs, ne se prête pas
[2000, 4000[ 26 ......... ......... toujours bien aux calculs
[4000, 5000[ 20 ......... ......... algébriques. Le mode est
[5000, 6000[ 22 ......... ......... cependant utile pour les études de
[6000, 8000[ 18 ......... ......... marché, puisque la classe modale
[8000, 10000[ 6 ......... ......... représente le groupe le plus
important, celui dont il faut tenir compte en premier lieu.

Exercice
Déterminer le mode et la classe modale des exemples 1 et 2 (cf. supra).
Rép: Ex 1.: 3 Ex 2.: [73, 87[

La médiane (median)
Dans une série statistique dont les valeurs sont rangées par ordre croissant, la médiane3 notée
Me ou x~ est la valeur de la série qui partage celle-ci en deux parties égales. Le nombre des
observations inférieures à Me est donc égal au nombre des observations supérieures à Me.
La méthode la plus simple pour déterminer la médiane d'une série avec groupement en classes
est très certainement la méthode graphique qui fait appel à la courbe des fréquences cumulées
croissantes4.

Exemple 5.
Le tableau ci-après reprend le prix de vente unitaire Prix de vente Nombre fi Fi
de 80 articles. La première colonne indique les prix unitaire en € d'articles ni (%) (%)
en € et la deuxième colonne le nombre d'articles [20, 60[ 12 ….. …..
vendus. Calculer la médiane. [60, 140[ 40 ….. …..
[140, 200[ 18 ….. …..
Le polygone des fréquences cumulées donne: [200, 260[ 10 ….. …..
total: 80 …..

3
La médiane a été utilisée pour la première fois en 1860 par l'Allemand Fechner (1801-1887).
4
D'autres méthodes existent. Certaines font davantage appel au calcul. Elles ne donnent pas de meilleurs
résultats. C'est pourquoi, nous n'avons pas tenu à les exposer ici.

1ML Stat1
10

Fi Pour déterminer
Me, il suffit de
tracer, à partir de
100 la valeur 50% sur
87,5 l'axe des Fi (axe
des ordonnées),
65 une horizontale
B
qui rencontre la
50 C courbe
cumulative en C.
La verticale qui
15 A passe par C
Prix rencontre l'axe
20 60 Me 140 200 260 des abscisses en
Me.

On peut obtenir la valeur de Me de manière plus précise par interpolation linéaire, ou en


remarquant que :
Me  60 AC 50  15 50  15
  (Théorème de Thalès)  Me  60  (140  60).  116
140  60 AB 65  15 65  15

La moitié des articles ont donc été vendus à un prix unitaire inférieur à 116 € et l’autre moitié
des articles à un prix supérieur à 116 €.

Et, si la variable est discrète et qu'elle ne nécessite pas de groupement en classes ?

Exemple 6.
Le tableau ci-après donne la répartition du nombre de trajets effectués à vide par camion, sur
un parc de 200 véhicules, pour une période T.

Fi
Nombre Nombre Fi Fi
trajets de (en %) (en %) 100
à vide camions
xi ni
0 20 ........ ........
1 65 ........ ........
2 70 ........ ........ 50
3 30 ........ ........
4 10 ........ ........
5 5 ........ ........
tot.: 200 ......….
On peut toujours utiliser la courbe cumulative
qui, comme nous l'avons vu précédemment, est xi
0 1 2 3 4 5
une fonction en escalier. = Me
La médiane est 2. On remarque qu'ici l'effectif
n'est pas exactement partagé en deux sous-
ensembles égaux: 42,5% des valeurs observées sont inférieures à la médiane et 22,5% des
valeurs observées sont supérieures à la médiane.

1ML Stat1
11

La médiane, dans le cas des variables discrètes possédant peu de valeurs distinctes et ne
nécessitant donc pas un groupement en classes, présente peu d'intérêt.
La notion de médiane, on l'a vu, part de l'idée suivante: il s'agit de décomposer la distribution
de façon à faire apparaître autant d'observations avant la médiane qu'après la médiane (50%
avant et 50% après).

Cette même idée, généralisée, a donné naissance à la notion de quantiles.


Si on divise la série en 4 parties égales, on obtient les quartiles Q1 , Q2 et Q3.
(Q2 n'étant rien d'autre que la médiane)
Si on divise la série en 10 parties égales, on obtient les déciles D1 , D2 , ......D9.
Si on divise la série en 100 parties égales, on obtient les centiles, ou percentiles5
C1 , C2 , ……C99.

La détermination des quartiles, déciles, centiles est en tout point analogue à celle de la
médiane.

La moyenne (mean)
Soit la série statistique suivante : 14, 12, 18, 12, 14, 14, 12, 18, 14.
12 . 3  14 . 4  18 . 2
La moyenne sera donc : x   ...
9
Cette moyenne que nous appellerons dorénavant moyenne arithmétique, joue un rôle essentiel
en statistique. Nous ajouterons simplement qu'il s'agit d'une moyenne arithmétique pondérée
parce que certaines valeurs sont répétées plusieurs fois.

Exemple 7.
Répartition des employés d'une entreprise selon le salaire brut mensuel en euros :
Modalités ni xi ni . xi
La moyenne x s'obtient en utilisant la
(classes) k
[3500, 4000[ 26 ........ ...........  n .x i i
[4000, 4500[ 33 ........ ........... formule x i 1
, avec
[4500, 5000[ 64 ........ ........... n
k
n   ni .
[5000, 5500[ 7 ........ ...........
[5500, 6000[ 10 ........ ........... i 1
n = ...... k

 n .x
i 1
i i  ......
Ce qui donne, ici : x = …
Le salaire mensuel brut moyen dans
cette entreprise est donc de ………… euros.

La moyenne, contrairement à la médiane et au mode, se prête bien au calcul algébrique. Mais


elle ne présente pas que des avantages. Sa principale faiblesse est d'être extrêmement sensible
aux valeurs extrêmes trop fortes (hautes ou basses).

Exercice
Un distributeur passe régulièrement commande à un de ses fournisseurs de lots contenant
chacun 2000 articles pouvant être revendus à la pièce.
Trois types principaux de lots sont en général commandés :

5
Les quartiles, et leurs généralisations, les déciles et centiles, sont dus (1889) à l'Anglais Galton (1822-1891).

1ML Stat1
12

1°type : Sur les 2000 articles, la distribution des prix à la revente sera la suivante :
750 articles de référence A seront vendus à un prix unitaire de 3,39€
700 articles de référence B seront vendus à un prix unitaire de 3,49€
Quant aux 550 restants, la répartition se fera comme suit :
300 articles de référence C seront vendus à un prix unitaire de 4,09€
250 articles de référence D seront vendus à un prix unitaire de 4,19€

2°type : Sur les 2000 articles :


1500 articles de référence E seront vendus à un prix unitaire de 3,45€
Les 500 autres se distribuant de la façon suivante :
250 articles de référence F seront vendus à un prix unitaire de 3,59€
100 articles de référence G seront vendus à un prix unitaire de 3,49€
100 articles de référence H seront vendus à un prix unitaire de 3,39€
50 articles de référence I seront vendus à un prix unitaire de 3,29€

3°type : La distribution des prix des 2000 articles se présente comme suit :
400 articles de référence J seront vendus à un prix unitaire de 1,99€
400 articles de référence K seront vendus à un prix unitaire de 1,95€
350 articles de référence L seront vendus à un prix unitaire de 2,05€
300 articles de référence M seront vendus à un prix unitaire de 2,15€
300 articles de référence N seront vendus à un prix unitaire de 2,25€
250 articles de référence O seront vendus à un prix unitaire de 3,99€

Parmi les trois paramètres de position principaux (mode, moyenne, médiane), quel(s) est
(sont) celui (ceux) qui représente(nt) le mieux le prix de revente d’un article, et ce pour
chacun des 3 types de lots ? Pourquoi ?

La médiale (medial)
Alors que la médiane se calcule relativement aux effectifs ou aux fréquences relatives, la
médiale notée Mle se calcule relativement aux valeurs globales ni.xi ou aux valeurs globales
n .x
relatives qi  k i i .
ni . xi
i 1

Exemple 8 (identique à l'exemple 5).


Le tableau ci-après reprend le prix de vente unitaire de 80 articles. La première colonne
indique les prix en euros et la
deuxième colonne le nombre Prix de vente Nombre xi ni.xi qi Qi
d'articles vendus. unitaire en € d'articles n i (en %)
Compléter les autres [20, 60[ 12 …... ……. ..…. 4,88
colonnes. [60, 140[ 40 …... ……. ..…. 45,53
[140, 200[ 18 …... ……. ..…. 76,63
La médiane a déjà été [200, 260[ 10 ……. ..…. 100
calculée à l'exemple 5. total: 80 tot: tot:…..
Elle vaut Me = 116. ……..
Ce qui signifie que la moitié des articles ont été vendus à un prix inférieur à 116 euros et
l’autre moitié des articles à un prix supérieur à 116 euros.

1ML Stat1
13

Pour calculer la médiale, on utilise la même démarche sauf qu'on utilise les Qi au lieu des
Fi.
On trouve sans trop de difficultés que:
Mle  140 50  45,53
  Mle  148,63
200  140 76,63  45,53
Ce qui signifie que la moitié du chiffre d'affaire est réalisé avec des articles dont le prix de
vente est inférieur à 148,63 € et la moitié du chiffre d'affaire est réalisé avec des articles dont
le prix est supérieur à 148,63 €.

Exercices
1. On reprend l’exercice1 des pages 6 et 7.
a) Quelle est la classe modale de la distribution statistique ? Pourquoi ? Estimer
graphiquement la valeur du mode au sein de cette classe en utilisant la méthode
des diagonales.
b) Calculer algébriquement la valeur de ce mode *et en déduire une formule
mathématique générale.
c) Les mode et classe modale restent-ils identiques dans le cas d’une répartition des
données suivant le point m) page 7 ? Pourquoi ?
d) Calculer la médiane de la distribution et donner son interprétation dans le cadre de
l’énoncé.
e) Idem avec la moyenne arithmétique.

2. On reprend cette fois les exemples 1 (page 4) et 2 (pages 5 et 6).


Pour chacun d’eux :
a) Calculer la médiane et donner son interprétation dans le cadre de l’énoncé.
b) Idem avec la moyenne.
Pour l’exemple2 :
c) Calculer algébriquement l’estimation de la valeur du mode.
Les résultats obtenus aux points a), b) et c) dépendent-ils des découpages de classes
choisis pour l’exemple2 ?

3. On reprend enfin l’exemple5. Tracer l’histogramme et le polygone des fréquences.


Faire une estimation graphique du mode et le calculer algébriquement.

1ML Stat1
14

B. Les paramètres de dispersion

Les paramètres de position ne suffisent pas à caractériser une distribution statistique.


Ainsi, par exemple, les deux séries statistiques: xi = 78; 79; 79; 80; 80; 80; 81; 81; 82
yi = 40; 60; 60; 80; 80; 80; 100; 100; 120
ont visiblement la même moyenne et la même médiane, mais ne présentent pas la même
dispersion.
Il paraît donc légitime de mesurer cette dispersion en mettant en reliefs des écarts: les écarts
entre la plus forte valeur et la plus faible ou encore les écarts par rapport à la moyenne.

L'étendue (range)
L’étendue e d’une série6 est la différence entre la plus grande et la plus petite valeur observée.
Ces deux valeurs définissent également l'intervalle de variation.
L'étendue est un paramètre rapidement et facilement déterminable, mais trop simpliste. Il ne
tient compte que des valeurs extrêmes sans même se préoccuper du nombre d'observations de
la série.

Les écarts interquantiles


Les quantiles (quartiles, déciles et centiles) ont été définis précédemment. On s'intéresse ici
aux intervalles qu'ils déterminent sur la série. Ces intervalles ont le mérite d'écarter des
valeurs extrêmes parfois aberrantes.
L'écart interquartile EIQ = Q3 - Q1 contient 50% des observations
L'écart interdécile EID = D9 - D1 contient 80% des observations
Ces caractéristiques de dispersion restent toutefois assez imparfaites. En effet, si elles tiennent
compte de l'ordre des observations (de leur rang dans la série), elles ne tiennent pas compte
des valeurs de ces mêmes observations.

L'écart absolu moyen (mean absolute deviation)


Exemple 9.
Compléter le tableau ci-après qui donne la répartition du personnel d'une entreprise suivant
l'âge.
Classes ni xi ni.xi |xi - x | ni.|xi - x | Il faut d'abord calculer x
(âges) (réponse à trouver: 39,65).
[20, 30[ 32 14,65 468,8 L'écart absolu moyen (par
[30, 35[ 30 rapport à la moyenne) est
[35, 40[ 38 2,15 donné par la formule:
[40, 45[ 40
[45, 50[ 36 k

[50, 60[ 24 ni .| xi  x |


n = 200 tot: 7930 tot: 1530 Em  i  1 .
n

On doit trouver comme réponse pour ce paramètre : Em = 7,65.


On peut dire que l'écart (absolu) moyen est la moyenne arithmétique (des valeurs absolues)
des écarts à la moyenne.

Remarques
a) Le désavantage de l’écart moyen est que sa formule contient des valeurs absolues qui ne se
prêtent pas toujours bien à des calculs mathématiques quelque peu complexes.

6
Pour chaque classe d'une série groupée, on parle de largeur de la classe ou d'amplitude de la classe.

1ML Stat1
15

b) Si on n'utilisait pas les valeurs absolues, donc si on prenait les écarts à la moyenne parfois
avec des signes positifs et parfois avec des signes négatifs, la moyenne de ces écarts serait
toujours égale à 0 et, par conséquent, non significative. Autrement dit, on peut montrer que
k
n .(x  x)
i i
i 1
 0 quelle que soit la série envisagée. On peut facilement vérifier ce fait sur
n
l'exemple 9.

La variance et l'écart-type (variance and standard deviation)


Exemple 10.
On a relevé pour 200 wagons leur chargement net en tonnes (T). Compléter le tableau.
Chargement ni fi Fi xi ni.xi ni.(xi - x )² ni.xi²
net (tonnes) Il faut d'abord calculer
[30, 50[ 4 40 5140,890 6400 la moyenne et on doit
[50, 60[ 20 trouver:
[60, 70[ 48 x = 75,85 T.
[70, 80[ 54 39,015 303750
[80, 90[ 42 85 3516,345 303450 La variance est donnée
[90, 100[ 22 8067,895 198550 par la formule:
[100, 110[ 8 6797,780 88200
[110, 130[ 2 3898,445 28800 k

….. tot: tot: tot: ni .(xi  x)²


i 1
15170 41805,5 1192450 V  .
n
L'écart-type désigné par la lettre grecque  (sigma) est la racine carrée de la variance.
 V.
Ici, on trouve successivement V = 209,0275 (T²), puis   14,46 T.
On peut dire que la variance est la moyenne (arithmétique) des carrés des écarts à la moyenne.
Quant à l'écart-type, il est la moyenne dite quadratique (cfr Stat2) des écarts à la moyenne.
C'est pourquoi on l'appelle parfois, mais rarement, écart quadratique moyen.
L'écart-type est la meilleure caractéristique de dispersion. Son principal avantage est de
pouvoir très bien se prêter, comme la moyenne arithmétique, aux calculs algébriques. Il
s'exprime dans la même unité que la variable alors que la variance s'exprime dans l'unité au
carré (ou sans unité).

Le calcul de la variance à partir de la formule de base signalée ci-dessus entraîne parfois des
opérations sur des nombres décimaux (voir colonne 6 du tableau) k
relativement complexes. Il est alors possible de rendre les calculs plus  ni . xi ²
7 iI
simples en utilisant une autre formule équivalente pour la variance : V   ( x )²
Dans le cas présent, on obtient: n
1192450
V   (75,85)²  5962,25  5753,2225  209,0275.
200

7
L'équivalence des deux formules est une conséquence directe du théorème de König. Ce théorème, parfois
aussi appelé théorème de Huygens se démontre sans trop de difficultés. Il prouve que si a est une valeur
quelconque:
n .(x  x)²  n .(x  a )²  (x  a )² .
i i i i

n n
1ML Stat1
16

N.B. Enfin, il convient de signaler que les calculatrices scientifiques modernes donnent
immédiatement l'effectif total n, la moyenne x , l'écart-type , le total des ni.xi (x) et le total
des ni.xi² (x²).

Remarque
Lorsque l'écart-type est petit, il y a une accumulation
importante des valeurs de la variable autour de la
moyenne arithmétique. Tandis que si l'écart-type est
grand, les valeurs de la variable sont plus dispersées
par rapport à la moyenne arithmétique.
Dans le cas où la variable suit une loi normale, les
fréquences sont réparties suivant une courbe dite
"courbe en cloche" de Laplace-Gauss8. Cette courbe
(voir figure ci-contre), symétrique par rapport à un axe
passant par la moyenne arithmétique et parallèle à
l'axe des ordonnées, constitue une limite du polygone
des fréquences. On connaît très bien cette courbe et la loi de probabilité qui lui est associée,
appelée "loi normale". On sait que:
dans l'intervalle [ x -, x +], dans l'intervalle [ x -2, x +2], dans l'intervalle [ x -3, x +3],
on trouve 68,27% des valeurs on trouve 95,45% des valeurs on trouve 99,73% des valeurs
de la variable. de la variable. de la variable.
On utilise ces résultats pour voir si une série statistique peut s'ajuster à une loi normale.
Pour cela, on calcule le pourcentage des valeurs de la série statistique qui sont compris dans
les intervalles [ x -, x +], [ x -2, x +2] et [ x -3, x +3] et on compare ces résultats à ceux
qui sont connus pour la loi normale.
Selon les écarts constatés, on rejette ou on ne rejette pas l'hypothèse que la série statistique
puisse être ajustée par une loi normale9.
Notons toutefois que des tests de normalité plus performants permettent d'affiner cette
hypothèse.
Calculons par exemple, dans le cas qui nous occupe, le Intervalles fi
pourcentage des valeurs de la série qui sont compris dans (en %)
l’intervalle [ x -, x +], c'est-à-dire dans [61,39; 90,31]. [61,39; 70[ 8,61
24. 20,664
En supposant une répartition uniforme des valeurs, on peut 10
écrire: [70; 80[ 27
[80; 90[ 21
Le total trouvé (69%) comparé au total théorique (68,27%) 0,31
semble accréditer l'hypothèse d'une loi normale pour la série [90; 90,31[ 11 .  0,341
10
considérée. Tot: 69,005

Le coefficient de variation (coefficient of variation)


On s'intéresse à la distribution des salaires bruts mensuels d'une entreprise belge E1 et d'une
entreprise américaine comparable E2. Le salaire moyen dans E1 est x1  4500 euros avec un
écart-type 1 = 150 euros. Dans E2, on a un salaire moyen x2  4855 $ avec un écart-type de
155 $. Dans quelle entreprise la dispersion des salaires est-elle la plus forte ?

8
Laplace : mathématicien français (1749-1827) - Gauss: mathématicien allemand (1777-1855)
9
De plus, on peut calculer le mode, la moyenne et la médiane. La proximité des valeurs trouvées pour ces
différents paramètres constitue un indice supplémentaire quant à l'existence d'une loi normale.

1ML Stat1
17

Le calcul du coefficient de variation permet de répondre à cette question. La formule qui



donne le coefficient de variation Cv est la suivante: Cv  .
x
150 155
Dans E1, on a Cv   0,0333... 3,33% et, dans E2, on a Cv   0,0319... 3,19%.
4500 4855
La dispersion relative des salaires est donc légèrement supérieure dans l'entreprise belge.

Le coefficient de variation permet de comparer des observations qui ne sont pas exprimées
dans la même unité et dont les moyennes sont différentes. C'est un nombre non dimensionné
que l'on exprime souvent en %.

Le diagramme en boîte (à moustaches) (box (and whiskers) plot)


Le diagramme en boîte (à moustaches) est un diagramme simple qui permet de se faire une
représentation de la dispersion d’une série statistique. Il est composé d’un rectangle (ou boîte)
qui s’étend du premier (Q1) au troisième quartile (Q3). Ce rectangle est divisé par une ligne
correspondant à la médiane et il est complété par deux segments de droites (ou moustaches).
Pour les dessiner, on calcule d’abord les bornes inférieure et supérieure, nommées ici
respectivement B1 et B2 :
B1 = Q1 – 1,5 EIQ et B2 = Q3 + 1,5 EIQ.

N.B. Hors valeurs extrêmes ou anormales, on constate que la plupart des séries statistiques
ont leurs observations situées entre ces deux bornes.
[On identifie ensuite la plus petite et la plus grande observation comprises entre ces bornes.
Ces observations sont appelées valeurs adjacentes et correspondent aux extrémités inférieure
et supérieure des segments de droites reliant ces valeurs au rectangle. Les observations qui ne
sont pas comprises entre les valeurs adjacentes sont représentées par des symboles particuliers
et considérées comme des valeurs extrêmes (outliers).]

Exercices
1. On donne la répartition du nombre de rotations effectuées à l’étranger par les véhicules
x i 0 1 2 3 4 5 6 d’une entreprise sur une période de temps T.
ni 15 31 45 51 30 25 3
a) Déterminer le type de variable statistique étudiée.
b) Quel est le mode de la série ? Pourquoi ?
c) Déterminer la moyenne arithmétique et l'écart-type.
d) Déterminer le pourcentage de véhicules qui ont effectué au moins 4 rotations.
e) Déterminer le pourcentage de véhicules qui ont effectué entre 2 et 4 rotations.
f) Tracer les diagrammes des fréquences et des fréquences cumulées.
Rép:
a) variable b) Mo = 3 c) x = 2,685 d) 29% e) 63% f)//////
discrète et  = 1,485

1ML Stat1
18

2. On examine dans le tableau ci-contre les temps de


préparation de commandes dans l’entrepôt d’une société qui Temps (sec.) Nbre de
distribue à ses clients des colis de produits achetés via de préparation commandes
l’e-commerce. [0, 4[ 10
a) Calculer le temps moyen de préparation d’une commande et [4, 8[ 24
l'écart-type de la distribution. Interpréter. [8, 12[ 50
b) Quel est le temps de préparation qui partage l'ensemble des [12, 16[ 59
commandes en deux groupes égaux ? [16, 20[ 76
c) Déterminer le pourcentage des commandes dont les temps [20, 24[ 55
de préparation se situent entre 15 et 20 secondes. [24, 28[ 32
[28, 32[ 15
tot: 321
Rép:
a) x 16,67 sec. et   6,76 sec. b) Me = 16,92 sec. c) 28,27%

3. On donne la répartition en classes du temps habituel (en min.) du trajet de retour à domicile
pour un ensemble d'étudiants.
Le temps le plus court est de 9 minutes et la largeur des classes est de 9 minutes.
Les effectifs respectifs sont: 18, 21, 43, 59, 68, 58, 39, 25, 19.
a) Déterminer l'effectif total et l'étendue de la série statistique.
b) Déterminer la durée moyenne du trajet et l'écart-type de la distribution.
c) Calculer le pourcentage d'étudiants dont la durée du trajet se situe à moins d'un écart-type
de la durée moyenne.
d) Calculer le temps maximum des 25% des étudiants qui rentrent les premiers chez eux.
e) Construire le polygone des fréquences de cette distribution.
Rép:
a) n = 350 et e = 81 b) x = 49,68 min. et c) 65,39% d) Q1  36,84 min. e) ///////
  18,32 min.

4. Une entreprise a noté les temps (en min.), répétés sur un


ensemble de 250 trajets, mis pour effectuer le parcours Temps de Nombre de
d’une certaine liaison routière par un véhicule lourd. parcours trajets
a) Identifier l’échantillon et la variable statistique. (en min.)
b) Calculer le temps moyen de parcours. [20, 25[ 27
c) Calculer l'écart-type et l'écart moyen. Interpréter. [25, 30[ 40
d) Calculer le 9ème décile et donner son interprétation. [30, 35[ 49
e) Calculer le pourcentage des trajets dont les temps de [35, 40[ 55
parcours se situent entre 37 et 50 minutes. [40, 45[ 41
f) Calculer le troisième quartile et interpréter. [45, 50[ 15
g) Calculer le premier quartile et interpréter. [50, 55[ 13
h) Donner la fourchette de temps considérée comme le [55, 60[ 10
10
temps « normal » pour effectuer ce parcours et estimer la tot: 250
proportion de trajets se situant dans cette fourchette.
i) Construire la boîte à moustaches (boxplot) de la série statistique.
Rép:
a) /////// d) D9  49,33 min. f) Q3  42,01 min. h)
b) x = 36,3 min. 10% des trajets ont pris [27,27 min.; 45,33 min.]
plus de 49,33 min. ///////
c)   9,03 min. et e) 35,6% g) Q1  29,44 min. i) ///////
Em  7,29 min.

10
On considère comme temps "normal" le temps compris dans l'intervalle [ x -, x +].

1ML Stat1
19

5. La distribution des consommations en ville (en litres par Consommation Nombre de


100 km) d'un ensemble d’utilitaires légers de la catégorie (litres / 100 km) véhicules
moyenne inférieure s'établit comme suit. [4, 5[ 18
a) Déterminer la consommation moyenne. [5, 6[ 45
b) Calculer l'écart-type et l'écart moyen. [6, 7[ 70
c) Calculer le coefficient de variation et interpréter. [7, 8[ 108
d) Déterminer la valeur du premier décile et donner son [8, 9[ 62
interprétation dans le cadre de cet énoncé. [9, 10[ 50
e) Déterminer la fourchette de consommation considérée [10, 11[ 35
comme "normale" et calculer le pourcentage de véhicules [11, 12[ 12
qui se trouvent dans cette fourchette. tot: 400
f) Déterminer la classe modale et donner une estimation
graphique du mode.
g) Calculer la médiane, ainsi que les premier et troisième quartiles.
h) Construire le diagramme en boîte à moustaches.
Rép:
a) x = 7,75 litres c) Cv  21,93% e) [6,05; 9,45] g) ///////
et 64,74%

b)  = 1,7 l. d) D1  5,49 l. f) [7,8[ h) ///////


et Em  1,37 l. 10% des véhicules ont une et Mo  7,45 l.
consommation inférieure à
5,49 litres

6. On donne la série suivante où 50 employés sont répertoriés en fonction de leur salaire brut
Salaire Nombre hebdomadaire en euros.
brut d’employés a) Calculer la médiane et donner son interprétation dans le
hebdo. (€) cadre de cet énoncé.
[100, 150[ 5 b) Calculer la médiale et donner son interprétation dans le
[150, 200[ 10 cadre de cet énoncé.
[200, 250[ 18 c) Calculer l'écart M entre la médiale et la médiane.
[250, 300[ 13 M
d) Calculer le quotient où e est l'étendue de la série. Si ce
[300, 350[ 4 e
quotient est petit, on pourrait dire que les variations relatives
tot: 50 entre les salaires sont faibles.

Rép:
a) Me  227,78 € b) Mle  240,43 € c) M = 12,65 € M
50% des employés ont un 50% de la masse salariale d) = 0,0506 = 5,06 %
salaire supérieur à 227,78€ est constituée par des
e
On peut estimer que la
et 50% des employés ont salaires supérieurs à
disparité des salaires est de
un salaire inférieur à 240,43€ et 50% par des
l'ordre de 5%: elle est
227,78€. salaires inférieurs à
faible.
240,43€.

1ML Stat1
20

7. La distribution statistique ci-dessous représente les loyers les plus élevés du marché de la
logistique et de la distribution (en m2/an), observés dans une centaine d’agglomérations
européennes :

Loyer (en €) [40,50[ [50,60[ [60,70[ [70,80[ [80,90[ [90,100[ [100,110[


Nombre 7 11 15 31 11 13 12
d’agglomérations

a) Tracer les diagrammes des fréquences et des fréquences cumulées.


b) Calculer la moyenne, la variance et l’écart-type de la distribution. Interpréter.
c) Calculer le 25ème percentile de la distribution et donner son interprétation dans le cadre
de cet énoncé.
d) Pourrait-on accréditer l’hypothèse d’une loi normale pour la distribution statistique
considérée ? Pourquoi ?

8. Un agriculteur essaie deux méthodes de culture différentes pour des haricots. Dans une
première parcelle il utilise des engrais chimiques, et dans une autre de l’engrais naturel
provenant de son compost et de son fumier. Lors de la récolte, il prélève 80 haricots de
chacune des deux parcelles et il mesure leur longueur. Ses observations figurent dans le
tableau ci-dessous :

Engrais chimiques Engrais naturel


Longueur Effectif Longueur Effectif
[0 ; 8[ 3 [0 ; 8[ 5
[8 ; 10[ 4 [8 ; 10[ 8
[10 ; 12[ 9 [10 ; 12[ 10
[12 ; 14[ 14 [12 ; 14[ 16
[14 ; 16[ 19 [14 ; 16[ 15
[16 ; 18[ 16 [16 ; 18[ 12
[18 ; 20[ 13 [18 ; 20[ 8
[20 ; 22[ 2 [20 ; 22[ 6

Ce producteur doit satisfaire des acheteurs qui souhaitent des longueurs homogènes, plus
pratiques pour le conditionnement. Quelle méthode choisir pour satisfaire de tels clients ?
Justifier ce choix en utilisant des arguments statistiques.

1ML Stat1