Vous êtes sur la page 1sur 24

Chapitre 1

Statistique Descriptive à une


dimension

C’est un instrument de la statistique qui permet de donner un sens, une expression


à l’information recueillie en la rendant plus intélligible, plus visuelle et en la résumant
par des valeurs typiques.

1.1 Vocabulaire de base


Comme toute discipline, la statistique descriptive a son propre vocabulaire, qu’il est
primordial de définir de façon rigoureuse.

1.1.1 Population - Individu


Définition 1.1.1. — Une population est un ensemble d’êtres ou d’objets ou d’obser-
vations de même nature ou comparables sur lesquels sont recueillies les données et porte
l’étude statistique. On la note P.
Le nombre des éléments d’une population est appelé taille de la population. On la
note N .
Lorsqu’on n’étudie qu’une partie de la population, on parle alors d’échantillon.

Exemple 1.1.1.
– Population marocaine
– Ensemble des ampoules fabriquées par une entreprise
– Ensemble des factures émises dans la semaine
– Différentes zones économiques du Maroc

Définition 1.1.2. — On appelle individu ou unité statistique un élément de la


population, noté ω ou ωi .

Remarque. Les éléments d’une population doivent être définis sans ambiguité, afin de
ne pas commettre d’erreurs de jugement ou d’interprétation par la suite.

1
2 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

1.1.2 Caractère Statistique - Modalité


Définition 1.1.3. — Chaque individu ou ensemble d’individus de la population peut
être décrit par une ou plusieurs caractéristiques, on les appelle caractères statis-
tiques, notées généralement par des lettres latines au majuscule, X, Y, ...

Exemple 1.1.2.
– La population marocaine peut être décrite par les caractères : Sexe (:= S), Age
(:= A), Nombre d’enfants (:= X), état matrimonial (:= Y ), ...
– Les pièces fabriquées peuvent être décrites par les caractères : Poids, diamètre,
durée de vie, nombre de pièces défectueuses, ...
– Le personnel d’une entreprise peut être décrit par les caractères : Ancienneté,
Catégorie Socio-Professionnelle (:= CSP ), temps d’exécusion d’une tâche, ...
Définition 1.1.4. — Soit X un caractère statistique. On appelle série satistique
brute de X, la liste des couples (wi , Xi ) avec wi l’individu n˚i et Xi son résultat par X.
On la note encore tout simplement (Xi ) ou (Xi )1≤i≤N .
Exemple 1.1.3. Soit la série statistique brute suivante donnant la longueur en mm
des tiges métalliques fabriquées par une usine :
11 582 5 231 35 756 8 916 5 852 5 354 11 417 10 705 4 588 2 025 11 096
8 167 5 788 4 627 5 678 2 921 5 771 4 672 16 948 9 015 20 217 1 766
Définition 1.1.5. — Les différentes situations possibles prises par un caractère sont
appelées modalités, notées par des lettres latines au miniscule xi pour X, yi pour Y ,
zi pour Z, ... . Leur ensemble est noté M(X), ... ou tout simplement M.
Remarques.
• Un individu ne peut appartenir à plusieurs modalités à la fois.
• Les modalités doivent être définies sans ambiguité.
Définition 1.1.6. — Un caractère est dit quantitatif si ses modalités sont mesurables
c’est-à-dire traduisibles par des nombres, sinon il est dit qualitatif.
Un caractère est dit ordinal si on peut définir un ordre dans M, sinon le caractère
est dit nominal.
Exemple 1.1.4.
• Age, salaire, nombre d’enfants, ancienneté sont des caractères quantitatifs.
• Sexe, CSP, état matrimonial sont des caractères qualitatifs nominaux.
• Mention au DEUST est un caractère qualitatif ordinal.
Remarques.
• Un caractère quantitatif est appelé aussi variable statistique, et ses modalités
sont appelées aussi valeurs prises par le caractère.
• Dans le cas d’un caractère qualitatif, les modalités sont souvent représentées par
un codage, qui ne le rend pas pour autant quantitatif. L’ensemble des codes est
appelé nomenclature. Par exemple, les modalités du caractère Sexe sont habituel-
lement codées : 1 pour masculin et 2 pour féminin.
1.1. VOCABULAIRE DE BASE 3

Définition 1.1.7. — Un caractère quantitatif est dit discret, si ses modalitées sont
des nombres isolés. Il est dit continu, s’il est à priori possible de pousser la mesure de
ses modalités à des décimaux.
Exemple 1.1.5. Pour les salariés d’une entreprise,
– "le nombre d’années d’ancienneté" est un caractère quantitatif discret avec M =
{0, 1, ..., 40}
– "le nombre d’enfants" est un caractère quantitatif discret avec M = N
– "le poids" est un caractère quantitatif continu avec M = R+∗
Remarque. En général, pour étudier un caractère continu, on le discrétise en définis-
sant des classes de modalités possibles. La classe n˚i est notée [ei , ei+1 [, dont le nombre,
d’après la règle de Sturges, doit être proche de
10
1+ log10 (N )
3
où N=taille de la population=nombre de données
Exemple 1.1.6. En reprenant la série brute de l’exemple 1.1.3, la règle de Sturges
10
donne un nombre de classes ≃ 1 + log10 (22) ≃ 5.47 ≃ 6.
3
Définition 1.1.8. — On appelle centre de la classe [ei , ei+1 [, le nombre noté xi et
défini par :
ei + ei+1
xi =
2
Définition 1.1.9. — On appelle amplitude de la classe [ei , ei+1 [, le nombre noté ai
et défini par :
ai = ei+1 − ei
On appelle amplitude de base, le PGCD (=Plus Grand Commun Diviseur) de toutes
les amplitudes.
Remarques.
• Il arrive que des amplitudes des classes extrêmes soient indéterminées. On les
appelle classes non bornées, les autres sontes dites bornées.
• Si on opte pour une amplitude identique, on pourait prendre pour amplitude une
approximation du quotient
grande donnée − petite donnée
nombre de classes
Exemple 1.1.7. En reprenant la série brute de l’exemple 1.1.3 et en optant pour 6
classes (de l’exemple 1.1.6) de même amplitude, on pourait prendre pour amplitude ≃
35 756 − 1 766
= 5 665 ≃ 6 000
6
Les classes sont donc [0, 6000[, [6000, 12000[, [12000, 18000[, [18000, 24000[, [24000, 30000[
et [30 000, 36 000[.
4 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

1.1.3 Effectif - Fréquence


Définition 1.1.10. — (Cas qualitatif ou quantitatif discret)
Le nombre d’individus présentant une modalité xi donnée, est appelé effectif de la
modalité, on le note ni . On l’appelle aussi proportion.
Définition 1.1.11. — (Cas quantitatif continu)
Le nombre d’individus présentant une valeur appartenant à la classe [ei , ei+1 [ donnée
de centre xi , est appelé effectif (ou proportion) de la classe, on le note ni . On l’appelle
aussi effectif du centre xi .
ni
Si ai est l’amplitude de la classe, le nombre est appelé effectif moyen de la
ai
classe.

Exemple 1.1.8. En reprenant la série brute de l’exemple 1.1.3, la classe [6 000, 12 000[
a pour effectif 7, et la classe [12 000, 18 000[ a pour effectif 1.

Théorème 1.1.1. — On a N = ni et on l’appelle donc aussi effectif total.
i

Preuve :
Evidente 
Définition 1.1.12. — La liste des modalités ou des classes possibles d’un caractère,
complétées chacune par l’effectif correspondant, constitue ce{(qu’on appelle )}série sta-
tistique ou distribution statistique, notée {(xi , ni )} ou [ei , ei+1 [, ni .
Remarque. La détermination de la série statistique à partir de la série brute s’appelle
dépouillement et la série est appelée aussi série dépouillée. C’est le point de départ
de toute analyse statistique.
Définition 1.1.13. — Le nombre d’individus, pour lesquels le caractère quantitatif
discret (resp. continu) X prend une valeur inférieure ou égale (resp. strictement) à α
donné, est appelé effectif cumulé croissant en α. On le note Ncc (α).
On définit ainsi sur R une fonction Ncc , appelée fonction cumulative croissante
des effectifs.
Définition 1.1.14. — Le nombre d’individus, pour lesquels le caractère quantitatif
X prend une valeur supérieure ou égale à α donné, est appelé effectif cumulé dé-
croissant en α. On le note Ncd (α). On définit ainsi sur R une fonction Ncd , appelée
fonction cumulative décroissante des effectifs.
Remarque. La fonction Ncc (resp. Ncd ) permet de répondre à des questions du genre
"Combien de tiges ont moins de 39.5 mm de diamètre" (resp. "Combien d’étudiants
ont 19 ans ou plus). Notons qu’on a :
– l’inégalité " ≤ α" ⇐⇒ au plus α ⇐⇒ α ou moins
– l’inégalité " < α" ⇐⇒ moins de α
– l’inégalité " > α" ⇐⇒ plus de α
– l’inégalité " ≥ α" ⇐⇒ au moins α ⇐⇒ α ou plus
1.1. VOCABULAIRE DE BASE 5

Définition 1.1.15. — On appelle fréquence de la modalité xi ou de la classe de centre


xi d’effectif ni , le nombre noté fi et défini par :
ni
fi :=
N
Le nombre 100fi est appelé pourcentage de la modalité xi ou de la classe de centre xi .
fi
Dans le cas d’une classe d’amplitude ai , le nombre est appelé fréquence moyenne
ai
de la classe.
Théorème 1.1.2. — La série statistique est {( aussi définie )} par la liste des modalités ou
classes et leur fréquence, soit {(xi , fi )} ou [ei , ei+1 [, fi ..
Preuve :
Evidente 

Théorème 1.1.3. — On a fi = 1.
i
Si en pratique ce n’est pas le cas à cause des erreurs d’arrondis, on modifiera la fréquence
dont l’écart (en valeur absolue) entre la valeur réelle et la valeur arrondie est le moins
considérable.
Preuve :
∑ ∑ ni 1 ∑ 1
fi = = ni = .N = 1 
i i N N i N
Définition 1.1.16. — On appelle fonction cumulative croissante des fréquences,
la fonction notée Fcc et définie par :
Ncc (α)
Fcc (α) :=
N
Définition 1.1.17. — On appelle fonction cumulative décroissante des fré-
quences, la fonction notée Fcd et définie par :
Ncd (α)
Fcd (α) :=
N
Théorème 1.1.4. — Comme pour les effectifs, Fcc (α) (resp. Fcd (α)) est le cumul
croissant (resp. décroissant) des fréquences en α.
Preuve :
Pour le cas continu, on a

ni
Ncc (α) i: xi <α ∑ ni ∑
Fcc (α) = = = = fi
N N i: xi <α N i: xi <α

On fait de même pour les autres cas 


Remarque. Dans le cas des classes, Ncc et Fcc (resp. Ncd et Fcd ) ne sont calculables
qu’aux extrémités des classes. Pour les autres valeurs, on ne peut déterminer qu’une
approximation par l’interpolation linéaire.
6 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

1.2 Représentation des Données


Pour que les résultats des enquêtes soient facilement lisibles et compréhensibles, on
les publie sous forme de tabeaux ou de graphes.

1.2.1 Tableaux Statistiques


C’est une présentation qui n’est possible que dans le cas de populations finies.

a– Cas qualitatif - Cas discret finis


La forme générale est :

i xi ni fi Ncc Ncd Fcc Fcd ...


1 x1 n1 f1 n1 N f1 1 ...
2 x2 n2 f2 n1 + n2 N − n1 f1 + f2 1 − f1 ...
3 x3 n3 f3 n1 + n2 + n3 N − n1 − n2 f1 + f2 + f3 1 − f1 − f2 ...
.. .. .. .. .. .. .. ..
. . . . . . . . ...
.. .. .. .. .. .. .. ..
. . . . . . . . ...
r−1 xr−1 nr−1 fr−1 N − nr nr + nr−1 1 − fr fr + fr−1 ...
r xr nr fr N nr 1 fr ...

/// N 1 /// /// /// ...

Exemple 1.2.1. Le tableau suivant représente la distribution du caractère X = "Qua-


lification du personnel" d’une certaine entreprise.

i xi ni fi Ncc Ncd Fcc Fcd


1 Cadre Supérieur 2 0.04 2 50 0.04 1
2 Cadre M oyen 8 0.16 10 48 0.2 0.96
3 Employé 15 0.3 25 40 0.5 0.8
4 Ouvrier 25 0.5 50 25 1 0.5

/// 50 1 /// /// // ///

Exemple 1.2.2. La distribution statistique du caractère X donnant le nombre d’enfants


du personnel d’une certaine entreprise est présentée ci-après

i xi ni fi Ncc Ncd Fcc Fcd


1 0 4 0.23 4 17 0.23 1
2 1 8 0.47 12 13 0.7 0.77
3 2 0 0 12 5 0.7 0.3
4 3 3 0.18 15 5 0.88 0.3
5 4 2 0.12 17 2 1 0.12

/// 17 1 /// /// /// ///
1.2. REPRÉSENTATION DES DONNÉES 7

b– Cas Continu
Deux présentations possibles :
• Une, et c’est la plus utilisée, où les k classes sont présentées horizontalement.
Notons que les valeurs de Ncc et Fcc (resp. Ncd et Fcd ) sont celles des extrémités
supérieures (resp. inférieures) des classes.

i classe ai ni fi Ncc Fcd centre ...


1 e1 − e2 a1 n1 f1 n1 1 x1 ...
2 e2 − e3 a2 n2 f2 n1 + n2 1 − f1 x2 ...
.. .. .. .. .. .. .. ..
. . . . . . . . ...
.. .. .. .. .. .. .. ..
. . . . . . . . ...
k−1 ek−1 − ek ak−1 nr−1 fr−1 N − nr fr + fr−1 xk−1 ...
k ek − ek+1 ak nr fr N fr ck ...

/// /// N 1 /// /// /// ...
• Une autre, où les classes sont présentées verticalement. Notons que l’information
concernant la classe est entre ses extrémités et celle de l’extrémité est en face de
celle-ci.
i extrémité ni Ncc Ncd xi ...
e1 0 N
1 n1 x1 ...
e2 n1 N − n1
2 n2 x2 ...
e3 n1 + n2 N − n1 − n2
3 n3 x3 ...
e4 n1 + n2 + n3 N − n1 − n2 − n3
.. .. .. .. .. .. ..
. . . . . . .
.. .. .. .. .. .. ..
. . . . . . .
ek−2 n1 + ... + nk−3 nk−2 + nk−1 + nk
k−2 nk−2 xk−2 ...
ek−1 n1 + ... + nk−2 nk−1 + nk
k−1 nk−1 xk−1 ...
ek n1 + ... + nk−1 nk
k nk xk ...
ek+1 N 0

/// N /// /// /// ...
Remarque. Il faut ne pas oublier de préciser pour un tableau statistique, son titre et
la source des données.
Exemple 1.2.3. En reprenant la série brute de l’exemple 1.1.3 et en optant pour
6 classes de l’exemple 1.1.6, d’amplitude 6000 trouvée à l’exemple 1.1.7, on a alors la
8 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

représentation suivante :
i classe ni fi Ncc Ncd Fcc Fcd centre
1 0 − 6 000 12 0.54 12 22 0.54 1 3 000
2 6 000 − 12 000 7 0.31 19 10 0.85 0.46 9 000
3 12 000 − 18 000 1 0.05 20 3 0.9 0.15 15 000
4 18 000 − 24 000 1 0.05 21 2 0.95 0.10 21 000
5 24 000 − 30 000 0 0 21 1 0.95 0.05 27 000
6 30 000 − 36 000 1 0.05 22 1 1 0.05 33 000

/// 22 1 /// /// /// /// ///
Remarque. Les règles, du choix du nombre de classes et de l’amplitude identique,
peuvent des fois donner des découpages présentant des défauts graves. C’est le cas de
l’exemple 1.2.3 puisque la majorité des données sont concentrées dans 2 des 6 classes. Il
vaut mieux faire un découpage en classes d’amplitudes inégales. On opte alors pour des
classes fines là où le caractère est plus fréquent, et des classes larges là où le caractère
est rare.
Exemple 1.2.4. En reprenant la série brute de l’exemple 1.1.3 et en optant toujours
pour 6 classes et en s’inspirant du résultat trouvé dans l’exemple 1.2.3, on peut proposer
le découpage suivant qui paraît plus intéressant.
i classe ai ni fi Ncc Ncd Fcc Fcd centre
1 0 − 4 000 4 000 3 0.14 3 22 0.14 1 2 000
2 4 000 − 5 000 1 000 3 0.14 6 19 0.28 0.86 4 500
3 5 000 − 8 000 3 000 6 0.27 12 16 0.55 0.72 6 500
4 8 000 − 10 000 2 000 3 0.14 15 10 0.69 0.45 9 000
5 10 000 − 12 000 2 000 4 0.18 19 7 0.87 0.31 11 000
6 12 000 − 36 000 24000 3 0.13 22 3 1 0.13 24 000

/// /// 22 1 /// /// /// /// ///

Une autre solution possible est :


i extrémité ai ni fi Ncc Ncd xi Fcc Fcd
0 0 22 0 1
1 3 000 3 0.14 1 500
3 000 3 19 0.14 0.86
2 2 000 3 0.14 4 000
5 000 6 16 0.28 0.72
3 2000 6 0.27 6 000
7 000 12 10 0.55 0.45
4 2 000 2 0.09 8 000
9 000 14 8 0.64 0.36
5 3000 5 0.23 10 500
12 000 19 3 0.87 0.13
6 24 000 3 0.13 24 000
36 000 22 0 1 0

/// /// 22 1 /// /// /// /// ///
1.2. REPRÉSENTATION DES DONNÉES 9

1.2.2 Représentations Graphiques


Elles servent à synthétiser de façon visuelle l’information contenue dans des tableaux
statistiques. Un bon graphique peut mettre en évidence une idée force et l’enrichir même
par un grand nombre de détails. Mais il existe aussi de mauvais graphes dont le message
est trompeur, déformant la réalité. On verra ici les formes les plus utilisées.

a– Caractère qualificatif
1— Secteurs circulaires = Graphe en Camembert
C’est la représentation, du nom du fameux fromage, des éléments d’un tout en
pourcentages ou en fréquences, par un cercle complet ou un demi-cercle.
Chaque modalité de fréquence fi est représentée par un secteur d’angle au centre θi
(en degré) donné par : θi = 360.fi dans le cas d’un cercle complet, ou θi = 180.fi dans
le cas d’un demi-cercle.
Exemple 1.2.5. Reprenons le caractère X = "Qualification du personnel" de l’exemple 1.2.1.
xi fi θi = 180fi
Cadre Supérieur 0.04 7.2
Cadre M oyen 0.16 28.8
Employé 0.3 54
Ouvrier 0.5 90

1 180
Alors, le graphe en Camembert en demi-cercle de la distribution de la Qualification dans
l’entreprise est :

Exemple 1.2.6. On considère ci-dessous les contributions sectorielles au résultat de


l’année 2006 de la bourse de Casa
i secteur pourcentage := pi θi = 3.6pi
1 Agro-alimentaire 8.2 30
2 F inance et Assurance 5.4 19
3 M ines et P étrole 17.5 63
4 Holdings 30.3 109
5 Banque 33.3 120
6 Autres 5.3 19

/// 100 360
10 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

Alors, le graphe en Camembert en cercle complet de la distribution des contributions


sectorielles est :

2— Tuyaux d’orgue
C’est un ensemble de rectangles de base constante et de hauteur proportionnelle à
l’effectif ou à la fréquence.

Remarques.
• Les rectangles peuvent être horizontaux ou verticaux.
• L’effectif ou la fréquence peut être indiqué en haut du rectangle ou sur une échelle.

Exemple 1.2.7. Reprenons le caractère X de l’exemple 1.2.1 donnant la "Qualification


du personnel" d’une entreprise. Sa représentation en tuyaux d’orgue des effectifs est :

Remarque. Les tuyaux peuvent être horizontaux ou verticaux.


1.2. REPRÉSENTATION DES DONNÉES 11

b– Caractère quantitatif discret

1— Diagramme en bâtons
A chaque modalité xi , on fait correspondre un segment vertical de longueur propor-
tionnelle à l’effectif ou à la fréquence.
En joignant les sommets des bâtons, on obtient un polygone appelé polygone des
effectifs ou des fréquences.

Remarques.
• Les bâtons peuvent être horizontaux ou verticaux.
• Il est plus facile de comparer des polygones que des diagrammes en bâtons.

Exemple 1.2.8. On considère le caractère X donnant le nombre d’enfants du personnel


d’une entreprise de l’exemple 1.2.2. Son diagramme en bâtons des effectifs est :

2— Courbes cumulatives
Ce sont les représentations graphiques des fonctions cumulatives croissantes ou dé-
croissantes, des effectifs ou des fréquences. Ce sont des fonctions en escalier, continues
respectivement à droite et à gauche.

Exemple 1.2.9. Reprenons la série statistique du nombre d’enfants de l’exemple 1.2.2.


Sa courbe cumulative croissante des effectifs est :
12 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

Et sa courbe cumulative décroissante des effectifs est :

Remarque. Les deux courbes cumulatives peuvent être représentées dans le même
graphique.

c– Caractère quantitatif continu


1— Histogramme
C’est un ensemble de rectangles adjacents correspondant aux différentes classes,
de base égale à l’amplitude de la classe et de hauteur proportionnelle à l’effectif moyen
ou à la fréquence moyenne de la classe.
Il est d’usage d’ajouter de part et d’autre de l’histogramme une classe d’effectif nul
et d’amplitude égale à l’amplitude de base.
En joignant les milieux des sommets des rectangles, on obtient une ligne brisée
appelée polygone des effectifs ou des fréquences.
Remarques.
• Notons que la surface du rectangle est proportionnelle à l’effectif ou à la fréquence.
• S’il y a une classe non bornée, on la représente dans le tracé de l’histogramme
avec une amplitude égale à l’amplitude de base.
• Si les amplitudes sont égales alors les hauteurs des rectangles sont tout simplement
proportionnelles aux effectifs ou aux fréquences.
• La courbe suffisamment régulière obtenue en ajustant le polygone des fréquences
est appelée courbe des fréquences qui donne l’allure globale de la distribution
statistique.
• L’histogramme permet de décéler où se trouve la concentration et les extrêmes qui
se rencontrent plus rarement.
Exemple 1.2.10. Soit la distribution du salaire mensuel en MDh des cadres d’une
entreprise :

salaire 18 − 19 19 − 20 20 − 21 21 − 23 23 − 25 25 − 28 28 − 31
ni 32 50 44 52 38 24 15 255
ai 1 1 1 2 2 3 3 ///
ni /ai 32 50 44 26 19 8 5 ///
1.2. REPRÉSENTATION DES DONNÉES 13

Son histogramme des effectifs est :

2— Polygones cumulés = Ogives

Définition 1.2.1. On appelle polygones cumulés


( ou) ogives,
( les lignes
) brisées
( obte-)
nues en joignant les points de coordonnées ei , Ncc (ei ) ou ei , Ncd (ei ) ou ei , Fcc (ei )
( )
ou ei , Fcd (ei ) .

Exemple 1.2.11. Soit la distribution statistique du poids en Kg d’une population


d’étudiants :

poids en Kg 60 − 63 63 − 66 66 − 69 69 − 72 72 − 75
nombre d’étudiants 5 18 42 27 8 100
Ncc 5 23 65 92 100 ///
Ncd 100 95 77 35 8 ///

Ses polygones cumulatifs des effectifs sont :


14 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

1.3 Caractéristiques
Les tableaux et les graphes permettent d’obtenir une première image de la distri-
bution des données. Pour améliorer cette image, on introduit de nouvelles valeurs qui
caractériseront la distribution.

1.3.1 Caractéristiques de Position


Ce sont des valeurs qui donnent une idée de l’ordre de grandeur des données et
indiquent la position où elles semblent se rassembler.

a– Mode = Dominante
Définition 1.3.1. — On appelle mode de la distribution du caractère qualitatif ou
quantitatif discret X, la modalité qui possède l’effectif ou la fréquence le ou la plus
élevé. On le note Mo(X) ou tout simplement Mo, et on l’appelle aussi dominante.

Remarque. Le mode n’est pas forcément unique. On parle alors de plurimodalité.

Exemple 1.3.1. Le mode du caractère X donnant le nombre d’enfants du personnel


d’une entreprise de l’exemple 1.2.2 est : Mo = 1 enfant.

Définition 1.3.2. — Soit X un caractère continu donné par classe. On appelle classe
modale, la classe qui possède l’effectif moyen ou la fréquence moyenne le ou la
plus élevé. On prend alors pour mode le centre de la classe modale.

Exemple 1.3.2. On considère le caractère donnant le salaire mensuel en MDh des


cadres d’une entreprise de l’exemple 1.2.10. La classe modale est [19, 20[. Donc, on
prend pour mode le salaire mensuel de 19 500 Dh.

b– Médiane
Définition 1.3.3. — On appelle médiane de la distribution du caractère X, la mo-
dalité qui partage la série statistique en deux parties égales. Plus précisément, à la
médiane il y a autant d’individus pour lesquels on a observé une valeur supérieure, que
d’individus pour lesquels on a observé une valeur inférieure.
On la note X1/2 ou M e(X) ou M e.

Théorème 1.3.1. — La médiane M e est caractérisée par :


N N 1 1
Ncc (M e) = ou Ncd (M e) = ou Fcc (M e) = ou Fcd (M e) = .
2 2 2 2
Ce qui signifie que la médiane est l’abscisse du point d’intersection des polygones cu-
mulatifs croissant et décroissant des effectifs respectivement des fréquences.

Preuve :
Evidente 
1.3. CARACTÉRISTIQUES 15

Remarques.
• La médiane n’est pas liée à la valeur numérique des données mais à leur position
les unes par rapport aux autres, et à leur nombre. Ce qui la rend donc non affectée
par les valeurs abérrantes.
• Noter que par définition, la médiane est une modalité.
1— Calcul de la médiane dans le cas discret
N
On calcule Ncc (x) ou Fcc (x) et on repère dans le tableau statistique la valeur ou
2
0.5. Si cette valeur apparaît entre deux lignes du tableau, on prend pour médiane la
valeur qui correspond à la ligne la plus basse.
Exemple 1.3.3. Soient les notes attribuées aux 158 candidats à un concours
note effectif Ncc note effectif Ncc
0 2 2 10 17 109
1 0 2 11 12 121
2 3 5 12 12 133
3 3 8 13 10 143
4 5 13 14 8 151
5 0 13 15 5 156
6 9 22 16 0 156
7 10 32 17 0 156
8 28 60 18 1 157
←− N
2
= 79
9 32 92 19 1 158
La note médiane est donc 9.

2— Calcul de la médiane dans le cas continu


N
En calculant Ncc (x) ou Fcc (x), et en repérant dans le tableau statistique la valeur
2
ou 0.5, on détermine la classe médiane [ei , ei+1 [, celle qui contient la médiane. Pour
la déterminer, on utilise l’interpolation linéaire, à savoir
M e − ei 0.5 − Fcc (ei ) M e − ei N
2
− Ncc (ei )
= ou =
ei+1 − ei Fcc (ei+1 ) − Fcc (ei ) ei+1 − ei Ncc (ei+1 ) − Ncc (ei )
D’où, on tire
0.5 − Fcc (ei ) N
− Ncc (ei )
M e = ei +(ei+1 −ei ). ou M e = ei +(ei+1 −ei ). 2
Fcc (ei+1 ) − Fcc (ei ) Ncc (ei+1 ) − Ncc (ei )
Exemple 1.3.4. Reprenons l’exemple 1.2.11. On a :
poids nombre effectif cumulé
en kg d’étudiants croissant
60 − 63 5 5
63 − 66 18 23
66 − 69 42 65
69 − 72 27 92
72 − 75 8 100

100 ///
16 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

N
La classe médiane, qui correspond au cumul en = 50 étudiants, est [66, 69[.
2
L’interpolation linéaire permet d’écrire :
M e − 66 50 − 23
=
69 − 66 65 − 23
D’où,
50 − 23
M e = 66 + (69 − 66). ≃ 67.93 kg
65 − 23

3— Détermination graphique de la médiane


On peut aussi utiliser les polygones cumulatifs croissants et/ou décroissants pour
déterminer graphiquement la médiane. C’est l’abscisse du point de leur intersection ou
du point d’ordonnée N2 ou 0.5.
Exemple 1.3.5. Reprenons l’exemple 1.2.11. On a :

Et on retrouve graphiquement la médiane qui vaut approximativement 68 Kg.

c– Quartiles
Définition 1.3.4. — On appelle quartiles, les trois modalités du caractère X qui
partagent la distribution en quatre parties égales. On les note X1/4 ou Q1 , X1/2 ou Q2
et X3/4 ou Q3 et on les appelle respectivement premier, deuxième et troisième quartile.
Théorème 1.3.2. — On a,
N 3N 1 3
• Q1 est tel que : Ncc (Q1 ) = ou Ncd (Q1 ) = ou Fcc (Q1 ) = ou Fcd (Q1 ) = .
4 4 4 4
• Q2 = M e
3N N 3 1
• Q3 est tel que : Ncc (Q3 ) = ou Ncd (Q3 ) = ou Fcc (Q3 ) = ou Fcd (Q3 ) = .
4 4 4 4
Preuve :
Evidente 
1.3. CARACTÉRISTIQUES 17

N 3N
Remarque. Leur détermination se fait comme pour la médiane en repérant 4
ou 4
ou 41 ou 34 .
Exemple 1.3.6. Le tableau qui suit représente le temps en minutes requis pour satis-
faire les demandes d’un échantillon de 100 clients d’un certain service :

temps nombre effectif cumulé


en mn de demandes croissant
50 − 55 5 5
55 − 60 20 25
60 − 65 40 65
65 − 70 25 90
70 − 75 10 100

100 ///

N
Le premier quartile, qui correspond au cumul de = 25 demandes, est 60 mn déduit
4
directement du tableau.
3N
La classe contenant le troisième Quartile, qui correspond au cumul de = 75 de-
4
mandes, est [65, 70[. L’interpolation linéaire permet d’écrire :
Q3 − 65 75 − 65
=
70 − 65 90 − 65
D’où,
75 − 65
Q3 = 65 + (70 − 65). = 67 mn
90 − 65
et graphiquement, on a

Exemple 1.3.7. Le premier et le troisième quartiles du caractère X donnant le nombre


d’enfants du personnel de l’exemple 1.2.2 sont respectivement : Q1 = 1 enfant et Q3 = 3
enfants.
18 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

Remarque. En généralisant la notion, on appellera déciles (resp. centiles) les 9


(resp. 99) modalités di (resp. ci ) du caractère qui partagent la distribution en dix (resp.
cent) parties égales.

d– Moyennes
Définition 1.3.5. — Soit X un caractère quantitatif de distribution {(xi , ni )} ou
{(xi , fi )} avec xi modalité dans le cas discret ou centre de la classe n˚i dans le cas
continu. On appelle moyenne arithmétique ou tout simplement moyenne de X, le
nombre noté X, qu’on lit "X barre" et défini par :
1 ∑ ∑
X := ni xi = fi xi
N i i

Exemple 1.3.8. On considère le caractère X donnant le nombre d’enfants du personnel


d’une entreprise de l’exemple 1.2.2. On a,

i 1 2 3 4 5 ///

xi 0 1 2 3 4
ni 4 8 0 3 2 17
ni xi 0 8 0 9 8 25

1 ∑ 25
Le nombre moyen d’enfants est : X = ni .xi = ≃ 1.47 enf ant.
N i 17

Exemple 1.3.9. Reprenons la distribution du poids en Kg de l’Exemple 1.2.11. Alors,

poids (kg) xi ni ni xi
60 − 63 61.5 5 307.5
63 − 66 64.5 18 1 161
66 − 69 67.5 42 2 835
69 − 72 70.5 27 1 903.5
72 − 75 73.5 8 588

/// 100 6 795

1 ∑ 6795
Le poids moyen des étudiants est : X = ni .xi = = 67.95 kg.
N i 100

Remarques.
• La moyenne est très sensible aux valeurs extrêmes bien qu’elle est très utilisée.
• Pour effectuer le calcul de la moyenne de données brutes, il suffit d’additionner
toutes les données et de diviser par le nombre des données.

Exemple 1.3.10. Si on considère la série brute de l’exemple 1.1.3, la longueur moyenne


des tiges métalliques fabriquées par l’usine est :
1 ∑ 1
X= Xi = .(11582 + 5231 + 35756 + . . . + 1766) = 9004.1818 ≃ 9004 mm
N i 22
1.3. CARACTÉRISTIQUES 19

Théorème 1.3.3. — Soient X et Y deux caractères et soit α un nombre réel. On a :


1. α = α
2. X + Y = X + Y
3. αX = αX (changement d’échelle)
4. X + α = X + α (changement d’origine)
Preuve :
1. La variable constante égale à α a pour distribution statistique la liste constituée
par le seul couple (α, 1), et par suite sa moyenne est α.1 = 1
2. Admise.
∑ ∑
3. αX = (αxi )fi = α xi fi = αX
i∈I i∈I
∑ ∑ ∑
4. X + α = (xi + α)fi = x i fi + α fi = X + α.1 
i∈I i∈I i∈I

Théorème 1.3.4. — Soit P une population de taille N composée de k sous populations


Ph de taille Nh et de moyenne X h . Alors, la moyenne de la population totale P est
égale à la moyenne des moyennes des sous populations pondérées par l’effectif des sous
populations, c’est-à-dire :
1 ∑ k
X= Nh X h
N h=1
Preuve :
Quitte à changer la numérotation des observations de la population P, on peut supposer
que la série brute contient d’abord les observations de P1 puis celles de P2 et ainsi de
suite jusqu’à celles de Pk en dernier. Alors, on a
1 ∑N
1 (∑N1 N1∑
+N2 ∑N )
X= Xi = Xi + Xi + . . . + Xi
N i=1 N i=1 i=N1 +1 i=N −Nk +1
1 1 ∑ k
= (N1 X 1 + N2 X 2 + . . . + Nk X k ) = Nh X h 
N N h=1
Théorème 1.3.5. — La moyenne arithmétique est la valeur qui minimise la quantité

Q(a) = fi (xi − a)2
i

Preuve :
On a,

Q(a) = fi (xi − X + X − a)2

i ∑ ∑
= fi (xi − X)2 + 2(X − a) fi (xi − X) + (X − a)2 fi
i (∑ i ∑ ) i
= Q(X) + 2(X − a) fi xi − X. fi +(X − a)2 .1
i i
| {z }
=0
= Q(X) + (X − a)2
Donc, Q est minimale si et seulement si (X − a)2 = 0, c’est-à-dire a = X 
20 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

1.3.2 Caractéristiques de Dispersion


Le but est de définir des caractéristiques qui permetteront de mettre en évidence et
de mesurer la différence entre les séries suivantes :
– 8, 8, 8, 10, 10, 10, 10, 12, 12, 12
– 1, 1, 1, 10, 10, 10, 10, 19, 19, 19
qui ont même mode, même médiane, même moyenne 10, mais qui ne sont pas réparties
de la même façon autour de la valeur centrale. On dit qu’elles n’ont pas la même
dispersion.

a– Etendue
Définition 1.3.6. — La différence entre la plus grande et la plus petite modalité d’un
caractère X est appelée étendue notée e(X) ou e.

Remarque. C’est une caractéristique très affectée par les données aberrantes. On ne
l’utilise que pour avoir une première idée de la dispersion.

Exemple 1.3.11. L’étendue du caractère X donnant le nombre d’enfants du person-


nel d’une entreprise de l’exemple 1.2.2 est e(X) = 4 − 0 = 4 enfants, et celle de la
distribution du poids en Kg de l’exemple 1.2.11 est e = 75 − 60 = 15 Kg.

b– Ecarts interquartile - interdécile - intercentile


Définition 1.3.7. — Le nombre Q3 − Q1 (resp. d9 − d1 , c99 − c1 ) est appelé écart
interquartile (resp. écart interdécile, écart intercentile).

Remarque. Ces écarts permettent d’éviter les ou certaines valeurs extrêmes qui sont
la plupart du temps aberrantes.

Exemple 1.3.12. L’écart interquartile du caractère temps requis en mn de l’exemple 1.3.6


est : Q3 − Q1 = 67 − 60 = 7 mn.

c– Variance et Ecart-type
Définition 1.3.8. — Soit X un caractère quantitatif de distribution {(xi , ni )} ou
{(xi , fi )} avec xi modalité dans le cas discret ou centre de la classe n˚i dans le cas
continu. On appelle variance de X, le nombre noté V ar(X) ou σ 2 (X) ou σ 2 et défini
par :
1 ∑ ∑
σ 2 (X) := ni (xi − X)2 = fi (xi − X)2
N i i

Définition 1.3.9. — On appelle écart-type du caractère X, la racine carrée de la


variance de X. On le note σ(X) ou σ.

Remarque. L’écart-type permet de mesurer le risque de voir une valeur observée éloi-
gnée de la moyenne.
1.3. CARACTÉRISTIQUES 21

Exemple 1.3.13. Reprenons la distribution du poids en Kg de l’exemple 1.2.11. On a


vu (voir l’exemple 1.3.9) que le poids moyen est 67.95 kg. Alors,

classe ni xi ni (xi − 67.95)2


60 − 63 5 61.5 208.0125
63 − 66 18 64.5 214.245
66 − 69 42 67.5 8.505
69 − 72 27 70.5 175.5675
72 − 75 8 73.5 246.42

100 /// 852.75

La variance du poids des étudiants est :

1 ∑ 852.75
σ 2 (X) = ni (xi − X)2 = = 8.5275 ≃ 8.53 Kg 2
N i 100
√ √
Son écart-type est : σ(X) = σ 2 (X) = 8.5275 ≃ 2.92 kg.

1 ∑N
Remarque. Dans le cas d’une série brute (Xi )1≤i≤N , on a : σ 2 (X) = (Xi − X)2 .
N i=1

Exemple 1.3.14. Si on reprend la série brute de l’exemple 1.1.3 et puisque 9004 mm


est la longueur moyenne (voir exemple 1.3.10), l’écart-type de la longueur des tiges
métalliques est :

1 [ ]
σ(X) = . (11582 − 9004)2 + (5231 − 9004)2 + . . . + (1766 − 9004)2 ≃ 7354.12mm
22

Théorème 1.3.6. — Formule de Kœnig

1 ∑ 2 ∑ 2
σ 2 (X) = ni x2i − X = fi x2i − X
N i i

Preuve :
On a,

1 ∑ 1 ∑ 2
σ 2 (X) = ni (xi − X)2 = (ni x2i − ni 2 xi X + ni X )
N i N i
1 ∑ 1 ∑ 2 1 ∑
= ni x2i − 2 X ni x i + X ni
N i N i N i
1 ∑ 2 ∑ 2
= ni x2i − 2X.X + X = ni x2i − X 
N i i

Remarque. Le calcul de la variance par la formule de Kœnig limite les erreurs d’ar-
rondis, car la moyenne n’intervient qu’une seule fois, alors que dans la formule de la
définition, elle intervient i fois. Ce qui la rend plus utilisable.
22 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

Exemple 1.3.15. On considère le caractère X donnant le nombre d’enfants du per-


sonnel d’une entreprise de l’exemple 1.2.2. On a,
i 1 2 3 4 5 ///

xi 0 1 2 3 4
ni 4 8 0 3 2 17
ni x2i 0 8 0 27 32 67
On a vu (voir l’exemple 1.3.8) que X ≃ 1.47. Donc, la variance du nombre d’enfants
est :
1 ∑ 2 67
σ 2 (X) = ni x2i − X = − 1.472 ≃ 1.78
N i 17
√ √
et par suite σ(X) = σ 2 (X) = 1.78 ≃ 1.33 enf ant.
Exemple 1.3.16. Reprenons la distribution du temps en mn de l’exemple 1.3.6. Alors,
Extrémité ni fi xi xi fi x2i fi
50
5 0.05 52.5 2.625 137.8125
55
20 0.2 57.5 11.5 661.25
60
40 0.4 62.5 25 1 562.5
65
25 0.25 67.5 16.875 1 139.0625
70
10 0.1 72.5 7.25 525.625
75

100 1 /// 63.25 4 026.25
Donc,

Le temps moyen pour satisfaire les clients est : X = xi .fi = 63.25 mn
i
∑ 2
sa variance est : σ 2 (X) = x2i fi − X = 4 026.25 − 63.252 = 25.6875 mn2
i √ √
et son écart-type est : σ(X) = σ 2 (X) = 25.6875 ≃ 5.07 mn
1 ∑N
2
Remarque. Kœnig dans le cas d’une série brute (Xi ) s’écrit : σ (X) = Xi2 −X .2
N i=1
Exemple 1.3.17. En recalculant, par la formule de Kœnig, l’écart-type de l’exemple 1.1.3
on trouve :

1
σ(X) = .(115822 + 52312 + . . . + 17662 ) − 90042 ≃ 7354.35 mm
22
et on note une légère différence avec ce qu’on a trouvé à l’exemple 1.3.14, à cause des
erreurs d’arrondis.
1.3. CARACTÉRISTIQUES 23

Théorème 1.3.7. — Soient X un caractère et α un nombre réel. On a :


1. V ar(α) = 0 et σ(α) = 0
2. V ar(αX) = α2 .V ar(X) et σ(αX) = |α|.σ(X) (changement d’échelle)
3. V ar(X + α) = V ar(X) et σ(X + α) = σ(X) (changement d’origine)
Preuve :

1 ∑ 1 ∑
1. V ar(α) = ni α2 − α2 = α2 ni − α2 = α2 .1 − α2 = 0
N i N i
1 ∑ 2 1 ∑ 2
2. V ar(αX) = ni (α.xi )2 − αX = α2 ni x2i − α2 X = α2 .V ar(X)
N i N i
1 ∑ [ ]2 1 ∑ [ ]2
3. V ar(X + α) = ni xi +α−X + α = ni xi +α−X −α = V ar(X)
N i N i
Théorème 1.3.8. — Règle de Tchebycheff
Pour tout ensemble de données et tout nombre k ≥ 1, la proportion de données dans
1
l’intervalle ]X − kσ, X + kσ[ est supérieure ou égale à 1 − 2 .
k
Preuve :
La proportion de données dans l’intervalle ]X − kσ, X + kσ[ est,
∑ ∑
fi = 1 − fi
i:|xi −X|<kσ i:|xi −X|≥kσ

1 ∑
= 1− (kσ)2 fi
k σ2
2
i:|xi −X|≥kσ
1 ∑
≥ 1− 2 2 (xi − X)2 fi
k σ i:|xi −X|≥kσ

1 ∑ 1 1
≥ 1− 2 2
(xi − X)2 fi = 1 − 2 2 .σ 2 = 1 − 2 
k σ i k σ k

Remarque. On a donc,

intervalle proportion de données


dans l’intervalle

]X − σ , X + σ[ au moins 0% (une évidence)


]X − 1.5 σ , X + 1.5 σ[ au moins 55.55%
]X − 2 σ , X + 2 σ[ au moins 75%
]X − 2.5 σ , X + 2.5 σ[ au moins 84%
]X − 3 σ , X + 3 σ[ au moins 88.88%
]X − 4 σ , X + 4 σ[ au moins 93.75%
.. ..
. .
24 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION

Exemple 1.3.18. Reprenons la distribution du temps en mn de l’exemple 1.3.6. On


a vu (voir l’exemple 1.3.16) que le temps moyen est 63.25 mn et que son écart-type est
5.07mn.
Alors, d’après la règle de Tchebycheff, au moins 75% des tiges ont une longeur entre
X − 2 σ = 63.27 − 2 × 5.07 = 53.13mn et X + 2 σ = 63.27 + 2 × 5.07 = 73.41mn.
1 √
D’autre part, la proportion 80% correspond à k tel que 0.8 = 1− 2 ⇐⇒ k = 5 ≃ 2.24.
k
Par conséquent, l’intervalle qui contient au moins 80% des données est :
]X − 2.24 × σ, X + 2.24 × σ[=]63.27 − 2.24 × 5.07, 63.27 + 2.24 × 5.07[≃]51.91, 74.63[.

d– Cœfficient de Variation
Définition 1.3.10. — On appelle cœfficient de variation, le nombre sans dimen-
sion, souvent exprimé en pourcentage, noté Cv et défini par :

σ(X)
Cv =
X
Remarques.
• Le cœfficient de variation donne une idée du degré d’homogénéité de la distribu-
tion : plus Cv est faible plus la distribution est homogène.
• Le cœfficient de variation permet de comparer deux séries statistiques. Par exemple,
si l’on veut comparer la dispersion des salaires au Maroc et en Algérie, l’utilisation
de Cv évite le problème lié aux unités monétaires.

Exemple 1.3.19. Reprenons la distribution du poids en Kg de l’exemple 1.2.11. Donc


d’après l’exemple 1.3.9 et l’exemple 1.3.13, on a :
2.92
Cv = ≃ 4.30%
67.95
♢♢♢

Vous aimerez peut-être aussi