Académique Documents
Professionnel Documents
Culture Documents
CH 1-Descriptive
CH 1-Descriptive
Exemple 1.1.1.
– Population marocaine
– Ensemble des ampoules fabriquées par une entreprise
– Ensemble des factures émises dans la semaine
– Différentes zones économiques du Maroc
Remarque. Les éléments d’une population doivent être définis sans ambiguité, afin de
ne pas commettre d’erreurs de jugement ou d’interprétation par la suite.
1
2 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
Exemple 1.1.2.
– La population marocaine peut être décrite par les caractères : Sexe (:= S), Age
(:= A), Nombre d’enfants (:= X), état matrimonial (:= Y ), ...
– Les pièces fabriquées peuvent être décrites par les caractères : Poids, diamètre,
durée de vie, nombre de pièces défectueuses, ...
– Le personnel d’une entreprise peut être décrit par les caractères : Ancienneté,
Catégorie Socio-Professionnelle (:= CSP ), temps d’exécusion d’une tâche, ...
Définition 1.1.4. — Soit X un caractère statistique. On appelle série satistique
brute de X, la liste des couples (wi , Xi ) avec wi l’individu n˚i et Xi son résultat par X.
On la note encore tout simplement (Xi ) ou (Xi )1≤i≤N .
Exemple 1.1.3. Soit la série statistique brute suivante donnant la longueur en mm
des tiges métalliques fabriquées par une usine :
11 582 5 231 35 756 8 916 5 852 5 354 11 417 10 705 4 588 2 025 11 096
8 167 5 788 4 627 5 678 2 921 5 771 4 672 16 948 9 015 20 217 1 766
Définition 1.1.5. — Les différentes situations possibles prises par un caractère sont
appelées modalités, notées par des lettres latines au miniscule xi pour X, yi pour Y ,
zi pour Z, ... . Leur ensemble est noté M(X), ... ou tout simplement M.
Remarques.
• Un individu ne peut appartenir à plusieurs modalités à la fois.
• Les modalités doivent être définies sans ambiguité.
Définition 1.1.6. — Un caractère est dit quantitatif si ses modalités sont mesurables
c’est-à-dire traduisibles par des nombres, sinon il est dit qualitatif.
Un caractère est dit ordinal si on peut définir un ordre dans M, sinon le caractère
est dit nominal.
Exemple 1.1.4.
• Age, salaire, nombre d’enfants, ancienneté sont des caractères quantitatifs.
• Sexe, CSP, état matrimonial sont des caractères qualitatifs nominaux.
• Mention au DEUST est un caractère qualitatif ordinal.
Remarques.
• Un caractère quantitatif est appelé aussi variable statistique, et ses modalités
sont appelées aussi valeurs prises par le caractère.
• Dans le cas d’un caractère qualitatif, les modalités sont souvent représentées par
un codage, qui ne le rend pas pour autant quantitatif. L’ensemble des codes est
appelé nomenclature. Par exemple, les modalités du caractère Sexe sont habituel-
lement codées : 1 pour masculin et 2 pour féminin.
1.1. VOCABULAIRE DE BASE 3
Définition 1.1.7. — Un caractère quantitatif est dit discret, si ses modalitées sont
des nombres isolés. Il est dit continu, s’il est à priori possible de pousser la mesure de
ses modalités à des décimaux.
Exemple 1.1.5. Pour les salariés d’une entreprise,
– "le nombre d’années d’ancienneté" est un caractère quantitatif discret avec M =
{0, 1, ..., 40}
– "le nombre d’enfants" est un caractère quantitatif discret avec M = N
– "le poids" est un caractère quantitatif continu avec M = R+∗
Remarque. En général, pour étudier un caractère continu, on le discrétise en définis-
sant des classes de modalités possibles. La classe n˚i est notée [ei , ei+1 [, dont le nombre,
d’après la règle de Sturges, doit être proche de
10
1+ log10 (N )
3
où N=taille de la population=nombre de données
Exemple 1.1.6. En reprenant la série brute de l’exemple 1.1.3, la règle de Sturges
10
donne un nombre de classes ≃ 1 + log10 (22) ≃ 5.47 ≃ 6.
3
Définition 1.1.8. — On appelle centre de la classe [ei , ei+1 [, le nombre noté xi et
défini par :
ei + ei+1
xi =
2
Définition 1.1.9. — On appelle amplitude de la classe [ei , ei+1 [, le nombre noté ai
et défini par :
ai = ei+1 − ei
On appelle amplitude de base, le PGCD (=Plus Grand Commun Diviseur) de toutes
les amplitudes.
Remarques.
• Il arrive que des amplitudes des classes extrêmes soient indéterminées. On les
appelle classes non bornées, les autres sontes dites bornées.
• Si on opte pour une amplitude identique, on pourait prendre pour amplitude une
approximation du quotient
grande donnée − petite donnée
nombre de classes
Exemple 1.1.7. En reprenant la série brute de l’exemple 1.1.3 et en optant pour 6
classes (de l’exemple 1.1.6) de même amplitude, on pourait prendre pour amplitude ≃
35 756 − 1 766
= 5 665 ≃ 6 000
6
Les classes sont donc [0, 6000[, [6000, 12000[, [12000, 18000[, [18000, 24000[, [24000, 30000[
et [30 000, 36 000[.
4 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
Exemple 1.1.8. En reprenant la série brute de l’exemple 1.1.3, la classe [6 000, 12 000[
a pour effectif 7, et la classe [12 000, 18 000[ a pour effectif 1.
∑
Théorème 1.1.1. — On a N = ni et on l’appelle donc aussi effectif total.
i
Preuve :
Evidente
Définition 1.1.12. — La liste des modalités ou des classes possibles d’un caractère,
complétées chacune par l’effectif correspondant, constitue ce{(qu’on appelle )}série sta-
tistique ou distribution statistique, notée {(xi , ni )} ou [ei , ei+1 [, ni .
Remarque. La détermination de la série statistique à partir de la série brute s’appelle
dépouillement et la série est appelée aussi série dépouillée. C’est le point de départ
de toute analyse statistique.
Définition 1.1.13. — Le nombre d’individus, pour lesquels le caractère quantitatif
discret (resp. continu) X prend une valeur inférieure ou égale (resp. strictement) à α
donné, est appelé effectif cumulé croissant en α. On le note Ncc (α).
On définit ainsi sur R une fonction Ncc , appelée fonction cumulative croissante
des effectifs.
Définition 1.1.14. — Le nombre d’individus, pour lesquels le caractère quantitatif
X prend une valeur supérieure ou égale à α donné, est appelé effectif cumulé dé-
croissant en α. On le note Ncd (α). On définit ainsi sur R une fonction Ncd , appelée
fonction cumulative décroissante des effectifs.
Remarque. La fonction Ncc (resp. Ncd ) permet de répondre à des questions du genre
"Combien de tiges ont moins de 39.5 mm de diamètre" (resp. "Combien d’étudiants
ont 19 ans ou plus). Notons qu’on a :
– l’inégalité " ≤ α" ⇐⇒ au plus α ⇐⇒ α ou moins
– l’inégalité " < α" ⇐⇒ moins de α
– l’inégalité " > α" ⇐⇒ plus de α
– l’inégalité " ≥ α" ⇐⇒ au moins α ⇐⇒ α ou plus
1.1. VOCABULAIRE DE BASE 5
b– Cas Continu
Deux présentations possibles :
• Une, et c’est la plus utilisée, où les k classes sont présentées horizontalement.
Notons que les valeurs de Ncc et Fcc (resp. Ncd et Fcd ) sont celles des extrémités
supérieures (resp. inférieures) des classes.
représentation suivante :
i classe ni fi Ncc Ncd Fcc Fcd centre
1 0 − 6 000 12 0.54 12 22 0.54 1 3 000
2 6 000 − 12 000 7 0.31 19 10 0.85 0.46 9 000
3 12 000 − 18 000 1 0.05 20 3 0.9 0.15 15 000
4 18 000 − 24 000 1 0.05 21 2 0.95 0.10 21 000
5 24 000 − 30 000 0 0 21 1 0.95 0.05 27 000
6 30 000 − 36 000 1 0.05 22 1 1 0.05 33 000
∑
/// 22 1 /// /// /// /// ///
Remarque. Les règles, du choix du nombre de classes et de l’amplitude identique,
peuvent des fois donner des découpages présentant des défauts graves. C’est le cas de
l’exemple 1.2.3 puisque la majorité des données sont concentrées dans 2 des 6 classes. Il
vaut mieux faire un découpage en classes d’amplitudes inégales. On opte alors pour des
classes fines là où le caractère est plus fréquent, et des classes larges là où le caractère
est rare.
Exemple 1.2.4. En reprenant la série brute de l’exemple 1.1.3 et en optant toujours
pour 6 classes et en s’inspirant du résultat trouvé dans l’exemple 1.2.3, on peut proposer
le découpage suivant qui paraît plus intéressant.
i classe ai ni fi Ncc Ncd Fcc Fcd centre
1 0 − 4 000 4 000 3 0.14 3 22 0.14 1 2 000
2 4 000 − 5 000 1 000 3 0.14 6 19 0.28 0.86 4 500
3 5 000 − 8 000 3 000 6 0.27 12 16 0.55 0.72 6 500
4 8 000 − 10 000 2 000 3 0.14 15 10 0.69 0.45 9 000
5 10 000 − 12 000 2 000 4 0.18 19 7 0.87 0.31 11 000
6 12 000 − 36 000 24000 3 0.13 22 3 1 0.13 24 000
∑
/// /// 22 1 /// /// /// /// ///
a– Caractère qualificatif
1— Secteurs circulaires = Graphe en Camembert
C’est la représentation, du nom du fameux fromage, des éléments d’un tout en
pourcentages ou en fréquences, par un cercle complet ou un demi-cercle.
Chaque modalité de fréquence fi est représentée par un secteur d’angle au centre θi
(en degré) donné par : θi = 360.fi dans le cas d’un cercle complet, ou θi = 180.fi dans
le cas d’un demi-cercle.
Exemple 1.2.5. Reprenons le caractère X = "Qualification du personnel" de l’exemple 1.2.1.
xi fi θi = 180fi
Cadre Supérieur 0.04 7.2
Cadre M oyen 0.16 28.8
Employé 0.3 54
Ouvrier 0.5 90
∑
1 180
Alors, le graphe en Camembert en demi-cercle de la distribution de la Qualification dans
l’entreprise est :
2— Tuyaux d’orgue
C’est un ensemble de rectangles de base constante et de hauteur proportionnelle à
l’effectif ou à la fréquence.
Remarques.
• Les rectangles peuvent être horizontaux ou verticaux.
• L’effectif ou la fréquence peut être indiqué en haut du rectangle ou sur une échelle.
1— Diagramme en bâtons
A chaque modalité xi , on fait correspondre un segment vertical de longueur propor-
tionnelle à l’effectif ou à la fréquence.
En joignant les sommets des bâtons, on obtient un polygone appelé polygone des
effectifs ou des fréquences.
Remarques.
• Les bâtons peuvent être horizontaux ou verticaux.
• Il est plus facile de comparer des polygones que des diagrammes en bâtons.
2— Courbes cumulatives
Ce sont les représentations graphiques des fonctions cumulatives croissantes ou dé-
croissantes, des effectifs ou des fréquences. Ce sont des fonctions en escalier, continues
respectivement à droite et à gauche.
Remarque. Les deux courbes cumulatives peuvent être représentées dans le même
graphique.
1.3 Caractéristiques
Les tableaux et les graphes permettent d’obtenir une première image de la distri-
bution des données. Pour améliorer cette image, on introduit de nouvelles valeurs qui
caractériseront la distribution.
a– Mode = Dominante
Définition 1.3.1. — On appelle mode de la distribution du caractère qualitatif ou
quantitatif discret X, la modalité qui possède l’effectif ou la fréquence le ou la plus
élevé. On le note Mo(X) ou tout simplement Mo, et on l’appelle aussi dominante.
Définition 1.3.2. — Soit X un caractère continu donné par classe. On appelle classe
modale, la classe qui possède l’effectif moyen ou la fréquence moyenne le ou la
plus élevé. On prend alors pour mode le centre de la classe modale.
b– Médiane
Définition 1.3.3. — On appelle médiane de la distribution du caractère X, la mo-
dalité qui partage la série statistique en deux parties égales. Plus précisément, à la
médiane il y a autant d’individus pour lesquels on a observé une valeur supérieure, que
d’individus pour lesquels on a observé une valeur inférieure.
On la note X1/2 ou M e(X) ou M e.
Preuve :
Evidente
1.3. CARACTÉRISTIQUES 15
Remarques.
• La médiane n’est pas liée à la valeur numérique des données mais à leur position
les unes par rapport aux autres, et à leur nombre. Ce qui la rend donc non affectée
par les valeurs abérrantes.
• Noter que par définition, la médiane est une modalité.
1— Calcul de la médiane dans le cas discret
N
On calcule Ncc (x) ou Fcc (x) et on repère dans le tableau statistique la valeur ou
2
0.5. Si cette valeur apparaît entre deux lignes du tableau, on prend pour médiane la
valeur qui correspond à la ligne la plus basse.
Exemple 1.3.3. Soient les notes attribuées aux 158 candidats à un concours
note effectif Ncc note effectif Ncc
0 2 2 10 17 109
1 0 2 11 12 121
2 3 5 12 12 133
3 3 8 13 10 143
4 5 13 14 8 151
5 0 13 15 5 156
6 9 22 16 0 156
7 10 32 17 0 156
8 28 60 18 1 157
←− N
2
= 79
9 32 92 19 1 158
La note médiane est donc 9.
N
La classe médiane, qui correspond au cumul en = 50 étudiants, est [66, 69[.
2
L’interpolation linéaire permet d’écrire :
M e − 66 50 − 23
=
69 − 66 65 − 23
D’où,
50 − 23
M e = 66 + (69 − 66). ≃ 67.93 kg
65 − 23
c– Quartiles
Définition 1.3.4. — On appelle quartiles, les trois modalités du caractère X qui
partagent la distribution en quatre parties égales. On les note X1/4 ou Q1 , X1/2 ou Q2
et X3/4 ou Q3 et on les appelle respectivement premier, deuxième et troisième quartile.
Théorème 1.3.2. — On a,
N 3N 1 3
• Q1 est tel que : Ncc (Q1 ) = ou Ncd (Q1 ) = ou Fcc (Q1 ) = ou Fcd (Q1 ) = .
4 4 4 4
• Q2 = M e
3N N 3 1
• Q3 est tel que : Ncc (Q3 ) = ou Ncd (Q3 ) = ou Fcc (Q3 ) = ou Fcd (Q3 ) = .
4 4 4 4
Preuve :
Evidente
1.3. CARACTÉRISTIQUES 17
N 3N
Remarque. Leur détermination se fait comme pour la médiane en repérant 4
ou 4
ou 41 ou 34 .
Exemple 1.3.6. Le tableau qui suit représente le temps en minutes requis pour satis-
faire les demandes d’un échantillon de 100 clients d’un certain service :
N
Le premier quartile, qui correspond au cumul de = 25 demandes, est 60 mn déduit
4
directement du tableau.
3N
La classe contenant le troisième Quartile, qui correspond au cumul de = 75 de-
4
mandes, est [65, 70[. L’interpolation linéaire permet d’écrire :
Q3 − 65 75 − 65
=
70 − 65 90 − 65
D’où,
75 − 65
Q3 = 65 + (70 − 65). = 67 mn
90 − 65
et graphiquement, on a
d– Moyennes
Définition 1.3.5. — Soit X un caractère quantitatif de distribution {(xi , ni )} ou
{(xi , fi )} avec xi modalité dans le cas discret ou centre de la classe n˚i dans le cas
continu. On appelle moyenne arithmétique ou tout simplement moyenne de X, le
nombre noté X, qu’on lit "X barre" et défini par :
1 ∑ ∑
X := ni xi = fi xi
N i i
i 1 2 3 4 5 ///
∑
xi 0 1 2 3 4
ni 4 8 0 3 2 17
ni xi 0 8 0 9 8 25
1 ∑ 25
Le nombre moyen d’enfants est : X = ni .xi = ≃ 1.47 enf ant.
N i 17
poids (kg) xi ni ni xi
60 − 63 61.5 5 307.5
63 − 66 64.5 18 1 161
66 − 69 67.5 42 2 835
69 − 72 70.5 27 1 903.5
72 − 75 73.5 8 588
∑
/// 100 6 795
1 ∑ 6795
Le poids moyen des étudiants est : X = ni .xi = = 67.95 kg.
N i 100
Remarques.
• La moyenne est très sensible aux valeurs extrêmes bien qu’elle est très utilisée.
• Pour effectuer le calcul de la moyenne de données brutes, il suffit d’additionner
toutes les données et de diviser par le nombre des données.
Preuve :
On a,
∑
Q(a) = fi (xi − X + X − a)2
∑
i ∑ ∑
= fi (xi − X)2 + 2(X − a) fi (xi − X) + (X − a)2 fi
i (∑ i ∑ ) i
= Q(X) + 2(X − a) fi xi − X. fi +(X − a)2 .1
i i
| {z }
=0
= Q(X) + (X − a)2
Donc, Q est minimale si et seulement si (X − a)2 = 0, c’est-à-dire a = X
20 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
a– Etendue
Définition 1.3.6. — La différence entre la plus grande et la plus petite modalité d’un
caractère X est appelée étendue notée e(X) ou e.
Remarque. C’est une caractéristique très affectée par les données aberrantes. On ne
l’utilise que pour avoir une première idée de la dispersion.
Remarque. Ces écarts permettent d’éviter les ou certaines valeurs extrêmes qui sont
la plupart du temps aberrantes.
c– Variance et Ecart-type
Définition 1.3.8. — Soit X un caractère quantitatif de distribution {(xi , ni )} ou
{(xi , fi )} avec xi modalité dans le cas discret ou centre de la classe n˚i dans le cas
continu. On appelle variance de X, le nombre noté V ar(X) ou σ 2 (X) ou σ 2 et défini
par :
1 ∑ ∑
σ 2 (X) := ni (xi − X)2 = fi (xi − X)2
N i i
Remarque. L’écart-type permet de mesurer le risque de voir une valeur observée éloi-
gnée de la moyenne.
1.3. CARACTÉRISTIQUES 21
1 ∑ 852.75
σ 2 (X) = ni (xi − X)2 = = 8.5275 ≃ 8.53 Kg 2
N i 100
√ √
Son écart-type est : σ(X) = σ 2 (X) = 8.5275 ≃ 2.92 kg.
1 ∑N
Remarque. Dans le cas d’une série brute (Xi )1≤i≤N , on a : σ 2 (X) = (Xi − X)2 .
N i=1
1 ∑ 2 ∑ 2
σ 2 (X) = ni x2i − X = fi x2i − X
N i i
Preuve :
On a,
1 ∑ 1 ∑ 2
σ 2 (X) = ni (xi − X)2 = (ni x2i − ni 2 xi X + ni X )
N i N i
1 ∑ 1 ∑ 2 1 ∑
= ni x2i − 2 X ni x i + X ni
N i N i N i
1 ∑ 2 ∑ 2
= ni x2i − 2X.X + X = ni x2i − X
N i i
Remarque. Le calcul de la variance par la formule de Kœnig limite les erreurs d’ar-
rondis, car la moyenne n’intervient qu’une seule fois, alors que dans la formule de la
définition, elle intervient i fois. Ce qui la rend plus utilisable.
22 CHAPITRE 1. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
1 ∑ 1 ∑
1. V ar(α) = ni α2 − α2 = α2 ni − α2 = α2 .1 − α2 = 0
N i N i
1 ∑ 2 1 ∑ 2
2. V ar(αX) = ni (α.xi )2 − αX = α2 ni x2i − α2 X = α2 .V ar(X)
N i N i
1 ∑ [ ]2 1 ∑ [ ]2
3. V ar(X + α) = ni xi +α−X + α = ni xi +α−X −α = V ar(X)
N i N i
Théorème 1.3.8. — Règle de Tchebycheff
Pour tout ensemble de données et tout nombre k ≥ 1, la proportion de données dans
1
l’intervalle ]X − kσ, X + kσ[ est supérieure ou égale à 1 − 2 .
k
Preuve :
La proportion de données dans l’intervalle ]X − kσ, X + kσ[ est,
∑ ∑
fi = 1 − fi
i:|xi −X|<kσ i:|xi −X|≥kσ
1 ∑
= 1− (kσ)2 fi
k σ2
2
i:|xi −X|≥kσ
1 ∑
≥ 1− 2 2 (xi − X)2 fi
k σ i:|xi −X|≥kσ
1 ∑ 1 1
≥ 1− 2 2
(xi − X)2 fi = 1 − 2 2 .σ 2 = 1 − 2
k σ i k σ k
Remarque. On a donc,
d– Cœfficient de Variation
Définition 1.3.10. — On appelle cœfficient de variation, le nombre sans dimen-
sion, souvent exprimé en pourcentage, noté Cv et défini par :
σ(X)
Cv =
X
Remarques.
• Le cœfficient de variation donne une idée du degré d’homogénéité de la distribu-
tion : plus Cv est faible plus la distribution est homogène.
• Le cœfficient de variation permet de comparer deux séries statistiques. Par exemple,
si l’on veut comparer la dispersion des salaires au Maroc et en Algérie, l’utilisation
de Cv évite le problème lié aux unités monétaires.