Académique Documents
Professionnel Documents
Culture Documents
Stat
Stat
STATISTIQUE DESCRIPTIVE
Pr. Mohamed El Omari
Enseignant Chercheur, Spécialité : Statistique et Probabilités
Ancien Inspecteur Pédagogique, AREF Laâyoune-Sakia El Hamra
Contents
I COURS 2
1 Introduction et terminologie 2
1.1 Population, échantillon et variable statistique . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Types de variable statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Eectif, fréquence et pourcentage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 TRAVAUX DIRIGES 3
2.1 Exercice 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Exercice 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Représentation des données statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II TRAVAUX DIRIGES 12
6 Exercices 12
6.1 Exercice 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
6.2 Exercice 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6.3 Exercice 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6.4 Exercice 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6.5 Exercice 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6.6 Exercice 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
6.7 Exercice 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
6.8 Exercice 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
6.9 Exercice 12. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
6.10 Exercice 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
6.11 Exercice 14. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.12 Exercice 15. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.13 Exercice 16. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.14 Exercice 17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Part I
COURS
1 Introduction et terminologie
La statistique descriptive a pour but d'étudier une population à partir de données exhaustives. Cette
description se fait à travers
On parle de recensement lorsque l'on fait une étude exhaustive d'une population.
Lorsqu'on n'étudie qu'une sous-population dite échantillon, on parle alors d'un sondage.
Une variable statistique (ou caractère statistique), notée X, est une application dénie sur une
population statistique et à valeurs dans un ensemble M, appelé ensemble des modalités.
Une variable statistique dénit une partition sur une population, chaque individu appartenant à
une et une seule modalité.
Exemple 1:
Le personnel d'une entreprise peut être décrit selon divers caractères : .. .... .... ....... ..
Exemple 2:
Considérons les données graphiques suivantes :
Source: www.hcp.ma/region-rabat/attachment/775960/
Variable qualitative nominale : Une variable est dite qualitative nominale quand les
modalités ne peuvent pas être ordonnées.
Variable qualitative ordinale : Une variable est dite qualitative ordinale quand les modal-
ités peuvent être ordonnées. Le fait de pouvoir ou non ordonner les modalités est parfois
discutable. Par exemple : ..............
2. Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont
numériques.
Par exemple : ...... .... ..
Variable quantitative discrète : Une variable est dite discrète, si l'ensemble des valeurs
possibles est dénombrable.
Variable quantitative continue : Une variable est dite continue, si l'ensemble des valeurs
possibles est continu. Par exemple : ..............
nj
On écrit: fj = .
n
Le pourcentage pj d'une cette modalité xj est son eectif multiplié par 100. On écrit: pj =
fj × 100.
Remarques.
2 TRAVAUX DIRIGES
2.1 Exercice 1.
Pour évaluer les performances des élèves d'une classe collégiale en mathématiques, une épreuve a été
faite. On a obtenu la série suivante:
8 - 11 - 13 - 5 - 8 - 14 - 6 - 12 - 5 - 10
16 - 7 - 12 - 13 - 8 - 13 - 8 - 7 - 13 - 13
9 - 17 - 10 - 13 - 6 - 13 - 7 - 14
2. Quelle est la variable statistique? De quel type est-elle? Comment peut-on organiser les données?
2.2 Exercice 2.
On interroge 50 personnes sur leur dernier diplôme obtenu. La codication a été faite selon le tableau
suivant:
Dernier diplôme obtenu Modalité xj
Sans diplôme Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U
Sd · 0,08 ·
P 11 · ·
Se · · 28
Su 9 · ·
U · 0,24 ·
Total 50 · ·
Remarques:
Comme les tableaux statistiques, les graphiques permettent de réduire, de synthétiser les données
brutes d'une série statistique.
Les types de représentation graphiques sont toutefois diérents selon la nature et le type du carac-
tère étudié, il est donc indispensable, avant de choisir un mode de représentation, de rééchir sur
la nature des modalités.
Un bon graphique:
8) est exact en ce qui a trait à l'aspect visuel (par exemple, pour deux valeurs, une de 15 et
l'autre de 30, la deuxième devrait apparaître comme le double de la première).
Variable quantitative:
Variable qualitative:
Un paramètre est un nombre qui décrit une caractéristique de la population étudiée. Citons, à titre
d'exemples, le mode et la moyenne. Dans le cas d'un recensement, tous les paramètres peuvent être cal-
culés. Sauf au cas contraire, on considère la série statistique quantitative (brute) X = {x1 , x2 , · · · , , xn }.
On distingue alors trois types de paramètres: paramètres de position, de dispersion et de forme.
Le mode est la valeur distincte correspondant à l'eectif le plus élevé; il est noté Mo .
Remarques:
Le mode peut être calculé pour tous les types de variable, quantitative et qualitative.
Le mode n'est pas nécessairement unique. Une série statistique est dite uni-modale (resp. bi-
modale) si elle admet un unique mode (resp. deux modes).
Quand une variable continue est découpée en classes, on peut dénir une classe modale.
La moyenne:
La moyenne ne peut être dénie que sur une variable quantitative. La moyenne est la somme des
valeurs observées divisée par leur nombre; elle est noté µx ou x :
Pn
xi
i=1
µx = , (1)
Ppn
ni xi
= Pi=1
p , (2)
i=1 ni
La médiane:
La médiane d'une série statistique, dénotée Me , est une valeur telle que 50% des observations lui sont
supérieures et 50% lui sont inférieures. Si x(1) , x(2) , · · · , x(n) sont les données en ordre croissant alors
(
Me = x( n+1 ) , si n est impair,
2
Me = x( n ) , si n est pair.
2
Remarques:
? La médiane peut être calculée sur des variables quantitatives et sur des variables qualitatives
ordinales.
? Formellement, la médiane est la valeur pour laquelle la fréquence relative cumulée est égale à 1/2.
? Dans le cas où les données sont regroupées sous forme de classes, on parle de classe médiane. Pour
obtenir une valeur plus précise de la médiane, on procède à une interpolation linéaire.
Le quantile:
La notion de quantile d'ordre p (où 0 < p < 1) généralise la médiane. Formellement, un quantile est
la valeur xp pour laquelle la fréquence relative cumulée est égale à p.
IQ = Q3 − Q1 .
La variance : La variance notée σx2 (ou s2x ) est la somme des carrés des écarts à la moyenne
divisée par le nombre d'observations:
Pn
i=1 (xi − µx )2
σx2 = , (3)
Pp n
ni (xi − µx )2
i=1P
= p , (4)
i=1 ni
n
Sx2 = σ2 . (6)
n−1 x
p
L'écart-type est la racine carrée de la variance: σx = σx2 .
3.3 Moments, moments centrés
On considère la série statistique {xj , j = 1, 2, · · · , n}. On appelle moment d'ordre k ∈ N∗ par rapport
(k)
à la valeur a la quantité µ [a] dénie par :
n
1X k
µ(k) [a] = (xj − a)
n j=1
- Une distribution est parfaitement symétrique si le mode, la médiane et la moyenne sont iden-
tiques.
- Divers indicateurs peuvent être utilisés pour examiner l'asymétrie d'une série statistique. Ici, on
choisit le coecient de Fischer γ1 déni par :
(3)
µx
γ1 = , σx ̸= 0,
σx3
où σx et µ(3)
x désignent respectivement l'écart-type et le moment d'ordre 3 de la série statistique
en question.
γ1 = 0 distribution symétrique
- Le coecient γ2 est nul pour une distribution normale, positif ou négatif selon que la dis-
tribution est plus ou moins aplatie que la distribution normale de même moyenne et de même
écart-type.
4 Distribution statistique à deux variables
L'écart-type, malgré sa pertinence dans la mesure de la dispersion d'une série statistique, possède
un inconvénient majeur:
(b) Il est alors impossible de comparer les dispersions de deux séries statistiques ayant un lien
entre elles et dont les valeurs s'expriment dans des unités diérentes.
Pour comparer la dispersion de deux séries qui ne sont pas exprimées dans les mêmes unités, on
utilise le coecient de variation noté CV.
Le CV d'une série statistique {x1 , · · · , xn } de moyenne µx et d'écart type σx est déni par
σx
CV = .
µx
Une pratique empirique courante est de considérer que la série possède une variabilité signicative
si CV > 0.15.
Si CV ≤ 0.15, les données présentent peu de variabilité et on considère que la moyenne empirique
à elle seule est un bon résumé de toute la série.
(x1 , y1 ), · · · , (xm , ym ).
Chacune des variables X et Y peut être, soit quantitative, soit qualitative. On examine les deux cas
suivants.
La statistique la plus utilisée dans le contexte de deux séries numériques est la corrélation linéaire.
Pour la dénir, la notion de covariance doit être introduite.
σxy
ρxy = .
σx σy
On a: −1 ≤ ρxy ≤ 1.
Si ρxy = +1 alors il y a corrélation parfaite (positive) entre les xi et les yi . Les points Mi (xi , yi )
sont alignés sur une droite de pente positive.
Si ρxy = −1 alors il y a corrélation parfaite (négative) entre les xi et les yi . Les points Mi (xi , yi )
sont alignés sur une droite de pente négative.
Si ρxy = 0 alors il n'y a pas de corrélation entre les xi et les yi . Les points Mi (xi , yi ) sont distribués
au hasarddans le plan.
Le but de la régression simple est d'expliquer une variable Y à l'aide d'une variable X. La variable Y est
appelée variable dépendante, ou variable à expliquer et la variable X est appelée variable indépendante,
ou variable explicative. Remarques:
Il est indispensable de commencer par l'étude corrélation entre X et Y avant de chercher une ligne
de régression entre X et Y.
La régression dière de l'analyse de la corrélation où toutes les variables jouent un rôle symétrique
(pas de variable dépendante versus indépendante).
Toutefois, tout comme dans le contexte de l'analyse de la corrélation, il faut être prudent lorsqu'on
formule des relations de causalité! L'existence d'une relation entre X et Y n'implique pas néces-
sairement une relation de causalité entre elles.
Y = aX + b + Erreur.
Les paramètres a et b sont inconnus et estimés par la méthode des moindres carrés.
Pn
σXY (x − x)(yi − y)
b
a = 2 =
Pn i
i=1
2
,
σX i=1 (xi − x)
bb = y−b
a x,
où x et y désignent les moyennes des séries d'observations de obtenues à partir des variables X et
Y, respectivement.
n
X n
X
e2i = (yi − axi − b)2 , a, b ∈ R.
i=1 i=1
Un des buts de la régression est de proposer des prédictions pour la variable à expliquer Y lorsque
nous avons de nouvelles valeurs de X.
ax0 + bb.
y0 = b
Exemple 1: Le tableau suivant donne l'évolution du nombre de spectateurs (en millions) dans les
salles de cinéma en France sur une période de 7 ans.
Année 1989 1993 1994 1995 1996
Rang (Xi ) 0 4 5 6 7
Représenter la série statistique (Xi , Yi ) par un nuage de points, et préciser le point moyen M.
Donner une équation de la droite de régression (∆) de Y en X par la méthode des moindres carrés.
Exemple 2: On a relevé pour chacune des années t de 1920 à 1929, numérotées de 1 à 10, la
température moyenne X des mois d'été (en degrés centigrades) et la mortalité infantile Y (nombre de
décès d'enfants de moins d'un an pour 1000 naissances vivantes).
t 1 2 3 4 5 6 7 8 9 10
X 15,9 18,8 15,4 18 14,6 16,2 17,9 16,5 18,1 19,8
Y 98 116 87 96 85 89 97 83 91 95
Y
y1 ··· yj ··· yq Eectif marginal
X
x1 n11 ··· n1j ··· n1q n1·
.
.
.
q
X
xi ni1 ··· nij ··· niq ni· = nij
j=1
.
.
.
xp np1 ··· npj ··· npq np·
Xp
Eectif marginal n·1 ··· n·j = nij ··· n·q n = n··
i=1
On obtient le tableau des prols lignes (resp. colonnes) par la division des lignes (resp. colonnes)
du tableau contingence par leur eectifs marginaux.
On obtient le tableau des fréquences conjointes et les fréquences marginales par la division
des lignes du tableau contingence par l'eectif total.
ni· n·j
nij =
n
L'indépendance est un cas extrême que l'on rencontre rarement à l'état pur dans la pratique.
p X
X q ni· n·j 2
nij −
χ2 = n
ni· n·j .
i=1 j=1 n
Le problème du χ 2
est qu'il dépend de la taille de la population n et des nombres de modalités p
et q.
Que peut alors signier grand dans ce cas?
(a) Si les deux caractères qualitatifs X et Y sont indépendants, alors fj/i = f·j et fij = fi· f·j .
Un indice est la valeur d'une grandeur par rapport à une valeur de référence. Prenons l'exemple du
tableau ci-dessous contenant le prix pt (exprimé en MAD) d'un bien de consommation de 2000 à 2006.
pt
I(t/t′ ) = 100 × , t, t′ = 0, 1, · · · , 6.
pt′
Considérons un indice quelconque I(t/0) (avec 0 est le temps le temps de référence). On dit que
cet indice possède les propriétés de
- réversibilité si I(t/0) × I(0/t) = 1002 .
- identité si I(t/t) = 100.
- transitivité si I(t/u) × I(u/s) = 100 × I(t/s).
Il est facile de montrer que ces trois propriétés sont satisfaites pour un indice simple.
Un indice synthétique est une grandeur d'un ensemble de biens par rapport à une année de référence.
On ne peut pas construire un indice synthétique en additionnant simplement des indices simples.
Il existe deux méthodes fondamentales pour calculer les indices de prix, l'indice de Paasche et
l'indice de Laspeyres.
où
L'indice de Fisher
Part II
TRAVAUX DIRIGES
6 Exercices
6.1 Exercice 3.
6.2 Exercice 4.
Une population de ménages a été répartie en fonction du nombre de parts familiales permettant le calcul
de l'impôt sur le revenu.
6.3 Exercice 5.
Le responsable des ressources humaines d'une entreprise a relevé la distribution statistique suivante
correspondant à l'ancienneté du personnel cadre dans l'entreprise, exprimée en années:
Classes Eectifs
[6,5 ; 8[ 3
[8 ; 9,5[ 8
[9,5 ; 11[ 12
[11 ; 12,5[ 19
[12,5 ; 14[ 9
[14 ; 15,5[ 5
[15,5 ; 17[ 4
Total 60
4. Représenter les courbe des fréquences cumulées croissantes et décroissantes, et déterminer leur
point d'intersection.
6.4 Exercice 6.
Dans une salle, 9 personnes sont assises, leur moyenne d'âge est de 25 ans. Dans une autre salle, 11
personnes sont réunies, leur moyenne d'âge est de 45 ans. On rassemble les deux groupes de personnes.
Calculer la moyenne d'âge du groupe ainsi constitué.
6.5 Exercice 7.
Deux tireurs X et Y s'arontent en vue d'une sélection lors d'une épreuve comportant 25 tirs sur cible.
Les résultats obtenus ont été consignés dans le tableau suivant:
Points 50 30 20 10 0
X 5 7 6 5 2
Y 7 4 6 4 4
1. La moyenne par tir permet-elle de départager les deux concurrents? Que se passe-t-il si on élimine
les cinq plus mauvais tirs de chacun.
2. Calculer la médiane des deux série. Peut-on départager les deux concurrents?
3. Représenter par deux histogrammes, l'un sous l'autre les séries obtenues par X et Y. Quel est
d'après vous le tireur le plus régulier.
6.6 Exercice 8.
Le tableau suivant indique la répartition des familles d'une ville Aselon leur nombre d'enfants:
a. au moins 1 enfant ?
b. au plus 2 enfants ?
6.7 Exercice 9.
Le tableau suivant donne une partition d'une population en sous groupes selon l'activité et les ressources
matérielles.
Soit X = {x1 , x2 , · · · , xn } une série statistique de moyenne x et de variance s2x . Exprimer la moyenne
et la variance de chacune des séries suivantes en fonction de x et s2x .
Y = {ax1 , ax2 , · · · , axn }, avec a ∈ R,
Z = {(x1 + b), (x2 + b), · · · , (xn + b)}, avec b ∈ R.
6.9 Exercice 12.
Le tableau suivant donne la répartition des salaires moyens mensuels (en MAD) dans deux entreprises,
selon sexe.
1. Déterminer les caractères étudiés et leur nature. Puis représenter cette population par un graphique
convenable.
2. Préciser le mode des caractères étudiés dans chacune des entreprises A et B. Quelle entreprise
paraît-elle bonne pour un nouvel employé?
3. Calculer le salaire moyen dans chacune des entreprises A et B. Que peut-on déduire?
Le tableau ci-dessus donne la répartition de 500 ménages d'employés résidant dans des grandes villes de
5
province (10 habitants et plus) suivant la dépense totale X (en francs par personne et par semaine) et
la dépense d'habillement Y (Enquête réalisée en 1951 par l'INSEE).
2. Représenter les données du tableau ci-dessus par un nuage de points, en précisant le point moyen
M (x, y).
3. Calculer ρ le coecient de corrélation entre les deux variables log10 (X) et log10 (Y ), et interpréter
le résultat.
1. Proposer un graphique convenable pour comparer les durées hebdomadaires du travail des salariés
dans les trois années en question.
2. Quel pays a vu peu de changement dans les durées hebdomadaires du travail des salariés entre 1990
et 2000?
Le graphique suivant donne la distribution des salaires (en MAD) des employés d'une entreprise A.
2. Dresser le tableau d'eectifs cumulés de la série statistique en question. En déduire les quartiles
de cette série.
Dans une entreprise de constructions métalliques, en n d'année, on fait le bilan des diverses formations
suivies par les salariés. On considère uniquement les stages de formation continue et l'on s'intéresse au
nombre de jours de formation selon les catégories de personnel.
On a questionné 100 ménages sur le nombre d'ampoules électriques utilisées dans leur domicile. Dans le
premier tableau, les données sont regroupées par nombre d'ampoules.
Table 3: Source: Fabrice, MAZEROLLE. Statistique descriptive: Séries statistiques à une et deux variables,
Séries chronologiques, Indices , p. 47