Académique Documents
Professionnel Documents
Culture Documents
2022 Statistique Descriptive Support Cours-1
2022 Statistique Descriptive Support Cours-1
PREMIERE ANNEE
STATISTIQUE DESCRIPTIVE
Support de cours
ENSEIGNANT :
Courriel : amacioze@gmail.com
DECEMBRE 2022
0
PLAN DU COURS
3.1 Le mode............................................................................................................................... 14
Cas d’une variable quantitative discrète (non classé) ....................................................... 14
Cas d’une variable quantitative continue ou discrète classée......................................... 14
3.2 La moyenne ........................................................................................................................ 15
3.3 Moyenne pondérée........................................................................................................... 15
3.4 La médiane ......................................................................................................................... 16
3.5 Quantiles ............................................................................................................................. 17
3.6 L’étendue ............................................................................................................................ 17
3.7 La distance interquartile ................................................................................................. 17
3.8 La variance ......................................................................................................................... 17
3.9 L’écart-type ........................................................................................................................ 18
2
Chapitre 1 : Préliminaires
1.1 Définitions fondamentales
1.1.1 La science statistique
En tant que science d'analyse de données, la statistique vise notamment à décrire des
informations de manière synthétique en vue de les analyser. Le cours explique les notions
fondamentales de la statistique : population, échantillon, individu, variables, distributions de
fréquences, etc. Le cours expose les variables qualitatives et quantitatives. Les
représentations graphiques sont expliquées y compris en termes d'impact sur la visualisation
des données. Le cours permet aux étudiants d'aborder les phénomènes politiques et sociaux
1
https://insae.bj/statistiques/statistiques-agricoles
2
https://insae.bj/statistiques/statistiques-sociales
3
à partir de questions fondamentales en statistique. Par exemple, comment les phénomènes
politiques et sociaux peuvent être formulés en termes quantitatifs ?
Au terme de cet enseignement, l'étudiant sera capable :
de maîtriser les concepts de base (terminologie) de la statistique ;
de maîtriser les notions essentielles sur les distributions statistiques (à un caractère) ;
d'établir les caractéristiques opérationnelles des statistiques de base (moyenne,
proportion).
1.1.3 Notions de base
Sur les unités, on mesure un caractère ou une variable, le sexe, le revenu du ménage, l’âge
de la personne, la catégorie socioprofessionnelle d’une personne. Les critères étudiés
constituent des caractères. On suppose que la variable ou le caractère prend toujours une
4
seule valeur sur chaque unité. Les variables sont désignées par simplicité par une lettre (X, Y,
Z).
Les valeurs possibles de la variable, sont appelées modalités.
L’ensemble des valeurs possibles ou des modalités est appelé le domaine de la
variable.
On ne peut associer à certains d'entre eux ni une valeur numérique, ni un ordre naturel (par
exemple : le sexe ou la situation matrimoniale). De tels caractères sont appelés caractères
qualitatifs.
Certains caractères prennent des valeurs numériques (par exemple : l’âge des enseignants).
Ce sont des caractères quantitatifs.
1.1.4 Typologie des variables
Variable qualitative : La variable est dite qualitative quand les modalités sont des catégories.
Exemple : Les modalités de la variable sexe sont masculin (codé M) et féminin (codé F).
Le domaine de la variable est {M, F}.
Variable qualitative nominale : La variable est dite qualitative nominale quand les
modalités ne peuvent pas être ordonnées.
Exemple 1.3 On s’intéresse à la variable état-civil ou situation matrimoniale notée X. La
codification est
C : célibataire,
M : marié(e),
V : veuf(ve),
D : divorcée.
Variable qualitative ordinale : La variable est dite qualitative ordinale quand les
modalités peuvent être ordonnées.
Le fait de pouvoir ou non ordonner les modalités est parfois discutable. Par exemple, dans les
catégories socioprofessionnelles, on admet d’ordonner les modalités : ‘ouvriers’, ‘employés’,
‘cadres. Si on ajoute les modalités ‘sans profession’, ‘enseignant’, ‘artisan’, l’ordre devient
beaucoup plus discutable.
Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont
numériques.
Variable quantitative discrète : Une variable est dite discrète, si l’ensemble des
valeurs possibles est dénombrable.
Exemple : Les modalités de la variable nombre d’enfants par famille sont 0,1,2,3,4,5, . . .C’est
une variable quantitative discrète. Il ne peut jamais prendre une valeur strictement comprise
entre 0 et 1, ou 1 et 2, ou 2 et 3, . . ..
Variable quantitative continue : Une variable est dite continue, si l’ensemble des
valeurs possibles est continu. Les variables quantitatives continues peuvent prendre
toute valeur dans un intervalle.
5
Exemple, le chiffre d’affaire par PME peut être 29000,1 FCFA, 29000,12FCFA, . . ., même si
dans la pratique il faut l’arrondir.
1.1.5 Série statistique
On appelle série statistique la suite des valeurs prises par une variable X sur les unités
d’observation. Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées : x1, . . ., xi, . . ., xn
Exemple : On s’intéresse à la variable état-civil notée X et à la série statistique des valeurs
prises par X sur 20 personnes. La codification est
C : célibataire,
M : marié(e),
V : veuf(ve),
D : divorcée.
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :
MMDCCMCCCM
CMVMVDCCCM
Ici, n = 20, x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . .., x20 = M.
Exercice n°1
Exercice n°2 :
Dans le cadre de l’évaluation des besoins en infrastructures de développement, on étudie le
nombre d’enfants par ménage dans le département du Taneka qui dispose d’une population
de 850 ménages. Dans l’impossibilité de parcourir l’ensemble des ménages du département,
l’enquêteur a procédé à un tirage au sort de n ménages qui ont pris part à l’enquête.
Questions
6
1. Indiquer l’unité d’observation étudiée
2. Préciser la variable étudiée et indiquer sa nature
3. Citer les modalités de la variable étudiée
4. Préciser la population statistique étudiée
D'une manière générale, la statistique considère des phénomènes qui ne sont pas toujours
accessibles à l’expérience. La méthode statistique comporte essentiellement trois phases.
1.2.1 Phases d’une enquête statistique
i. Une phase matérielle
Une enquête statistique comporte toujours une phase initiale où il s'agit de collecter des
renseignements. Il s'agit de rassembler des données, de les regrouper et de les présenter
sous forme de tableaux ou graphes.
ii. Une phase analytique :
Elle consiste à réduire les données à un nombre limité de paramètres caractéristiques
(moments d’ordre 1, 2, 3, ...) susceptibles de décrire la série statistique. L’ensemble de ces
deux phases constitue l'objet essentiel de la statistique descriptive (ou déductive) dont les
résultats restent limités aux échantillons étudiés.
iii. Une phase interprétative
C’est à la base de la statistique inductive, et qui permet de déduire des résultats obtenus sur
un échantillon des conclusions relatives à l’ensemble de la population d'où est extrait cet
échantillon.
Ces conclusions doivent tenir compte de la marge d'erreur due au fait que les données sont
seulement partielles. Les méthodes utilisées n'ont de sens que si elles sont justifiées par des
résultats ultérieurs.
1.2.2 Théorie d’échantillonnage
La théorie de l’échantillonnage est évoquée lorsqu’on ne peut étudier l’ensemble des unités
statistiques de la population concernée. Il faut que l'échantillon soit prélevé d'une manière
aléatoire, c’est-à-dire que tous les individus de la population aient la même chance d'être
prélevés. Il convient de s’assurer que l’échantillon est bien représentatif de cette population,
ce qui sera précisé dans la théorie de l’échantillonnage.
7
Chapitre 2 : Tableau et graphes
L’objet du présent chapitre sera limité à l’étude des différentes manières de présenter une
série statistique.
2.1 Variable qualitative nominale
Pour un groupe de 15 étudiants, on a observé les valeurs des variables : Couleur des Yeux,
Sexe, Mention au Bac et Note à l’Examen de Statistique. Ainsi, le tableau de données suivant
a été obtenu. Ces données seront souvent utilisées dans ce chapitre.
Couleur des Note à l’épreuve
Individu Sexe Mention au Bac
Yeux de statistique
Jacques V H P 12
Alice B H AB 10
Bob N H P 13
Rémi M H P 11
Fati B F AB 10
Jean V F P 9
Michel N H B 16
Roméo M H AB 14
Loïc B F P 11
Dan V F P 15
Ruth N F P 4
Adèle B F TB 18
Zakiath V H AB 12
Serge N H P 6
Marc M F P 2
On représente les variables Couleurs des Yeux, Sexe et Mention au Bac par des diagrammes
en bâtons. On notera que chacun des individus appartient à une seule modalité de chacune
de ces 3 variables. En effet, on ne peut avoir des individus dont les yeux possèdent plusieurs
couleurs (on exclut les cas d’hétérochromie). On ne peut pas avoir non plus un individu qui
soit à la fois Homme et Femme (on exclut les cas d’hermaphrodisme). Enfin, un même individu
ne peut obtenir plusieurs mentions au Bac.
Etudions l’exemple de la variable Couleurs des Yeux. On commence d’abord par compter le
nombre d’individus appartenant à chacune des modalités de cette variable : nB = 4 individus
ont les yeux bleus, nM = 3 ont les yeux marrons, nN = 4 ont les yeux noirs et nV = 4 ont les yeux
verts.
Exercice : Il faut résumer tout cela dans le tableau récapitulatif et refaire le même
cheminement pour la variable Mention au Bac
On constate que les étudiants sont répartis inégalement entre les différentes modalités de la
variable Mention au Bac. Une première façon d’apprécier la répartition d’une variable est de
construire un tableau de répartition des effectifs et des fréquences entre les différentes valeurs
possibles de la variable. De façon générale, la fréquence d’une modalité « M » d’une variable
qualitative se calcule au moyen de la formule suivante :
(𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑎𝑛𝑡 à M)
𝑓𝑀 = 𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑑𝑒 𝑙𝑎 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é "M" d'une variable qualitative=
𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙
PM pourcentage des individus correspondant à la modalité "M" = f M x 100
8
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas être ordonnées.
On note j le nombre de valeurs distinctes ou modalités.
Somme des fréquences de toutes les modalités d’une variable qualitative = 1
Somme de tous les pourcentages correspondant aux modalités d’une variable qualitative =100
Exercice : Construire le tableau de répartition de la variable Mention au Bac
𝒏𝒋
fj = , j = 1, . . ., J.
𝒏
xj nj fj
C
M
V
D
n=20 1
L'effectif total
Le nombre de classes
L'amplitude de la classe
9
2.1.2 Diagramme en secteurs et diagramme en barres
Le tableau statistique d’une variable qualitative nominale peut être représenté par deux types
de graphique. Les effectifs sont représentés par un diagramme en barres et les
fréquences par un diagramme en secteurs (ou camembert en anglais).
2.2 Variable qualitative ordinale
2.2.1 Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce qu’on éfrit
x1 ≺ x2 ≺ · · · ≺ xj−1 ≺ xj ≺ · · · ≺ xJ−1 ≺ xJ .
La notation x1 ≺ x2 se lit x1 précède x2.
Si la variable est ordinale, on peut calculer les effectifs cumulés :
𝑗
𝑁𝑗 = ∑ 𝑛𝑘, 𝑗 = 1, . . . , 𝐽.
𝑘=1
Codification de la variable Y
Dernier diplôme obtenu xj
Sans diplôme Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U
Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U
10
2.3 Variable quantitative discrète
2.3.1 Le tableau statistique
Une variable discrète a un domaine dénombrable.
De façon générale à chaque valeur k d’une variable quantitative discrète correspond un
effectif, noté par 𝑛𝑘 ;
Il s’agit en fait du nombre des individus pour lesquels on a observé la valeur 𝑘
La fréquence 𝑓𝑘 de la valeur 𝑘 se calcule au moyen de la formule :
𝑓𝑘=𝑛𝑘
𝑁
Où 𝑛𝑘 désigne l’effectif correspondant à la valeur 𝑘 et N l’effectif total. Tout comme dans le
cas des variables qualitatives, en multipliant les fréquences par 100, on obtient les
pourcentages correspondants.
Exemple :
Un quartier est composé de 50 ménages, et la variable Z représente le nombre de personnes
par ménage. Les valeurs de la variable sont
1111122222
2222333333
3333333334
4444444445
5555566688
Comme pour les variables qualitatives ordinales, on peut calculer les effectifs, les effectifs
cumulés, les fréquences, les fréquences cumulées. A nouveau, on peut construire le tableau
statistique :
Xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0 .90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.00
Exercice :
Réaliser le tableau de Répartition de la variable " Note à l’épreuve de statistique "
11
Quand la variable est discrète, les effectifs sont représentés par des bâtonnets. La
représentation graphique des effectifs de chaque classe s’appelle l’histogramme des
effectifs ; on peut de la même façon réaliser l’histogramme des fréquences.
2.4 Variable quantitative continue
2.4.1 Le tableau statistique
Une variable quantitative continue peut prendre une infinité de valeurs possibles. La taille peut
être mesurée en centimètres, voire en millimètres. On peut alors traiter les variables continues
comme des variables discrètes.
L’établissement d’un tableau de répartition exige que l’on découpe l’intervalle de variation
d’une telle variable, en k sous-intervalles [x0; x1]; ]x1; x2]; : : : ; ]xk-1; xk]. Chacun de ces
intervalles est appelé classe ; l’idée étant que chaque classe forme une entité homogène qui
se distingue des autres classes. Le nombre de classes k doit être modéré (une dizaine au
maximum). L’amplitude de la classe [x0 ; x1], c’est-à-dire sa « largeur », est égale à a1 = x1- x0,
de même pour tout i = 2 ; : : : ; k l’amplitude de la classe ]xi-1; xi] est égale à ai = xi xi-1. Lorsque
la dernière classe est définie par « plus de . . . » son amplitude est alors indéterminée.
Le tableau regroupé en classe est souvent appelé distribution groupée.
Exercice :
Il faut créer des classes de notes (nombre d’individus ayant obtenu des notes comprises entre
0 et 4, entre 4 et 8, . . .) ; cette approche nous permet d’obtenir une variable dite classée. Il
faut effectuer le bornage des classes en excluant et incluant les valeurs en début et fin de
classe. Réaliser le tableau de Répartition de la variable classée " Note à l’épreuve de
statistique "
Soit le tableau ci-dessous donnant les notes obtenues par 40 étudiants à un examen de
statistique
12 9 7 1 13 18 12 3
4 6 9 14 5 0 6 15
7 10 3 5 9 5 6 9
0 7 13 8 4 4 11 3
10 12 6 5 8 0 1 7
A1. Quelle est la variable statistique ? De quel type est-elle ? Comment peut-on organiser les
données ?
A2. Regrouper les données en 4 classes d’amplitude 5. Indiquer pour chaque classe : son
effectif, sa fréquence exprimée en pourcentage.
12
2.4.2 Diagramme
Cependant, pour faire des représentations graphiques, il faut procéder à des regroupements
en classes.
L’histogramme des fréquences d’une telle variable est constitué de la juxtaposition de
rectangles dont les bases représentent les différentes classes, et dont les surfaces sont
proportionnelles aux fréquences des classes et par conséquent à leurs effectifs. Ainsi, à la i -
ème classe correspond un rectangle dont la base est l’intervalle ]xi-1; xi] (dans le cas particulier
i = 1, la base est l’intervalle [x0; x1]), et dont la surface est proportionnelle à la fréquence fi et à
l’effectif ni. Lorsque les classes ont toutes, la même amplitude, les hauteurs des rectangles
sont proportionnelles à leurs surfaces ; par conséquent les hauteurs des rectangles sont
proportionnelles aux fréquences et aux effectifs. Dans le cas où les classes sont d’amplitudes
inégales, la hauteur du rectangle correspondant à la i -ème classe sera hi = fi/ai (c’est-à-dire la
fréquence par unité d’amplitude) ou encore Hi = ni/ai (c’est-à-dire l’effectif par unité
d’amplitude).
Exercice : Finaliser le tableau de répartition de la variable quantitative continue "Revenus des
Contribuables soumis à l’impôt sur le revenu"
Réaliser l’histogramme des Fréquences de la variable "Revenus des Contribuables".
(L’échelle sur l’axe des abscisses est 1 millier de Francs et l’échelle sur l’axe des ordonnées
est 1=50000)
Effectif en 𝑯𝒂𝒖𝒕𝒆𝒖𝒓 𝑿
Classe de revenus Amplitude en 𝑭𝒓é𝒒𝒖𝒆𝒏𝒄𝒆
milliers Fréquence
en FCFA FCFA = 𝑿 𝟓𝟎𝟎𝟎
d’individus 𝑨𝒎𝒑𝒍𝒊𝒕𝒖𝒅𝒆
[0, 5000] 549,3 0,067 5000
13
Chapitre 3 : Paramètres de position et de dispersion
3.1 Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé ; il est noté xM. Si on
reprend la variable ‘Etat civil dont le tableau statistique est le suivant :
xj nj fj
C 9 0,45
M 7 0,35
V 2 0,10
D 2 0,10
n=20 1
Le mode est C : célibataire.
Remarque
Le mode peut être calculé pour tous les types de variable, quantitative et qualitative.
Le mode n’est pas nécessairement unique.
Quand une variable continue est découpée en classes, on peut définir une classe
modale (classe correspondant à l’effectif le plus élevé).
Cas d’une variable quantitative discrète (non classé)
Le mode correspond à la valeur de la variable pour laquelle l’effectif (ou la fréquence) est le
plus grand.
Exemple : Recensement des familles dans une population régionale dont le nombre d’enfants
de moins de 14 ans est le suivant :
Nombre Nombre
d’enfants de familles
0 2601
1 6290
2 2521
3 137
4 849
12398
14
3.2 La moyenne
La moyenne ne peut être définie que sur une variable quantitative. La moyenne est la somme
des valeurs observées divisée par leur nombre, elle est notée 𝑥̅ :
𝒏
𝒙𝟏 + 𝒙𝟐 + · · · + 𝒙𝒊 + · · · + 𝒙𝒏 𝟏
𝒙̅ = = ∑ 𝒙 𝒊.
𝒏 𝒏
𝒊=𝟏
∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + · · · + 𝑥𝑖 + · · · + 𝑥𝑛.
𝑖=1
15
𝒙𝐢 + 𝒙𝐢 + · · · + 𝒙𝒊 + · · · + 𝒙𝒊 = 𝒏𝒊 𝒙𝒊
𝒏 𝒌
𝟏
𝒙̅ = ∑ 𝒏𝒊 𝒙𝒊 = ∑ 𝒇𝒊 𝒙𝒊
𝒏
𝒊=𝟏 𝒊=𝟏
3.4 La médiane
La médiane, notée 𝑥1/2, est la valeur de cette variable qui permet de scinder la population
étudiée en deux sous-populations de même effectif. Plus précisément, il y a autant d’individus
pour lesquels on a observé une valeur supérieure à la médiane que d’individus pour lesquels
on a observé une valeur inférieure à la médiane. C’est une valeur centrale de la série
statistique obtenue de la manière suivante :
On trie la série statistique par ordre croissant des valeurs observées.
Avec la série observée :
3 2 1 0 0 1 2,
On obtient :
0 0 1 1 2 2 3.
0 0 1 1 2 2 3.
Nous allons examiner une manière simple de calculer la médiane. Deux cas doivent être
distingués.
Si n est impair, il n’y a pas de problème (ici avec n = 7), alors 𝑥1/2 = 1 :
Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)
00112234
16
La médiane est alors la moyenne de ces deux valeurs :
1+2
𝑥1/2 = = 1.5.
2
En général on note x(1), . . . , x(i), . . . , x(n)
La série ordonnée par ordre croissant. On appelle cette série ordonnée la statistique d’ordre.
Cette notation, très usuelle en statistique, permet de définir la médiane de manière très
synthétique.
Si n est impair
𝑛+1
X1/2 =𝑥( )
2
Si n est pair
1 𝑛 𝑛
𝑥1/2 = {𝑥 ( ) + 𝑥( + 1)}
2 2 2
Remarque 2.4 La médiane peut être calculée sur des variables quantitatives et sur des
variables qualitatives ordinales.
3.5 Quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane. Le quantile d’ordre p
d’une variable quantitative X, est la valeur xp de cette variable qui permet de scinder la
population étudiée en deux sous-populations dont les effectifs respectifs sont égaux à p et 1-
p de l’effectif de la population initiale. Lorsque X est continue, on peut déterminer xp au moyen
de l’égalité F(xp) = p.
Les quartiles de X sont ses trois quantiles 𝑥1 𝑥1 𝑥3
4 2 4
Q1 = 𝑥1 , s’appelle le premier quartile ; un quart des valeurs prises par X sont inférieures ou
4
égales à Q1. Q2 = 𝑥1 est la médiane. Q3 = 𝑥3 s’appelle le troisième quartile.
2 4
3.6 L’étendue
L’´étendue est simplement la différence entre la plus grande et la plus petite valeur observée.
E = x(n) − x(1).
3.7 La distance interquartile
La distance interquartile est la différence entre le troisième et le premier quartile :
IQ = 𝑥3 − 𝑥1 = Q3 -Q1
4 4
17
𝑛
1
𝑉𝑥 = ∑(𝑥𝑖 − 𝑥̅ )2
2
𝑛
𝑖=1
La variance peut aussi s’´écrire
𝑛
1
𝑉𝑥2 = ∑ 𝑥𝑖 2 − 𝑥̅ 2
𝑛
𝑖=1
La variance peut ´également être d´définie à partir des effectifs et des valeurs distinctes :
𝑛
1
𝑉𝑥 = ∑ 𝑛𝑗(𝑥𝑗 − 𝑥̅ )2
2
𝑛
𝑗=1
La variance peut aussi s’écrire
𝑛
1
𝑉𝑥 = ∑ 𝑛𝑗 𝑥𝑗2 − 𝑥̅ 2
2
𝑛
𝑗=1
3.9 L’écart-type
𝑆𝑥 = √𝑠𝑥2
18