Vous êtes sur la page 1sur 18

UNIVERSITE D’ABOMEY-CALAVI

Faculté de Droit et Sciences Politiques

PREMIERE ANNEE

STATISTIQUE DESCRIPTIVE

Support de cours

ENSEIGNANT :

Jules AGUESSY : Planificateur-Analyste de données- Spécialiste en politiques


publiques

Courriel : amacioze@gmail.com

DECEMBRE 2022

0
PLAN DU COURS

Chapitre 1 : Préliminaires ................................................................................................................. 3

1.1 Définitions fondamentales ............................................................................................... 3


1.2 La méthode statistique...................................................................................................... 7
Chapitre 2 : Tableau et graphes ..................................................................................................... 8

2.1 Variable qualitative nominale .......................................................................................... 8


2.2 Variable qualitative ordinale .......................................................................................... 10
2.3 Variable quantitative discrète........................................................................................ 11
2.4 Variable quantitative continue ...................................................................................... 12
Chapitre 3 : Paramètres de position et de dispersion ............................................................ 14

3.1 Le mode............................................................................................................................... 14
Cas d’une variable quantitative discrète (non classé) ....................................................... 14
Cas d’une variable quantitative continue ou discrète classée......................................... 14
3.2 La moyenne ........................................................................................................................ 15
3.3 Moyenne pondérée........................................................................................................... 15
3.4 La médiane ......................................................................................................................... 16
3.5 Quantiles ............................................................................................................................. 17
3.6 L’étendue ............................................................................................................................ 17
3.7 La distance interquartile ................................................................................................. 17
3.8 La variance ......................................................................................................................... 17
3.9 L’écart-type ........................................................................................................................ 18

2
Chapitre 1 : Préliminaires
1.1 Définitions fondamentales
1.1.1 La science statistique

Etymologiquement statistique signifie science de l’Etat. Le terme « statistique » est issu du


latin "statisticum", c’est-à-dire qui a trait à l’État. L’objectif de la Statistique Descriptive est de
décrire de façon synthétique et parlante des données observées pour mieux les analyser.
C’est une méthode scientifique du traitement des données. La statistique s’applique à la
plupart des disciplines : agronomie, biologie, démographie, économie, sociologie, linguistique,
psychologie...
Ces méthodes tirent leur justification théorique de certaines constructions mathématiques.
Mais c’est le domaine d’application qui justifie le choix de la méthode et l’interprétation des
résultats obtenus. Selon les domaines, on parlera des statistiques agricoles, statistiques
démographiques, statistiques sociales etc.
Les statistiques démographiques permettent donc au gouvernement de cibler ses
interventions en vue de la satisfaction des besoins des populations à travers une gestion
rationnelle des ressources, et fournissent aux collectivités locales, aux décideurs, aux
planificateurs, aux chercheurs et aux agents économiques, les moyens de planification de
leurs contributions au développement d’un pays. La collecte et l’analyse de ces informations
contribuent à la connaissance de l’état, de la structure de la population, des mouvements
migratoires, et à la description des ressources humaines.
Quant aux statistiques agricoles1, on peut s’intéresser aux données sur la superficie emblavée
et la production des différentes spéculations agricoles. On distingue quatre groupes de
cultures à savoir : les céréales, les tubercules/racines, les légumineuses et les maraîchères.
En matière de statistiques sociales2, les informations peuvent être collectées et agrégées à
l’effet d’analyser les comportements des acteurs en matière de vote, de décision publique etc.
On peut s’intéresser ainsi à la maîtrise de la population électorale, l’effectif des agents de l’Etat
ou au nombre de personnes touché par un phénomène social à l’image de la COVID-19. La
maîtrise des effectifs permet de faire une gestion efficace et efficiente des ressources
humaines et d’améliorer les services publics rendus aux citoyens. Les statistiques sociales
permettent de porter à la connaissance du public des informations pour aider à la recherche
dans différents domaines nécessitant lesdites données et surtout à la prise des décisions
politiques.
1.1.2 Objectifs du cours

En tant que science d'analyse de données, la statistique vise notamment à décrire des
informations de manière synthétique en vue de les analyser. Le cours explique les notions
fondamentales de la statistique : population, échantillon, individu, variables, distributions de
fréquences, etc. Le cours expose les variables qualitatives et quantitatives. Les
représentations graphiques sont expliquées y compris en termes d'impact sur la visualisation
des données. Le cours permet aux étudiants d'aborder les phénomènes politiques et sociaux

1
https://insae.bj/statistiques/statistiques-agricoles
2
https://insae.bj/statistiques/statistiques-sociales

3
à partir de questions fondamentales en statistique. Par exemple, comment les phénomènes
politiques et sociaux peuvent être formulés en termes quantitatifs ?
Au terme de cet enseignement, l'étudiant sera capable :
 de maîtriser les concepts de base (terminologie) de la statistique ;
 de maîtriser les notions essentielles sur les distributions statistiques (à un caractère) ;
 d'établir les caractéristiques opérationnelles des statistiques de base (moyenne,
proportion).
1.1.3 Notions de base

De nombreux domaines de la connaissance pratique s'appuient sur l’étude de collections


homogènes d’objets ou de personnes.
En statistique, la collection d'objets ou de personnes étudiées est appelée population ou
univers. Une population statistique est un ensemble d’éléments homogènes auxquels on
s’intéresse. Par exemple, les étudiants d’une classe, les contribuables béninois, les ménages
de Littoral.
Un objet ou une personne sur lequel porte l’étude est appelé individu. On parlera d’unité
statistique ou d’unité d’observation. Il s’agit par exemple des individus, des entreprises ou
des ménages.
L’exemple ci-dessous est relatif à la collecte de données sur le parcours professionnels des
enseignants dans trois communes du Bénin. L’étude porte sur les enseignants qui constituent
l’unité statistique ou l’unité d’observation. La population est constituée par l’ensemble des
enseignants des trois communes.

Sur les unités, on mesure un caractère ou une variable, le sexe, le revenu du ménage, l’âge
de la personne, la catégorie socioprofessionnelle d’une personne. Les critères étudiés
constituent des caractères. On suppose que la variable ou le caractère prend toujours une

4
seule valeur sur chaque unité. Les variables sont désignées par simplicité par une lettre (X, Y,
Z).
 Les valeurs possibles de la variable, sont appelées modalités.
 L’ensemble des valeurs possibles ou des modalités est appelé le domaine de la
variable.
On ne peut associer à certains d'entre eux ni une valeur numérique, ni un ordre naturel (par
exemple : le sexe ou la situation matrimoniale). De tels caractères sont appelés caractères
qualitatifs.
Certains caractères prennent des valeurs numériques (par exemple : l’âge des enseignants).
Ce sont des caractères quantitatifs.
1.1.4 Typologie des variables

Variable qualitative : La variable est dite qualitative quand les modalités sont des catégories.
Exemple : Les modalités de la variable sexe sont masculin (codé M) et féminin (codé F).
Le domaine de la variable est {M, F}.
 Variable qualitative nominale : La variable est dite qualitative nominale quand les
modalités ne peuvent pas être ordonnées.
Exemple 1.3 On s’intéresse à la variable état-civil ou situation matrimoniale notée X. La
codification est
C : célibataire,
M : marié(e),
V : veuf(ve),
D : divorcée.
 Variable qualitative ordinale : La variable est dite qualitative ordinale quand les
modalités peuvent être ordonnées.
Le fait de pouvoir ou non ordonner les modalités est parfois discutable. Par exemple, dans les
catégories socioprofessionnelles, on admet d’ordonner les modalités : ‘ouvriers’, ‘employés’,
‘cadres. Si on ajoute les modalités ‘sans profession’, ‘enseignant’, ‘artisan’, l’ordre devient
beaucoup plus discutable.
Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont
numériques.
 Variable quantitative discrète : Une variable est dite discrète, si l’ensemble des
valeurs possibles est dénombrable.
Exemple : Les modalités de la variable nombre d’enfants par famille sont 0,1,2,3,4,5, . . .C’est
une variable quantitative discrète. Il ne peut jamais prendre une valeur strictement comprise
entre 0 et 1, ou 1 et 2, ou 2 et 3, . . ..
 Variable quantitative continue : Une variable est dite continue, si l’ensemble des
valeurs possibles est continu. Les variables quantitatives continues peuvent prendre
toute valeur dans un intervalle.

5
Exemple, le chiffre d’affaire par PME peut être 29000,1 FCFA, 29000,12FCFA, . . ., même si
dans la pratique il faut l’arrondir.
1.1.5 Série statistique

On appelle série statistique la suite des valeurs prises par une variable X sur les unités
d’observation. Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées : x1, . . ., xi, . . ., xn
Exemple : On s’intéresse à la variable état-civil notée X et à la série statistique des valeurs
prises par X sur 20 personnes. La codification est
C : célibataire,
M : marié(e),
V : veuf(ve),
D : divorcée.
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :
MMDCCMCCCM
CMVMVDCCCM
Ici, n = 20, x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . .., x20 = M.

Exercice n°1

Les caractères suivants sont Qualitatifs Quantitatifs


- Le tour de ceinture d'une personne
- Le code postal
- La superficie d'une exploitation agricole
- Le groupe sanguin d'un individu

Exercice n°2 :
Dans le cadre de l’évaluation des besoins en infrastructures de développement, on étudie le
nombre d’enfants par ménage dans le département du Taneka qui dispose d’une population
de 850 ménages. Dans l’impossibilité de parcourir l’ensemble des ménages du département,
l’enquêteur a procédé à un tirage au sort de n ménages qui ont pris part à l’enquête.

On a relevé comme suit le nombre d’enfants par ménage enquêté :


11425114322222515341
33322561166332211551
45671123477231106210
66622244400112211300
76760001113321346000

Questions

6
1. Indiquer l’unité d’observation étudiée
2. Préciser la variable étudiée et indiquer sa nature
3. Citer les modalités de la variable étudiée
4. Préciser la population statistique étudiée

1.2 La méthode statistique

D'une manière générale, la statistique considère des phénomènes qui ne sont pas toujours
accessibles à l’expérience. La méthode statistique comporte essentiellement trois phases.
1.2.1 Phases d’une enquête statistique
i. Une phase matérielle
Une enquête statistique comporte toujours une phase initiale où il s'agit de collecter des
renseignements. Il s'agit de rassembler des données, de les regrouper et de les présenter
sous forme de tableaux ou graphes.
ii. Une phase analytique :
Elle consiste à réduire les données à un nombre limité de paramètres caractéristiques
(moments d’ordre 1, 2, 3, ...) susceptibles de décrire la série statistique. L’ensemble de ces
deux phases constitue l'objet essentiel de la statistique descriptive (ou déductive) dont les
résultats restent limités aux échantillons étudiés.
iii. Une phase interprétative
C’est à la base de la statistique inductive, et qui permet de déduire des résultats obtenus sur
un échantillon des conclusions relatives à l’ensemble de la population d'où est extrait cet
échantillon.
Ces conclusions doivent tenir compte de la marge d'erreur due au fait que les données sont
seulement partielles. Les méthodes utilisées n'ont de sens que si elles sont justifiées par des
résultats ultérieurs.
1.2.2 Théorie d’échantillonnage

La théorie de l’échantillonnage est évoquée lorsqu’on ne peut étudier l’ensemble des unités
statistiques de la population concernée. Il faut que l'échantillon soit prélevé d'une manière
aléatoire, c’est-à-dire que tous les individus de la population aient la même chance d'être
prélevés. Il convient de s’assurer que l’échantillon est bien représentatif de cette population,
ce qui sera précisé dans la théorie de l’échantillonnage.

7
Chapitre 2 : Tableau et graphes

L’objet du présent chapitre sera limité à l’étude des différentes manières de présenter une
série statistique.
2.1 Variable qualitative nominale
Pour un groupe de 15 étudiants, on a observé les valeurs des variables : Couleur des Yeux,
Sexe, Mention au Bac et Note à l’Examen de Statistique. Ainsi, le tableau de données suivant
a été obtenu. Ces données seront souvent utilisées dans ce chapitre.
Couleur des Note à l’épreuve
Individu Sexe Mention au Bac
Yeux de statistique
Jacques V H P 12
Alice B H AB 10
Bob N H P 13
Rémi M H P 11
Fati B F AB 10
Jean V F P 9
Michel N H B 16
Roméo M H AB 14
Loïc B F P 11
Dan V F P 15
Ruth N F P 4
Adèle B F TB 18
Zakiath V H AB 12
Serge N H P 6
Marc M F P 2

On représente les variables Couleurs des Yeux, Sexe et Mention au Bac par des diagrammes
en bâtons. On notera que chacun des individus appartient à une seule modalité de chacune
de ces 3 variables. En effet, on ne peut avoir des individus dont les yeux possèdent plusieurs
couleurs (on exclut les cas d’hétérochromie). On ne peut pas avoir non plus un individu qui
soit à la fois Homme et Femme (on exclut les cas d’hermaphrodisme). Enfin, un même individu
ne peut obtenir plusieurs mentions au Bac.
Etudions l’exemple de la variable Couleurs des Yeux. On commence d’abord par compter le
nombre d’individus appartenant à chacune des modalités de cette variable : nB = 4 individus
ont les yeux bleus, nM = 3 ont les yeux marrons, nN = 4 ont les yeux noirs et nV = 4 ont les yeux
verts.
Exercice : Il faut résumer tout cela dans le tableau récapitulatif et refaire le même
cheminement pour la variable Mention au Bac
On constate que les étudiants sont répartis inégalement entre les différentes modalités de la
variable Mention au Bac. Une première façon d’apprécier la répartition d’une variable est de
construire un tableau de répartition des effectifs et des fréquences entre les différentes valeurs
possibles de la variable. De façon générale, la fréquence d’une modalité « M » d’une variable
qualitative se calcule au moyen de la formule suivante :

(𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑎𝑛𝑡 à M)
𝑓𝑀 = 𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑑𝑒 𝑙𝑎 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é "M" d'une variable qualitative=
𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙
PM pourcentage des individus correspondant à la modalité "M" = f M x 100

8
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas être ordonnées.
On note j le nombre de valeurs distinctes ou modalités.
Somme des fréquences de toutes les modalités d’une variable qualitative = 1
Somme de tous les pourcentages correspondant aux modalités d’une variable qualitative =100
Exercice : Construire le tableau de répartition de la variable Mention au Bac

2.1.1 Effectifs, fréquences et tableau statistique


Les valeurs distinctes sont notées x1, . . ., xj, . . ., xJ
On appelle effectif d’une modalité ou d’une valeur distincte, le nombre de fois que cette
modalité (ou valeur distincte) apparait. On note nj l’effectif de la modalité xj. La fréquence d’une
modalité est l’effectif divisé par le nombre d’unités d’observation.

𝒏𝒋
fj = , j = 1, . . ., J.
𝒏

Exemple : On s’intéresse à la variable état-civil notée X et à la série statistique des valeurs


prises par X sur 20 personnes. La codification est
C : célibataire,
M : marié(e),
V : veuf(ve),
D : divorcée.
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :
MMDCCMCCCM
CMVMVDCCCM

Avec la série de l’exemple précédent, reconstituer le tableau statistique :

xj nj fj
C
M
V
D
n=20 1

La fréquence d'une classe s'obtient en divisant l'effectif de la classe par

L'effectif total

Le nombre de classes

L'amplitude de la classe

9
2.1.2 Diagramme en secteurs et diagramme en barres
Le tableau statistique d’une variable qualitative nominale peut être représenté par deux types
de graphique. Les effectifs sont représentés par un diagramme en barres et les
fréquences par un diagramme en secteurs (ou camembert en anglais).
2.2 Variable qualitative ordinale
2.2.1 Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce qu’on éfrit
x1 ≺ x2 ≺ · · · ≺ xj−1 ≺ xj ≺ · · · ≺ xJ−1 ≺ xJ .
La notation x1 ≺ x2 se lit x1 précède x2.
Si la variable est ordinale, on peut calculer les effectifs cumulés :
𝑗

𝑁𝑗 = ∑ 𝑛𝑘, 𝑗 = 1, . . . , 𝐽.
𝑘=1

On a N1 = n1 et NJ = n. On peut ´également calculer les fréquences cumulées


𝑗
𝑁𝑗
𝐹𝑗 = = ∑ 𝑓𝑘, 𝑗 = 1, . . . , 𝐽.
𝑛
𝑘=1
Exemple 1.5 On interroge 50 personnes sur leur dernier diplôme obtenu (variable Y). La
codification a ´été faite selon le Tableau 1.1. On a obtenu la série

Codification de la variable Y
Dernier diplôme obtenu xj
Sans diplôme Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U

Soit la Série statistique de la variable Y :

Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U

Reproduire le tableau statistique ci-dessous


Xj nj Nj fj Fj
Sd 0.08
P 0.30
Se 0.58
Su 0.76
U 1.00
50 1.00

10
2.3 Variable quantitative discrète
2.3.1 Le tableau statistique
Une variable discrète a un domaine dénombrable.
De façon générale à chaque valeur k d’une variable quantitative discrète correspond un
effectif, noté par 𝑛𝑘 ;
Il s’agit en fait du nombre des individus pour lesquels on a observé la valeur 𝑘
La fréquence 𝑓𝑘 de la valeur 𝑘 se calcule au moyen de la formule :

𝑓𝑘=𝑛𝑘
𝑁
Où 𝑛𝑘 désigne l’effectif correspondant à la valeur 𝑘 et N l’effectif total. Tout comme dans le
cas des variables qualitatives, en multipliant les fréquences par 100, on obtient les
pourcentages correspondants.

Exemple :
Un quartier est composé de 50 ménages, et la variable Z représente le nombre de personnes
par ménage. Les valeurs de la variable sont
1111122222
2222333333
3333333334
4444444445
5555566688

Comme pour les variables qualitatives ordinales, on peut calculer les effectifs, les effectifs
cumulés, les fréquences, les fréquences cumulées. A nouveau, on peut construire le tableau
statistique :

Xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0 .90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.00

Exercice :
Réaliser le tableau de Répartition de la variable " Note à l’épreuve de statistique "

2.3.2 Diagramme en bâtonnets des effectifs

11
Quand la variable est discrète, les effectifs sont représentés par des bâtonnets. La
représentation graphique des effectifs de chaque classe s’appelle l’histogramme des
effectifs ; on peut de la même façon réaliser l’histogramme des fréquences.
2.4 Variable quantitative continue
2.4.1 Le tableau statistique
Une variable quantitative continue peut prendre une infinité de valeurs possibles. La taille peut
être mesurée en centimètres, voire en millimètres. On peut alors traiter les variables continues
comme des variables discrètes.
L’établissement d’un tableau de répartition exige que l’on découpe l’intervalle de variation
d’une telle variable, en k sous-intervalles [x0; x1]; ]x1; x2]; : : : ; ]xk-1; xk]. Chacun de ces
intervalles est appelé classe ; l’idée étant que chaque classe forme une entité homogène qui
se distingue des autres classes. Le nombre de classes k doit être modéré (une dizaine au
maximum). L’amplitude de la classe [x0 ; x1], c’est-à-dire sa « largeur », est égale à a1 = x1- x0,
de même pour tout i = 2 ; : : : ; k l’amplitude de la classe ]xi-1; xi] est égale à ai = xi xi-1. Lorsque
la dernière classe est définie par « plus de . . . » son amplitude est alors indéterminée.
Le tableau regroupé en classe est souvent appelé distribution groupée.

Exercice :
Il faut créer des classes de notes (nombre d’individus ayant obtenu des notes comprises entre
0 et 4, entre 4 et 8, . . .) ; cette approche nous permet d’obtenir une variable dite classée. Il
faut effectuer le bornage des classes en excluant et incluant les valeurs en début et fin de
classe. Réaliser le tableau de Répartition de la variable classée " Note à l’épreuve de
statistique "

Soit le tableau ci-dessous donnant les notes obtenues par 40 étudiants à un examen de
statistique

12 9 7 1 13 18 12 3

4 6 9 14 5 0 6 15

7 10 3 5 9 5 6 9

0 7 13 8 4 4 11 3

10 12 6 5 8 0 1 7

A1. Quelle est la variable statistique ? De quel type est-elle ? Comment peut-on organiser les
données ?

A2. Regrouper les données en 4 classes d’amplitude 5. Indiquer pour chaque classe : son
effectif, sa fréquence exprimée en pourcentage.

12
2.4.2 Diagramme
Cependant, pour faire des représentations graphiques, il faut procéder à des regroupements
en classes.
L’histogramme des fréquences d’une telle variable est constitué de la juxtaposition de
rectangles dont les bases représentent les différentes classes, et dont les surfaces sont
proportionnelles aux fréquences des classes et par conséquent à leurs effectifs. Ainsi, à la i -
ème classe correspond un rectangle dont la base est l’intervalle ]xi-1; xi] (dans le cas particulier
i = 1, la base est l’intervalle [x0; x1]), et dont la surface est proportionnelle à la fréquence fi et à
l’effectif ni. Lorsque les classes ont toutes, la même amplitude, les hauteurs des rectangles
sont proportionnelles à leurs surfaces ; par conséquent les hauteurs des rectangles sont
proportionnelles aux fréquences et aux effectifs. Dans le cas où les classes sont d’amplitudes
inégales, la hauteur du rectangle correspondant à la i -ème classe sera hi = fi/ai (c’est-à-dire la
fréquence par unité d’amplitude) ou encore Hi = ni/ai (c’est-à-dire l’effectif par unité
d’amplitude).
Exercice : Finaliser le tableau de répartition de la variable quantitative continue "Revenus des
Contribuables soumis à l’impôt sur le revenu"
Réaliser l’histogramme des Fréquences de la variable "Revenus des Contribuables".
(L’échelle sur l’axe des abscisses est 1 millier de Francs et l’échelle sur l’axe des ordonnées
est 1=50000)

Effectif en 𝑯𝒂𝒖𝒕𝒆𝒖𝒓 𝑿
Classe de revenus Amplitude en 𝑭𝒓é𝒒𝒖𝒆𝒏𝒄𝒆
milliers Fréquence
en FCFA FCFA = 𝑿 𝟓𝟎𝟎𝟎
d’individus 𝑨𝒎𝒑𝒍𝒊𝒕𝒖𝒅𝒆
[0, 5000] 549,3 0,067 5000

]5000, 10000] 3087,4 0,3751 5000

]10000, 15000] 2229,0 0,2708 5000

]15000, 20000] 1056,7 0,1284 5000

]20000, 35000] 925,0 0,1124 15000

]35000, 50000] 211,0 0,0256 15000

]50000, 70000] 90,8 0,011 20000

]70000, 100000] 81,6 0,0099 30000


Effectif total =
8230,8

13
Chapitre 3 : Paramètres de position et de dispersion

3.1 Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé ; il est noté xM. Si on
reprend la variable ‘Etat civil dont le tableau statistique est le suivant :

xj nj fj
C 9 0,45
M 7 0,35
V 2 0,10
D 2 0,10
n=20 1
Le mode est C : célibataire.
Remarque
 Le mode peut être calculé pour tous les types de variable, quantitative et qualitative.
 Le mode n’est pas nécessairement unique.
 Quand une variable continue est découpée en classes, on peut définir une classe
modale (classe correspondant à l’effectif le plus élevé).
Cas d’une variable quantitative discrète (non classé)
Le mode correspond à la valeur de la variable pour laquelle l’effectif (ou la fréquence) est le
plus grand.
Exemple : Recensement des familles dans une population régionale dont le nombre d’enfants
de moins de 14 ans est le suivant :

Nombre Nombre
d’enfants de familles
0 2601
1 6290
2 2521
3 137
4 849
12398

Ici le mode correspond à la valeur de 1 enfant.


Remarque : Certaines variables peuvent présenter plusieurs modes.
Cas d’une variable quantitative continue ou discrète classée
La classe modale est la classe dont la fréquence par unité d’amplitude est la plus élevée. Cette
classe correspond donc au rectangle le plus haut de l’histogramme des fréquences. Par
exemple, dans le cas de la variable « Revenu des Contribuables » ]5000, 10000] est la classe
modale. Certaines variables peuvent avoir plusieurs classes modales.

14
3.2 La moyenne
La moyenne ne peut être définie que sur une variable quantitative. La moyenne est la somme
des valeurs observées divisée par leur nombre, elle est notée 𝑥̅ :

𝒏
𝒙𝟏 + 𝒙𝟐 + · · · + 𝒙𝒊 + · · · + 𝒙𝒏 𝟏
𝒙̅ = = ∑ 𝒙 𝒊.
𝒏 𝒏
𝒊=𝟏

Exemple : Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4.


Déterminer la moyenne

Remarques sur le signe de sommation ∑


𝑛

∑ 𝑥𝑖 = 𝑥1 + 𝑥2 + · · · + 𝑥𝑖 + · · · + 𝑥𝑛.
𝑖=1

En statistique les xi sont souvent les valeurs observées.


L’indice est muet : ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑗=1 𝑥𝑗

Quand il n’y a pas de confusion possible, on peut ´écrire ∑𝑖 𝑥𝑖.

Exercice : Considérer le tableau de Répartition de la variable " Note à l’épreuve de


statistique "
Couleur des Note à l’épreuve
Individu Sexe Mention au Bac
Yeux de statistique
Jacques V H P 12
Alice B H AB 10
Bob N H P 13
Rémi M H P 11
Fati B F AB 10
Jean V F P 9
Michel N H B 16
Roméo M H AB 14
Loïc B F P 11
Dan V F P 15
Ruth N F P 4
Adèle B F TB 18
Zakiath V H AB 12
Serge N H P 6
Marc M F P 2
Déterminer la moyenne arithmétique de la variable " Note à l’épreuve de statistique ".
3.3 Moyenne pondérée
Désignons par ni le nombre de fois où la valeur xi de la variable X est observée (par exemple
dans le cas de la variable " Note à l’épreuve de statistique ", la valeur 18 est observée 1 fois,
tandis que la valeur 11 est observée 2 fois) ; ainsi, étant donné que 𝒙𝐢 est répété n fois, c’est-
à-dire que :

15
𝒙𝐢 + 𝒙𝐢 + · · · + 𝒙𝒊 + · · · + 𝒙𝒊 = 𝒏𝒊 𝒙𝒊

La formulation précédente de 𝒙̅ , peut aussi s’écrire :

𝒏 𝒌
𝟏
𝒙̅ = ∑ 𝒏𝒊 𝒙𝒊 = ∑ 𝒇𝒊 𝒙𝒊
𝒏
𝒊=𝟏 𝒊=𝟏

où 𝒌 désigne le nombre de valeurs distinctes de X et fi = ni=N est la fréquence de la valeur xi.


La formulation ∑𝒌𝒊=𝟏 𝒇𝒊 𝒙𝒊 est appelée moyenne arithmétique pondérée de X, car l’on pondère
chacune des valeurs distinctes de X par la fréquence correspondante.
Exemple : Une étude statistique menée sur une population de ménages a montré que 30%
de ces ménages ont 1 enfants, 40% 2 enfants, 15% 3 enfants, 10% 4 enfants, et 5% 5 enfants.
Le nombre moyen d’enfants par ménage vaut :
𝒙̅ = 0,3 X 1 + 0,4 X 2 + 0,15 X 3 + 0,1 X 4 + 0,05 X5 = 2,2 enfants :

3.4 La médiane
La médiane, notée 𝑥1/2, est la valeur de cette variable qui permet de scinder la population
étudiée en deux sous-populations de même effectif. Plus précisément, il y a autant d’individus
pour lesquels on a observé une valeur supérieure à la médiane que d’individus pour lesquels
on a observé une valeur inférieure à la médiane. C’est une valeur centrale de la série
statistique obtenue de la manière suivante :
On trie la série statistique par ordre croissant des valeurs observées.
Avec la série observée :
3 2 1 0 0 1 2,
On obtient :
0 0 1 1 2 2 3.

La médiane 𝑥1/2 est la valeur qui se trouve au milieu de la série ordonnée :

0 0 1 1 2 2 3.

On note alors 𝑥1/2 = 1.

Nous allons examiner une manière simple de calculer la médiane. Deux cas doivent être
distingués.
 Si n est impair, il n’y a pas de problème (ici avec n = 7), alors 𝑥1/2 = 1 :
 Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)
00112234

16
La médiane est alors la moyenne de ces deux valeurs :

1+2
𝑥1/2 = = 1.5.
2
En général on note x(1), . . . , x(i), . . . , x(n)
La série ordonnée par ordre croissant. On appelle cette série ordonnée la statistique d’ordre.
Cette notation, très usuelle en statistique, permet de définir la médiane de manière très
synthétique.
 Si n est impair
𝑛+1
X1/2 =𝑥( )
2
 Si n est pair
1 𝑛 𝑛
𝑥1/2 = {𝑥 ( ) + 𝑥( + 1)}
2 2 2
Remarque 2.4 La médiane peut être calculée sur des variables quantitatives et sur des
variables qualitatives ordinales.
3.5 Quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane. Le quantile d’ordre p
d’une variable quantitative X, est la valeur xp de cette variable qui permet de scinder la
population étudiée en deux sous-populations dont les effectifs respectifs sont égaux à p et 1-
p de l’effectif de la population initiale. Lorsque X est continue, on peut déterminer xp au moyen
de l’égalité F(xp) = p.
Les quartiles de X sont ses trois quantiles 𝑥1 𝑥1 𝑥3
4 2 4

Q1 = 𝑥1 , s’appelle le premier quartile ; un quart des valeurs prises par X sont inférieures ou
4
égales à Q1. Q2 = 𝑥1 est la médiane. Q3 = 𝑥3 s’appelle le troisième quartile.
2 4

3.6 L’étendue
L’´étendue est simplement la différence entre la plus grande et la plus petite valeur observée.

E = x(n) − x(1).
3.7 La distance interquartile
La distance interquartile est la différence entre le troisième et le premier quartile :
IQ = 𝑥3 − 𝑥1 = Q3 -Q1
4 4

L’intervalle interquartile sert à apprécier la dispersion de X, de façon absolue. En effet, les


valeurs Q1 et Q3 délimitent une plage au sein de laquelle 50% des valeurs de X sont
concentrées. Plus IQ est grand, plus X est dispersée.
3.8 La variance
La variance est la somme des carrés des écarts à la moyenne divisée par le nombre
d’observations :

17
𝑛
1
𝑉𝑥 = ∑(𝑥𝑖 − 𝑥̅ )2
2
𝑛
𝑖=1
La variance peut aussi s’´écrire

𝑛
1
𝑉𝑥2 = ∑ 𝑥𝑖 2 − 𝑥̅ 2
𝑛
𝑖=1

La variance peut ´également être d´définie à partir des effectifs et des valeurs distinctes :
𝑛
1
𝑉𝑥 = ∑ 𝑛𝑗(𝑥𝑗 − 𝑥̅ )2
2
𝑛
𝑗=1
La variance peut aussi s’écrire
𝑛
1
𝑉𝑥 = ∑ 𝑛𝑗 𝑥𝑗2 − 𝑥̅ 2
2
𝑛
𝑗=1
3.9 L’écart-type

L’écart-type est la racine carrée de la variance :

𝑆𝑥 = √𝑠𝑥2

18

Vous aimerez peut-être aussi