Vous êtes sur la page 1sur 28

PROBABILITE ET STATISTIQUES.

Cours rédigé à l’intention des étudiants des classes préparatoires


aux études d’ingénieurs du secteur industriel par
Dr Kocouvi Agapi HOUANOU
Enseignant-Chercheur au Département du Génie Civil
École Polytechnique d’Abomey-Calavi.

1
PARTIE 2 : STATISTIQUE.

2
Chapitre 1 : Description des séries statistiques à une variable.

1.1. Introduction.
On considère ici une variable statistique unique, notée X. L'objectif est d'exposer les outils
élémentaires, adaptées à la nature de X, permettant de présenter cette variable de façon synthétique,
d'en faire une représentation graphique appropriée et d'en résumer les principales caractéristiques.
Nous présenterons successivement le cas d'une variable quantitative discrète, puis celui d'une
variable quantitative continue, enfin le cas d'une variable qualitative.

On introduit tout d'abord la notion de tableau statistique, façon synthétique de présenter les données
après leur rangement par ordre croissant. Ce tableau fait intervenir les notions assez élémentaires
d'effectif, de fréquence (ou pourcentage), d'effectif cumulé et de fréquence cumulée. Les
représentations graphiques usuelles de ces variables sont le diagramme en bâtons (pour positionner
les observations) et le diagramme cumulatif (pour les quantités cumulées). Enfin, les
caractéristiques numériques permettant de résumer une variable quantitative discrète sont soit de
tendance centrale (médiane et moyenne), soit de dispersion (variance et écart-type).

1.2.Présentation des données statistiques.


Tout traitement, toute représentation ou toute analyse d'un ensemble de données se rapportant aux
unités d'une population impose que ces dernières aient été au préalable rangées et organisées dans
une structure facilitant leur manipulation. La façon la plus simple et la plus efficace de structurer les
données reste le tableau de son expression la plus basique (vecteur) a son expression la plus
complexe (tableau multidimensionnel).
Ils constituent le moyen le plus sûr de pouvoir répondre aux questions posées de par leur
systématisme. Sauf cas exceptionnels, les données statistiques sont présentées sous forme de
tableau. D’une part, cela permet d’appréhender l’information qui est synthétisée et d’autre part
facilite ou rend possible les calculs.

1.2.1. Cas des variables qualitatives


 Cas d'une variable qualitative nominale
Une variable nominale décrit un nom ou une catégorie. Les différentes occurrences de la variable
sont nominales. Les noms ou les catégories possibles ne suivent pas un ordre naturel. La plupart du
temps, la présentation des modalités de la variable ne présuppose aucun ordre, si ce n’est l’ordre
alphabétique.
Tableau 1.1 : Tableau statistique avec valeurs observées, effectifs, fréquences et pourcentage.

Fréquences Pourcentage
Effectifs ni
fi pi (%)
Catégorie 1 𝑛 𝑓 𝑝

𝑛
Catégorie i 𝑛 𝑓 = 𝑝 = 100 × 𝑓
𝑛

Catégorie m 𝑛 𝑓 𝑝

Total 𝑛= 𝑛 𝑓 =1 𝑝 = 100

Exemple 1.1. : On a noté le nombre d’ouvriers travaillant sur un chantier de construction d’un
module de salle de classe. Les données sont listées ci-dessous (il s'agit de données fictives).
Maçon (7) ; Ferrailleur (5) ; Coffreur (3) ; Fouilleur (10) ; Electricien (3) ; Plombier (2) ; Peintre
(6) ; Soudeur (4).

3
Tableau 1.2 : Tableau statistique avec valeurs observées, effectifs, fréquences et pourcentage.
Fréquences Pourcentage
Catégorie Effectifs ni
fi pi (%)
Coffreur 3 0.075 7.5
Electricien 3 0.075 7.5
Ferrailleur 5 0.125 12.5
Fouilleur 10 0.250 25.0
Maçon 7 0.175 17.5
Peintre 6 0.150 15.0
Plombier 2 0.050 5.0
Soudeur 4 0.100 10.0
Total 40 1 100

 Cas d'une variable qualitative ordinale


Certaines variables appellent naturellement un ordre dans le rangement de leurs catégories : niveau de
formation, … Elles sont repérables selon un type d’échelle plus ou moins légitime. Un caractère ordinal est
un caractère qualitatif dans lequel les modalités possibles peuvent être classées dans un ordre spécifique ou
dans un ordre naturel quelconque.

Tableau 1.3 : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
Pourcentage
Effectifs Fréquences Pourcentage Effectifs Fréquences
cumulés
ni fi pi (%) cumulés ni cumulées fi
pi (%)
Catégorie 1 𝑛 𝑓 𝑝 𝑛 𝑓 𝑝

𝑛
𝑓 =
Catégorie i 𝑛 𝑛 𝑝 = 100 × 𝑓 𝑛 = 𝑛 𝑓 = 𝑓 𝑝 = 𝑝

Catégorie m 𝑛 𝑓 𝑝 𝑛 =𝑛 𝑓 =1 𝑝 = 100
𝑛
𝑓 =1
Total 𝑝 = 100 - - -
= 𝑛

Exemple 1.2 : On a noté le comportement des 30 élèves d’une salle de cours. Les données sont
listées ci-dessous (il s'agit de données fictives).
Tableau 1.4 : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
Pourcentage
Effectifs Fréquences Pourcentage Effectifs Fréquences
cumulés
ni fi pi (%) cumulés ni cumulées fi
pi (%)
Excellent 5
Très bon 12
Bon 10
Mauvais 2
Très
1
mauvais
Total 30

Dans le tableau 1.4, le caractère « comportement » est ordinal parce que la modalité « Excellent » est
meilleure que la modalité « Très bon », etc. On n’y trouve un certain ordre naturel, mais celui-ci est limité

4
par le fait que nous ne savons pas dans quelle mesure le comportement « Excellent » est meilleur que le
comportement « Très bon ».
1.2.2. Cas des variables quantitatives
 Cas d'une variable quantitative discrète
En général, on appelle variable quantitative discrète une variable quantitative ne prenant que des
valeurs entières (plus rarement décimales). Le nombre de valeurs distinctes d'une telle variable est
habituellement assez faible (sauf exception, moins d'une vingtaine). Citons, par exemple, le nombre
d'enfants dans une population de familles, le nombre d'années d'études après le bac dans une
population d'étudiants. . .

Tableau 1.5. : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
Pourcentage
Fréquences Pourcentage Effectifs Fréquences
Effectifs ni cumulés
fi pi (%) cumulés ni cumulées fi
pi (%)
Catégorie 1 𝑛 𝑓 𝑝 𝑛 𝑓 𝑝

𝑛
𝑓 =
Catégorie i 𝑛 𝑛 𝑝 = 100 × 𝑓 𝑛 = 𝑛 𝑓 = 𝑓 𝑝 = 𝑝

Catégorie m 𝑛 𝑓 𝑝 𝑛 =𝑛 𝑓 =1 𝑝 = 100

Total 𝑛= 𝑛 𝑓 =1 𝑝 = 100 - - -

Exemple 1.3. : On a noté l'âge (arrondi à l'année près) des 16 étudiants d'une école d’ingénieurs. Les
données sont listées ci-dessous (il s'agit de données fictives).
29 25 25 25 29 31 31 32 31 30 32 33 34 24 29 31
o Le tableau statistique
Les observations ci-dessus ne sont pas présentées de façon commode. Ainsi, la première d'entre
elles, 29, figure au total 3 fois dans la liste. L'idée est de ne la faire figurer qu'une seule fois, en
précisant qu'elle y est répliquée 3 fois. Si, en plus de n'être pas répétées, les différentes observations
sont rangées par ordre croissant, les résultats seront bien plus commodes à lire. C'est ce que l'on fait
lorsqu'on présente les données sous forme de tableau statistique.

On appelle donc tableau statistique un tableau dont la première colonne comporte l'ensemble des r
observations distinctes de la variable X. Ces observations sont rangées par ordre croissant et non
répétées ; nous les noterons {xi ; i = 1, ……. r}. Dans une seconde colonne, on dispose, en face de
chaque valeur xi, le nombre de réplications qui lui sont associées. Ces réplications sont appelées
effectifs et notées ni (ainsi, ni = 3 lorsque xi = 29 : à l'observation 29 est associé l'effectif 3,
autrement dit la valeur 29 a été observée 3 fois). Les effectifs ni sont souvent remplacés par les
quantités 𝑓 = , appelées fréquences, souvent exprimées en pourcentages, c'est-à-dire multipliées
par 100 (ici, n désigne le nombre total d'observations : 𝑛 = ∑ 𝑛 = 16; toujours pour xi = 29,
𝑓 = = 0.1875 = 18.75%)

o Les effectifs cumulés et les fréquences cumulées


Il peut être utile de compléter le tableau statistique en y rajoutant soit les effectifs cumulés, soit les
fréquences cumulées. Ces quantités sont respectivement définies de la façon suivante :

𝑁 = 𝑛 ;𝐹 = 𝑓

5
Autrement dit, Ni représente le nombre d'observations inférieures ou égales à xi et Fi leur fréquence
(ou leur pourcentage si l'on considère 100 Fi). On notera que Nr = n et Fr = 1 (bien comprendre
pourquoi en se reportant au Tableau 1.6).

o Illustration
Dans le tableau 1.6, on a calculé, sur les données présentées dans l'Exemple 1, les effectifs, les
effectifs cumulés, les pourcentages et les pourcentages cumulés. Il est conseillé au lecteur de
reprendre les calculs pour bien en comprendre le principe.

Tableau 1.6 : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
xi ni Ni fi pi (%) Fi Pi (%)
24 1 1 0.0625 6.25 0.0625 6.25
25 3 4 0.1875 18.75 0.2500 25.00
29 3 7 0.1875 18.75 0.4375 43.75
30 1 8 0.0625 6.25 0.5000 50.00
31 4 12 0.2500 25.00 0.7500 75.00
32 2 14 0.1250 12.50 0.8750 87.50
33 1 15 0.0625 6.25 0.9375 93.75
34 1 16 0.0625 6.25 1.000 100
Total 16 - 1 100 - -

 Cas d'une variable quantitative continue


En général, on appelle variable quantitative continue une variable quantitative ne prenant que des
valeurs dans un domaine de IR. Autrement dit, lorsqu’elles peuvent prendre une infinité de valeurs
dans un intervalle donné. Citons, par exemple la masse, la distance, le volume …
Toutefois, les variables quantitatives discrètes peuvent être organisées en variables quantitatives
continues.

Tableau 1.7 : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
Pourcentag Pourcentage
Fréquences Fréquences
Classe Centre ci Effectifs ni e cumulés
fi cumulées fi
pi (%) pi (%)
[𝑏 ; 𝑏 [ 𝑐 𝑛 𝑓 𝑝 𝑓 𝑝

𝑛
𝑓 = 𝑝
[𝑏 ; 𝑏 [ 𝑐 𝑛 𝑛 𝑓 = 𝑓 𝑝 = 𝑝
= 100 × 𝑓

[𝑏 ; 𝑏 [ 𝑐 𝑛 𝑓 𝑝 𝑓 =1 𝑝 = 100

𝑓 =1 𝑝
Total - 𝑛= 𝑛 - -
= 100

Remarque 2. Dans la pratique, on utilise plutôt les pourcentages que les fréquences. Ensuite, il est
rare de présenter à la fois les effectifs et les pourcentages (qui fournissent, pratiquement, la même
information). On choisit donc entre les deux ensembles de quantités. Si l'on souhaite disposer des
cumuls, on choisit de même entre effectifs cumulés et pourcentages cumulés.
Le choix entre effectifs (respectivement effectifs cumulés) et pourcentages (respectivement
pourcentages cumulés) est très empirique. Il semble naturel de choisir les effectifs lorsque l'effectif
6
total n est faible et les pourcentages lorsqu'il est plus important. La limite approximative de 100
paraît, dans ces conditions, assez raisonnable.

QUELQUES CONVENTIONS
 Chiffres significatifs
Les résultats statistiques provenant de calculs parfois réalisés à l’aide de microordinateurs
s’expriment sous formes de nombre d’une grande précision. Il n’est pas rare de trouver des résultats
avec trois ou quatre décimales. Une telle précision dégage un caractère de scientificité qui éteint
toute critique, alors qu’il ne s’agit que d’une précision illusoire qui n’apporte aucune information.
La précision des observations est telle que généralement les résultats sont donnés avec une seule
décimale.

On appelle chiffres significatifs d’un nombre les chiffres exacts constituant ce nombre : 5,32 a trois
chiffres significatifs. La précision du résultat ne doit pas être supérieure à la précision des
observations. Le résultat final d’un calcul ne peut avoir plus de chiffres significatifs que le nombre
ayant le plus petit nombre de chiffres significatifs.
Exemple : 45.2 x 65.324 = 2 952.6
Attention, ce n’est pas le cas pour les calculs intermédiaires où tous les chiffres doivent être
impérativement conservés.
Les pourcentages sont beaucoup utilisés dans les calculs statistiques. En général, compte tenu de la
précision des données, le résultat final sera fourni avec une seule décimale.

 Les signes conventionnels


Dans un tableau statistique, certaines informations sont absentes, remplacées par des signes
conventionnels qu’il est utile de connaître.

o La notation somme (ou l’opérateur somme)


Soient les effectifs n1, n2, …, nk de la distribution du caractère, nous noterons n la somme des
effectifs.
𝑛 =𝑛 +𝑛 +⋯ +𝑛
Cette écriture est peu maniable, nous remplacerons la somme précédente par la notation suivante :

𝑛 = 𝑛 𝑎𝑣𝑒𝑐 𝑖 ∈ [1; 𝑘]

ou si la sommation est sans ambiguïté :


𝑛 =𝑛
Le symbole ∑ se lit sigma et signifie somme des effectifs des k modalités de la distribution. C’est
un opérateur linéaire.

On peut également écrire :

𝑛= 𝑛 = 𝑛 = 𝑛

Bien entendu, toutes ces écritures représentent la même quantité.

o Quelques propriétés de cet opérateur

(𝑥 + 𝑦 ) = 𝑥 + 𝑦

𝑎𝑥 = 𝑎 𝑥

7
𝑎 = 𝑘𝑎, 𝑎 étant un constante.

(𝑥 + 𝑏) = 𝑥 + 𝑘𝑏, 𝑏 étant une constante.

o Autres relations

o La notation produit (opérateur produit)


De façon analogue à la notation somme, nous écrivons le produit de n nombres sous une forme
abrégée.

Les fréquences relatives


En statistique, le terme de fréquence est utilisé plus souvent que celui de proportion. La fréquence
d’une valeur dans une série statistique est son importance relative, elle est le plus souvent exprimée
en pourcentage. Elle se calcule comme l’importance d’une modalité par rapport à l’ensemble des
modalités. Pour un caractère K ayant Mi modalités 1 ≤ i≤ k, la fréquence de la modalité Mi sera
notée fi et se définit comme la proportion des individus de la population présentant la modalité Mi.

8
La fréquence est le plus souvent présentée en pourcentage. Les fréquences permettent de comparer
les structures selon le caractère étudié de populations d’effectifs différents. Le calcul des fréquences
permet d’éliminer l’effet de taille ; on énonce les jugements du type relativement plus ou
relativement moins.

Les fréquences cumulées


Dans le cas des variables numériques, la présentation peut se faire par ordre croissant ou par ordre
décroissant. On calcule les fréquences cumulées. Soit une variable statistique prenant k modalités xi,
la fréquence cumulée Fi sera la somme des fréquences des valeurs inférieures à xi.

Les fréquences cumulées sont considérées comme les valeurs en des points connus d’une fonction
de distribution F(x).

1.3. Représentation graphique des données statistiques.


Les graphiques permettent de donner une synthèse visuelle de la distribution d’une variable et de percevoir
l’éventuelle relation entre les variables, cette section en présente quelques exemples. Les représentations
peuvent être spécifiques à un type de variable ou de caractère. Sauf indication contraire tous les graphiques
sont réalisables en effectifs ou en fréquences, ils sont superposables à l’échelle prés. Ils constituent pour les
pourcentages un moyen simple de comparer sur une base unique des données de valeurs différentes. Les taux
permettent de suivre l’évolution de grandeurs. Les graphiques permettent de mieux percevoir une relation
entre des variables, ce chapitre présente quelques exemples.

Le choix des représentations graphiques dépend pour une large part du type du caractère statistique :
caractère qualitatif, variable statistique discrète, variable statistique continue.

En présence d’un ensemble de données associées à un seul caractère, on doit :


 ranger ces données par valeurs non décroissantes (ou non croissantes) et déterminer les
fréquences absolues, relatives et cumulées,
 visualiser ces données à l’aide d’un diagramme en bâtons pour des variables discrètes ou
d’un histogramme pour des variables continues.

1.3.1. Variable qualitative


Les diagrammes figuratifs, les pictogrammes sont utilisés pour leur effet suggestif : des
personnages pour une population humaine, des épis pour une production céréalière. La
multiplication par deux des dimensions du diagramme indique une multiplication par quatre de la
grandeur représentée. Les illustrations utilisées pour figurer la distribution de caractère qualificatif
sont souvent imprécises. Le lecteur ne sait pas toujours s’il faut comparer les longueurs ou les
surfaces. Pour qu’un diagramme figuratif soit significatif, il faut que les surfaces soient
proportionnelles.

Les cartogrammes représentent les variations d’une grandeur sur un territoire géographique en
assignant à chaque zone ses caractéristiques. Pour cela, on utilise des fonds de cartes pour
représenter les variables. Il existe deux grandes catégories de cartogrammes. Dans la première
catégorie, les surfaces de chaque unité géographique sont hachurées ou coloriées ; dans la seconde
catégorie, les phénomènes sont représentés par des surfaces centrées sur les unités géographiques et
proportionnelles aux effectifs étudiés.

Le diagramme en tuyaux d’orgue ou en barres est constitué d’une suite de rectangles dont les
hauteurs sont proportionnelles à l’effectif (ou à la fréquence) de la variable et dont les bases sont
identiques. La représentation peut être horizontale ou verticale.

9
Le diagramme en secteurs ou en « camembert » visualise la part relative des catégories de la
variable sur une population. Le cercle représente l’ensemble de la population, les différentes
modalités seront représentées par des secteurs dont la surface est proportionnelle aux effectifs ou
aux fréquences. Une telle représentation n’est significative que si le total des fréquences est de 100
%. Un demi-cercle peut jouer le même rôle.

La représentation en secteurs visualise bien l’importance relative des différentes modalités. Cette
représentation permet, pour des comparaisons dans le temps et dans l’espace, de rendre sensible les
différences en valeur absolue. Les aires des cercles seront proportionnelles aux effectifs de chacune
des populations. C’est-à-dire :
𝜋𝑟 𝐴 𝑟 𝐴
= 𝑎𝑢𝑡𝑟𝑒𝑚𝑒𝑛𝑡 𝑑𝑖𝑡 =
𝜋𝑟 𝐴 𝑟 𝐴
1.3.2. Variable quantitative
Dans certains cas, la représentation peut faire appel aux représentations décrites ci-dessus. Deux
représentations graphiques retiendront plus particulièrement notre attention : la courbe cumulative
des fréquences et l’histogramme. Les nuages constituent une représentation où les modalités sont en
abscisses et les effectifs ou les fréquences en ordonnées.

 Cas d'une variable quantitative discrète


Le diagramme en bâtons est la représentation graphique des effectifs ou des fréquences d’une variable
discrète. À chaque valeur (xi) en abscisse on fait correspondre un segment vertical de longueur
proportionnelle soit à l’effectif (ni), soit à la fréquence (fi) de cette modalité. Ce graphique différentiel se
distingue du graphique intégral ou cumulatif qui représente les fréquences cumulées. Le graphique intégral
représente la fonction cumulative ou fonction de répartition définie par F(xi) = Fi, qui est une fonction étagée
pour une variable discrète pour xi ≤ x≤ xi+1.

 Variables quantitatives continues.


o Organisation par classe.
Une variable quantitative continue peut prendre une infinité de valeurs possibles. Le domaine de la
variable est alors IR ou un intervalle de IR. En pratique, une mesure est limitée en précision. La
taille peut être mesurée en centimètres, voire en millimètres. On peut alors traiter les variables
continues comme des variables discrètes. Cependant, pour faire des représentations graphiques et
construire le tableau statistique, il faut procéder à des regroupements en classes.
Le tableau regroupé en classe est souvent appelé distribution groupée. Si 𝑐 ; 𝑐 désigne la classe
j, on note, de manière générale :

 𝑐 la borne inférieure de la classe j,


 𝑐 la borne supérieure de la classe j,
 𝑐 = 𝑐 +𝑐 le centre de la classe j,
 𝑎 = 𝑐 −𝑐 l’amplitude de la classe j,
 𝑛 l’effectif de la classe j,
 𝑁 l’effectif cumulé de la classe j,
 𝑓 la fréquence de la classe j,
 𝐹 la fréquence cumulée de la classe j,

La répartition en classes des données n´nécessite de définir a priori le nombre de classes J et donc
l’amplitude de chaque classe. En règle générale, on choisit au moins cinq classes de même
amplitude. Cependant, ils existent des formules qui nous permettent d’établir le nombre de classes
et l’intervalle de classe (l’amplitude) pour une série statistique de n observations.
 La règle de Sturge : 𝐽 = 1 + 3.3𝑙𝑜𝑔 (𝑛)

10
 La règle de Yule : 𝐽 = 2.5 √𝑛

L’intervalle de classe est obtenu ensuite de la manière suivante : longueur de l’intervalle = (xmax −
xmin)/J, où xmax (resp. xmin) désigne la plus grande (resp. la plus petite) valeur observée.

Remarque 1.2 Il faut arrondir le nombre de classe J à l’entier le plus proche. Par commodité, on
peut aussi arrondir la valeur obtenue de l’intervalle de classe. A partir de la plus petite valeur
observée, on obtient les bornes de classes en additionnant successivement l’intervalle de classe
(l’amplitude).

o Histogramme.
Deux représentations graphiques retiendront plus particulièrement notre attention : l’histogramme et
la courbe cumulative des fréquences.
L’histogramme est réservé aux séries groupées en classes. Pour visualiser l’importance relative des
classes, on préfère les représenter par des surfaces en construisant un histogramme. L’histogramme
est une représentation graphique de la distribution des effectifs ou des fréquences d’une variable
statistique continue ou considérée comme telle. À chaque classe de valeurs en abscisses, on fait
correspondre un rectangle dont l’aire est proportionnelle à l’effectif de la classe (ou à la fréquence) :
en abscisse l’amplitude de la classe, en ordonnée l’effectif (ou la fréquence) par unité d’amplitude.
Soit une distribution {]𝑏 ; 𝑏 [; 𝑛 } d’une variable statistique continue, pour chaque classe,
l’histogramme associe un rectangle de :
 largeur 𝑎 = 𝑏 − 𝑏 et
 hauteur ℎ =

Un histogramme est constitué de rectangles juxtaposés dont la base correspond à l’amplitude de


chaque classe et dont la surface est proportionnelle à la fréquence absolue ou relative de cette
classe. L’histogramme est un outil statistique facile à utiliser, donnant rapidement une image du
comportement d’un procédé industriel et l’allure globale de la distribution ; il montre l’étalement
des données et apporte ainsi des renseignements sur la dispersion et sur les valeurs extrêmes ; il
permet de déceler, éventuellement, des valeurs aberrantes.

o Polygones et courbes de fréquences.


Le polygone des fréquences lisse l’histogramme de façon à éliminer les ruptures qui dépendent du
choix du découpage en classe. L’histogramme est fidèle au tableau de départ, il donne l’impression,
l’illusion, qu’au sein de chaque classe, les valeurs sont régulièrement distribuées et qu’apparaissent
des modifications brusques. L’information paraît plus réaliste ; la courbe de fréquences respecte la
compensation des aires, la surface incluse par la courbe est identique à celle de l’histogramme.
Cette courbe des fréquences pourra être utilisée pour comparer la distribution réelle avec un modèle
probabiliste connu.

Il permet de représenter sous forme de courbe, la distribution des fréquences absolues ou relatives.
Il est obtenu en joignant, par des segments de droite, les milieux des côtés supérieurs de chaque
rectangle de l’histogramme. Pour fermer ce polygone, on ajoute à chaque extrémité une classe de
fréquence nulle.

La courbe cumulative des effectifs (ou des fréquences) représente graphiquement la fonction
cumulative ou fonction de répartition définie par F(xi ) = Fi . La courbe cumulative des effectifs (ou
des fréquences) s’obtient en joignant les points d’abscisse : la borne supérieure de la classe, et
d’ordonnée : l’effectif cumulé croissant correspondant.

11
Courbes de fréquences cumulées
Courbe cumulative croissante : on joint les points ayant pour abscisses la limite supérieure des
classes et pour ordonnées les fréquences cumulées croissantes correspondant à la classe considérée
(pour le premier point, on porte la valeur 0). Elle donne le nombre d’observations inférieures à une
valeur quelconque de la série.
Courbe cumulative décroissante : la construction de cette courbe est analogue à la précédente. Les
points ont pour abscisses, les limites inférieures des classes et pour ordonnées, les fréquences
cumulées décroissantes (pour le dernier point, la valeur est 0). Elle donne le nombre d’observations
supérieures à une valeur quelconque de la série.
Autres modes de représentations graphiques
On définit des diagrammes à secteurs circulaires et des diagrammes à rectangles horizontaux. Le
diagramme à secteurs circulaires consiste en un cercle découpé en secteurs circulaires ; l’aire de
chaque secteur, représentant la proportion des différentes composantes d’un tout, est
proportionnelle aux fréquences, relatives ou absolues. Le diagramme à rectangles horizontaux est
défini de façon analogue.
Un autre mode de représentation est la boîte à moustaches ou box-plot

o Le diagramme en feuilles
On décompose une donnée numérique en deux parties :
- la tige qui comprend le premier ou les deux premiers chiffres,
- la feuille qui comprend les autres chiffres.
On écrit les tiges les unes sous les autres et en regard de chaque tige, les feuilles correspondantes ;
tiges et feuilles sont séparées par un trait vertical.

o Les graphiques polaires ou radar


Très utiles et d'ailleurs très utilises pour identifier des profils, des comportements (silhouettes)
d'individus en fonction de leur comportement à l'égard de plusieurs variables (au moins 4 mais au
plus 12/14 pour des questions de lisibilité). Le principe de ce type de graphique consiste à
construire une figure comportant autant d'axes que de variables ou modalités étudiées dans un
cercle virtuel avec une origine commune et un espacement égal à 360°/nombre de variables (d'où le
nom polaire ou radar). Chaque axe possède une unité de mesure et une graduation qui lui sont
propres relativement à la variable qu'il représente. Mais celles-ci doivent être identiques pour tous
les individus. D'une façon générale, il est tout de même préférable d'avoir la même graduation pour
l'ensemble des variables.

o Les graphiques triangulaires ou triangle de d'Alembert


Le principe de ce type de graphique, au demeurant peu utilise et c'est dommage car sa valeur
heuristique est très forte, repose sur le fait que dans un triangle équilatéral la somme des distances
d'un point s'y trouvant aux trois cotes est constante et égale à la hauteur dudit triangle. En utilisant
et appliquant cette propriété, il devient possible de représenter un phénomène qui est la somme de
trois grandeurs représentées par des pourcentages.

12
Pour une même population, le graphique triangulaire permet, le cas échéant, de grouper les
individus selon leur profil dans les 3 variables complémentaires retenues. Sur plusieurs dates, il
permet de montrer l'évolution des profils. Il est, en ce sens, assez proche du graphique polaire ou
radar.

13
Chapitre 2 : Mesures de tendance centrale.

2.0. Introduction.
Les paramètres de tendance centrale ou ≪ mesures de tendance centrale ≫ sont des grandeurs
susceptibles de représenter au mieux un ensemble de données. L'appellation ≪ mesure de tendance
centrale ≫ vient du fait que ces paramètres donnent une idée de ce qui se passe au centre d'une
distribution, d'un ensemble de données.

Ainsi, on appelle caractéristique de tendance centrale, une fonction des observations dont la valeur
est comprise entre les valeurs extrêmes de la série et qui donne une mesure du milieu ou du centre
de l’ensemble des observations.

On distingue trois mesures de tendance centrale :


 Le mode
 La médiane
 La moyenne
Tous trois ne décrivent par la même chose et sont, de ce fait, complémentaires dans la description et
l'analyse d'une distribution.

2.1. Le mode
Noté Mo, il correspond à la valeur qui apparait le plus souvent dans une distribution, autrement la
valeur qui à la fréquence (absolue ou relative) la plus élevée. S'il s'agit de données non groupées, la
valeur modale est clairement identifiable. Par contre, si l'on est en présence de données groupées en
classes, le mode se rapportera à la classe comportant le plus grand nombre d'individus : on parlera
alors de classe modale.

Attention ! Le mode est la seule mesure centrale qui peut être relevée et utilisée aussi bien pour des
données qualitatives que quantitatives.
Exemple 2.1 : En relevant les notes à un examen d'une classe de 28 élèves, on obtient la série
suivante :
S1 : 9-11-13-5-8-14-6-12-5-10-16-3-12-13-8-13-8-7-13-13-9-17-10-13-6-13-7-14 qui triée devient
S1 : 3-3-5-5-6-6-7-7-8-8-8-9-9-10-10-11-12-12-13-13-13-13-13-13-14-14-16-17 à partir de laquelle
on peut dresser le tableau de fréquences et l'histogramme suivants :

14
Effectifs
Fréquences
Note (Fréquences absolues
relatives
ou Occurrences)
0 0
1 0
2 0
3 2
4 0
5 2
6 2
7 2
8 3
9 2
10 2
11 1
12 2
13 6
14 2
15 0
16 1
17 1
18 0
19 0
20 0

La note ≪ 13 ≫ apparait 6 fois. Elle est, avec une fréquence relative de (6/28)x100 = 21,4 % la
note la plus représentée de la distribution. Le mode Mo est donc ici égal à 13.

Exemple 2.2 : Examinons les notes obtenues au même examen par la classe voisine composée de 30
élèves :
S2 : 9-11-2-10-5-8-14-6-12-5-10-16-3-12-10-18-7-13-7-7-13-11-9-17-10-7-6-10-7-17 qui une fois
triée devient :
S2 : 2-3-5-5-6-6-7-7-7-7-7-8-9-9-10-10-10-10-10-11-11-12-12-13-13-14-16-17-17-18
On obtient des lors le tableau de fréquences et l'histogramme suivants :

15
Effectifs
Fréquences
Note (Fréquences absolues
relatives
ou Occurrences)
0 0
1 0
2 1
3 1
4 0
5 2
6 2
7 5
8 1
9 2
10 5
11 2
12 2
13 2
14 1
15 0
16 1
17 2
18 1
19 0
20 0

Dans ce cas-ci, deux modalités présentent les fréquences les plus élevées : les notes ≪7≫ et ≪10≫
avec toutes deux une fréquence relative de 16,6 % (5 occurrences chacune). La distribution
comporte ici deux modes, Mo1 = 7 et Mo2 = 10. On parle alors de distribution bimodale.

Exemple 2.3 : Dans une troisième classe, composée de 23 élèves, les notes obtenues au même
examen sont les suivantes :
S3 : 3-12-16-5-3-7-10-7-16-5-11-13-11-9-13-9-10-12-8-15-15-8-19 qui une fois triée devient :
S3 : 3-3-5-5-7-7-8-8-9-9-10-10-11-11-12-12-13-13-15-15-16-16-19
On obtient par le fait le tableau de fréquences et l'histogramme suivants :

16
Effectifs
Fréquences
Note (Fréquences absolues
relatives
ou Occurrences)
0 0
1 0
2 0
3 2
4 0
5 2
6 0
7 2
8 2
9 2
10 2
11 2
12 2
13 2
14 0
15 2
16 2
17 0
18 0
19 2
20 0

Plutôt que de parler de distribution multimodale (à plusieurs modes) on parlera davantage ici de
distribution amodale (sans réel mode). Dans cet exemple, le mode est une mesure non-significative.
C'est souvent le cas lorsque l'on est en présence d'une distribution contenant peu de résultats. Le
mode n'est évidemment pas suffisant pour caractériser et résumer une distribution. Il l'est encore
moins pour comparer et différencier des distributions. Deux distributions peuvent en effet avoir le
même mode avec cependant des allures, et donc des caractéristiques, totalement différentes. On a
donc inventé d'autres paramètres, d'autres mesures susceptibles de mieux caractériser et/ou
différencier des distributions. C'est le cas de la médiane.

2.2. La médiane
Etymologiquement ≪ médiane ≫ signifie milieu, et c'est bien de ça dont il s'agit car la médiane est
réellement le milieu d'une distribution. Notée Me, la médiane correspond à la valeur de la
distribution qui partage l'effectif total en deux sous-effectifs de même taille de telle sorte que l'on
puisse dire que 50 % des individus d'une population sont caractérisés par une valeur supérieure à
celle de la médiane et que 50 % des individus de cette même population ont une valeur inférieure à
la médiane.

Exemple : La médiane des revenus pour une population donnée correspond à la valeur du revenu
pour laquelle on a 50 % de ladite population dont le revenu est supérieur à cette valeur et 50 % dont
le revenu est inférieur. On parle alors de revenu médian.

Attention ! Contrairement au mode, la médiane est une mesure centrale qui ne peut être
calculée et utilisée que pour des variables quantitatives, continues ou discrètes.

Comment calculer la médiane ?

17
Si le mode, pour être révélé, ne nécessite aucun calcul mais simplement de l'observation, la médiane
impose quant à elle, un certain nombre de manipulations voire de calcul pour sa mesure.
Reprenons pour ce faire l'exemple relatif aux notes relevées lors d'un même examen dans
différentes classes en ne retenant que deux séries :

S1 (28 élèves) : 9-11-13-5-8-14-6-12-5-10-16-3-12-13-8-13-8-7-13-13-9-17-10-13-6-13-7-14


S3 (23 élèves) : 3-12-16-5-3-7-10-7-16-5-11-13-11-9-13-9-10-12-8-15-15-8-19

Quelle est, pour chacune des classes, la note médiane ?


Pour le calcul de la note médiane il faut :
1. Classer les valeurs de la série par ordre croissant. Cette opération a pour but d'affecter un rang à
chaque valeur et ainsi de déterminer plus facilement le milieu de la série donc la médiane.

Classe 1 de 28 élèves Classe 3 de 23 élèves


Rang Notes Rang Notes
1 3 1 3
2 5 2 3
3 5 3 5
4 6 4 5
5 6 5 7
6 7 6 7
7 7 7 8
8 8 8 8
9 8 9 9
10 8 10 9
11 9 11 10
12 9 12 10
13 10 13 11
14 10 14 11
15 11 15 12
16 12 16 12
17 12 17 13
18 13 18 13
19 13 19 15
20 13 20 15
21 13 21 16
22 13 22 16
23 13 23 19
24 13
25 14
26 14
27 16
28 17
2. Déterminer si la série comporte un nombre n pair ou impair de valeurs. Deux cas peuvent alors se
présenter :
• Si n est pair, il n'y a pas possibilité d'identifier simplement la valeur qui partage la population en
deux effectifs égaux. Deux valeurs se situent au centre de la série et jouent ce rôle respectivement
de rang (n/2) et [(n/2)+1]. La médiane est alors égale à la moyenne des valeurs encadrant le milieu
de la série. C'est le cas dans la série de notes de la classe 1 composée de 28 valeurs. La médiane se
situe entre le 14e et le 15e rang et sa valeur est donc comprise entre 10 et 11. L'application de la
règle susmentionnée nous donne donc une médiane Me de (10 + 11)/2 = 10,5

18
• Si n est impair alors il est possible d'identifier simplement la valeur qui partage la population en
deux effectifs égaux. Le rang central étant égal à [(n+1)/2]. C'est le cas dans la série de notes de la
classe 3 composée de 23 valeurs. La médiane se situe au niveau du 12e rang et sa valeur est lue
directement en face de ce 12e rang, dans notre Me = 10

Classe 1 de 28 élèves Classe 3 de 23 élèves


Rang Notes Rang Notes
1 3 1 3
2 5 2 3
3 5 3 5
4 6 4 5
5 6 5 7
6 7 6 7
7 7 7 8
8 8 8 8
9 8 9 9
10 8 10 9
11 9 11 10
12 9 12 10
13 10 13 11
14 10 14 11
15 11 15 12
16 12 16 12
17 12 17 13
18 13 18 13
19 13 19 15
20 13 20 15
21 13 21 16
22 13 22 16
23 13 23 19
24 13
25 14
26 14
27 16
28 17
La médiane peut également être repérée graphiquement sur le courbe des fréquences cumulées
comme suit :

19
La médiane de données groupées est également calculable ou plutôt estimable par interpolation. La
médiane est à trouver et à estimer dans le classe ou se situe le rang divisant en deux parties égales la
population.
Exemple : en regroupant les valeurs de la série de notes de la classe 3 en 4 groupes on obtient
l'organisation suivante :

Pour chaque classe (ou groupe) on connait la fréquence absolue ou relative que l'on cumule pour
repérer plus facilement la classe ou le groupe devant contenir la médiane. Dans notre exemple, la
classe contenant la note médiane est la classe [de 10 à 14] car c'est celle qui contient la fréquence
cumulée 50 %. Connaissant n= 23 impair, on sait que la médiane correspond au rang 12 qui se situe
bien dans la classe [de 10 à 14]. Le rapport des différences effectif médian (12) – borne inferieure
de la classe médiane (10) à borne supérieure de la classe médiane (18) – borne inferieure de la
classe médiane (10) nous donne le rapport à appliquer aux valeurs pour trouver la note médiane :
(12-10)/(18-10) = 2/8 = 0,25 pour les effectifs. Pour la valeur médiane, on connait l'amplitude de la
classe médiane (14-10 = 4). Il nous reste donc à trouver la différence entre la médiane (Vm) et la
borne inferieure de la classe de valeurs médiane (10). Cette différence est appelée x. A l'aide du
rapport (0,25) calcule précédemment, on peut écrire :
𝑉 − 10 𝑥
= 0.25 𝑖𝑚𝑝𝑙𝑖𝑞𝑢𝑒 = 0.25 𝑐𝑒 𝑞𝑢𝑖 𝑑𝑜𝑛𝑛𝑒 𝑥 = 1
14 − 10 4
20
La médiane Me est donc égale a la borne inferieure de la classe médiane + x soit 10 + 1 = 11.

2.3. La moyenne
La moyenne constitue un autre paramètre de tendance centrale fondamental mais non suffisant pour
Caractériser une distribution. Complémentaire du mode et surtout de la médiane, la moyenne
constitue à n'en point douter, la mesure la plus calculée et la plus utilisée lors de la description de
séries statistiques.
Il existe plusieurs types de moyennes, chacun adapte à des situations précises :
Dénomination Notation courante
Moyenne arithmétique 𝑥̅
Moyenne géométrique ̅
𝐺 𝑜𝑢 𝑥
Moyenne harmonique 𝐻 𝑜𝑢 𝑥
Moyenne quadratique 𝑄 𝑜𝑢 𝑥
Moyenne glissante -

2.3.1. Moyenne arithmétique.


C'est la plus simple et la communément utilisée et ce, pas toujours à bon escient. Elle se note la
plupart du temps. Elle peut être simple ou pondérée. Attention ! On ne peut pas calculer de
moyenne arithmétique sur des données qualitatives.

La moyenne arithmétique simple


Sa version simple correspond à une somme de résultats divisée par le nombre de résultats et s'écrit :
1
𝑥̅ = 𝑥
𝑛
Avec : n=nombre de résultats (ou nombre d ' individus ou effectif total)
xi=valeur pour i=1 jusqu'à n

La moyenne arithmétique pondérée


La moyenne arithmétique pondérée, autant le dire tout de suite, donne, dans son utilisation classique
(c'est-à-dire lorsque tous les individus ont le même poids), le même résultat que la moyenne
arithmétique simple. Sa formule est cependant différente puisqu'elle introduit la notion de poids via
un terme supplémentaire qui peut s'avérer utile dans certaines situations, notamment lorsque
justement les individus composant une population n'ont pas le même poids ou coefficient : certains
individus, pour diverses raisons, ont davantage d'influence dans ladite population que les autres.
C’est peut-être le cas par exemple lorsque l'on a affaire à une série de notes dont le coefficient n'est
pas le même.
En considérant un ensemble de données
𝑋 = {𝑥 , 𝑥 , 𝑥 , … … , 𝑥 }
et une ensemble de poids non négatifs correspondants :
𝑊 = {𝑤 , 𝑤 , 𝑤 , … … , 𝑤 }
Dans le cas général le poids wi représente l'influence de l'élément xi par rapport aux autres. La
formule de la moyenne pondérée s'écrit alors :

La moyenne arithmétique de données groupées


Autant que faire se peut, ce type de calcul est à éviter car source d'imprécision et d'erreur trop
importantes. Cependant, on peut être confronter à une situation où seules des données groupées sont
disponibles. Dans ce cas, et seulement dans celui-là, on peut être autorisé à calculer une moyenne à
partir de classes. On agit alors comme si tous les résultats d'une classe se trouvaient au centre de

21
celle-ci. La moyenne de la distribution est alors calculée à partir des valeurs centrales des classes
pondérées par leurs effectifs respectifs.
Exemple :

Classe Borne inf. Borne sup. Centre de classe Fréquence absolue f.X
1 2.50 5.00 3.75 67 67x3.75=251.25
2 5.01 7.50 6.25 461 461x6.25=2881.25
3 7.51 10.00 8.75 326 326x8.75=2852.68
4 10.01 12.50 11.25 116 116x11.25=1305.06
5 12.51 26.50 19.50 41 41x19.50=799.50
Total 1011 8090
8090
𝑥̅ = = 8.00 €/𝑚2
1011
2.3.2. La moyenne géométrique :
Sa définition purement mathématique est un peu rébarbative mais son utilité est grande comme
nous allons le démontrer.
La moyenne géométrique de n valeurs positives xi est la racine nième du produit de ces valeurs.
Notée 𝐺̅ ou 𝑥 , elle s'écrit :

𝐺̅ = 𝑥

La moyenne géométrique est un instrument permettant de calculer des taux moyens, notamment des
taux moyens annuels. Son utilisation n’a un sens que si les valeurs ont un caractère multiplicatif.
2.3.3. La moyenne harmonique :
On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des domaines
où ils existent des liens de proportionnalité inverse.
Exemples :
 Pour une distance donnée, le temps de trajet est d’autant plus court que la vitesse est élevée.
 Un loyer dans le parc prive est d'autant plus élevé que la taille ou la surface du logement est
petite.
La moyenne harmonique de N valeurs est le nombre dont l'inverse est la moyenne arithmétique des
inverses desdites valeurs. C'est un peu compliqué comme définition ! Voilà ce que ça donne sous
une forme mathématique :

La moyenne harmonique permet de calculer des moyennes sur des fractions si le dénominateur
change. C'est le cas du calcul de la vitesse moyenne parcourue dans un trajet aller/retour, la vitesse
étant la valeur représentée par distance / temps.

2.3.4. La moyenne quadratique :


Une moyenne qui trouve ses applications lorsque l'on a affaire à des phénomènes présentant un
caractère sinusoïdal avec alternance de valeurs positives et de valeurs négatives. Elle est, de ce fait,
très utilisée en électricité. Elle permet notamment de calculer la grandeur d'un ensemble de nombre.
A titre d'information, elle s'écrit :

22
2.3.5. La moyenne glissante ou moyenne mobile
La moyenne glissante, ou moyenne mobile trouve son application dans l'analyse des séries
temporelles de données en permettant la suppression des fluctuations de façon à en souligner les
tendances sur le long terme.
Cette moyenne est dite mobile parce qu'elle est recalculée de façon perpétuelle, des lors qu'une
nouvelle donnée intègre la série en venant remplacer la plus ancienne, modifiant ainsi la date de
référence. Cette façon de faire tend à lisser le phénomène étudié en noyant les valeurs extrêmes
dans une masse de données davantage représentative d'une tendance moyenne.
D'une façon générale, la moyenne glissante s'écrit :

où N représente le nombre de valeurs successives à prendre en compte.


xn représente la valeur de référence.
k représente le rang.

2.3.6. Relation entre les différentes moyennes


D'une façon générale, pour une même distribution, les résultats obtenus par les différentes
moyennes décrites s'organisent comme suit :
Moyenne Harmonique ≤ Moyenne Géométrique ≤ Moyenne Arithmétique ≤ Moyenne Quadratique

23
Chapitre 3 : Mesure de dispersion et de forme.
3.1. Introduction.
On appelle caractéristique de dispersion, une fonction des observations dont la valeur rend compte
de l’étalement des valeurs observées autour de leur tendance centrale.

3.2. Les paramètres de dispersion


Pour caractériser et résumer une distribution il est nécessaire de fournir deux mesures : une reflétant
le centre de la distribution (mesures de tendance centrale) et une autre renseignant sur la dispersion
ou l'éparpillement des données autour notamment des paramètres de tendance centrale.
Nous étudierons quatre paramètres de dispersion parmi les principaux en mettant plus
particulièrement l'accent sur la variance et l'écart-type :
 Minimum, maximum, étendue et rapport de variation
 Intervalle interquartile
 Variance
 Ecart-type

3.2.1. Minimum, maximum, étendue et rapport de variation d'une distribution


Minimum et maximum d'une série statistique correspondent respectivement et comme leur nom
l'indique à la valeur minimale et à la valeur maximale rencontrées dans ladite série. Ces deux
paramètres ont une triple utilité : ils permettent,

i) de calculer l'étendue de la distribution, également appelée intervalle de variation (IV), c'est-à-


dire l'écart entre le minimum et le maximum. La connaissance de ce paramètre est indispensable
à toute opération de discrétisation. Il permet également, pour une même variable, de comparer
plusieurs distributions. IV=Max−Min.

ii) de calculer le rapport de variation (V) , c'est-à-dire le rapport de la valeur maximale de la


distribution a la valeur minimale de la même distribution. Utile également lorsque l'on souhaite
comparer, pour une même variable, différentes distributions entre elles.

iii) de connaitre les limites d'une distribution en vue de son éventuelle discrétisation

3.2.2. Écarts à la moyenne


Il est possible de situer les observations par rapport à leur valeur moyenne à l'aide des écarts signés
(𝑥 − 𝑥̅ ) et absolus|𝑥 − 𝑥̅ |. Les premiers permettent d'indiquer en outre la position de la variable
observée par rapport à la moyenne, tandis que les seconds n'indiquent que l'ampleur de l'écart à la
moyenne. Mais on peut utiliser ces derniers pour évaluer la « distance moyenne à la moyenne »,
c'est-à-dire l'écart absolu moyen (EAM) :
1
𝐸𝐴𝑀 = |𝑥 − 𝑥̅ |
𝑛
3.2.3. Intervalle interquartile
Etendue et rapport de variation ne renseignent que de façon imprécise voire trompeuse sur la
dispersion des valeurs dans une distribution compte tenu notamment de la présence fréquente de
valeurs extrêmes exceptionnelles, alors que le reste de la population demeure concentrée sur un
intervalle beaucoup plus restreint. Souvent peu nombreuses, ces valeurs extrêmes peuvent pourtant
perturber de façon importante l'appréciation que l'on peut se faire des caractéristiques d'une
distribution.
Pour associer une mesure de dispersion à la valeur centrale indiquée par la médiane, on utilise
l'intervalle inter-quantile (IQ) qui représente l'intervalle incluant la médiane et dans lequel se situent
50 % des observations.
24
Lorsqu'on utilise des quartiles, IQ = Q3 – Q1 (pour des centiles, on aurait IQ = C75 - C25). L'examen
de la position de la médiane par rapport aux bornes de l'IQ (Q1 et Q3, par exemple) permet
d'identifier les éventuelles asymétries dans la distribution des effectifs.

3.2.4. Les quartiles, déciles et centiles


Dans une distribution dont les individus ont été au préalable triés par ordre croissant, les quartiles
correspondent aux trois valeurs qui partagent une population en quatre sous-ensembles de même
taille, c'est-à-dire d'effectifs égaux. Par convention, les quartiles sont respectivement par Q1, Q2 et
Q3 de telle sorte que l'on peut écrire pour chacun d'eux :

25 % des effectifs de la population ont une valeur inferieur a Q1 et 75 % une


Quartile 1 ou Q1 valeur supérieure. Dans une distribution relative au revenu des ménages par
exemple, Q1 marque la limite entre les ménages les 25% les plus modestes et
les 75% les plus aises
50 % des effectifs de la population ont une valeur inferieur a Q1 et 50 % une
Quartile 2 ou Q2
valeur supérieure. Q2 correspond à la médiane.
75 % des effectifs de la population ont une valeur inferieur a Q1 et 25 % une
valeur supérieure. Dans une distribution relative au revenu des ménages par
Quartile 3 ou Q3
exemple, Q3 marque la limite entre les ménages les 25% les plus riches et les
75% restant de la population.

Les quartiles se déterminent de la même façon que la médiane et nécessitent, comme pour cette
dernière, que les valeurs de la distribution aient été au préalable classées par ordre croissant. Il suffit
alors de cumuler les fréquences (absolues ou relatives) et de se positionner à l'endroit ou résident les
seuils Q1 = 25%, Q2 = 50 % et Q3= 75 % et de lire les valeurs correspondantes de la distribution.
De façon visuelle et approximative, il est toujours possible d'utiliser, après l'avoir tracée, la courbe
des fréquences cumulées comme suit :

De la même manière, et dans le but de préciser et d'affiner encore l'analyse de la dispersion d'une
distribution, on peut faire appel aux notions de déciles et de centiles. Le principe demeure le même
que pour les quartiles à la différence que la population est ici divisée respectivement en 10 et 100
sous-populations d'égal effectifs.

Grace aux quartiles (comme aux déciles) il devient possible d'améliorer la description et l'analyse
de la dispersion d'une distribution et de comparer de façon plus sure et plus pertinente deux
distributions entre elles ou bien encore la distribution d'une même population à deux dates
25
différentes pour une même variable, en rappelant que la mesure de dispersion qui nous intéresse
n'est pas nécessairement le quartile (qui n'est pas une mesure de dispersion) mais l 'intervalle
interquartile , c'est-à-dire la différence entre le troisième quartile (Q3) et le premier quartile (Q1).

L'intervalle interquartile contient toujours 50 % de la distribution. Plus il est large, plus la


distribution est dispersée. Malgré l'amélioration de la description et de la distribution et de la
variable associée, il n'est cependant pas encore possible de décrire sans ambiguïté celle-ci et surtout
de mesurer avec précision la dispersion des valeurs la composant. Alors que l'étendue (ou intervalle
de variation) dépend uniquement des valeurs extrêmes, que l'intervalle interquartile dépend de 50 %
des données situées au milieu de la distribution, il nous faut introduire un nouveau et ultime
paramètre qui dépendra de tous les résultats. Cette mesure devra avoir la propriété d'être petite
lorsque les valeurs seront proches les unes des autres, et grande lorsque ces mêmes valeurs seront
très éparpillées. Cette mesure existe, elle se nomme écart-type.

3.2.5. Variance et écart-type


Si la moyenne reflète bien la valeur centrale d'une distribution (sous réserve qu'il n'y ait pas trop de
valeurs extrêmes), elle ne renseigne pas sur la distribution des observations autour de cette valeur
centrale.

3.2.5.1. Variance. La variance mesure la dispersion des valeurs observées autour de la moyenne.
Cas 1 : n données non réparties en classes.
Plus précisément, la variance est la moyenne quadratique des écarts à la moyenne, et s'exprime
sous la forme :
1
𝑠 = (𝑥 − 𝑥̅ )
𝑛
encore une fois en supposant l'équipondération des mesures.

Cas 2 : n données réparties en k classes, la classe i étant d’effectif absolu ni .


Dans ces conditions, on obtient la formule avec des poids pi :
1
𝑠 = 𝑝 (𝑥 − 𝑥̅ )
𝑛
Contrairement à la plupart des indices descriptifs, la variance ne s'exprime pas dans l'unité de
mesure, et est plus difficile à interpréter par rapport aux données observées. En revanche, elle
présente certaines propriétés intéressantes en analyse de données. Elle permet de quantifier la
« distance carrée moyenne à la moyenne » en prenant les écarts à la moyenne élevés au carré.

3.2.5.2. Variance corrigée. La variance corrigée, notée 𝑠 utilisée dans les procédures
inférentielles, est calculée de la même manière mais le dénominateur est alors (n-1). Ceci se justifie
par le fait que l'on peut montrer que la variance standard (variance de l'échantillon de taille n), à
la différence de la moyenne, est un mauvais estimateur de la variance de population, et l'on enlève
par conséquent un degré de liberté au dénominateur.
1
𝑠 = (𝑥 − 𝑥̅ )
𝑛−1

3.2.5.3. Écart-type. L'écart-type σx est simplement la racine carrée de la variance et s'exprime dans
la même unité que la variable mesurée. De même que la moyenne, l'écart-type est lui aussi dans une
certaine mesure sensible aux valeurs extrêmes, contrairement à l'intervalle interquartile.

3.2.5.4. Écart-type corrigé. A l'image de la variance corrigée, dans les procédures à visée
inférentielle, on utilisera de préférence l'écart-type corrigé sx, qui est calculé avec un dénominateur
égal à (n-1) et qui est un estimateur non biaisé de l'écart-type de population.
26
3.2.5.5. Propriétés et utilité
 L’écart-type s caractérise la dispersion d’une série de valeurs. Plus s est petit, plus les
données sont regroupées autour de la moyenne arithmétique x et plus la population est
homogène ; cependant avant de conclure, il faut faire attention à l’ordre de grandeur des
données. Autrement dit,
– Un écart-type faible signifie que les valeurs sont relativement concentrées autour de
la moyenne et que la population regroupe des individus aux caractéristiques
relativement homogène.
– A contrario, un écart-type élevé est révélateur de valeurs très dispersées autour de
la moyenne et d'une population hétérogène.
 La variance tient compte de toutes les données, c’est la meilleure caractéristique de
dispersion (nombreuses applications en statistique).
 Son unité est celle de la variable à laquelle il se rapporte. Si la variable étudiée est
exprimée en euro (€), l'unité de l'écart-type sera l'euro.
 L’écart-type permet de trouver le pourcentage de la population appartenant à un intervalle
centré sur l’espérance mathématique.

Dans les conditions statistiques idéales c'est-à-dire celle d'une population parfaitement bien
distribuée autour des paramètres centraux, on sait que :
[𝑥̅ − 𝜎; 𝑥̅ + 𝜎] Contient 68.3 % de l'ensemble des individus de la distribution.
[𝑥̅ − 2𝜎; 𝑥̅ + 2𝜎] Contient 95.5 % de l'ensemble des individus de la distribution.
[𝑥̅ − 3𝜎; 𝑥̅ + 3𝜎] Contient 99.7 % de l'ensemble des individus de la distribution.

3.2.6. Coefficient de variation


Il s’exprime, sous la forme d’un pourcentage, par l’expression suivante :
𝑠
𝐶𝑉 = × 100
𝑥̅
3.2.7. Propriétés
 Le coefficient de variation ne dépend pas des unités choisies.
 Il permet d’apprécier la représentativité de la moyenne arithmétique 𝑥̅ par rapport à
l’ensemble des données.
 Il permet d’apprécier l’homogénéité de la distribution, une valeur du coefficient de
variation inférieure à 15 % traduit une bonne homogénéité de la distribution.
 Il permet de comparer deux distributions, même si les données ne sont pas exprimées avec
la même unité ou si les moyennes arithmétiques des deux séries sont très différentes.

3.3. Caractéristiques de forme


3.3.1. Symétrie ou asymétrie d’une distribution statistique
 Comparaison des indicateurs de tendance centrale
Lorsque les trois indicateurs de position à savoir mode, médiane et moyenne sont à peu près
« alignés » sur la même valeur ou la même classe, cela indique généralement une distribution
relativement symétrique des observations. Dans le cas contraire, cela signifie une certaine asymétrie
de la distribution. Dans ce cas, la médiane étant toujours située entre le mode et la moyenne
(lorsque la distribution est unimodale uniquement), la position de la moyenne par rapport au mode
permet de déterminer le sens de l'asymétrie :
 lorsque l'on a mode < médiane < moyenne, la distribution est asymétrique vers la droite,
 tandis que lorsque l'on a moyenne < médiane < mode, l'asymétrie est à gauche.

L'examen du positionnement des fractiles (e.g. les quartiles, ou pour plus de précision les déciles)
permet également de vérifier l'aspect de la distribution, et ses éventuelles asymétries (locales ou
globale). D'autre part, la présence de deux modes indique que la distribution est bimodale (ou
multimodale s'il y a plus de deux modes relatifs). La distribution peut demeurer « symétrique »
27
lorsque les deux modes sont égaux, mais la présence d'un mode relatif traduit généralement une
distribution relativement asymétrique.

 Coefficient d’asymétrie de Fisher ou de dissymétrie ou skewness


𝜇 1
𝛾 = 𝑜ù 𝜇 = (𝑥 − 𝑥̅ )
𝑠 𝑛
si γ1 > 0, la distribution est étalée vers la droite,
si γ1 < 0, la distribution est étalée vers la gauche,
si γ1= 0, on ne peut conclure que la distribution est symétrique.

 Coefficient d’asymétrie de Yule


Le coefficient d’asymétrie de Yule est basé sur les positions des 3 quartiles (1er quartile, médiane et
troisième quartile), et est normalisé par la distance interquartile :
𝑸𝟑 + 𝑸𝟏 − 𝟐𝑸𝟐
𝑨𝒚 =
𝑸𝟑 − 𝑸𝟏
 Coefficient d’asymétrie de Pearson
Le coefficient d’asymétrie de Pearson est basé sur une comparaison de la moyenne et du mode, et
est standardisé par l’écart-type :
𝑥̅ − 𝑀
𝐴 =
𝑠

Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la distribution est
symétrique, négatifs si la distribution est allongée à gauche, et positifs si la distribution est allongée
à droite.

3.3.2. Aplatissement d’une distribution statistique


L’aplatissement est mesuré par le coefficient d’aplatissement de Pearson 𝛾 ou le coefficient
d’aplatissement de Fisher 𝛿 . Les formules de calcul des différents coefficients sont présentées ci-
après :
𝜇 1
𝛾 = 𝑜ù 𝜇 = (𝑥 − 𝑥̅ )
𝑠 𝑛

𝛿 =𝛾 −3

Selon la valeur de ces coefficients, on peut donner quelques caractéristiques sur la forme de la
distribution :
 si γ2 > 3, la distribution est moins aplatie qu’une distribution gaussienne donc nous avons
une courbe leptokurtique,
 si γ2 < 3, la distribution est plus aplatie qu’une distribution gaussienne donc nous avons une
courbe platykurtique, puis
 si γ2 = 3, la distribution est plus aplatie qu’une distribution gaussienne donc nous avons une
courbe mésokurtique.

NB : Ces deux coefficients sont principalement utilisés pour vérifier qu’une distribution est proche
d’une distribution normale (loi de Laplace-Gauss) ; en effet, pour une telle loi, le coefficient
d’aplatissement est égal à 3 et le coefficient d’asymétrie vaut 0.

28

Vous aimerez peut-être aussi