Cours Stat

1
Chapitre 1
Généralités sur la statistique
La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’in-
terprétation des résultats et leur présentation afin de rendre les données compréhensibles
par tous. C’est à la fois une science, une méthode et un ensemble de techniques.
L’analyse des données est utilisée pour d’écrire les phénomènes étudiés, faire des pré-
visions et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel
pour la compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile
dans tous les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les
filières universitaires, de l’économie à la biologie en passant par la psychologie et bien sûr
les sciences de l’ingénieur. La statistique consiste à :
– Recueillir des données.

– Présenter et résumer ces données.
– Tirer des conclusions sur la population étudiée et d’aider à la prise de décision.
– En présence de données dépendant du temps, nous essayons de faire de la prévision.
1.1 Vocabulaire
Les statistiques consistent en diverses méthodes de classement des données tels que les
tableaux, les histogrammes et les graphiques, permettant d’organiser un grand nombre de
données. Les statistiques se sont développées dans la deuxième moitié du XIXe siècle dans
le domaine des sciences humaines (sociologie, économie, anthropologie, ...). Elles se sont
dotées d’un vocabulaire particulier.
2 1.1. VOCABULAIRE
Vocabulaire
Population
Individu
Epreuve statistique
Modalités
Caractéristiques
(Variable statisitque)
1.1.1 Épreuve statistique
Les statistiques descriptives visent à étudier les caractéristiques d’un ensemble d’ob-
servations comme les mesures obtenues lors d’une expérience. L’expérience est l’étape pré-
liminaire à toute étude statistique. Il s’agit de prendre "contact" avec les observations. De
manière générale, la méthode statistique est basée sur le concept suivant.
Définition 1
L’épreuve statistique est une expérience que l’on provoque.
Exemple 1 (La durée de vie des lampes)

Imaginons le cas suivant : un fabricant d’ampoules électriques ayant le choix entre
4 types de filaments se propose d’étudier l’influence de la nature du filament sur la
durée de vie des ampoules fabriquées. Pour ce faire, il va faire fabriquer 4 échantillons
d’ampoules identiques, sauf en ce qui concerne le filament, faire brûler les ampoules
jusqu’à extinction, puis comparer les résultats obtenus.
1.1.2 Population
En statistique, on travaille sur des populations. Ce terme vient du fait que la démo-
graphie, étude des populations humaines, a occupé une place centrale aux débuts de la
statistique, notamment au travers des recensements de population. Mais, en statistique,
le terme de population s’applique à tout objet statistique étudié, qu’il s’agisse d’étudiants
(d’une université ou d’un pays), de ménages ou de n’importe quel autre ensemble sur lequel
on fait des observations statistiques. Nous définissons la notion de population.
Université de Tlemcen page 2 A. CHEKROUN

1.1. VOCABULAIRE 3
Définition 2
On appelle population l’ensemble sur lequel porte notre étude statistique. Cet ensemble
est noté Ω.
Exemple 2
– On considère l’ensemble des étudiants de la section A. On s’intéresse aux
nombre de frères et sœurs de chaque étudiant. Dans ce cas
Ω = ensemble des étudiants.
– Si l’on s’intéresse maintenant a la circulation automobile dans une ville, la po-

pulation est alors constituée de l’ensemble des véhicules susceptibles de circuler
dans cette ville à une date donnée. Dans ce cas
Ω = ensemble des véhicules.
1.1.3 Individu (unité statistique)
Une population est composée d’individus. Les individus qui composent une population
statistique sont appelés unités statistiques.
Définition 3
On appelle individu tout élément de la population Ω, il est noté ω (ω dans Ω).
Remarque 1
L’ensemble Ω peut être un ensemble de personnes, de choses ou d’animaux...
L’unité statistique est un objet pour lequel nous sommes intéressés à recueillir de l’in-
formation.
Exemple 3
– Dans l’exemple indiqué ci-dessus, un individu est tout étudiant de la section.
– Si on étudie la production annuelle d’une usine de boîtes de boisson en métal
(canettes). La population est l’ensemble des boîtes produites durant l’année et

4 1.1. VOCABULAIRE
une boîte constitue un individu.
1.1.4 Caractère (variable statistique)
La statistique « descriptive », comme son nom l’indique cherche à décrire une po-
pulation donnée. Nous nous intéressons au caractéristique des unités qui peuvent prendre
différentes valeurs.
Définition 4
On appelle caractère (ou variable statistique, dénotée V.S) toute application
X : Ω → C.
L’ensemble C est dit : ensemble des valeurs du caractère X (c’est ce qui est mesuré ou
observé sur les individus)
Exemple 4
Taille, température, nationalité, couleur des yeux, catégorie socioprofessionnelle ...
Remarque 2
Soit Ω un ensemble. On appelle et on note Card(Ω), le nombre d’éléments de Ω.
Card(Ω) := nombre d’éléments de Ω = N.
1.1.5 Modalités
Les modalités d’une variable statistique sont les différentes valeurs que peut prendre
celle-ci.
Exemple 5
– Variable est " situation familiale "
Modalités sont " célibataire, marié, divorcé "

1.2. TYPES DES CARACTÈRES 5
– Variable est" statut d’interrupteur "

Modalités sont " 0 et 1 ".
– Variable est " catégories socio-professionnelles "

Modalités sont " Employés, ouvriers, retraités,... "
Les modalités sont les différentes situations dans lesquelles les individus peuvent se
trouver à l’égard du caractère considéré.
1.2 Types des caractères
Nous distinguons deux catégories de caractères : les caractères qualitatifs et les carac-
tères quantitatifs.
1.2.1 Caractère qualitatif
Les caractères qualitatifs sont ceux dont les modalités ne peuvent pas être ordonnées,
c’est-à-dire que si l’on considère deux caractères pris au hasard, on ne peut pas dire de l’un
des caractères qu’il est inférieur ou égal à l’autre. Plus précisément, nous avons la définition
suivante.
Définition 5
Les éléments de C sont représentés par autre chose que des chiffres.
Exemple 6
L’état d’une maison : on peut considérer les modalités suivantes
– Ancienne.
– Dégradée.
– Nouvelle.

6 1.2. TYPES DES CARACTÈRES
– Rénovée.
1.2.2 Caractère quantitatif
Les caractères quantitatifs sont des caractères dont les modalités peuvent être ordon-
nées. Ainsi, l’âge, la taille de vie ou le salaire d’un individu sont des caractères quantitatifs.
Donc, nous avons la définition suivante.
Définition 6
L’ensemble des valeurs est représenté par des chiffres. De même, il est partagé en deux
sortes de caractères, discret et continu (voir l’exemple).
Exemple 7
– Le salaire d’employés d’une usine.
Modalités : 10000da , 20000da...
Type : Discret.
– La rigidité des ressorts.

Modalités : [10, 20] N/m
Type : continu.
En général, la variable quantitative discrète est une variable ne prenant que des valeurs
entières (plus rarement décimales). Le nombre de valeurs distinctes d’une telle variable
est habituellement assez faible. Citons, par exemple, le nombre de maisons par quartier
d’une ville. Une variable quantitative est dite continue lorsque les observations qui lui sont
associées ne sont pas des valeurs précises, mais des intervalles. C’est le cas lorsque nous
avons un grand nombre d’observations distinctes.
La statistique descriptive a pour objectif de synthétiser l’information contenue dans

les jeux de données au moyen de tableaux, figures ou résumés numériques. Les variables
statistiques sont analysées différemment selon leur nature (quantitative, qualitative).

Chapitre 1: Représentation des données
Chapitre I : Représentation des données
I. Introduction
Dans leur état brut, les informations ne peuvent être utilisées, d'où la nécessité de les mettre
en ordre", c'est-à-dire de les ranger.
A ce stade, elles forment une distribution ou une série statistique représentant un ensemble
des modalités et des e ffectifs d'un caractère.
II. Tableaux statistiques
1) Tableaux statistiques: caractères et effectifs
Le tableau correspondant aux séries à un seul caractère est à simple entrée, dans lequel
figurent deux colonnes: 1'une pour les modalités prise par la variable (x,) et l'autre pour les
effectifs correspondantes (n).
La présentation d'un tableau statistique fait correspondre à chaque modalité x; un "elffectir"
ou "fréquence absolue" n;.
Effectifs
Caractères
(X) n)
X
X2
Modalités
Tk
2) Tableaux statistiques : Cas des ractères qualitatifs

Dans ce cas, les caractères ne sont pas mesurables, on peut donc les ranger dans un tableau
statistique selon une logique qui permet au mieux l'interprétation.

Exemple d'un tableau représentant un caractère qualitatif
Distribution des employés d'une multinationale selon leur nationalité
Nationalité (x) Effetifs (n,)
Marocains 1450
120
Français
Tunisiens 50
Espagnoles 28
Autres
N= 1655
3) Tableaux statistiques : Cas des caractères quantitatifs

Lorsque le caractère est quantitatif, il faut distinguer
le cas des variables discrètes
du cas des variables continues.
discrètes:
a) Tableaux statistiques : Cas des variables statistiques
Dans ce cas, les valeurs xi sont discrètes et correspondent chacune à un effectif n;.
Exemple:
12
Chapitre: Représentation des données
des frères et saæurs des étudiants de

Soit la distribution statistique représentant le nombre
la 1e année éco. & gestion :
Frères et sæurs (Xi) Effectifs (n)

- * - - . - ~ - -
10 * ********
20
**
40 *****
- - - --************
*
Z
******************************* * ****
Z ***
10
********* *
O
*********
*************************
************
9 - * * * * * ****:*
10
N =162
b) Tableaux statistiques: Cas des variables statistiques continues

Dans ce cas, les valeurs prises par la variable ne sont pas entières, ce qui nécessite la
création de classes de valeurs possibles définies par les extrémités de classes (ou bornes).
Exemple:
Soit la distribution statistique des employés d'une entreprise selon leurs salaires
mensuels en dirhams
Salaires en DH (x) Effectifs (n)

< 2500
[2500 3500[ 4
(3500 4500[ 11
[4500 5500[
5500
N 25
Remarques:
.La division de la série en classes se fait selon la nature du sujet traité, elle relève
donc du statisticien et de son appréciation du problème:
Si l'intervalle est petit, le nombre de classes sera important et peut rendre les
calculs plus compliqués.
Si l'intervalle est grand, l'information se perd à cause de la condensation des
chiffres.
Dans le cas des variables statistiques continues, les modalitésx appartiennent à des
intervalles de la forme [e-i eil que l'on appelle des classes et qui ont un centre
, =*L
2
Ces intervalles ou classes ont une largeur ou amplitude: 4 =e, -e,

13
Exemple
lei-1i eiL C P
8%
2500 2 0,08
16%
[2500, 3500[ 3000 1000 0,16
[3500, 4500[ 11 4000 1000 0,44 44%
4500, 5500[ 5000 1000 0,2 20%
>5500 0,12 12%
100%
N=25 | 1
4) Tableaux statistiques : Effectifs cumulés croissants
eftecif cumulé croissant d'unevaleur x, est la somme d'effectif de cette valeur el tout
les effectifs des valeurs précédentes
nc f 2jsin, = ni t+ 2 ++7
On le note njc t ou n/cc.

I se calcule en totalisant les effectifs avecceux des modalités précédentes.
s e r t à répondre aux questions qui demandent un nombre ou un effectif « moins de » ou

« inférieur à » une valeur donnée.
5) Tableaux statistiques Effectifs cumulés décroissants
L'efiectif cumulé décroissant d'une valeur xi est la somme de son effectif et les effectifs
de toutes les valeurs suivantes:
nic n ni t ni+1 t + 7k
isj
On le note nic ou nicd.
OIl se calcule en totalisant les effectifs avec ceux des classes antérieures.
I l sert à répondre aux questions qui demandent un nombre ou un effectif « plus de » ou

«supérieur à » une valeur donnée.
6) Tableaux statistiques: Fréquences cumulées croissantes
O Une fréquence cumulée croissante d'une modalité x/ est la somme de sa fréquence et des
fréquences des modalités précédentes,
on la note fic T ou ficc:
fcc = fic 1=)j = fh+ft+f

JS
Elle se calcule en totalisant les fréquences relatives avec celles des classes
suivantes, ou
en calculant le rapport de
l'effectif cumulécroissant et 1'effectif total:
fc nC
N
14
Chapitre 1:Représentationdesdonnées
Une fréquence cumulée décroissante d'une modalité est la somme de sa frequence et ies
fréquences des modalités suivantes.
On la note fic l ou ficd:
fic = fcd =),fj= fi +

f+1t+f
E l l e se calcule en
totalisant les fréquences relatives avec celles des classes anterieures,
ou en calculant le rapport de l'effectif cumulé décroissant et l'effectif total:
hc = c
N
Exemple
[e-1el ncT Sict nic fc
S nCC fcc n cd fcd
<2500 0,08 2 0,08 25 1
2500, 3500[ 0,16 0,24 23 0,92
3500, 4500[ 11 0,44 17 0,68 19 0,76
4500, 5500[ 0,2 22 0,88 8 0,32
>5500 3 0,12 25 1 3 0,12
N-25 ZS=1
IlI. Fonction de répartition
Définition:
Etant donnée série statistique correspondante à la variable
une
statistique X, la fonction définie
par xficc, avecx est une valeur des modalités, s'appelle une fonction de répartition, notée
Fx(x) et on écrit:
Fx(x) = fcc =fi +f2 + + f
avec ficc est la fréquence cumulée croissante
-
SiXest discrète ou qualitative, alors si Xi-1 S* << x; donc E, (x)= >
Si Xest continue, alors si e-1 Sx<ej donc Fy (x ) =2/
IV. Représentations graphiques
1) Introduction
On a vu que l'on représente les séries statistiques par des tableaux, mais ces tableaux restent
parfois insuffisants pour voir, par exemple, si une variable croit, décroit ou reste constante; ou
si elle présente autres caractéristiques.
Les représentations graphiques peuvent nous donner une vue immédiate et complète des
phénomènes étudiés.
15
2) Caractères quantitatifs:
Variables statistiques diserètes:
a) Diagramme en bâtons
Le dlagramme en bâtons représente les fréquences ou les effectifs n; correspondants å chaque
valeur de la variable Xi.

Exemple
Soit la série statistique donnant le nombre des frères et sceurs des 30 étudiants de la lère année
éco. & gestion:
2 0,067
0,1
2 0,167
3 10 0,333
4 7 0,234
5 2 0,067
6 1 0,033
N N 30 1
O 333 -----.
943
0167 -
0.1
0.067
0033
3 4 5 6
Diagraune en bäto ns des fré quences relatives
b) Courbe cumulative
La courbe cumulative est une fonction de distribution qui représente les effectifs cumulés
croissants nic t en fonction des modalités xi .
Elle permet de déterminer la proportion des individus de la population dont le caractère est
inférieur à une certaine valeur xi.
Elle est représentée par une courbe en "escaliers" dont les paliers sont horizontaux.
Exemple:
Soit la série statistique quantitative discrète suivante (des nombres de frères et sceurs de 30
étudiants).
16
Chapitre l: Représentation des données
nCC
2
5
2 10
10 20
4 7 27
2 29
6 1 30
N 30
27
20
10
Courbe cunmlative
3) Caractères quantitatifs: Variables statistiques continues
Comme pour ce type de variables, il y a une infinité de valeurs intermédiaires nécessitant le

recours à des classes, on ne peut pas utiliser le diagramme en bâtons. On se propose d'utiliser
la représentation des surfaces des classes par un histogramme.
a) Histogramme: Cas des amplitudes égales

Pour tracer 1"'histogramme d'une variable statistique quantitative continue, on doit distinguer
deux cas selon si les amplitudes des classes sont égales ou différentes.
Exemple:
Soit la série représentant les notes des étudiants en Informatique:
e-1el f
[o.5[ 60 0,15
5,10[ 120 0,30
[10,15[ 200 0,50
[15,20[ 20 0,05
N = 400 f =1
17
Chapitre I: Représentation des données
0,50
0.30
0,15
0,05
10 15 20
Figure 1: Histogramme des fréquences relatives
b) Histogramme : Cas des amplitudes différentes
Exemple:
Le salaire annuel des 100 employés d'une entreprise se répartit comme suit
Salaire annuel en 1000 Dh Nombre d'employés
[0,30[ 10
[30,50[ 48
(50,90[ 34
[90,120[ 8
Total 100
Représentons l'histogramme de cette distribution.

Pour homogénéiser la distribution et tenir compte de l'inégalité des amplitudes, on dresse le
tableau suivant
a eiei-1 h=
e-1el
[0,30[ 10 0,1 30 0,33
48 0,48 20 2,4
[30,50
[50,90[ 34 0,34 40 0,85
[90,120[ 8 0,08 30 0,27
| N =100
18
Chapitre I: Représentation des données
,35
0.33
120
Figure 2: Histogramme des hi
c) Polygones des fréquences:
Partant de l'histogramme et joignant par des segments de droite les milieux des sommets des
rectangles, on obtient le polygone (des effectifs ou des fréquences).
Exemple:
Reprenons l'exemple des notes des étudiants en Informatique I, lorsque les classes ont des
amplitudes égales:
0.30
0,15
0,05
Figure 3: Polygones desfréquences
Remarques
Il est préférable d'ajouter deux classes fictives aux extrémités de la série pour obtenir un
polygone parfait.
Il y a toujours conservation de la surface puisque l'aire sous le polygone est égale à 1 (en
fréquence) (voir parties hachurées sur le graphique qui se compensent).
Exemple : Polygones des h
Pour l'exemple des salaires annuels des 100 employés d'une entreprise o n a :
19
Chapitre I:Représentation des données
0,35
0.3s
0.27
30 120
Remarque:
En faisant un ajustement graphique du polygone des fréquences, ce dernier tend vers une
courbe continue appelée "courbe des fréquences".
4) Les caractères qualitatifs: Les graphiques en tuyaux d'orgue

Ce type de graphique représente en abscisse les différents caractères (x), de base constante,
et en ordonnées la hauteur correspondant aux effectifs ou aux fréquences.
Généralement, on a tendance à ordonner les (x) selon un ordre décroissant en partant de
l'origine des axes.
Exemple
Les participants aux jeux olympiques selon le continent d'origine:
Afrique 80
Amérique 100
Asie 140
Australie 30
Europe 130
i
Figure 4: Diagramme en tuyaux d'orgue
20
5) Les earactères qualitatifs: Diagramme à secteurs

C'est un diagramme visualisant les parts relatives dans des secteurs de cercles. Chaque secteur
correspond à une modalité, l'angle au centre est égal au produit de 360° par la fréquence f.
Exemple
Reprenons l'exemple précèdent des participants aux jeux olympiques selon le continent
d'origine :
L e nombre total des participants est de 480.
L'Afrique correspond à 60° card'après la règle de proportionnalité on a
480 360 80x 360
règle de trois: x 60
80 x 480
L'Amérique ^ 75°. car: x 360 = 75

480
140
L'Asie 105°, car: 480
x 360 = 105
30
L'Australie 22.5°, car: x360 22,5
480
L'Europe » 97,5°, car: 360 =97,5

480
Asie 105 Eur 975
u i 123
Figure 5: Diagramme à secteurs
21
Chapitre II : Caractéristiques de tendance centrale
I. Introduction
Les caractéristiques des distributions statistiques est un outil essentiel de comparaison, se
référant :
• à la tendance centrale (position),
• à la dispersion
• et à la forme (concentration).
Caractéristique de position ou de tendance centrale ceux sont :
– le mode,
– la médiane
– et les moyennes:
• Moyenne arithmétique
• Les autres moyennes
– Géométrique
– Harmonique
– Quadratique
II. Le Mode (Mo)
Le mode est la valeur (𝑀𝑜 = 𝑥 ) la plus fréquente de la variable, c'est-à-dire celle pour
laquelle :
– La fréquence est maximale, ou
– L’effectif est le plus grand.
1) Cas de la variable quantitative discrète
Le mode correspond à la valeur 𝑥 de la variable ayant la fréquence la plus élevée dans un
tableau statistique.
Exemple :
Soit la distribution statistique représentant le nombre de frères et sœurs des étudiants,
𝑥 𝑛
0 2
1 3
2 5
3 10
4 7
5 2
6 1
𝑀𝑜 = 𝑥 = 3 puisqu’il a le plus grand effectif qui est égal à 10.

Graphiquement, le mode correspond à la valeur 𝑥 possédant le plus haut bâton dans un
diagramme en bâtons.
Graphiquement, le mode correspond à la valeur 𝑥 possédant le plus haut bâton dans un
diagramme en bâtons.
FSJES -Tétouan 27 Pr. Hamid EL AMRANI

Figure 6 : Diagramme en batons
2) Cas de la variable quantitative continue

Dans ce cas, les données sont groupées en classes et le mode est représenté par la classe
modale correspondante au plus grand effectif. Mais, il faut distinguer deux sous cas, lorsque
les amplitudes des classes sont égales et lorsque les amplitudes sont différentes.
a) Cas des amplitudes égales :
Exemple pour le cas des amplitudes égales :
Soit la série représentant les notes des étudiants :
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊
[0 ; 5[ 60
[5 ; 10[ 120
[10 ; 15[ 200
[15 ; 20[ 20
Toutes les amplitudes 𝑎 égalent à 5, donc :
 La classe modale est [10,15[, puisqu’elle correspond à l’effectif le plus grand.

 Approximativement, le mode correspond au centre de la classe modale :
10 + 15
𝑀𝑜 = = 12,5
2
Remarque :
Cette méthode de considérer le mode comme centre de la classe modale n’est pas assez
précise que d’autres méthodes : graphiques ou calculatoires qu’on verra plus tard.
Méthode graphique de détermination du Mode :
Graphiquement, on détermine la valeur du mode par la méthode des diagonales suivante :

Les méthodes calculatoires se traduit à travers les deux formules suivantes :

ℎ
𝑀𝑜 = 𝑒 + ×𝑎 (𝐼)
ℎ +ℎ
ℎ −ℎ
𝑀𝑜 = 𝑒 + ×𝑎 (𝐼𝐼)
(ℎ − ℎ ) + (ℎ − ℎ )
En appliquant la première formule (𝐼), on trouve :
20
𝑀𝑜 = 10 + × 5 = 10 + 0,714 = 10,714
120 + 20
Et en appliquant la 2ème formule (𝐼𝐼) on trouve :
200 − 120
𝑀𝑜 = 10 + × 5 = 11,538
(200 − 20) + (200 − 120)
Remarque :
Ces deux formules ne sont que des approximations à la vraie valeur du Mode d’une série
statistique quantitative continue, de plus ils ne donnent pas le même résultat du mode.
b) Cas des amplitudes différentes :
Lorsque les amplitudes de classes sont différentes, on définit la classe modale comme étant
celle de la plus grande hauteur dans l’histogramme.
(Remarque : ℎ représente la fréquence moyenne par unité d’amplitude).
Une série statistique peut avoir plusieurs classes modales.
Dans la classe modale, il faut choisir ou sélectionner un point comme mode.
Ce point se trouve donc dans la zone de la classe modale là où il y a le plus d’observations.
Exemple pour le cas des amplitudes différentes :
Soit la série statistique suivante :
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝑛 𝑎 ℎ = 𝑛 /𝑎
[100 ; 200[ 15 100 0,15
[200 ; 400[ 25 200 0,125
[400 ; 600[ 40 200 0,2
[𝟔𝟎𝟎 ; 𝟕𝟎𝟎[ 35 100 0,35
[700 ; 1000[ 20 300 0,067

La classe modale est [600; 700[ (et non pas [400; 600[ qui a 𝑛 = 40 le plus grand effectif)
car [600; 700[ correspond à ℎ = 0,35 le plus élevée.
hi 1
Pour déterminer la valeur du mode, On applique la formule : Mo  e i -1  ai
hi -1  hi 1
on a : 𝑒 = 600 ; 𝑒 = 700 ; 𝑎 = 100 ; ℎ = 0,2 et ℎ = 0,067
hi 1 0,067
donc Mo  ei 1  ai  600  100  625, 1
hi 1  hi 1 0, 2  0, 067
Méthode graphique de détermination du mode :

On peut aussi déterminer le mode par la méthode graphique.
Cela se fait sur l’histogramme. D’abord, on trace l’histogramme mais comme c’est une série
statistique quantitative continue avec amplitude de classe différents. Ainsi, on trace
l’histogramme pour les ℎ = . En joignant les sommets du rectangle le plus élevé et les
sommets du rectangle juste avant et le suivant, la projection sur l’axe des 𝑥 du point de
rencontre des diagonales obtenues (donne) la position de 𝑀𝑜 parmi les 𝑥 .
Remarque :
Le mode ne doit être retenu que s’il est unique (série unimodale). Lorsque la distribution est
multimodale, le mode perd toute signification.
III. La Médiane (Mé)
Définition :
La médiane est la valeur de la variable statistique qui partage la série statistique en deux
parties de total des effectifs égaux, en supposant au préalable que la distribution soit classée
par ordre de valeurs croissantes ou décroissantes de la variable.

1) La médiane d’une variable statistique discrète :

• Deux cas se présentent :
a) 1er cas : nombre impair (𝟐𝒌 + 𝟏) d’observations (𝒙𝒊 ) :

Si le nombre d’observations est impair (2𝑘 + 1), alors il suffit de déterminer la médiane qui
sera le (𝑘 + 1)è terme.
Exemple :
Soient les notes obtenues par 7 étudiants à l’examen : 10 ; 12 ; 9 ; 13 ; 8 ; 7 ; 11.

Classons cette série dans l’ordre croissant : 7 ; 8 ; 9 ; 10 ; 11 ; 12 ; 13  𝑀é = 10
𝑀é
Puisqu’on a sept termes, la médiane correspond à 10, car il y a trois valeurs à gauche de 10 et
trois valeurs à sa droite.
b) 2ème cas : nombre pair (𝟐𝒌) d’observations (𝒙𝒊 ) :
Si le nombre d’observations est pair 2𝑘, alors la médiane est donnée par l’intervalle médian
de borne inférieure la valeur 𝑘 è et de borne supérieure la valeur (𝑘 + 1)è de la série
statistique.
On prend comme médiane la moyenne (la centre de l’intervalle) des bornes de l’intervalle
médian.
Exemple :
Soit maintenant la série suivante : 5 ; 6 ; 7 ; 8 ; 9 ; 10 ; 11 ; 12 ; 13 ; 14
il y a dix valeurs, un nombre pair des observations (𝑥 ) : 10 = 2𝑘 = 2 × 5, ainsi on a :

 𝑘 è = 5 et (𝑘 + 1)è = 6,
 donc : 𝑥 = 9 et 𝑥 = 10
ainsi la médiane de cette série statique M é  x k  x k 1  x 5  x 6  9  10  9, 5  N

2 2 2
Comme on est dans le cas discret et 9,5IN, on ne peut pas la prendre comme une vraie
médiane.
c) Méthode pratique de recherche de la médiane :
On cherche 𝑁/2 parmi les effectifs cumulés croissantes 𝑛 𝑐𝑐. SI cette valeur 𝑁/2 existe
parmi les 𝑛 𝑐𝑐 alors la médiane de cette série c’est la valeur moyenne de 𝑥 correspondante à
𝑁/2 et la valeur 𝑥 qui vient juste après 𝑥 , c.à.d. M é  x k  x k 1 . Sinon, 𝑁/2 n’existe
2
pas parmi les 𝑛 𝑐𝑐 alors la médiane est la valeur 𝑥 qui correspond l’effectif qui vient juste
après la valeur 𝑁/2. Ainsi la médiane dans ce cas est : 𝑀é = 𝑥

Exemple : 𝑵/𝟐 existe parmi les 𝒏𝒊 𝒄𝒄

𝑥 𝑛 𝑛 𝑐𝑐
𝑥 +𝑥 1 1 1
𝑀é = 3 2 3 𝑁/2 = 10 se trouve
2
5 7 10 parmi les 𝑛 𝑐𝑐
7 6 16
9 4 20
𝑁 = 20
On cherche 𝑁/2 = 20/2 = 10 parmi les effectifs cumulés croissantes 𝑛 𝑐𝑐.
x k  x k 1 5  7
Dans ce cas, on trouve cette valeur 10 parmi les 𝑛 𝑐𝑐 donc Mé    6 la
2 2
valeur qui correspond à l’effectif 10.
Exemple : 𝑵/𝟐 n’existe pas parmi les 𝒏𝒊 𝒄𝒄
1 1 1 𝑵/𝟐 = 𝟐𝟎/𝟐 = 𝟏𝟎 cette valeur
3 3 4 n’existe pas parmi les 𝑛 𝑐𝑐.
5 7 11 Alors la 1ère valeur d’effectif qui la
7 3 14 dépasse est 11
9 6 20
𝑁 = 20
On a 𝑁/2 = 11/2 = 5,5 cette valeur n’existe pas parmi les 𝑛 𝑐𝑐.
Alors la 1ère valeur d’effectif qui la dépasse est 11, ainsi la médiane est la valeur de 𝑥 = 5 qui
de cet effectif 11 c.à.d. 𝑀é = 5.
Exemple : 𝑵/𝟐 n’existe pas parmi les 𝒏𝒊 𝒄𝒄
5 1 1
6 2 3 𝑵/𝟐 = 𝟏𝟏/𝟐 = 𝟓, 𝟓 n’existe pas
8 1 4 parmi les 𝑛 𝑐𝑐.
9 1 5 Le 1er effectif qui dépasse 𝑵/𝟐
10 3 8 est 8
11 1 9
12 1 10
13 1 11
𝑁 = 11
On a 𝑁 = 11 ⟹ 𝑁/2 = 5,5 n’existe pas parmi les 𝑛 𝑐𝑐

Et l’effectif qui la dépasse pour la 1ère fois est 8
Donc la médiane est la valeur 𝑥 = 10 correspondante à l’effectif 8, c.à.d. 𝑀é = 𝑥 = 8
2) La médiane d’une variable statistique continue :
Dans ce cas, les valeurs sont regroupées en classes.

La médiane se calcule d’abord par détermination de la classe médiane [𝑒 ; 𝑒 [ qui

correspond à la valeur de 𝑛 𝑐𝑐 = 𝑁/2 ou à la 1ère valeur des 𝑛 𝑐𝑐 qui dépasse 𝑁/2 dans le cas
ou tous les 𝑛 𝑐𝑐 sont différents de 𝑁/2.
Exemple 1 :
[𝑒 ;𝑒 [ 𝑛 𝑛 𝑐𝑐
𝑁 200
[0 ; 10[ 48 48 2
=
2
= 100
[10 ; 20[ 52 100 existe parmi les 𝑛 𝑐𝑐
[20 ; 30[ 60 160
[30 ; 40[ 40 200
𝑁 = 200
𝑁/2 = 200/2 = 100, cette valeur existe exactement parmi les 𝑛 𝑐𝑐
Donc [𝑒 ; 𝑒 [= [10 ; 20[ est la classe médiane (c.à.d. l’intervalle qui contient la médiane)
ainsi la médiane est 𝑴é = 𝒆𝒊 = 𝟐𝟎.
Exemple 2 :
Les salaires annuels des employés d’une entreprise (en milliers de DH) sont distribués comme
suit :
[40 ; 50[ 12 12 n’existe pas
[50, 60[ 14 26 parmi les 𝑛 𝑐𝑐
[60 ; 70[ 20 46
[70 ; 80[ 30 76 𝑛 𝑐𝑐 = 76 est la première
[80 ; 90[ 14 90 valeur qui dépasse 𝑁/2 = 50
[90 ; 100[ 10 100
𝑁 = 100
N 100
  50 , cette valeur n’existe pas parmi les 𝑛 𝑐𝑐.
2 20
Donc, la classe médiane est la classe qui correspond à 𝑛 𝑐𝑐 qui dépasse pour la première fois
la valeur 50 c'est-à-dire [𝑒 ; 𝑒 [= [70 ; 80[ et ensuite, on applique la formule :
𝑁
− 𝑛 𝑐𝑐
𝑀é = 𝑒 + 2 ×𝑎
𝑛
50  46
Application numérique : Mé  70   10  71, 33  70, 80
30
Interprétation :
N
On a :  50 et 𝑀é = 71,33 . 103 𝐷𝐻 = 71330 𝐷𝐻
2
Ainsi, il y a 50 employés qui ont un salaire inférieur à 71330 DH et les 50 autres ont un
salaire supérieur à 71330 DH.

3) Méthode graphique de détermination de la médiane

On trace la courbe des fréquences (ou des effectifs) cumulées croissantes et on trace aussi la
droite horizontale d’équation 𝑦 = sur le même repère.
La projection du point d’intersection de la courbe et la droite 𝑦 = sur l’axe des abscisses
donne la position (la valeur) de la médiane.
Exemple :
Soit la distribution de l’exemple précédent :
[40 ; 50[ 12 12
[50, 60[ 14 26
[60 ; 70[ 20 46
[70 ; 80[ 30 76
[80 ; 90[ 14 90
[90 ; 100[ 10 100
𝑁 = 100
Traçons la courbe des 𝑛𝑖𝑐𝑐 et la droite horizontale passant par y = 𝑛𝑖𝑐𝑐 = sur le même
repère.
On voit que la médiane est presque égale à la valeur trouvée algébriquement 71,33.
Méthode graphique de détermination de la médiane :

On trace la courbe des fréquences (ou des effectifs) cumulées croissantes et la courbe des
fréquences (ou des effectifs) cumulées décroissantes sur le même repère. La projection du
point d’intersection de ces deux courbes sur l’axe des abscisses donne la valeur de la médiane.
[𝒆𝒊 𝟏 , 𝒆𝒊 [ 𝑛 𝑛 𝑐𝑐 𝑛 𝑐𝑑
[40, 50[ 12 12 100
[50, 60[ 14 26 88
[60, 70[ 20 46 74
[70, 80[ 30 76 54
[80, 90[ 14 90 24
[90,100[ 10 100 10

N=100
IV. Les moyennes

Généralement, il y a quatre types de moyennes :
– Arithmétique ;
– Géométrique ;
– Harmonique ;
– Quadratique.
1) Moyenne arithmétique
a) Variable statistique discrète
La moyenne arithmétique d’une variable statistique est égale à la somme des valeurs de la
k k k
ni 1
variable pondérée par les fréquences relatives : x   f i x i c.à.d. x   xi  n x i i .
i 1 i 1 N N i 1
k
1
D’où x 
N
n x
i 1
i i .
Exemple :
Soient les notes d’un groupe de 30 étudiants :
𝑥 𝑛 𝑛𝑥 𝑓 𝑓𝑥
7 4 28 0,133 0,931
8 5 40 0,167 1,336
9 6 54 0,2 1,8
13 7 91 0,233 3,029
14 6 84 0,2 2,8
15 2 30 0,067 1,005
Total 𝑁 = 30 327 ∑𝑓 = 1 10,901
k
1 1
La moyenne de ce groupe est : x 
N
n x
i 1
i i 
30
 327  10, 9
k
Autrement calculée : x   f i x i  10, 901  10,9
i 1
b) Variable statistique continue

Pour le calcul de la moyenne arithmétique dans le cas de la variable statistique continue, il faut
procéder par la formule suivante :

1
𝑥̅ = 𝑛𝑐
𝑁
où 𝑐 représente les centre des classes.
Exemple :
L’âge des salariés d’une entreprise est distribué comme suit :
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝑛 𝑐 𝑛𝑐
[10 ; 20[ 2 15 30
[20 ; 30[ 15 25 375
[30 ; 40[ 33 35 1155
[40 ; 50[ 13 45 585
[50 ; 60[ 7 55 385
Total 𝑁 = 70 2530
k
1 1
On a : x 
N
n c
i 1
i i 
70
 2530  36,14
36,14 est l’âge moyen des 70 salariés de l’entreprise.

c) Calcul de par changement d’origine :
Lorsque les valeurs 𝑥 et 𝑛 sont trop grandes et que le calcul devient volumineux, il est
préférable de procéder à un changement d’origine par la transformation suivante :
Si 𝑐 est une origine quelconque, soit le changement 𝑥 = 𝑥 − 𝑐 ,
Alors, la moyenne sera 𝑥 = 𝑥̅ − 𝑐 ,
d’où la moyenne arithmétique recherchée sera 𝑥̅ = 𝑥 + 𝑐 .
Exemple :
On prend comme origine de changement d’origine de cette moyenne la valeur 𝑐 =𝑐
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝑛 𝑐 𝑐 =𝑐 −𝑐 𝑛𝑐
[400 ; 500[ 8 450 -200 -1600
[500 ; 600[ 10 550 -100 -1000
[600 ; 700[ 12 650 0 0
[700 ; 800[ 50 750 100 5000
[800 ; 900[ 20 850 200 4000
𝑁 = 100 6400
𝑐 = 𝑐 = 650 ; le choix de cette valeur c’est mieux qu’elle s’est fait par le choix de la valeur
centrale des observations. On a 𝑥 = 𝑥̅ − 𝑐 donc 𝑥̅ = 𝑥 + 𝑐
1
Et d’autre part, on a x    6400  64
100
Alors x  x   c 3  64  650  714

d) Propriétés de la moyenne arithmétique :

k
i) La somme des écarts à la moyenne arithmétique est nulle : n
i 1
i (x i  x )  0
 n x 
2
ii) La somme des carrées des écarts à 𝑥̅ est minimale, c'est-à-dire : i i x est
i 1
minimale.
Démonstration
k k k
i) En effet,  ni  x i  x    ni x i  x  ni  N x  x N  0
i 1 i 1 i 1
k
ii) En effet, Soit la fonction g ( x )   n i  x i  x 
2
i 1
On va démontrer que la dérivé 𝑔′ s’annule en x et de dérivée seconde 𝑔’’ positive

(concavité vers le haut).
k k k k
On a : g ( x )   n i  x i2  2 x i x  x 2    n i x i2  2x  n i x i  x 2  n i
i 1 i 1 i 1 i 1
k k k k k
1
g ( x )  2 n i x i  2x  n i  0  x  ni   n i x i  x  n x i i x
i 1 i 1 i 1 i 1 N i 1
Donc g admet un extremum (optimum) en x

k
De plus la dérivée seconde de g est positive : g ( x )  2 n i  2N  0
i 1
D’où g admet un minimum en x (concavité vers le haut).
2) Moyenne géométrique G
Elle est égale à la racine 𝑁 è du produit des 𝑘 valeurs d’une série statistique.
a) Cas d’une série simple :
N
Tous ses 𝑁 valeurs sont d’effectifs égaux à 1, alors : G  N
x
i 1
i  N x1  x 2  L  x N

1  N  1 N
log G  log   x i  donc log G   log  x  où i on a supposé que
N  i 1  N i 1
x i  0;  i  1,L , N
b) Cas d’une série pondérée :
Ses valeurs 𝑥 , … … , 𝑥 ont des effectifs différents 𝑛 , … … . , 𝑛 respectivement.

k
G  N
x
i 1
i
ni
 N
x 1n1  x 2n2  L  x knk avec 𝑁 = 𝑛 + 𝑛 + ⋯ + 𝑛
1  N  1 N
en effet, log G   log   x ini    log  x ini 
N  i 1  N i 1
N N N
1 n
  n i log  x i    i log  x i    f i log  x i 
N i 1 i 1 N i 1
où on suppose 𝑥 > 0 pour tout 𝑖 ∈ {1; 2; … ; 𝑁}.

Remarque 1 :
Soit 𝑁 = 𝑛 + 𝑛 + ⋯ + 𝑛 et 𝑥 > 0 ∀𝑖 ∈ {1; 2; … ; 𝑘}
1
n
 k N k i k
Alors, G  N n1 n2
x x . ..........x
1 2
nk
k    x ini    x iN   x i f i
 i 1  i 1 i 1
 k  1 k k
Ainsi, log G   log   x i f i
 i 1
 N

 ni log(x i )   f i log(x i )
i 1 i 1
Remarque 2 :
La moyenne géométrique est utilisée pour le calcul des taux d’accroissements moyens, des
moyennes de coefficients multiplicateurs…c'est-à-dire, dans les cas où la variable représente
des variations cumulatives.
Exemple 1 :
Calculer la moyenne géométrique de la distribution de fréquence suivante :
𝑥 𝑛
1 2
2 5
3 3
N = 10
On peut utiliser des logarithmes népériens ou décimaux sans changer le résultat de 𝐺.
k
1
Alors en utilisant les logarithmes décimaux à travers la formule log G  
N
n
i 1
i log(x i ) ,
 1 k 

N  ni log( x i ) 
ainsi la moyenne géométrique sera G  10  i 1 
:

𝑥 𝑛 𝒍𝒐𝒈(𝒙𝒊 ) 𝒏𝒊 ∙ 𝒍𝒐𝒈 (𝒙𝒊 )

1 2 0 0
2 5 0,301 1,505
3 3 0,4771 1,4313
Total N=10 2,9363
k
1 1
Alors, on a : log G  
N
n
i 1
i log(x i ) 
10
 2,9363  0, 29363
 1 k 

N  ni log( x i ) 
Donc G  10  i 1 
 100,29363  1,97
Exemple 2 :
Le chiffre d’affaire d’un projet a produit les augmentations annuelles suivantes :
Année Augmentation en %
1ère année 4%
2ème année 6%
3ème année 6%
4ème année 6%
5ème année 5%
6ème année 5%
L’augmentation moyenne annuelle est une moyenne géométrique :
G  6 (1, 04)(1, 06)3 (1, 05) 2  1, 05331

Cette moyenne 𝐺 est un taux de croissance de 5,331% ; (105,331% − 100% = 5,331%)
En effet ; (la conceptualisation de la notion de moyenne géométrique)
si 𝐶 est le chiffre d’affaire au début de la 1ère année, à la fin de cette année il devient :
4
= 𝐶 (1 + 0,04) = 1,04 𝐶 = 𝐶
𝐶 +𝐶 ×
100
ce chiffre 𝐶 devient à la fin de la 2ème année
6
𝐶 +𝐶 ×
= 1,06 𝐶 = 𝐶
100
et ainsi de suite, à la fin de la 6ème année, le 𝐶 devient
𝐶 = 1,05 × 1,05 × 1,06 × 1,06 × 1,06 × 1,04 × 𝐶 ⟹ 𝐶 = (1,05) ∙ (1,06) ∙ (1,04) ∙ 𝐶
CF
 1, 05  1, 06  1, 04  G 6
2 3
Cela nous donne 
C0
Ainsi, l’augmentation moyenne annuelle est la moyenne géométrique
1, 04 1, 06  1, 05 
3 2
G 6
 1, 05331 soit un taux de 5,331%.
3) Généralisation de la moyenne :
L’expression de la moyenne peut se généraliser de plusieurs manières, une d’entre elles est ce
que l’on appelle la moyenne d’ordre 𝑟, notée 𝑀 , définie par :

1
k
 k
 r k
(M r ) r   f i c ir  M r    f i c ir   M r  r
f i  c ir
i 1  i 1  i 1
k
Ainsi, la moyenne arithmétique est un cas particulier avec 𝑟 = 1, c'est-à-dire M 1   f i  c i
i 1
Donc 𝑀 = 𝑥̅ .
On peut montrer que 𝐺 = 𝑀 par passage à la limite et par des théorèmes pratiques de
dérivation des fonctions.
1
 k 
En effet, on a : G  M 0  lim M   lim   f i c i  .
 0  0
 i 1 
4) Moyenne harmonique H :
On définit la moyenne harmonique comme la moyenne généralisée d’ordre −1 notée 𝐻 :

1 1 1 1
 k   k n   1 k
  k ni 
H  M 1    f i x i1     i x i1    n x i i
1
  N  x 
 i 1   i 1 N  N i 1   i 1 i 
N
Donc : H  k
ni

i 1 x i
C’est la formule du cas d’une série pondérée.

Dans ce cas là où on a une série statistique simple, la formule permettant de calculer la
N
moyenne géométrique sera : H  N .
1

i 1 x i
Remarque :
La moyenne harmonique se calcule pour des valeurs de la variable 𝑋 non nulles et elle n’a de
1
signification concrète que si l’inverse de la valeur 𝑥 a un sens.
xi
Elle est utilisée pour le calcul des moyennes de pourcentages, de ratios et de rapports, de même
que pour l’étude du pouvoir d’achat (inverse du mouvement général des prix), etc.
5) Moyenne quadratique 𝑸 :
k
1
La moyenne généralisée d’ordre 𝑟 = 2 s’appelle la moyenne quadratique : Q 
N
n x
i 1
i i
2
1
 k  2 k
ni
Car, Q  M 2    f i x i2   N x i2
 i 1  i 1
N
1
Pour une série statistique simple, la formule de la moyenne quadratique est : Q 
N
x
i 1
i
2
Exemple :
Calculons 𝑄 de la série suivante :

𝒙𝒊 𝒏𝒊 𝑥 𝑛 ∙𝑥
2 7 4 28
4 10 16 160
5 20 25 500
7 30 49 1470
9 15 81 1215
10 10 100 1000
11 8 121 968
𝑁 = 100 5341
N
1 1
Ainsi, la moyenne quadratique est : Q 
N
x
i 1
i
2

100
 5341  7,31
Remarque :
On peut montrer que les moyennes généralisées d’ordre r d’une même série statistique
vérifient :
si 𝑝  𝑞 alors 𝑀  𝑀
ainsi 𝑀 𝑀 𝑀 𝑀
c'est-à-dire 𝐻  𝐺  𝑥̅  𝑄

Chapitre III : Caractéristiques de dispersion
I. Introduction
Les caractéristiques de tendance centrale vues précédemment ne nous permettent pas de faire la
différence entre deux séries statistiques.
En effet, deux séries peuvent avoir la même moyenne arithmétique et la même médiane sans
qu’elles soient identiques.
On introduit, alors, autres caractéristiques dites de dispersion qui estiment dans quelle mesure
les observations s’écartent les unes des autres ou de leur valeur centrale.
Les caractéristiques de dispersion sont :
 les Quantiles,
 la Variance,
 l’Écart-type,
 le coefficient de variation,
 et les moments.
II. Étendue d’une série statistique
L’Étendue ou l’Intervalle de Variation est la différence entre la valeur la plus faible et la
valeur la plus élevée d’une série statistique.
Exemple 1 :
On considère les salaires des employés de deux entreprises A et B :
Pour A : 700, 720, 750, 800, 900, 1000, 1150
Pour B : 20, 100, 200, 800, 1300, 1600, 2000.
On a X A  X B  860 et Mé A  Mé B  800 ,
Même si les moyennes arithmétiques et les médianes de ces deux séries statistiques sont
identiques, on ne peut conclure qu’elles sont identiques car l’information sur le
groupement/l’écart (la dispersion) des éléments des séries n’est pas encore disponible.
Calculons maintenant l’étendue pour ces deux entreprises :
 Pour A, l’étendue est de 𝟒𝟓𝟎 = 1150 − 700
 Pour B, l’étendue est de 𝟏𝟗𝟖𝟎 = 2000 − 20
La dispersion des salaires est donc plus forte chez l’entreprise B que l’entreprise A.
Exemple 2 :
On considère deux populations :
𝑃 = {6 ; 8 ; 10 ; 12 ; 14}, 𝑃 = {2 ; 6 ; 10 ; 14 ; 18}
on a : 𝑥̅ = 𝑚𝑜𝑦(𝑋 ) = 𝑥̅ = 𝑚𝑜𝑦(𝑋 ) = 10 et 𝑀é(𝑋 ) = 𝑀é(𝑋 ) = 10.

Mais les modalités des individus qui les composent ne sont pas réparties de la même manière
autour de la valeur centrale 10. On dit que les séries 1 et 2 n’ont pas la même dispersion ; la
Série 2 est plus dispersée que la Série 1. Donc il est nécessaire pour comparer deux populations
de considérer à la fois leurs valeurs centrales et leurs dispersions.
Exemple 3 :
Sur 1000 employés d’une entreprise, l’étendue de l’âge est de 11 ans (49 ans – 38 ans), il suffit
qu’un jeune employé (sur 1000) de 18 ans soit embouché pour que l’étendue passe à 31 ans (49
ans – 18 ans)!
On voit donc que l’étendue est une manière très simpliste de mesurer la dispersion.
III. Quantiles d’une série statistique
Les quantiles sont les valeurs de la variable statistique qui partagent la distribution en "𝑛"
parties composées du même effectif " N ".
n
Exemple :
La médiane est un quantile qui partage la distribution en « 2 » parties composées du même
effectif « N ».
2
Remarque :
Les quantiles en eux-mêmes sont des caractéristiques de position (non centrale), tandis que
l’intervalle mesurant l’écart entre deux quantiles et une caractéristique de dispersion.
Pour la détermination des quantiles, on suppose que les valeurs de la série statistique sont
classées dans un ordre croissant ou décroissant.
1) Les quartiles
a) Notion de quartile
Les quartiles sont les trois valeurs que l’on note 𝑄 , 𝑄 de 𝑄 de la variable statistique qui
partagent la distribution en "4" parties composées du même effectif " N ".
4
𝑁 𝑁 𝑁 𝑁
4 4 4 4
25% 50% 75% 100%
𝑁 2𝑁 𝑁 3𝑁 4𝑁
= =𝑁
4 4 2 4 4
Remarque :
N
Il y a i observations à gauche (inférieurs à) de 𝑄 , 𝑖 = 1 ; 2 ; 3
4 𝑵 𝑵 𝟑𝑵
𝟒 𝟐 𝟒
𝑸𝟏 𝑸𝟐 𝑸𝟑
b) L’intervalle interquartile
L’intervalle interquartile est la différence entre 𝑄 et 𝑄 c.à.d. 𝑄 − 𝑄 ; il contient 50% des
valeurs de la variable présentés par la moitié centrale des effectifs observés.
Cet intervalle élimine l’influence des valeurs extrêmes.

c) La dérivation quartile ou le semi-interquartile

Q 3  Q1
La dérivation quartile ou le semi-interquartile est égale à
2
d) L’écart interquartile relatif
Pour comparer la dispersion entre deux séries statistiques ayant des unités différentes ou dont
l’ordre de grandeur n’est pas le même, on utilise l’écart interquartile relatif donnée par :
Q 3  Q1
Q2
2) Les déciles
Les déciles sont les 9 valeurs 𝐷 , 𝐷 , …, 𝐷 et 𝐷 de la variable statistique qui partagent la
N N
distribution en "10" parties composées du même effectif « » et qui ont, donc, i
10 10
observations inférieures à chaque 𝐷 , avec 𝑖 = 1 ; 2 ; … ; 9.
𝑵 𝑫𝟓 = 𝑴é = 𝑸𝟐
𝟏𝟎
𝟏𝟎% 𝑫𝟏 𝑫𝟐 𝑫𝟗
𝟓𝟎%
3) Les percentiles :
Les percentiles sont les 99 valeurs 𝑃 ; 𝑃 ; … ; 𝑃 et 𝑃 de la variable statistique qui partagent
N
la distribution en "100" parties composées du même effectif « N » ayant, donc, i
100 100
observations inférieures à chaque 𝑃 𝑃𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖 ∈ {1 ; 2 ; … ; 99}.
50%
2%
1% 1%
𝑵 𝑷𝟏 𝑵 𝑷𝟐 𝑷𝟗𝟗
𝟏𝟎𝟎
𝑷𝟓𝟎 = 𝑴é = 𝑸𝟐
𝟏𝟎𝟎
Remarque :
N
Le calcul des quantiles est pareil à celui de la médiane, en changeant la fréquence (nombre
2
N
d’observations inférieures à la médiane) par i (nombre d’observations inférieures au
n
i
quantile d’ordre cherché).
n
Exemple 1 : (cas de la variable discrète "pondérée")
Calculer les percentiles 55 et 75 de la série statistique suivante :
3 3 3
4 7 10
8 30 40
10 20 60←
11 15 →75

20 25 100
𝑁 = 100
N 100
1) On a :  55   55  55
100 100
Alors, on va chercher ce 55 entre les 𝑛 𝑐𝑐
Puis, on trouve 55 n’existe pas exactement parmi les 𝑛 𝑐𝑐 mais 60 est la 1ère valeur qui
dépasse la valeur 55 ;
Alors, on a : 𝑃 = 10
N 100
2) On a :  75   75  75
100 100
Ainsi qu’on trouve la valeur 75 parmi les 𝑛 𝑐𝑐
11  20
Donc P75   15,5
2
Exemple 2 : (cas de la variable continue)
Calculons les déciles troisième et septième de la distribution statistique suivante :
[𝒆𝒊 𝟏 , 𝒆𝒊 [ 𝑛 𝑛 𝑐𝑐
[0, 10[ 4 4
[10, 30[ 8 12 *
[30, 35[ 13 25
[35, 80[ 5 30**
[80,100[ 3 33
[100, 150[ 7 40
𝑁 = 40
Cherchons la valeur 𝑫𝟑 :
N 40
On a :  3   3  12
10 10
cette valeur apparaît parmi les 𝑛 𝑐𝑐 dans le tableau*, alors on prend 𝐷 = 𝑒
C’est-à-dire 𝐷 = 30.
Cherchons la valeur 𝑫𝟕 :
N 40
On a :  7   7  28
10 10

Cette valeur, 28, ne se trouve pas parmi les 𝑛 𝑐𝑐 dans le tableau et 30 est la 1ère valeur qui la
N
7  n i 1cc
dépasse, pour calculer 𝐷 on applique alors la formule : D 7  e i 1  10 ai
ni
Remarque : Qui vient de la formule générale de ième quantile d’ordre 𝑛:

N
i  n i 1cc
D 7  e i 1  n ai
ni
On a : [e i 1 ;e i [ donc : 𝑛 = 5 ; 𝑛 𝑐𝑐 = 30 ; 𝑛 𝑐𝑐 = 25 ; 𝑎 = 𝑒 − 𝑒 = 45 et 𝑒 = 35
N 40
7  n i 1cc 7   25
10 28  25
Alors D 7  e i 1  ai  35  10  45  35   45  62
ni 5 5
IV. Boîte de Tuckey ou diagramme de Box & Wiskers

Considérons le diagramme en boîte ci-dessous, qui est la version la plus simple de la boîte de
Tuckey, appliquée à la variable statistique 𝑋.
Une droite graduée
Fig7: Boîte de Tuckey ou diagramme de Box & Wiskers
On distingue sur ce schéma la « boîte de Tuckey » qui est le rectangle limité par le premier
quartile 𝑄 et le troisième 𝑄 en traçant aussi le 2ème quartile 𝑄 tous sur une droite graduée
(voir par exemple Fig7).
Exemple 1 : (cas de variable discrète "pondérée")
Calculons les quartiles 𝑄 , 𝑄 et 𝑄 de la série statistique suivante :
𝒙𝒊 𝒏𝒊 𝒏𝒊 𝒄𝒄
3 3 3
4 7 10
8 30 40
10 20 60←
11 15 →75
20 25 100
𝑁 = 100

N 100
1) On a : 1   25
4 4
On cherche cette valeur 25 parmi les 𝑛 𝑐𝑐.
Cette valeur 25 n’existe pas parmi les 𝑛 𝑐𝑐
La 1ère valeur qui dépasse 25 c’est 40
Ainsi, 𝑄 = 8
N 100
2) On a : 2   50
4 2
On cherche 50 parmi les 𝑛 𝑐𝑐,
Elle n’existe pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui dépasse 50 c’est 60
Alors 𝑄 = 𝑀é = 40.
N 300
3) On a : 3   75
4 4
On cherche 75 parmi les 𝑛 𝑐𝑐,
La valeur 75 existe parmi les 𝑛 𝑐𝑐 donc 𝑥 = 11 et 𝑥 = 20
Alors 𝑄 = = = 15,5.
Exemple 2 : (cas de variable continue)

Calculons 𝑄 , 𝑄 et 𝑄 de la distribution statistique suivante :
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊 𝒏𝒊 𝒄𝒄
[0, 10[ 4 4
[10, 30[ 8 12 *
[30, 35[ 13 25
[35, 80[ 5 30**
[80,100[ 3 33
[100, 150[ 7 40
𝑁 = 40
Calculons 𝑸𝟏
N 40
On a : 1   10
4 4
La valeur 10 n’apparaît pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui la dépasse est 12. D’où, on prend
N
 1  n i 1cc
[𝑒 ; 𝑒 [ = [30; 35[, puis on applique la formule : Q1  e i 1  4 ai
ni
40
1  4
Donc Q1  10  4  20  25
8
Calculons 𝑸𝟐
N 40
On a :  2   2  20
4 4

La valeur 20 n’apparaît pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui la dépasse est 25. D’où, on prend
N
 2  n i 1cc
[𝑒 ; 𝑒 [ = [30; 35[, puis on applique la formule : Q 2  e i 1  4 ai
ni
40
 2  12
Donc Q 2  30  4  5 ; 33, 077
13
Calculons 𝑸𝟑
N 40
On a :  3   3  30
4 4
La valeur 30 existe parmi les 𝑛 𝑐𝑐 D’où, on prend [𝑒 ; 𝑒 [ = [35; 80[, puis on applique la
formule : Q 3  e i
Donc Q 3  80
Boîte de Tuckey ou diagramme de Box & Wiskers
L’intervalle interquartile = 𝑄 − 𝑄 = 80 − 25 = 55
Q  Q1 55
La dérivation quartile ou le semi-interquartile est : 3   27,5
2 2
Q  Q1 55
L’écart interquartile relatif est : 3   1, 66
Q2 33, 08
V. Variance et écart type d’une série statistique
1) Notion de variance
La variance d’une variable statistique 𝑋 que l’on note 𝑉𝑎𝑟(𝑋) (ou 𝑉(𝑋)) est la moyenne
arithmétique des carrés des écarts des valeurs de la variable à leur moyenne arithmétique :
k k
1
V ( X ) V ar ( X ) 
N
 n (x
i 1
i i  x )2   f i (x i  x )2
i 1
Simplification de calcul de variance :

k
 k 
V (X ) V ar (X )   f i (x i  x ) 2    x i2f i   2x 2  x 2
i 1  i 1 
 k   1 k 
   x i2 f i   x 2    n i  x i2   x 2  x 2  x 2
 i 1   N i 1 
2) Changement d’origine de calcul de variance

On pose x 'i  x i  x i o donc x i  x i  x io
alors x  x ' x i o

Ledit changement d’origine affecte la variance de la forme suivante :

k k k
V ( X )   (x i  x ) 2 f i   ((x i  x i o )  (x   x io ))2 f i   (x i  x io ) 2 f i V ( X  )
i 1 i 1 i 1
Donc le changement d’origine n’affecte pas la valeur de la variance.
3) Écart-type d’une série statistique

L’écart-type d’une variable statistique 𝑋 que l’on note (𝑋) est la racine carrée de la variance
1 k k
de 𝑋 :  (X )  V (X )  V ar (X )   i i
N i 1
n ( x  x ) 2
 
i 1
f i (x i  x ) 2
𝜎(𝑋) est donc la moyenne quadratique des écarts à la moyenne arithmétique.

Exemple :
Calculer la variance par la formule non-simplifiée et par la formule simplifiée, pour la série
suivante :
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊
[0, 10[ 1
[10, 20[ 2
[20, 30[ 3
[30, 40[ 4
𝑁 = 10
D’abord, on doit préparer le tableau des valeurs permettant le calcul des paramètres demandés :
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊 𝒄𝒊 𝒄𝟐𝒊 𝒏𝒊 𝒄𝒊 𝒄𝒊 − 𝒙 (𝒄𝒊 − 𝒙)𝟐 𝒏𝒊 (𝒄𝒊 − 𝒙)𝟐 𝒏𝒊 𝒄𝟐𝒊

[0, 10[ 1 5 25 5 -20 400 400 25
[10, 20[ 2 15 225 30 -10 100 200 450
[20, 30[ 3 25 625 75 0 0 0 1875
[30, 40[ 4 35 1225 140 10 100 400 4900
𝑵 = 𝟏𝟎 250 1000 7250
Donc :
k
1 1
 La moyenne de cette série statistique est : x 
i 1 10 N
n c
 250  25 i i 
1 k 1
Formule non-simplifiée de la variance : V ar  X    n i c i  x    1000  100
2

N i 1 10
 1 k  1 
 Formule simplifiée de la variance : V ar (X )    n i c i2   x 2    7250   252  100
 N i 1   10 
 D’où, l’écart-type est :  X  V ar ( X )  100  10
VI. Coefficient de variation
Le coefficient de variation est égal au rapport de l’écart-type à la moyenne et il est présenté
sous forme de nombre abstrait sans dimension et indépendant des unités de mesure :
 (X )
CV 
x

Le coefficient de variation permet de donner une idée sur l’amplitude de variation en

comparant l’écart-type et la moyenne.
 (X )
Ce rapport est généralement exprimé en pourcentage : CV  100 .
x
Plus le coefficient de variation est petit, plus la série est homogène. D’une manière générale,
la population étudiée est considérée homogène lorsque le CV  30% .
Pour l’exemple précédent :
 (X ) 10
Le coefficient de variation : CV    0, 4  40% .
x 25
Soit donc un coefficient de variation de 40% supérieur à 30%
Et par la suite, la série étudiée est non-homogène !

Chapitre IV: Caractéristiques de forme
I. Introduction
Lorsque 1'on représente graphiquement une série statistique, on peut remarquer qu'une telle
distribution présente une symétrie ou non, mais pour la mesurer, par exemple, on doit une
caractéristique de forme.
Hode He Moyerne
Mode
Medione
Royenne
Distribution symélrique Distribution ssymétrique
II. Les moments
1) Moments simples
Les moments d'ordres r d'une série statistique par rapport à une valeur quelconque xg est:
=1
Si xo = 0 alors m, =
Ce qui donne le moment simple d'ordres r.
Remarque:
Le momentl arithmétique f: x, =m, est le moment simple d'ordre 1.
Le moment simple d'ordre 0 est m, =- N =1
2) Moments centréés
Lorsque o = , on obtient lemoment centré d'ordre r: 4, = , -Fy
Sir est pair, 4, est un param tre de dispersion.
Sir est impair, 4, est un paramtre de symétrie.
FSIES Tétouan 50 Pr. Hamid EL AMRANI

Chopitre IV:Caractéristiquesdeforme
Exemple
ncT ni
3 5 15
5 6 5
7 3 9 21
9 1 10 9
11 5 15 55
15 105
105
7 7,5 Mé =
7;Mo =
3et 11
8 9 10
Mo Mé = F Mo
Lorsque la série statistique n'est pas symétrique, on dit qu'elle est asymétrique et alors on a plus
= Mé = Mo.
On peut mesurer son asymétrie par le coefificient de Pearson qui se définit par: A, ="
par: A x-Mo
oX)
En effet, i la série est
symétrique et elle a un
seulmode, alors:
= Mo et Ap =0
M X
Le coefficient d'asymétrie le plus important et le plus utilisé est le coefficient de Fisher que se
définit comme:
91 X)
Avec n, (x, -XY est le moment centré d'ordre 3.
Si g = 0 alors la distribution est symétrique.
Si g<0 alors la distribution est asymétrique à gauche ou on dit qu'elle est oblique à
droite
FSIES-Tétouan 51 Pr. Hamid EL AMRANI
Enparticulier:
n, =f -7 =0
et 4s N
et
x,-F} =Va)
3) Relation entre m, et
j4
Enutilisant que Vx et Vy des réels: (x +y =

Cxy' Formule de binôme de Newton.
Ou les identités
remarquables (a + b)', (a- b)', .,
on obtient
42m2-mj
m 3mm, +2m
m , - 4 m , m , + 6mjm, - 3m
As71, Sm,m, +10m^m, -4m

, etc
III. L'Asymétrie
Une distribution statistique est symétrique

si sa représentation graphique est symétrique
par
rapport à l'axe vertical x = x ou si les valeurs équidistantes de sa valeur centrale ont une
fréquence égale.
Dans ce point central, lorsque la série est symétrique, coïncident la moyenne arithmétique, la
médiane et le mode : =Mé M0
=
(s'il y a plus d'une seule mode, coïncident seulement ï =

Mé).
Exemple:
nic
9
5 2 5 10
4 9* 28
9 2 11 18
11 3 14 33
N 14 98
Ona:x =
98/14 =
7;==7> Mé =7;M = 7
Alors, on a:i = Mé =
Mo = 7

Ainsi, la série statistique est symétrique.
**"*****
I"****** **
Si x < Mo:
Si 91>0 alors la distribution est asymétrique à droite ou on dit qu'elle est oblique à
gauche.
Si x> Mo:
Ma
Si g1 <0 alors la distribution est asymétrique à gauche ou on dit qu'elle est oblique à
droite.
IV. L'Aplatissement
Une série statistique est plus ou moins aplatie suivant que les fréquences des valeurs proches des
valeurs centrales sont plus au moins élevées par rapports aux autres.
Les mesures
d'aplatissement s'appliquent aux distributions unimodales et symétriques ou
peu
asymétriques
Plus aplatie Moins aplatie:
FSIES -Tétouan 53 Pr. Hamid EL

AMRANI
Chapitre IV: Caractéristiques o forme
Entre les deux cas, il existe un cas
normal ou moyen c'est le cas des distributions
aplaties. moyennement
Les séries
statistiques plus aplaties sont dites
Les séries PLATYKURTIQUES
statistiques moins aplaties sont dites
Les séries LEPTOKURTIQUES.
statistiques moyennement aplaties sont dites
MESOKURTIQUES.
"PLATUS" signifie large.
"LEPTOS" signifie mince.
"
MESO" signifie moins que, inférieur à, de
manque ..
"KURTOSIS" signifie sommet ou
bosse.
Pour mesurer le degré d'aplatissement, on utilise le coefficient de Kutosis :
92 (X)* 3
Si g2 0 alors la distribution est
mésokurtique ou normale.
S i g2 <0 alors
la distribution est platykurtique
Si g2 >0 alors la distribution est leptokurtique.
FSIES -Tétouan 54 Pr. Hamid EL AMRANI

Chapitre V: Caractéristiquede Concentration
Chapitre V: Caractéristiques de Concentration
I. Introduction
Plusieurs phénomènes économiques nécessitent des études de concentration et répartition d'une

des variables dont ils dépendent.
Par exemple, la concentration des salaires, des revenus, de production, ..etc. les caractéristiques
dejà vues comme la moyenne, la variance, etc..., ne répondent pas à cette étude, alors on a
construit de nouvelles caractéristiques dites de concentration mais due à la nature des problèmes
étudiés,
On considère que des variables continues à valeurs positives.
Il. La médiale (MI)
La médiale est la valeur de la variable statistique telle que la somme des observations inférieure
à elle est égale à la somme des observations supérieure à elle. Donc, c'est une médiane sur les
valeurs "nci" au lieu des "n".

Pour cela la médiale se calcule de forme analogue à la médiane.
Exemple:
Calculons la médiale des salaires annuels du personnel (en milliers de DH) d'une entreprise
e-1el C
[40;50[ 12 45 540 540
[50;60[ 14 55 770 1310
[60;70[ 20 65 1300 2610
[70;80[ 30 75 2250 4860
[80;90[ 14 85 1190 6050
[90;100 10 95 950 7000
N 100 7000
On a:
nC
2
= 3500
On cherche cette valeur dans la colonne des (7,Ci)c 1, la 1"e valeur qui la dépasse est 4860.
donc la classe médiale est [70;80[.
On applique, alors, une formule analogue à celle de caleul de la médiane
2C (n,-1-1)c t
MI =-1 + nCi
3500 2610
MI = 70+- 10 73,96
2250

Chapitre V: Caractéristiquede Concentration
Interprétation:
La masse salariale de l'entreprise, versée annuellement aux employés montre que le partage en
2 blocs égaux s'effectue pour la valeur de 73,960 DH. Autrement dit, la moitié de la masse
salariale est reçue par le personnel qui a un salaire inférieur à 73,960 DH et l'autre moitié est
reçue par ceux qui ont un salaire supérieur à 73,960 DH,
Calcul de concentration:
Il existe plusieurs démarches pour effectuer ce calcul, la plus simple se compose des étapes
suivantes
Calcul de la médiane de la série.

Calcul de la médiale de la série.
Mesure de l'écart médiale-médiane (AM).
Comparaison de cet écart à l'intervalle de variation de la série.
Calcul de la concentration pour l'exemple précédent:
On a déjà calculé, pour cet exemple, la médiane et la médiale, on
Mé = 71,33 et MI = 73,96.
AM = MI - Mé = 73,96 71,33 2,63
L'intervalle de variation est: 100 40 = 60, d'ou
AM 2,63
= 0,043
intervalle de variation 60
En générale, l'indice
AM MI - Mé
intervale de variation étendue

est une valeur comprise entre 0 et 1 qui mesure la concentration, indiquant une grande
concentration lorsqu'elle est grande (proche de 1) et une équi-distribution lorsqu'elle est petite
(proche de zéro).
Sil = 0, alors il y a équi-distribution absolue.
Sil = 1, alors il y a maximum concentration.
Donc, pour l'exemple, les salaires sont équi-distribués. On a la concentration est faible.
II. Courbe de Lorenz et Indice de Gini
1) Courbe de Lorenz
Considérons, le cas de l'étude de la variable qui représente les salaires d'un groupe d'ouvriers.
On a construit le tableau suivant pour analyser la concentration des salaires:

Chapitre V: Caractéristique de Concentration
(7n,ci)c (rn C)100

le-1l i nCi n,et (n,ci)c T Pi -.100
lei el 1 C1 nC1 nc(n^c1)et| P1 91

e e l n2 C2 2C2 n,ct (c2)et P2 92
le-1elnC ncn,ct (nc)e
ek-1el CnCk Pi
N nc
Ou les produits "n,c" représentent la masse salariale reçue par les " n" ouvriers dont le salaire
est copris entre ei-1 et e.
Les (n,C)c 1 représentent la masse salariale reçue par les n;c t ouvriers avec des salaires
inférieurs à cette masse.
Les valeurs p; représentent, en pourcentage, les fréquences relatives cumulées des ouvriers.
Les quantités q; représentent la masse salariale cumulée (exprimées en pourcentage) sur la masse
salariale totale Znci
Les deux dernières colonnes de tableau nous informent sur la concentration des salaires.
Si les salaires sont équi-distribués, alors p; = qi (Vi = 1;.., k), done la courbe de Lorenz
coincide avec la lère bissectrice.
D a n s le cas de maximum concentration qi = 0 (Vi = 1, . , k - 1) et qh = 100, alors la
courbe de concentration coincide pratiquement avec le triangle 0AB.
Pour des situations de concentration intermédiaires, la courbe de Lorenz occupe une

position intermédiaire entre ces deux situations extrêmes. Elle s'approche plus à la lère
bissectrice lorsque la concentration est faible et s'éloigne de la lère bissectrice lorsque la
concentration est forte.
La distribution des ouvriers et des salaires exprimés par les valeurs (p: q); i = 1, . k , se
représente graphiquement à laide de la courbe de Lorenz ; c'est la courbe qui passe par les points
(Pi 41)

En gras, la droite (OB), c'est la première bissectrice.
2) Indice de Gini
A partir de la courbe de Lorenz, on construit une mesure de degré de concentration appelée

« indice de Gini » noté « Iç ».
Géométriquement,
l'aire S
GTaire du triangle 0AB
Et on a: 0 Ic 1
Evidemment, cet indice est une mesure de l'approximation de la courbe de Lorenz à la lère
bissectrice et par la suite de concentration des salaires.
Algébriquement,
2i=i Pi)
=1-
qui mesure aussi l'approximation de la courbe de Lorenz à la lère bissectrice mais en utilisant
une autre propriété géométrique différente de celle de l'aire de S.
Si Ig =
0 alors pi qi et les salaires sont
=
équi-distribués.
Si Ic = 1 alors qi = 0 et il y a maximum concentration.
Si 0Ic 31alors il y a une grande concentration si Ic est plus proche de l; et une équi-
distribution si Ic est plus proche de 0.
Exemple
Reprenons l'exemple précédent; on a calculé l'indice I pour cet exemple et on a trouvé I = 0,043.
Calculons, maintenant, l'indice de Gini Ic
[e-1el Tli Ci niCi nc T (nc;)c t|Pi=

nC T
. 100 9
(nci)ct .1100
N
[40;50[ 12 4555 540 12 540 12 7,71

[40;50[ 14 65 770 26 1310 26 18,71
[40;50[ 20 75 1300 46 2610 46 37,28
[40;50[ 30 85 2250 76 4860 76 69,43
[40;50[ 14 95 1190 90 6050 90 86,43
[40;50[ 10 950 100 7000 100 100
100 7000
Sinous observons les deux dernières colonnes nous avons

Au 12% des ouvriers qui gagnent peu leur correspond le 7,71% du total des salaires, au 26% des
ouvriers qui gagnent peu leur correspond le 18,71% du total des
salaires, etc... Alors que s'il
avait une répartition égalitaire des salaires, nous aurons que 12% des ouvriers
leur correspond le

12% du total des salaires, au 26% des ouvriers leur correspond le 26% du total des
salaires, etc..
ce que l'on n'a pas dans cet exemple dû à telle concentration des salaires
une
(même faible !)
L'indice de Gini:
100
o9.43
3 25
18,71
Ce qui indique une faible concentration des salaires de ce groupe des ouvriers.
29 212,56
I=l- - =l 212,30=1-0,878=
250
0,122
2P i=l

Chapitre V: Ajustement et Corrélation Linéaire
Chapitre VI : Ajustement et Corrélation Linéaire
I. Introduction
Dans ce chapitre, les variables statistiques sont supposées « discrètes ».
Pour passer aux variables continues, il suffit de remplacer les classes par leurs centres cí.
I. Ajustement
1) Notion d'ajustement
Dans les chapitres précédents, nous avons vu que les tableaux statistiques ont au moins deux
colonnes
Une colonne pour les valeurs de la variable x

Une colonne pour les efectifs ni ou les fréquences f.
Nous avons aussi procédé à des représentations graphiques.

La représentation que l'on va utiliser dans ce chapitre est celle de
Figure 8: Nuage de points
Parfois, dans ces nuages, les points représentés semblent se repartir suivant une contiguration
assezrégulière:
une parabole,
ou hyperbole
ou une courbe exponentielle ou logarithmique
ou une droite, tout simplement.

Chapitre VI: Ajustement et Corrélation Linéaire
L'ajustement consiste en substituer aux effectifs ou fréquences effectivement observés des

effectifs ou fréquences calculés à l'aide de procédés que nous allons envisager.
On conçoit, en examinant ces représentations graphiques, qu'une opération d'ajustement consiste

en
ere étape : la recherche de la forme générale de la courbe d'ajustement,

2eme étape: la détermination de l'équation de la courbe d'ajustement, telle que: n, ouf = f(xD
avec fune fonction.
2) Ajustement graphique
Lorsqu'on a, dans une représentation graphique, un nuage de points, un premier ajustement
conduit àtracer une courbe simple régulière qui compense à peu près les écarts positifs ou négatis
c'est-à-dire qui laisse à peu près le même nombre de points de part et d'autre.
Ainsi les deux figures précédentes conduisaient à des ajustements manuels qui se présenteraient
approximativement comme suit
;oul
Dans le cas où les points semblent se répartir de façon linéaire, plusieurs droites peuvent-être
candidates à ajuster ce nuage de points.
Mais, ces droites sont parallles régulièrement espacées de part et d'autre d'une droite centrale.
La droite d'ajustement est la droite centrale de l'ensemble des droites telle que les points à ajuster
se répartissent équitablement au-dessus et au-dessous de cette droite, et à l'intérieur du réseau
des parallèles.

Chapitre VI:Ajustement et Corrélation Linéaire
Cet ajustement manuel, bien que sommaire, donne en pratique de bons résultats surtout si la
courbe d'ajustement cherchée est une courbe simple, une droite par exemple.
Exemples d'ajustements graphiques linéaires

On dispose de tableau suivant
2 7
4 10
13
8 5
9 20
13 28
La représentation graphique de cette série statistique est faite de six points.
1o 12
Un ajustement linéaire est le plus approprié,

Une droite d'ajustement a été construite manuellement et figure sur la représentation.
On détermine facilement l'équation n^ = y = ax + b de cette droite en écrivant qu'elle passe
par les points, M(4;10) et N(9;20).

10 4a+b
On peut écrire
20 9a+b
Sa =10 ~a =2,ainsi b = 10-8 2 (en replaçant a dans la
1ere ligne par sa valeur).

Alors, l'équation de la droite passant par M et N est: y = 2x +2.
III. Corrélation
1) Notion de corrélation:
Parfois, on peut se trouver en face d'une population telle qu'on puisse étudier deux caractères
différents surune même unité statistique:
Variable 1:X Variable 2:Y

1
y2
Xn Yn

«n» étant le nombre d'unités statistiques observées.
Une unité présente à la fois la mesure x, de X et la mesure yi de Y, avec i = 1, ., n
Sur le tableau précédent, on pourra s'attacher à l'étude des variations simultanées (croissance ou
décroissance) des deux caractères X et Y.
Trois situations peuvent se présenter:
a) Aucun lien entre X et Y.

b) X et Y sont liés fonctionnellement.
c)Sans être liés fonctionnellement, X et Y sont en dépendance, plus ou moins marquée.
On dira alors que X et Y sont en corrélation (positive ou négative).

Exem
Le poids et la taille des enfants d'une école sont deux variables en corrélation positive.
Mise en évidence graphique de l'existence d'une corrélation entre deux variables
Sur un repère, on représente les points de coordonnées tirées du tableau précédent:
Les points formeront un nuage de points:
Ce nuage peut se présenter de diverses façons
a) Les points se dispersent au hasard dans le plan:

Comme dans la figure précédente. Alors X et Y peuvent être indépendantes Il'une de l'autre (car
le nuage ne présente pas une influence claire d'une variable sur l'autre).
b) Les points peuvent se regrouper en un nuage deforme assez allongée, assez aplatie:

A une valeur fixée de l'une des deux variables correspondent des points qui présentent, pour
l'autre variable, des valeurs assez
rapprochées.
Les deux variables semblent alors être liées, c' est-à-dire corrélées soit positivement (croissent
ensembles). soit négativement (décroissement ensembles).
On peut alors dire que X et Y sont corrélées ou qu'il existe une corrélation entre X et Y.
2) Covariance de X etY
La variance mutuelle des deux variables X et Y est mesurées par la covariance de ces deux
variables. On la note Cov(X;Y) et elle est donnée par :Cov(K,Y ) =2x,-F)(y,-Y)

i =
Dans le cas où X = Y, on retrouve la variance de X: Cov (X X ) = 2 x , -X) =Var(X)
3) Mesure de la corrélation: Coefficientde corrélation linéaire

La corrélation est mesurée par un coefficient appelé le coefficient de corrélation linéaire.
La formule de coefficient de corrélation linéaire est: r:

-F -)
-FE,-7)
Autres écritures de coefficient de corrélation linéaire:
-F), -f) 2-F,-F) Cov (X ,Y)
-Fo,- ,-FE,-r -FE0,-F

Cov (X.Y ) Cov (X Y)
a r (X )-Var (¥) o(X ) ol¥)
Alors, le coefficient de corrélation linière s'est écrit autrementpar la formule: r= Cov (X Y)

oX)o(Y)
Propriétés
Donc, d'après ceci, on voit que -1 Sr <1.
Sir =1, alors on a une forte corrélation positive.

Si r =-1, alors on a une forte corrélation négative.
Si r = 0, alors on n'a pas de corrélation.

Exemple de calcul du coefficient de corrélation linéaire entre deux variables X et Y:
- *| -F (x-X - (x -X) ( -F)

16 |20 10.1 104 102 01 108.16 -105.04
18 24 81 6.4 65.61 96 +51 84
23 28 -3.1 -2.4 9.61 5.76 7 44
24 22 -2.1 -8.4 4.41 70.56 17.64
28 32 +1.9 +1.6 3.61 256 3.04
29 28 +2.9 2.4 8.41 5.76 6.96
26 32 -0.1 +1.6 0.01 2.56 0.16
31 36 +4.9 +5.6 24.01 31.36 +27.44
32 41 +5.9 +10.6 34.81 112 36 +62.54
34 41 +7.9 +10.6 62 41 112.36 83.74
261304 314.90 492.40 351.60D
Moyenne arithmétique de X: X = =26,1

10
304
Moyenne arithmétique de Y:Y =*=30,4
10
E-,-7) 351,60
Coefficient de corrélation linéaire:r:
2,-XL0,-F} y314,90x492,40
Donc on a une corrélation positive, comme l'indique déjà la représentation graphique et assez
serrée, le coefficientr ayant une valeur absolue voisine de 1.
IV. Droite de régression linéaire, méthode de moindres carrées
Il faut déterminer les différents paramètres d'une fonctiony f(x) qui ajuste à la façon la
=
plus
satisfaisante les observations faites, la fonction retenue devant cependant conduire à une courbe
(une droite) d'ajustement:
Y1
Observations
Supposons = f(x) est l'ajustement envisagé (on a sa forme, son type, mais pas ses paramètres!)

Graphiquement:
- - -
Méthode de calcul:
Pour déterminer la fonction d'ajustement la plus fiable, on essaie de minimiser les distances entre
les valeurs observées et leur approximation par la fonction d'ajustement:
- f ) b-f%)J*:.61)T:D. -fa,}
Alors, nous cherchons les paramètres qui donnent la fonction f qui rend la plus faible possible la
somme des carrées,f , ) f (méthode desmoindres carrés).
Autrement dit, on cherche la fonction f qui permettra de calculer les f(x) tels que
2-f, soit minimum, avec y, valeurobservéeet f(x) approximation de y calculée.

On dispose d'une distribution à deux variables statistiques X et Y pour laquelle la représentation
graphique a montré que Y peut-être ajusté par rapport à X par une droite d'équation
y =f (x)= a x +b .
Alors, par la méthode des moindres carrées, il faut que:
On cherche min>y,-f , ) f c'est-à- dire min 2[y,-a, -b}
Cela consiste donc à déterminer les paramètres a et b.
connues et lues directement

Rappelons que les valeurs nunmériques de X,.., X et y1, ..,yk Sont
sur le tableau statistique.
-,-b i=l
22,-, -b)x(-x,) =0
da i=l
-,-b} = 0
20--b)=0
I=
db

Chapitre VI:Ajustement et Corrélation Linéaire
-2 -a -bx,)=0 I=
-«x-bx, =0 i =l
0,-a, -b) =0 , - , -bk =0

I = i =
+ax+6x, =+2*
=| I=
(2)>b - y -y#
- k
+ax, +bk = + » (2)
I=l
Onremplace dans (1) a ( 7 - ) x =-x,
a= - -] =l
a
i=l
i=
Cov (X Y ))
Var(X)
_Cov (X Y)
Finalement
Var (X)
b = y -
2,-Fv. -7)
Remarque: On a une autre formule: a =
Z-7
i=l
Lorsque deux variables sont en corrélation linéaire, alors on a : y = ax + b est l'ajustement de y
à partir dex.
Cette droite s'appelle: « droite de régression », ou « droite d'estimation de y à partir de x ».
Le procédé de détermination de l'équation de la droite de régression est généralement fondé sur

le principe des moindres carrés.
Exemple:
Cherchons I'équation de la droite d'ajustement ou de régression linéaire par la méthode des
moindres carrées, pour le tableau suivant:
10
13
8 15
9 20
13 28

Chapitre VI1: Ajustement et Corrélation Linéaire
On a:
x - - -09-
2 7 14 4 -8,5 42,5
4 10 40 16 -5,5 16,5 9
13 78 36 1 -2,5 2,5
8 15 120 64 +1 -0,5 -0,5
9 20 180 81 +2 +4,5 9 4
13 28 364 169 +6 +12,5 75 36
42 93 796 370 0 0 145 76
Donc F =7 et ==15,5
Calcul des paramètres a et b en utilisant les formules: a: -

x,-F2 el b= ù -
x-Fx
796-15,5x42 796-651 145
Alors, a 1,908
370-7x42 370-294 76
Et b 15,5-1,908x7=15,5-13,356=2,144
Équation de la droite d'ajustement: =1,908x +2,144
30
25
20
15
10
6 8 10 12 14
,-)o, -F) 145

Calcul du coefficient a en utilisant la formule: a =- =1,908
-7 76
ainsi b =2,144.
Remarque:
Nous avons éerit dans la recherche du paramètre b 20,-a, -b)=0 C-à-d
2,-fa,)] =0 avec f(x) =

axi +b

Cours Stat

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Stat

Transféré par

Droits d'auteur :

Formats disponibles

1

Généralités sur la statistique

– Recueillir des données.

1.1.1 Épreuve statistique

Exemple 1 (La durée de vie des lampes)

Université de Tlemcen page 2 A. CHEKROUN

Ω = ensemble des étudiants.

– Si l’on s’intéresse maintenant a la circulation automobile dans une ville, la po-

Ω = ensemble des véhicules.

1.1.3 Individu (unité statistique)

Université de Tlemcen page 3 A. CHEKROUN

une boîte constitue un individu.

1.1.4 Caractère (variable statistique)

Card(Ω) := nombre d’éléments de Ω = N.

Université de Tlemcen page 4 A. CHEKROUN

– Variable est" statut d’interrupteur "

– Variable est " catégories socio-professionnelles "

1.2 Types des caractères

1.2.1 Caractère qualitatif

Université de Tlemcen page 5 A. CHEKROUN

1.2.2 Caractère quantitatif

– La rigidité des ressorts.

La statistique descriptive a pour objectif de synthétiser l’information contenue dans

Université de Tlemcen page 6 A. CHEKROUN

Chapitre I : Représentation des données

2) Tableaux statistiques : Cas des ractères qualitatifs

statistique selon une logique qui permet au mieux l'interprétation.

3) Tableaux statistiques : Cas des caractères quantitatifs

des frères et saæurs des étudiants de

Frères et sæurs (Xi) Effectifs (n)

b) Tableaux statistiques: Cas des variables statistiques continues

Salaires en DH (x) Effectifs (n)

Ces intervalles ou classes ont une largeur ou amplitude: 4 =e, -e,

On le note njc t ou n/cc.

s e r t à répondre aux questions qui demandent un nombre ou un effectif « moins de » ou

5) Tableaux statistiques Effectifs cumulés décroissants

On le note nic ou nicd.

I l sert à répondre aux questions qui demandent un nombre ou un effectif « plus de » ou

6) Tableaux statistiques: Fréquences cumulées croissantes

on la note fic T ou ficc:

fcc = fic 1=)j = fh+ft+f

fic = fcd =),fj= fi +

Fx(x) = fcc =fi +f2 + + f

avec ficc est la fréquence cumulée croissante

Si Xest continue, alors si e-1 Sx<ej donc Fy (x ) =2/

IV. Représentations graphiques

valeur de la variable Xi.

3) Caractères quantitatifs: Variables statistiques continues

Comme pour ce type de variables, il y a une infinité de valeurs intermédiaires nécessitant le

a) Histogramme: Cas des amplitudes égales

Figure 1: Histogramme des fréquences relatives

b) Histogramme : Cas des amplitudes différentes

Salaire annuel en 1000 Dh Nombre d'employés

Représentons l'histogramme de cette distribution.

c) Polygones des fréquences:

Figure 3: Polygones desfréquences

fréquence) (voir parties hachurées sur le graphique qui se compensent).

Exemple : Polygones des h

4) Les caractères qualitatifs: Les graphiques en tuyaux d'orgue

5) Les earactères qualitatifs: Diagramme à secteurs

L'Amérique ^ 75°. car: x 360 = 75

L'Europe » 97,5°, car: 360 =97,5

Asie 105 Eur 975

Figure 5: Diagramme à secteurs