Académique Documents
Professionnel Documents
Culture Documents
Chapitre 1
La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’in-
terprétation des résultats et leur présentation afin de rendre les données compréhensibles
par tous. C’est à la fois une science, une méthode et un ensemble de techniques.
L’analyse des données est utilisée pour d’écrire les phénomènes étudiés, faire des pré-
visions et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel
pour la compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile
dans tous les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les
filières universitaires, de l’économie à la biologie en passant par la psychologie et bien sûr
les sciences de l’ingénieur. La statistique consiste à :
1.1 Vocabulaire
Les statistiques consistent en diverses méthodes de classement des données tels que les
tableaux, les histogrammes et les graphiques, permettant d’organiser un grand nombre de
données. Les statistiques se sont développées dans la deuxième moitié du XIXe siècle dans
le domaine des sciences humaines (sociologie, économie, anthropologie, ...). Elles se sont
dotées d’un vocabulaire particulier.
2 1.1. VOCABULAIRE
Vocabulaire
Population
Individu
Epreuve statistique
Modalités
Caractéristiques
(Variable statisitque)
Les statistiques descriptives visent à étudier les caractéristiques d’un ensemble d’ob-
servations comme les mesures obtenues lors d’une expérience. L’expérience est l’étape pré-
liminaire à toute étude statistique. Il s’agit de prendre "contact" avec les observations. De
manière générale, la méthode statistique est basée sur le concept suivant.
Définition 1
L’épreuve statistique est une expérience que l’on provoque.
1.1.2 Population
En statistique, on travaille sur des populations. Ce terme vient du fait que la démo-
graphie, étude des populations humaines, a occupé une place centrale aux débuts de la
statistique, notamment au travers des recensements de population. Mais, en statistique,
le terme de population s’applique à tout objet statistique étudié, qu’il s’agisse d’étudiants
(d’une université ou d’un pays), de ménages ou de n’importe quel autre ensemble sur lequel
on fait des observations statistiques. Nous définissons la notion de population.
Définition 2
On appelle population l’ensemble sur lequel porte notre étude statistique. Cet ensemble
est noté Ω.
Exemple 2
– On considère l’ensemble des étudiants de la section A. On s’intéresse aux
nombre de frères et sœurs de chaque étudiant. Dans ce cas
Une population est composée d’individus. Les individus qui composent une population
statistique sont appelés unités statistiques.
Définition 3
On appelle individu tout élément de la population Ω, il est noté ω (ω dans Ω).
Remarque 1
L’ensemble Ω peut être un ensemble de personnes, de choses ou d’animaux...
L’unité statistique est un objet pour lequel nous sommes intéressés à recueillir de l’in-
formation.
Exemple 3
– Dans l’exemple indiqué ci-dessus, un individu est tout étudiant de la section.
– Si on étudie la production annuelle d’une usine de boîtes de boisson en métal
(canettes). La population est l’ensemble des boîtes produites durant l’année et
La statistique « descriptive », comme son nom l’indique cherche à décrire une po-
pulation donnée. Nous nous intéressons au caractéristique des unités qui peuvent prendre
différentes valeurs.
Définition 4
On appelle caractère (ou variable statistique, dénotée V.S) toute application
X : Ω → C.
L’ensemble C est dit : ensemble des valeurs du caractère X (c’est ce qui est mesuré ou
observé sur les individus)
Exemple 4
Taille, température, nationalité, couleur des yeux, catégorie socioprofessionnelle ...
Remarque 2
Soit Ω un ensemble. On appelle et on note Card(Ω), le nombre d’éléments de Ω.
1.1.5 Modalités
Les modalités d’une variable statistique sont les différentes valeurs que peut prendre
celle-ci.
Exemple 5
– Variable est " situation familiale "
Modalités sont " célibataire, marié, divorcé "
Les modalités sont les différentes situations dans lesquelles les individus peuvent se
trouver à l’égard du caractère considéré.
Nous distinguons deux catégories de caractères : les caractères qualitatifs et les carac-
tères quantitatifs.
Les caractères qualitatifs sont ceux dont les modalités ne peuvent pas être ordonnées,
c’est-à-dire que si l’on considère deux caractères pris au hasard, on ne peut pas dire de l’un
des caractères qu’il est inférieur ou égal à l’autre. Plus précisément, nous avons la définition
suivante.
Définition 5
Les éléments de C sont représentés par autre chose que des chiffres.
Exemple 6
L’état d’une maison : on peut considérer les modalités suivantes
– Ancienne.
– Dégradée.
– Nouvelle.
– Rénovée.
Les caractères quantitatifs sont des caractères dont les modalités peuvent être ordon-
nées. Ainsi, l’âge, la taille de vie ou le salaire d’un individu sont des caractères quantitatifs.
Donc, nous avons la définition suivante.
Définition 6
L’ensemble des valeurs est représenté par des chiffres. De même, il est partagé en deux
sortes de caractères, discret et continu (voir l’exemple).
Exemple 7
– Le salaire d’employés d’une usine.
Modalités : 10000da , 20000da...
Type : Discret.
En général, la variable quantitative discrète est une variable ne prenant que des valeurs
entières (plus rarement décimales). Le nombre de valeurs distinctes d’une telle variable
est habituellement assez faible. Citons, par exemple, le nombre de maisons par quartier
d’une ville. Une variable quantitative est dite continue lorsque les observations qui lui sont
associées ne sont pas des valeurs précises, mais des intervalles. C’est le cas lorsque nous
avons un grand nombre d’observations distinctes.
I. Introduction
Dans leur état brut, les informations ne peuvent être utilisées, d'où la nécessité de les mettre
en ordre", c'est-à-dire de les ranger.
A ce stade, elles forment une distribution ou une série statistique représentant un ensemble
des modalités et des e ffectifs d'un caractère.
II. Tableaux statistiques
1) Tableaux statistiques: caractères et effectifs
Le tableau correspondant aux séries à un seul caractère est à simple entrée, dans lequel
figurent deux colonnes: 1'une pour les modalités prise par la variable (x,) et l'autre pour les
effectifs correspondantes (n).
La présentation d'un tableau statistique fait correspondre à chaque modalité x; un "elffectir"
ou "fréquence absolue" n;.
Effectifs
Caractères
(X) n)
X
X2
Modalités
Tk
Autres
N= 1655
Exemple:
12
Chapitre: Représentation des données
20
**
40 *****
- - - --************
*
Z
******************************* * ****
Z ***
10
********* *
O
*********
*************************
************
9 - * * * * * ****:*
10
N =162
[2500 3500[ 4
(3500 4500[ 11
[4500 5500[
5500
N 25
Remarques:
.La division de la série en classes se fait selon la nature du sujet traité, elle relève
donc du statisticien et de son appréciation du problème:
Si l'intervalle est petit, le nombre de classes sera important et peut rendre les
calculs plus compliqués.
Si l'intervalle est grand, l'information se perd à cause de la condensation des
chiffres.
Dans le cas des variables statistiques continues, les modalitésx appartiennent à des
intervalles de la forme [e-i eil que l'on appelle des classes et qui ont un centre
, =*L
2
Exemple
lei-1i eiL C P
8%
2500 2 0,08
16%
[2500, 3500[ 3000 1000 0,16
[3500, 4500[ 11 4000 1000 0,44 44%
4500, 5500[ 5000 1000 0,2 20%
>5500 0,12 12%
100%
N=25 | 1
4) Tableaux statistiques : Effectifs cumulés croissants
eftecif cumulé croissant d'unevaleur x, est la somme d'effectif de cette valeur el tout
les effectifs des valeurs précédentes
nc f 2jsin, = ni t+ 2 ++7
L'efiectif cumulé décroissant d'une valeur xi est la somme de son effectif et les effectifs
de toutes les valeurs suivantes:
nic n ni t ni+1 t + 7k
isj
OIl se calcule en totalisant les effectifs avec ceux des classes antérieures.
O Une fréquence cumulée croissante d'une modalité x/ est la somme de sa fréquence et des
fréquences des modalités précédentes,
Elle se calcule en totalisant les fréquences relatives avec celles des classes
suivantes, ou
en calculant le rapport de
l'effectif cumulécroissant et 1'effectif total:
fc nC
N
14
Chapitre 1:Représentationdesdonnées
Une fréquence cumulée décroissante d'une modalité est la somme de sa frequence et ies
fréquences des modalités suivantes.
On la note fic l ou ficd:
hc = c
N
Exemple
[e-1el ncT Sict nic fc
S nCC fcc n cd fcd
<2500 0,08 2 0,08 25 1
2500, 3500[ 0,16 0,24 23 0,92
3500, 4500[ 11 0,44 17 0,68 19 0,76
4500, 5500[ 0,2 22 0,88 8 0,32
>5500 3 0,12 25 1 3 0,12
N-25 ZS=1
IlI. Fonction de répartition
Définition:
Etant donnée série statistique correspondante à la variable
une
statistique X, la fonction définie
par xficc, avecx est une valeur des modalités, s'appelle une fonction de répartition, notée
Fx(x) et on écrit:
-
SiXest discrète ou qualitative, alors si Xi-1 S* << x; donc E, (x)= >
1) Introduction
On a vu que l'on représente les séries statistiques par des tableaux, mais ces tableaux restent
parfois insuffisants pour voir, par exemple, si une variable croit, décroit ou reste constante; ou
si elle présente autres caractéristiques.
Les représentations graphiques peuvent nous donner une vue immédiate et complète des
phénomènes étudiés.
15
Chapitre: Représentation des données
2) Caractères quantitatifs:
Variables statistiques diserètes:
a) Diagramme en bâtons
Le dlagramme en bâtons représente les fréquences ou les effectifs n; correspondants å chaque
2 0,067
0,1
2 0,167
3 10 0,333
4 7 0,234
5 2 0,067
6 1 0,033
N N 30 1
O 333 -----.
943
0167 -
0.1
0.067
0033
3 4 5 6
Diagraune en bäto ns des fré quences relatives
b) Courbe cumulative
La courbe cumulative est une fonction de distribution qui représente les effectifs cumulés
croissants nic t en fonction des modalités xi .
Elle permet de déterminer la proportion des individus de la population dont le caractère est
inférieur à une certaine valeur xi.
Elle est représentée par une courbe en "escaliers" dont les paliers sont horizontaux.
Exemple:
Soit la série statistique quantitative discrète suivante (des nombres de frères et sceurs de 30
étudiants).
16
Chapitre l: Représentation des données
nCC
2
5
2 10
10 20
4 7 27
2 29
6 1 30
N 30
27
20
10
Courbe cunmlative
Exemple:
Soit la série représentant les notes des étudiants en Informatique:
e-1el f
[o.5[ 60 0,15
5,10[ 120 0,30
[10,15[ 200 0,50
[15,20[ 20 0,05
N = 400 f =1
17
Chapitre I: Représentation des données
0,50
0.30
0,15
0,05
10 15 20
Exemple:
Le salaire annuel des 100 employés d'une entreprise se répartit comme suit
[0,30[ 10
[30,50[ 48
(50,90[ 34
[90,120[ 8
Total 100
a eiei-1 h=
e-1el
[0,30[ 10 0,1 30 0,33
48 0,48 20 2,4
[30,50
[50,90[ 34 0,34 40 0,85
[90,120[ 8 0,08 30 0,27
| N =100
18
Chapitre I: Représentation des données
,35
0.33
120
Figure 2: Histogramme des hi
Partant de l'histogramme et joignant par des segments de droite les milieux des sommets des
rectangles, on obtient le polygone (des effectifs ou des fréquences).
Exemple:
Reprenons l'exemple des notes des étudiants en Informatique I, lorsque les classes ont des
amplitudes égales:
0.30
0,15
0,05
Remarques
Il est préférable d'ajouter deux classes fictives aux extrémités de la série pour obtenir un
polygone parfait.
Il y a toujours conservation de la surface puisque l'aire sous le polygone est égale à 1 (en
Pour l'exemple des salaires annuels des 100 employés d'une entreprise o n a :
19
Chapitre I:Représentation des données
0,35
0.3s
0.27
30 120
Remarque:
En faisant un ajustement graphique du polygone des fréquences, ce dernier tend vers une
courbe continue appelée "courbe des fréquences".
Exemple
Les participants aux jeux olympiques selon le continent d'origine:
Afrique 80
Amérique 100
Asie 140
Australie 30
Europe 130
i
Figure 4: Diagramme en tuyaux d'orgue
20
Chapitre: Représentation des données
Exemple
Reprenons l'exemple précèdent des participants aux jeux olympiques selon le continent
d'origine :
L e nombre total des participants est de 480.
L'Afrique correspond à 60° card'après la règle de proportionnalité on a
480 360 80x 360
règle de trois: x 60
80 x 480
30
L'Australie 22.5°, car: x360 22,5
480
u i 123
21
Chapitre II : Caractéristiques de tendance centrale
I. Introduction
Les caractéristiques des distributions statistiques est un outil essentiel de comparaison, se
référant :
• à la tendance centrale (position),
• à la dispersion
• et à la forme (concentration).
Caractéristique de position ou de tendance centrale ceux sont :
– le mode,
– la médiane
– et les moyennes:
• Moyenne arithmétique
• Les autres moyennes
– Géométrique
– Harmonique
– Quadratique
II. Le Mode (Mo)
Le mode est la valeur (𝑀𝑜 = 𝑥 ) la plus fréquente de la variable, c'est-à-dire celle pour
laquelle :
– La fréquence est maximale, ou
– L’effectif est le plus grand.
1) Cas de la variable quantitative discrète
Le mode correspond à la valeur 𝑥 de la variable ayant la fréquence la plus élevée dans un
tableau statistique.
Exemple :
Soit la distribution statistique représentant le nombre de frères et sœurs des étudiants,
𝑥 𝑛
0 2
1 3
2 5
3 10
4 7
5 2
6 1
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊
[0 ; 5[ 60
[5 ; 10[ 120
[10 ; 15[ 200
[15 ; 20[ 20
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝑛 𝑎 ℎ = 𝑛 /𝑎
[100 ; 200[ 15 100 0,15
[200 ; 400[ 25 200 0,125
[400 ; 600[ 40 200 0,2
[𝟔𝟎𝟎 ; 𝟕𝟎𝟎[ 35 100 0,35
[700 ; 1000[ 20 300 0,067
La classe modale est [600; 700[ (et non pas [400; 600[ qui a 𝑛 = 40 le plus grand effectif)
car [600; 700[ correspond à ℎ = 0,35 le plus élevée.
hi 1
Pour déterminer la valeur du mode, On applique la formule : Mo e i -1 ai
hi -1 hi 1
hi 1 0,067
donc Mo ei 1 ai 600 100 625, 1
hi 1 hi 1 0, 2 0, 067
Cela se fait sur l’histogramme. D’abord, on trace l’histogramme mais comme c’est une série
statistique quantitative continue avec amplitude de classe différents. Ainsi, on trace
l’histogramme pour les ℎ = . En joignant les sommets du rectangle le plus élevé et les
sommets du rectangle juste avant et le suivant, la projection sur l’axe des 𝑥 du point de
rencontre des diagonales obtenues (donne) la position de 𝑀𝑜 parmi les 𝑥 .
Remarque :
Le mode ne doit être retenu que s’il est unique (série unimodale). Lorsque la distribution est
multimodale, le mode perd toute signification.
III. La Médiane (Mé)
Définition :
La médiane est la valeur de la variable statistique qui partage la série statistique en deux
parties de total des effectifs égaux, en supposant au préalable que la distribution soit classée
par ordre de valeurs croissantes ou décroissantes de la variable.
Puisqu’on a sept termes, la médiane correspond à 10, car il y a trois valeurs à gauche de 10 et
trois valeurs à sa droite.
b) 2ème cas : nombre pair (𝟐𝒌) d’observations (𝒙𝒊 ) :
Si le nombre d’observations est pair 2𝑘, alors la médiane est donnée par l’intervalle médian
de borne inférieure la valeur 𝑘 è et de borne supérieure la valeur (𝑘 + 1)è de la série
statistique.
On prend comme médiane la moyenne (la centre de l’intervalle) des bornes de l’intervalle
médian.
Exemple :
Comme on est dans le cas discret et 9,5IN, on ne peut pas la prendre comme une vraie
médiane.
c) Méthode pratique de recherche de la médiane :
On cherche 𝑁/2 parmi les effectifs cumulés croissantes 𝑛 𝑐𝑐. SI cette valeur 𝑁/2 existe
parmi les 𝑛 𝑐𝑐 alors la médiane de cette série c’est la valeur moyenne de 𝑥 correspondante à
𝑁/2 et la valeur 𝑥 qui vient juste après 𝑥 , c.à.d. M é x k x k 1 . Sinon, 𝑁/2 n’existe
2
pas parmi les 𝑛 𝑐𝑐 alors la médiane est la valeur 𝑥 qui correspond l’effectif qui vient juste
après la valeur 𝑁/2. Ainsi la médiane dans ce cas est : 𝑀é = 𝑥
𝑥 𝑛 𝑛 𝑐𝑐
1 1 1 𝑵/𝟐 = 𝟐𝟎/𝟐 = 𝟏𝟎 cette valeur
3 3 4 n’existe pas parmi les 𝑛 𝑐𝑐.
5 7 11 Alors la 1ère valeur d’effectif qui la
7 3 14 dépasse est 11
9 6 20
𝑁 = 20
On a 𝑁/2 = 11/2 = 5,5 cette valeur n’existe pas parmi les 𝑛 𝑐𝑐.
Alors la 1ère valeur d’effectif qui la dépasse est 11, ainsi la médiane est la valeur de 𝑥 = 5 qui
de cet effectif 11 c.à.d. 𝑀é = 5.
Exemple : 𝑵/𝟐 n’existe pas parmi les 𝒏𝒊 𝒄𝒄
Soit la série statistique suivante :
𝑥 𝑛 𝑛 𝑐𝑐
5 1 1
6 2 3 𝑵/𝟐 = 𝟏𝟏/𝟐 = 𝟓, 𝟓 n’existe pas
8 1 4 parmi les 𝑛 𝑐𝑐.
9 1 5 Le 1er effectif qui dépasse 𝑵/𝟐
10 3 8 est 8
11 1 9
12 1 10
13 1 11
𝑁 = 11
On voit que la médiane est presque égale à la valeur trouvée algébriquement 71,33.
[𝒆𝒊 𝟏 , 𝒆𝒊 [ 𝑛 𝑛 𝑐𝑐 𝑛 𝑐𝑑
[40, 50[ 12 12 100
[50, 60[ 14 26 88
[60, 70[ 20 46 74
[70, 80[ 30 76 54
[80, 90[ 14 90 24
[90,100[ 10 100 10
N=100
k
1
D’où x
N
n x
i 1
i i .
Exemple :
Soient les notes d’un groupe de 30 étudiants :
𝑥 𝑛 𝑛𝑥 𝑓 𝑓𝑥
7 4 28 0,133 0,931
8 5 40 0,167 1,336
9 6 54 0,2 1,8
13 7 91 0,233 3,029
14 6 84 0,2 2,8
15 2 30 0,067 1,005
Total 𝑁 = 30 327 ∑𝑓 = 1 10,901
k
1 1
La moyenne de ce groupe est : x
N
n x
i 1
i i
30
327 10, 9
k
Autrement calculée : x f i x i 10, 901 10,9
i 1
1
𝑥̅ = 𝑛𝑐
𝑁
où 𝑐 représente les centre des classes.
Exemple :
L’âge des salariés d’une entreprise est distribué comme suit :
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝑛 𝑐 𝑛𝑐
[10 ; 20[ 2 15 30
[20 ; 30[ 15 25 375
[30 ; 40[ 33 35 1155
[40 ; 50[ 13 45 585
[50 ; 60[ 7 55 385
Total 𝑁 = 70 2530
k
1 1
On a : x
N
n c
i 1
i i
70
2530 36,14
𝑐 = 𝑐 = 650 ; le choix de cette valeur c’est mieux qu’elle s’est fait par le choix de la valeur
centrale des observations. On a 𝑥 = 𝑥̅ − 𝑐 donc 𝑥̅ = 𝑥 + 𝑐
1
Et d’autre part, on a x 6400 64
100
Alors x x c 3 64 650 714
n x
2
ii) La somme des carrées des écarts à 𝑥̅ est minimale, c'est-à-dire : i i x est
i 1
minimale.
Démonstration
k k k
i) En effet, ni x i x ni x i x ni N x x N 0
i 1 i 1 i 1
k
ii) En effet, Soit la fonction g ( x ) n i x i x
2
i 1
k k k k
On a : g ( x ) n i x i2 2 x i x x 2 n i x i2 2x n i x i x 2 n i
i 1 i 1 i 1 i 1
k k k k k
1
g ( x ) 2 n i x i 2x n i 0 x ni n i x i x n x i i x
i 1 i 1 i 1 i 1 N i 1
2) Moyenne géométrique G
Elle est égale à la racine 𝑁 è du produit des 𝑘 valeurs d’une série statistique.
a) Cas d’une série simple :
N
Tous ses 𝑁 valeurs sont d’effectifs égaux à 1, alors : G N
x
i 1
i N x1 x 2 L x N
1 N 1 N
log G log x i donc log G log x où i on a supposé que
N i 1 N i 1
x i 0; i 1,L , N
b) Cas d’une série pondérée :
1 N 1 N
en effet, log G log x ini log x ini
N i 1 N i 1
N N N
1 n
n i log x i i log x i f i log x i
N i 1 i 1 N i 1
k 1 k k
Ainsi, log G log x i f i
i 1
N
ni log(x i ) f i log(x i )
i 1 i 1
Remarque 2 :
La moyenne géométrique est utilisée pour le calcul des taux d’accroissements moyens, des
moyennes de coefficients multiplicateurs…c'est-à-dire, dans les cas où la variable représente
des variations cumulatives.
Exemple 1 :
Calculer la moyenne géométrique de la distribution de fréquence suivante :
𝑥 𝑛
1 2
2 5
3 3
N = 10
On peut utiliser des logarithmes népériens ou décimaux sans changer le résultat de 𝐺.
k
1
Alors en utilisant les logarithmes décimaux à travers la formule log G
N
n
i 1
i log(x i ) ,
1 k
N ni log( x i )
ainsi la moyenne géométrique sera G 10 i 1
:
k
1 1
Alors, on a : log G
N
n
i 1
i log(x i )
10
2,9363 0, 29363
1 k
N ni log( x i )
Donc G 10 i 1
100,29363 1,97
Exemple 2 :
Le chiffre d’affaire d’un projet a produit les augmentations annuelles suivantes :
Année Augmentation en %
1ère année 4%
2ème année 6%
3ème année 6%
4ème année 6%
5ème année 5%
6ème année 5%
L’augmentation moyenne annuelle est une moyenne géométrique :
3) Généralisation de la moyenne :
L’expression de la moyenne peut se généraliser de plusieurs manières, une d’entre elles est ce
que l’on appelle la moyenne d’ordre 𝑟, notée 𝑀 , définie par :
1
k
k
r k
(M r ) r f i c ir M r f i c ir M r r
f i c ir
i 1 i 1 i 1
k
Ainsi, la moyenne arithmétique est un cas particulier avec 𝑟 = 1, c'est-à-dire M 1 f i c i
i 1
Donc 𝑀 = 𝑥̅ .
On peut montrer que 𝐺 = 𝑀 par passage à la limite et par des théorèmes pratiques de
dérivation des fonctions.
1
k
En effet, on a : G M 0 lim M lim f i c i .
0 0
i 1
4) Moyenne harmonique H :
Remarque :
La moyenne harmonique se calcule pour des valeurs de la variable 𝑋 non nulles et elle n’a de
1
signification concrète que si l’inverse de la valeur 𝑥 a un sens.
xi
Elle est utilisée pour le calcul des moyennes de pourcentages, de ratios et de rapports, de même
que pour l’étude du pouvoir d’achat (inverse du mouvement général des prix), etc.
5) Moyenne quadratique 𝑸 :
k
1
La moyenne généralisée d’ordre 𝑟 = 2 s’appelle la moyenne quadratique : Q
N
n x
i 1
i i
2
1
k 2 k
ni
Car, Q M 2 f i x i2 N x i2
i 1 i 1
N
1
Pour une série statistique simple, la formule de la moyenne quadratique est : Q
N
x
i 1
i
2
Exemple :
Calculons 𝑄 de la série suivante :
𝒙𝒊 𝒏𝒊 𝑥 𝑛 ∙𝑥
2 7 4 28
4 10 16 160
5 20 25 500
7 30 49 1470
9 15 81 1215
10 10 100 1000
11 8 121 968
𝑁 = 100 5341
N
1 1
Ainsi, la moyenne quadratique est : Q
N
x
i 1
i
2
100
5341 7,31
Remarque :
On peut montrer que les moyennes généralisées d’ordre r d’une même série statistique
vérifient :
si 𝑝 𝑞 alors 𝑀 𝑀
ainsi 𝑀 𝑀 𝑀 𝑀
c'est-à-dire 𝐻 𝐺 𝑥̅ 𝑄
I. Introduction
Les caractéristiques de tendance centrale vues précédemment ne nous permettent pas de faire la
différence entre deux séries statistiques.
En effet, deux séries peuvent avoir la même moyenne arithmétique et la même médiane sans
qu’elles soient identiques.
On introduit, alors, autres caractéristiques dites de dispersion qui estiment dans quelle mesure
les observations s’écartent les unes des autres ou de leur valeur centrale.
Les caractéristiques de dispersion sont :
les Quantiles,
la Variance,
l’Écart-type,
le coefficient de variation,
et les moments.
II. Étendue d’une série statistique
L’Étendue ou l’Intervalle de Variation est la différence entre la valeur la plus faible et la
valeur la plus élevée d’une série statistique.
Exemple 1 :
On considère les salaires des employés de deux entreprises A et B :
Pour A : 700, 720, 750, 800, 900, 1000, 1150
Pour B : 20, 100, 200, 800, 1300, 1600, 2000.
On a X A X B 860 et Mé A Mé B 800 ,
Même si les moyennes arithmétiques et les médianes de ces deux séries statistiques sont
identiques, on ne peut conclure qu’elles sont identiques car l’information sur le
groupement/l’écart (la dispersion) des éléments des séries n’est pas encore disponible.
Calculons maintenant l’étendue pour ces deux entreprises :
Pour A, l’étendue est de 𝟒𝟓𝟎 = 1150 − 700
Pour B, l’étendue est de 𝟏𝟗𝟖𝟎 = 2000 − 20
La dispersion des salaires est donc plus forte chez l’entreprise B que l’entreprise A.
Exemple 2 :
On considère deux populations :
𝑃 = {6 ; 8 ; 10 ; 12 ; 14}, 𝑃 = {2 ; 6 ; 10 ; 14 ; 18}
on a : 𝑥̅ = 𝑚𝑜𝑦(𝑋 ) = 𝑥̅ = 𝑚𝑜𝑦(𝑋 ) = 10 et 𝑀é(𝑋 ) = 𝑀é(𝑋 ) = 10.
Mais les modalités des individus qui les composent ne sont pas réparties de la même manière
autour de la valeur centrale 10. On dit que les séries 1 et 2 n’ont pas la même dispersion ; la
Série 2 est plus dispersée que la Série 1. Donc il est nécessaire pour comparer deux populations
de considérer à la fois leurs valeurs centrales et leurs dispersions.
Exemple 3 :
Sur 1000 employés d’une entreprise, l’étendue de l’âge est de 11 ans (49 ans – 38 ans), il suffit
qu’un jeune employé (sur 1000) de 18 ans soit embouché pour que l’étendue passe à 31 ans (49
ans – 18 ans)!
On voit donc que l’étendue est une manière très simpliste de mesurer la dispersion.
III. Quantiles d’une série statistique
Les quantiles sont les valeurs de la variable statistique qui partagent la distribution en "𝑛"
parties composées du même effectif " N ".
n
Exemple :
La médiane est un quantile qui partage la distribution en « 2 » parties composées du même
effectif « N ».
2
Remarque :
Les quantiles en eux-mêmes sont des caractéristiques de position (non centrale), tandis que
l’intervalle mesurant l’écart entre deux quantiles et une caractéristique de dispersion.
Pour la détermination des quantiles, on suppose que les valeurs de la série statistique sont
classées dans un ordre croissant ou décroissant.
1) Les quartiles
a) Notion de quartile
Les quartiles sont les trois valeurs que l’on note 𝑄 , 𝑄 de 𝑄 de la variable statistique qui
partagent la distribution en "4" parties composées du même effectif " N ".
4
𝑁 𝑁 𝑁 𝑁
4 4 4 4
25% 50% 75% 100%
𝑁 2𝑁 𝑁 3𝑁 4𝑁
= =𝑁
4 4 2 4 4
Remarque :
N
Il y a i observations à gauche (inférieurs à) de 𝑄 , 𝑖 = 1 ; 2 ; 3
4 𝑵 𝑵 𝟑𝑵
𝟒 𝟐 𝟒
𝑸𝟏 𝑸𝟐 𝑸𝟑
b) L’intervalle interquartile
L’intervalle interquartile est la différence entre 𝑄 et 𝑄 c.à.d. 𝑄 − 𝑄 ; il contient 50% des
valeurs de la variable présentés par la moitié centrale des effectifs observés.
Cet intervalle élimine l’influence des valeurs extrêmes.
2) Les déciles
Les déciles sont les 9 valeurs 𝐷 , 𝐷 , …, 𝐷 et 𝐷 de la variable statistique qui partagent la
N N
distribution en "10" parties composées du même effectif « » et qui ont, donc, i
10 10
observations inférieures à chaque 𝐷 , avec 𝑖 = 1 ; 2 ; … ; 9.
𝑵 𝑫𝟓 = 𝑴é = 𝑸𝟐
𝟏𝟎
𝟏𝟎% 𝑫𝟏 𝑫𝟐 𝑫𝟗
𝟓𝟎%
3) Les percentiles :
Les percentiles sont les 99 valeurs 𝑃 ; 𝑃 ; … ; 𝑃 et 𝑃 de la variable statistique qui partagent
N
la distribution en "100" parties composées du même effectif « N » ayant, donc, i
100 100
observations inférieures à chaque 𝑃 𝑃𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖 ∈ {1 ; 2 ; … ; 99}.
50%
2%
1% 1%
𝑵 𝑷𝟏 𝑵 𝑷𝟐 𝑷𝟗𝟗
𝟏𝟎𝟎
𝑷𝟓𝟎 = 𝑴é = 𝑸𝟐
𝟏𝟎𝟎
Remarque :
N
Le calcul des quantiles est pareil à celui de la médiane, en changeant la fréquence (nombre
2
N
d’observations inférieures à la médiane) par i (nombre d’observations inférieures au
n
i
quantile d’ordre cherché).
n
Exemple 1 : (cas de la variable discrète "pondérée")
Calculer les percentiles 55 et 75 de la série statistique suivante :
𝑥 𝑛 𝑛 𝑐𝑐
3 3 3
4 7 10
8 30 40
10 20 60←
11 15 →75
20 25 100
𝑁 = 100
N 100
1) On a : 55 55 55
100 100
Alors, on va chercher ce 55 entre les 𝑛 𝑐𝑐
Puis, on trouve 55 n’existe pas exactement parmi les 𝑛 𝑐𝑐 mais 60 est la 1ère valeur qui
dépasse la valeur 55 ;
Alors, on a : 𝑃 = 10
N 100
2) On a : 75 75 75
100 100
Ainsi qu’on trouve la valeur 75 parmi les 𝑛 𝑐𝑐
11 20
Donc P75 15,5
2
Exemple 2 : (cas de la variable continue)
Calculons les déciles troisième et septième de la distribution statistique suivante :
[𝒆𝒊 𝟏 , 𝒆𝒊 [ 𝑛 𝑛 𝑐𝑐
[0, 10[ 4 4
[10, 30[ 8 12 *
[30, 35[ 13 25
[80,100[ 3 33
[100, 150[ 7 40
𝑁 = 40
Cherchons la valeur 𝑫𝟑 :
N 40
On a : 3 3 12
10 10
cette valeur apparaît parmi les 𝑛 𝑐𝑐 dans le tableau*, alors on prend 𝐷 = 𝑒
C’est-à-dire 𝐷 = 30.
Cherchons la valeur 𝑫𝟕 :
N 40
On a : 7 7 28
10 10
Cette valeur, 28, ne se trouve pas parmi les 𝑛 𝑐𝑐 dans le tableau et 30 est la 1ère valeur qui la
N
7 n i 1cc
dépasse, pour calculer 𝐷 on applique alors la formule : D 7 e i 1 10 ai
ni
On a : [e i 1 ;e i [ donc : 𝑛 = 5 ; 𝑛 𝑐𝑐 = 30 ; 𝑛 𝑐𝑐 = 25 ; 𝑎 = 𝑒 − 𝑒 = 45 et 𝑒 = 35
N 40
7 n i 1cc 7 25
10 28 25
Alors D 7 e i 1 ai 35 10 45 35 45 62
ni 5 5
On distingue sur ce schéma la « boîte de Tuckey » qui est le rectangle limité par le premier
quartile 𝑄 et le troisième 𝑄 en traçant aussi le 2ème quartile 𝑄 tous sur une droite graduée
(voir par exemple Fig7).
Exemple 1 : (cas de variable discrète "pondérée")
Calculons les quartiles 𝑄 , 𝑄 et 𝑄 de la série statistique suivante :
𝒙𝒊 𝒏𝒊 𝒏𝒊 𝒄𝒄
3 3 3
4 7 10
8 30 40
10 20 60←
11 15 →75
20 25 100
𝑁 = 100
N 100
1) On a : 1 25
4 4
On cherche cette valeur 25 parmi les 𝑛 𝑐𝑐.
Cette valeur 25 n’existe pas parmi les 𝑛 𝑐𝑐
La 1ère valeur qui dépasse 25 c’est 40
Ainsi, 𝑄 = 8
N 100
2) On a : 2 50
4 2
On cherche 50 parmi les 𝑛 𝑐𝑐,
Elle n’existe pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui dépasse 50 c’est 60
Alors 𝑄 = 𝑀é = 40.
N 300
3) On a : 3 75
4 4
On cherche 75 parmi les 𝑛 𝑐𝑐,
La valeur 75 existe parmi les 𝑛 𝑐𝑐 donc 𝑥 = 11 et 𝑥 = 20
Alors 𝑄 = = = 15,5.
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊 𝒏𝒊 𝒄𝒄
[0, 10[ 4 4
[10, 30[ 8 12 *
[30, 35[ 13 25
[35, 80[ 5 30**
[80,100[ 3 33
[100, 150[ 7 40
𝑁 = 40
Calculons 𝑸𝟏
N 40
On a : 1 10
4 4
La valeur 10 n’apparaît pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui la dépasse est 12. D’où, on prend
N
1 n i 1cc
[𝑒 ; 𝑒 [ = [30; 35[, puis on applique la formule : Q1 e i 1 4 ai
ni
40
1 4
Donc Q1 10 4 20 25
8
Calculons 𝑸𝟐
N 40
On a : 2 2 20
4 4
La valeur 20 n’apparaît pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui la dépasse est 25. D’où, on prend
N
2 n i 1cc
[𝑒 ; 𝑒 [ = [30; 35[, puis on applique la formule : Q 2 e i 1 4 ai
ni
40
2 12
Donc Q 2 30 4 5 ; 33, 077
13
Calculons 𝑸𝟑
N 40
On a : 3 3 30
4 4
La valeur 30 existe parmi les 𝑛 𝑐𝑐 D’où, on prend [𝑒 ; 𝑒 [ = [35; 80[, puis on applique la
formule : Q 3 e i
Donc Q 3 80
Boîte de Tuckey ou diagramme de Box & Wiskers
L’intervalle interquartile = 𝑄 − 𝑄 = 80 − 25 = 55
Q Q1 55
La dérivation quartile ou le semi-interquartile est : 3 27,5
2 2
Q Q1 55
L’écart interquartile relatif est : 3 1, 66
Q2 33, 08
V. Variance et écart type d’une série statistique
1) Notion de variance
La variance d’une variable statistique 𝑋 que l’on note 𝑉𝑎𝑟(𝑋) (ou 𝑉(𝑋)) est la moyenne
arithmétique des carrés des écarts des valeurs de la variable à leur moyenne arithmétique :
k k
1
V ( X ) V ar ( X )
N
n (x
i 1
i i x )2 f i (x i x )2
i 1
Donc :
k
1 1
La moyenne de cette série statistique est : x
i 1 10 N
n c
250 25 i i
1 k 1
Formule non-simplifiée de la variance : V ar X n i c i x 1000 100
2
N i 1 10
1 k 1
Formule simplifiée de la variance : V ar (X ) n i c i2 x 2 7250 252 100
N i 1 10
D’où, l’écart-type est : X V ar ( X ) 100 10
VI. Coefficient de variation
Le coefficient de variation est égal au rapport de l’écart-type à la moyenne et il est présenté
sous forme de nombre abstrait sans dimension et indépendant des unités de mesure :
(X )
CV
x
I. Introduction
Lorsque 1'on représente graphiquement une série statistique, on peut remarquer qu'une telle
distribution présente une symétrie ou non, mais pour la mesurer, par exemple, on doit une
caractéristique de forme.
Hode He Moyerne
Mode
Medione
Royenne
Distribution symélrique Distribution ssymétrique
1) Moments simples
Les moments d'ordres r d'une série statistique par rapport à une valeur quelconque xg est:
=1
Si xo = 0 alors m, =
Remarque:
2) Moments centréés
ncT ni
3 5 15
5 6 5
7 3 9 21
9 1 10 9
11 5 15 55
15 105
105
7 7,5 Mé =
7;Mo =
3et 11
8 9 10
Mo Mé = F Mo
Lorsque la série statistique n'est pas symétrique, on dit qu'elle est asymétrique et alors on a plus
= Mé = Mo.
On peut mesurer son asymétrie par le coefificient de Pearson qui se définit par: A, ="
par: A x-Mo
oX)
symétrique et elle a un
seulmode, alors:
= Mo et Ap =0
M X
Le coefficient d'asymétrie le plus important et le plus utilisé est le coefficient de Fisher que se
définit comme:
91 X)
Si g<0 alors la distribution est asymétrique à gauche ou on dit qu'elle est oblique à
droite
FSIES-Tétouan 51 Pr. Hamid EL AMRANI
Chapitre IV: Caractéristiques de forme
Enparticulier:
n, =f -7 =0
et 4s N
et
x,-F} =Va)
3) Relation entre m, et
j4
III. L'Asymétrie
fréquence égale.
Dans ce point central, lorsque la série est symétrique, coïncident la moyenne arithmétique, la
médiane et le mode : =Mé M0
=
9
5 2 5 10
4 9* 28
9 2 11 18
11 3 14 33
N 14 98
Ona:x =
98/14 =
7;==7> Mé =7;M = 7
Alors, on a:i = Mé =
Mo = 7
**"*****
I"****** **
Si x < Mo:
Si 91>0 alors la distribution est asymétrique à droite ou on dit qu'elle est oblique à
gauche.
Si x> Mo:
Ma
Si g1 <0 alors la distribution est asymétrique à gauche ou on dit qu'elle est oblique à
droite.
IV. L'Aplatissement
Une série statistique est plus ou moins aplatie suivant que les fréquences des valeurs proches des
valeurs centrales sont plus au moins élevées par rapports aux autres.
Les mesures
d'aplatissement s'appliquent aux distributions unimodales et symétriques ou
peu
asymétriques
92 (X)* 3
Si g2 0 alors la distribution est
mésokurtique ou normale.
S i g2 <0 alors
la distribution est platykurtique
Si g2 >0 alors la distribution est leptokurtique.
I. Introduction
Par exemple, la concentration des salaires, des revenus, de production, ..etc. les caractéristiques
dejà vues comme la moyenne, la variance, etc..., ne répondent pas à cette étude, alors on a
construit de nouvelles caractéristiques dites de concentration mais due à la nature des problèmes
étudiés,
On considère que des variables continues à valeurs positives.
Il. La médiale (MI)
La médiale est la valeur de la variable statistique telle que la somme des observations inférieure
à elle est égale à la somme des observations supérieure à elle. Donc, c'est une médiane sur les
Exemple:
Calculons la médiale des salaires annuels du personnel (en milliers de DH) d'une entreprise
e-1el C
[40;50[ 12 45 540 540
N 100 7000
On a:
nC
2
= 3500
On cherche cette valeur dans la colonne des (7,Ci)c 1, la 1"e valeur qui la dépasse est 4860.
donc la classe médiale est [70;80[.
On applique, alors, une formule analogue à celle de caleul de la médiane
2C (n,-1-1)c t
MI =-1 + nCi
3500 2610
MI = 70+- 10 73,96
2250
Interprétation:
La masse salariale de l'entreprise, versée annuellement aux employés montre que le partage en
2 blocs égaux s'effectue pour la valeur de 73,960 DH. Autrement dit, la moitié de la masse
salariale est reçue par le personnel qui a un salaire inférieur à 73,960 DH et l'autre moitié est
reçue par ceux qui ont un salaire supérieur à 73,960 DH,
Calcul de concentration:
Il existe plusieurs démarches pour effectuer ce calcul, la plus simple se compose des étapes
suivantes
Mé = 71,33 et MI = 73,96.
AM 2,63
= 0,043
intervalle de variation 60
En générale, l'indice
AM MI - Mé
Donc, pour l'exemple, les salaires sont équi-distribués. On a la concentration est faible.
1) Courbe de Lorenz
Considérons, le cas de l'étude de la variable qui représente les salaires d'un groupe d'ouvriers.
On a construit le tableau suivant pour analyser la concentration des salaires:
ek-1el CnCk Pi
N nc
Ou les produits "n,c" représentent la masse salariale reçue par les " n" ouvriers dont le salaire
Les (n,C)c 1 représentent la masse salariale reçue par les n;c t ouvriers avec des salaires
inférieurs à cette masse.
Les valeurs p; représentent, en pourcentage, les fréquences relatives cumulées des ouvriers.
Les quantités q; représentent la masse salariale cumulée (exprimées en pourcentage) sur la masse
salariale totale Znci
Les deux dernières colonnes de tableau nous informent sur la concentration des salaires.
Si les salaires sont équi-distribués, alors p; = qi (Vi = 1;.., k), done la courbe de Lorenz
coincide avec la lère bissectrice.
D a n s le cas de maximum concentration qi = 0 (Vi = 1, . , k - 1) et qh = 100, alors la
La distribution des ouvriers et des salaires exprimés par les valeurs (p: q); i = 1, . k , se
représente graphiquement à laide de la courbe de Lorenz ; c'est la courbe qui passe par les points
(Pi 41)
2) Indice de Gini
Géométriquement,
l'aire S
GTaire du triangle 0AB
Et on a: 0 Ic 1
Evidemment, cet indice est une mesure de l'approximation de la courbe de Lorenz à la lère
bissectrice et par la suite de concentration des salaires.
Algébriquement,
2i=i Pi)
=1-
qui mesure aussi l'approximation de la courbe de Lorenz à la lère bissectrice mais en utilisant
une autre propriété géométrique différente de celle de l'aire de S.
Si Ig =
0 alors pi qi et les salaires sont
=
équi-distribués.
Si Ic = 1 alors qi = 0 et il y a maximum concentration.
Si 0Ic 31alors il y a une grande concentration si Ic est plus proche de l; et une équi-
distribution si Ic est plus proche de 0.
Exemple
Reprenons l'exemple précédent; on a calculé l'indice I pour cet exemple et on a trouvé I = 0,043.
Calculons, maintenant, l'indice de Gini Ic
o9.43
3 25
18,71
Ce qui indique une faible concentration des salaires de ce groupe des ouvriers.
29 212,56
I=l- - =l 212,30=1-0,878=
250
0,122
2P i=l
I. Introduction
Pour passer aux variables continues, il suffit de remplacer les classes par leurs centres cí.
I. Ajustement
1) Notion d'ajustement
Dans les chapitres précédents, nous avons vu que les tableaux statistiques ont au moins deux
colonnes
Parfois, dans ces nuages, les points représentés semblent se repartir suivant une contiguration
assezrégulière:
une parabole,
ou hyperbole
ou une courbe exponentielle ou logarithmique
ou une droite, tout simplement.
2) Ajustement graphique
Lorsqu'on a, dans une représentation graphique, un nuage de points, un premier ajustement
conduit àtracer une courbe simple régulière qui compense à peu près les écarts positifs ou négatis
c'est-à-dire qui laisse à peu près le même nombre de points de part et d'autre.
Ainsi les deux figures précédentes conduisaient à des ajustements manuels qui se présenteraient
approximativement comme suit
;oul
Dans le cas où les points semblent se répartir de façon linéaire, plusieurs droites peuvent-être
candidates à ajuster ce nuage de points.
Mais, ces droites sont parallles régulièrement espacées de part et d'autre d'une droite centrale.
La droite d'ajustement est la droite centrale de l'ensemble des droites telle que les points à ajuster
se répartissent équitablement au-dessus et au-dessous de cette droite, et à l'intérieur du réseau
des parallèles.
2 7
4 10
13
8 5
9 20
13 28
1o 12
III. Corrélation
1) Notion de corrélation:
Parfois, on peut se trouver en face d'une population telle qu'on puisse étudier deux caractères
différents surune même unité statistique:
Xn Yn
Sur le tableau précédent, on pourra s'attacher à l'étude des variations simultanées (croissance ou
décroissance) des deux caractères X et Y.
Trois situations peuvent se présenter:
b) Les points peuvent se regrouper en un nuage deforme assez allongée, assez aplatie:
A une valeur fixée de l'une des deux variables correspondent des points qui présentent, pour
l'autre variable, des valeurs assez
rapprochées.
Les deux variables semblent alors être liées, c' est-à-dire corrélées soit positivement (croissent
ensembles). soit négativement (décroissement ensembles).
On peut alors dire que X et Y sont corrélées ou qu'il existe une corrélation entre X et Y.
2) Covariance de X etY
La variance mutuelle des deux variables X et Y est mesurées par la covariance de ces deux
E-,-7) 351,60
Coefficient de corrélation linéaire:r:
2,-XL0,-F} y314,90x492,40
Donc on a une corrélation positive, comme l'indique déjà la représentation graphique et assez
serrée, le coefficientr ayant une valeur absolue voisine de 1.
Il faut déterminer les différents paramètres d'une fonctiony f(x) qui ajuste à la façon la
=
plus
satisfaisante les observations faites, la fonction retenue devant cependant conduire à une courbe
(une droite) d'ajustement:
Y1
Observations
Supposons = f(x) est l'ajustement envisagé (on a sa forme, son type, mais pas ses paramètres!)
Graphiquement:
- - -
Méthode de calcul:
Pour déterminer la fonction d'ajustement la plus fiable, on essaie de minimiser les distances entre
les valeurs observées et leur approximation par la fonction d'ajustement:
- f ) b-f%)J*:.61)T:D. -fa,}
Alors, nous cherchons les paramètres qui donnent la fonction f qui rend la plus faible possible la
Autrement dit, on cherche la fonction f qui permettra de calculer les f(x) tels que
y =f (x)= a x +b .
-,-b i=l
22,-, -b)x(-x,) =0
da i=l
-,-b} = 0
20--b)=0
I=
db
-2 -a -bx,)=0 I=
-«x-bx, =0 i =l
+ax+6x, =+2*
=| I=
(2)>b - y -y#
- k
+ax, +bk = + » (2)
I=l
a= - -] =l
a
i=l
i=
Cov (X Y ))
Var(X)
_Cov (X Y)
Finalement
Var (X)
b = y -
2,-Fv. -7)
Remarque: On a une autre formule: a =
Z-7
i=l
à partir dex.
Exemple:
Cherchons I'équation de la droite d'ajustement ou de régression linéaire par la méthode des
moindres carrées, pour le tableau suivant:
10
13
8 15
9 20
13 28
On a:
x - - -09-
2 7 14 4 -8,5 42,5
4 10 40 16 -5,5 16,5 9
13 78 36 1 -2,5 2,5
8 15 120 64 +1 -0,5 -0,5
9 20 180 81 +2 +4,5 9 4
13 28 364 169 +6 +12,5 75 36
Donc F =7 et ==15,5
x-Fx
796-15,5x42 796-651 145
Alors, a 1,908
370-7x42 370-294 76
Et b 15,5-1,908x7=15,5-13,356=2,144
30
25
20
15
10
6 8 10 12 14
ainsi b =2,144.
Remarque:
Nous avons éerit dans la recherche du paramètre b 20,-a, -b)=0 C-à-d