Vous êtes sur la page 1sur 24

Table des matières

Table des matières 1

1 Statistique descriptive à une dimension 2


1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Vocabulaire Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Caractère qualitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Caractère quantitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Caractères qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2 Caractères quantitatifs discrets . . . . . . . . . . . . . . . . . . . . . 11
1.4.3 Caractères quantitatifs continus . . . . . . . . . . . . . . . . . . . . . 12
1.5 Indicateurs numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.1 Paramètres de position ou Tendance centrale . . . . . . . . . . . . . . 14
1.5.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 21

1
Chapitre 1

Statistique descriptive à une


dimension

1.1 Introduction
La biostatistique (appelée aussi biométrie) est un domaine scientifique constitué par
l’application de la science statistique à la biologie et à la médecine. Elle est un outil
mathématique utilisé dans la recherche clinique, l’épidemiologie et en santé publique.

La statistique est un ensemble de méthodes scientifiques qui permettent de collecter,


d’organiser, de résumer, de présenter et d’analyser un ensemble de données numériques, et
qui permettent d’en tirer des conclusions et de prendre les bonnes décisions. Il ne faut pas
confondre la statistique qui est la science qui vient d’être définie et le terme statistiques qui
est un ensemble de données numériques sur un sujet précis. On peut parler de statistiques
relatives aux nouveaux nés, de statistiques relatives au chômage, des statistiques des accidents
de la circulation, des statistiques de la production agricole ou industielle... . On distingue deux
classes de méthodes statistiques : la statistique descripitve ou exploratoire et la stastistique
inférentielle ou inductive.
1. La statistique descriptive : Elle a pour but d’étudier une population à partir de
données. Elle consiste à synthétiser, résumer, structurer l’information contenue dans les
données. Elle utilise pour cela des représentations de données sous forme de tableaux,
de graphiques, d’indicateurs numériques. Elle a pour but de décrire et non d’expliquer.
On cite trois types de statistique descripitive :
La statistique descriptive univariée : Elle consiste à étudier une population selon
une seule variable.
La statistique descriptive bivariée : Elle à pour but d’étudier des corrélations et
relations éventuelles entre deux variables de la même population.
La statistique descriptive multivariée : Elle consiste à étudier des relations
éventuelles entre plusieurs variables de la même population.
2. La statistique inférentielle : elle a pour but d’étendre des propriétés constatées sur
un échantillon à une population entière. La statistique inférentielle utilise la théorie des

2
Statistique descriptive à une dimension 3

probabilités pour généraliser à toute la population statistique, des résultats observés sur
un échantillon. Elle inclut l’estimation statistique et la théorie des tests d’hypothèses.

1.2 Vocabulaire Statistique


– Population : C’est l’ensemble sur lequel porte l’étude statistique. ( Etudiants, entre-
prises, plantes, animaux,produits,... ). La population peut être un ensemble parfois très
grand ou même infini.
– Echantillon : Très souvent, il est impossible de travailler sur toute la population, par
exemple, on n’observe pas tous les véhicules ayant circulé un jour donné dans la ville
d’Alger, mais seulement ceux étant passés dans certains points particuliers. On travaille
alors sur un sous-ensemble extrait de cette population, appelé échantillon.
– Individu ou unité statistique : C’est un élément qui appartient à la population.

Exemple 1.1. On a pesé 100 poissons provenant d’un lac.


– Population : ensemble des poissons du lac.
– Echantillon : ensemble des 100 poissons.
– Individu : Un poisson.

Exemple 1.2. Considérons les étudiants de deuxième année de l’ESSAIA comme notre
population. Un échantillon de cette population pourrait être l’ensemble des étudiants d’un
groupe de TD.

– Taille : Représente le nombre d’individus d’un échantillon ou d’une population. Elle


est symbolisée par « n » dans le cas d’un échantillon et par « N » dans le cas d’une
population.
– Caractère ou variable : Chaque individu de la population est décrit par un en-
semble de caractéristique appelé caractère. Par exemple : Couleur des yeux, poids des
souris, superficie d’une pièce, la température de l’air, le taux de glycémie, la vitesse de
coagulation, la production laitière.

Exemple 1.3. – Dans l’exemple 1.1 le caractère étudié est le poids des poissons.
– Dans l’exemple 1.2, les caractères à étudier pour chaque étudiant ( individu ) pourraient
être : la taille, la couleur des yeux, le sexe, l’âge, le poids.

– Modalités : Ce sont les différentes valeurs que peut prendre un caractère. Un caractère
peut posséder une ou plusieures modalités.

Exemple 1.4.
− La variable ”couleur” des yeux à quatre modalités : vert, bleu, noir et marron,
− Les modalités de la variable ”poids” du 100 poissons (en grammes) sont

{180, 200, 150, 180, ..., 320, 195}

,
Statistique descriptive à une dimension 4

− Les modalités de la variable ”âge” des ouvriers d’une entreprise peuvent étre :

[20 − 25[, [25 − 35[, [35 − 42[, [42 − 60[

– Nature des caractères : Les caractères peuvent être classés selon leurs natures. On
distingue deux types de caractères : qualitatif et quantitatif.
1. Caractère qualitatif : Ces modalités ne sont pas mesurables. On peut citer
comme exemple : la nationalité, la profession, l’état matrimonial, le niveau d’ins-
truction, Les hormones, etc. On distingue deux types de variables qualitatives :
1.1 Variable qualitative ordinale : Les modalités peuvent être classées (or-
données) dans un certain ordre naturel.
1.2 Variable qualitative nominale : Les modalités ne peuvent pas être
classées (ordonnées) de façon naturelle.
2. Caractère quantitatif : Ces modalités sont mesurables, à chacune des moda-
lités on peut attacher un nombre (ou une valeur). Ce nombre est appelé variable
statistique ; celle-ci peut être discrète ou continue.
2.1 Variable quantitative discrète : Une variable statistique est discrète
lorsque ses valeurs possibles sont des nombres isolés.
2.2 Variable quantitative continue : Une variable statistique est continue
lorsque ses valeurs possibles sont définies sur un intervalle.

Exemple 1.5. (Variable qualitative ordinale)


- Forme des fruits : petite, moyenne, grosse ;
- Mention au Bac : passable, assez bien, bien, très bien.
- Stade d’une maladie : stade 1, stade 2, stade 3, stade 4.

Exemple 1.6. (Variable qualitative nominale)


- Etat matrimoniale : marié, célibataire, veuf, divorcé ;
- Les hormones : œstradiol, progestérone ;
- Profession : enseignant, médecin.
- Type de globules blancs :

Exemple 1.7. (Variable quantitative discrète)


Le nombre d’étudiants inscrits à l’université, le nombre d’enfants d’une famille, le nombre
de salariés dans une entreprise, le nombre d’espèces de poissons dans un aquarium sont des
variables discrètes.

Exemple 1.8. (Variable quantitative continue)


La taille d’un individu, le poids d’un insecte, le taux de glycémie, la vitesse de coagulation,
la production laitière, sont généralement considérés comme des variables continues.
Statistique descriptive à une dimension 5

– Série statistique : On appelle série statistique la suite des valeurs prises par une
variable X sur les différents individus de l’échantillon, notée (x1 , x2 , x3 , ..., xn ),où xi est
la valeur de la variable X observée sur le ième individu.

Exemple 1.9. La série statistique suivante représente les mesures en centimètres des tailles
de 10 plantes :
9, 3 9, 7 10, 1 10, 2 10, 4 10, 6 10, 7 10, 7 10, 9 11

– Effectif total n : C’est le nombre de toutes les valeurs prises par la variable.
– Effectif partiel ni : C’est le nombre d’apparition de la valeur xi dans la population
statistique étudiée. L’effectif est parfois appelé fréquence absolue.
– Effectif cumulé croissant : En rangeant les valeurs du caractère dans l’ordre crois-
sant, on peut calculer l’effectif cumulé croissant Ni , en faisant la somme des effectifs de
cette valeur et de tous ceux qui la précèdent.


 N1 = n 1
 N2 = n 1 + n 2


N3 = n 1 + n 2 + n 3
.........................




Nk = n1 + n2 + n3 + .... + nk = n

Exemple 1.10. Dans une promotion de 20 étudiants de Biochimie, voici les notes obtenues
au dernier examen de Biostatistique :

10, 14, 12, 15, 7, 8, 10, 11, 12, 18, 2, 4, 12, 13, 14, 15, 19, 11, 9, 0

On va calculer les effectifs et les effectifs cumulés.


1) Les effectifs ni :
– Combien d’étudiants ont eu 10 ? 2 étudiants.
– Combien d’étudiants ont eu 12 ? 3 étudiants.
On continue ainsi et on forme le tableau des données suivant (Tableau 1) :

Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Effectifs ni 1 1 1 1 1 1 2 2 3 1 2 2 1 1

Tableau 1 : Les effectifs ni relatifs à chaque modalité xi (notes)

2) Les effectifs cumulés : On fait la somme des effectifs de la note plus la somme des effectifs
de toutes les notes qui la précédent.


 N1 = n 1 = 1
 N2 = n 1 + n 2 = 1 + 1 = 2


N3 = n 1 + n 2 + n 3 = 1 + 1 + 1 = 3
.........................




N14 = n1 + n2 + n3 + .... + n14 = 1 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 3 + 1 + 2 + 2 + 1 + 1 = 20

Ce qui nous donne (Tableau 2) :


Statistique descriptive à une dimension 6

Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Effectifs ni 1 1 1 1 1 1 2 2 3 1 2 2 1 1
Effectifs cumulés Ni ↑ 1 2 3 4 5 6 8 10 13 14 16 18 19 20

Tableau 2 : Les effectifs ni et Ni ↑ relatifs à chaque modalité xi (notes)

– Fréquence relative : La fréquence relative est le rapport de l’effectif concerné ni par


l’effectif total n, soit :
ni
fi = .
n
Remarque 1.1.
1. Les fréquences sont comprises entre 0 et 1.
2. La somme des fréquences est donc égale à 1 :
k
X
fi = f1 + f2 + f3 + .... + fk = 1
i=1
.
3. Si on veut obtenir la répartition en pourcentages, il suffit de multiplier les fréquences par
100. 

 fi % = fi × 100%,

k
P
fi % = f1 % + f2 % + f3 % + .... + fk % = 100%



i=1

– Fréquence cumulée : La fréquence cumulée Fi est la somme des fréquences corres-


pondant aux valeurs de la variable statistique discrète inférieure ou égale à xi .


 F1 = f1
 F2 = f1 + f2


F3 = f1 + f2 + f3
.........................




Fi = f1 + f2 + f3 + .... + fi = 1

Exemple 1.11. On reprend l’exemple précédent et on applique tout simplement la formule


des fréquences pour les calculer (Tableau 3).

Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
fi 0,05 0,05 0,05 0,05 0,05 0,05 0,1 0,1 0,15 0,05 0,1 0,1 0,05 0,05
Fi ↑ 0,05 0,1 0,15 0,2 0,25 0,3 0,4 0,5 0,65 0,7 0,8 0,9 0,95 1

Tableau 3 : Les fréquences fi et Fi ↑ relatives à chaque modalité xi (notes)

– Classe : Dans le cas continu, il est nécessaire de regrouper les résultats en classes à
cause de leur grande masse. Une classe est un intervalle fermé à gauche et ouvert à
droite, du type [bi ; bi+1 [.
– Centre d’une classe : ci = bi +b2i+1 ( lire ci : centre de la classe i ).
Statistique descriptive à une dimension 7

– Amplitude d’une classe : L’amplitude d’une classe est ai = bi+1 − bi (lire ai :


amplitude de la classe i).
– Nombre de classe k : On calcul le nombre de classes k par l’une des formules
suivantes :
- Formule de STURGE : k = 1 + 3, 3 log n, avec n est l’effectif de la population.

- Règle de YULE : k = 2, 5 4 n.
– Etendu : Le nombre
e = xmax − xmin
s’appelle étendu de X.

Remarque 1.2. Pour calculer l’amplitude des classes, il faut ordonner la série statistique.
Une fois ordonnée, on applique la formule suivantes afin de calculer l’amplitude :
étendu xmax − xmin
ai = =
nombre de classe k
Exemple 1.12. On s’intéresse à la taille en cm de 20 étudiants, les résultats obtenus sont :

140 150 148 147 146 144 155 154 153 152
150 163 159 158 157 156 142 143 143 144

Avant de regrouper cette série en classes, il faut d’abord l’ordonner.

140 142 143 143 144 144 146 147 148 150
150 152 153 154 155 156 157 158 159 163

On a xmin = x1 = 140 et xmax = x20 = 163.


Nombre de classe :

k = 1 + 3, 3 log N = 1 + 3, 3 log 20 = 1 + 3, 3 · 1, 30 = 5, 29 ≈ 5

Etendu :
e = xmax − xmin = x20 − x1 = 163 − 140 = 23
Amplitude :
e 23
ai = = = 4, 6 ≈ 5
k 5
Cette série est regroupée en 5 classes et chaque classe est d’amplitude égale à 5.
Classes Centre ci Effectifs ni
[140, 145[ 142.5 6
[145, 150[ 147.5 3
[150, 155[ 152.5 5
[155, 160[ 157.5 5
[160, 165[ 162.5 1
Total - 20
Statistique descriptive à une dimension 8

1.3 Tableaux statistiques


1.3.1 Caractère qualitatif
Modalités numéro i Effectif ni Fréquence fi
1 n1 f1
2 n2 f2
3 n3 f3
. . .
. . .
. . .
k nk fk
Total n 1

Exemple 1.13. La répartition selon le groupe sanguin de 100 étudiants est :


A : 40 étudiants, B : 43 étudiant, AB : 12 étudiants et O : 5 étudiants.
La population est l’ensemble des étudiants.
L’échantillon est l’ensemble de 100 étudiants.
Un individu est un étudiant.
Le caractère étudié est le groupe sanguin.
La nature du caractère : qualitatif nominal.
Le tableau statistique relatif au groupe sanguin de 100 étudiants est :
xi ni fi fi %
A 40 0, 40 40%
B 43 0, 43 43%
AB 12 0, 12 12%
O 5 0, 05 5%
Total 100 1 100%
Tableau 6 : Tableau des résultats d’analyse du sang pour 100 étudiants

1.3.2 Caractère quantitatif


a) Caractère quantitatif discret

Valeurs observées xi Effectifs ni Fréquences relatives fi Fréquence cumulée croissante Fi


x1 n1 f1 F1
x2 n2 f2 F2
x3 n3 f3 F3
. . . .
. . . .
. . . .
xk nk fk Fk
Total n 1 .
Exemple 1.14. On observe 20 lots au laboratoire, on a le nombre de lapins dans chacun :

10, 1, 0, 0, 0, 10, 12, 18, 5, 5, 12, 10, 12, 12, 0, 10, 15, 10, 20, 20
Statistique descriptive à une dimension 9

La population est l’ensemble des lots.


L’échantillon est l’ensemble de 20 lots.
Un individu est un lot.
Le caractère étudié est le nombre de lapins par lot.
La nature du caractère : quantitatif discret.
Le tableau statistique relatif au nombre de lapin dans 20 lots est :
xi : nombre de lapin par lot 0 1 5 10 12 15 18 20 Total
ni : nombre de lots 4 1 2 5 4 1 1 2 20
Fréquences relatives fi 0,20 0,05 0,10 0,25 0,20 0,05 0,05 0,10 1
fi % 20% 5% 10% 25% 20% 5% 5% 10% 100%
Ni ↑ 4 5 7 12 16 17 18 20 -
Fi ↑ 0,20 0,25 0,35 0,60 0,80 0,85 0,90 1 -
Tableau 8 : Nombre de lapins dans 20 lots au laboratoire

b) Caractère quantitatif continu

Classes numéro i, [bi , bi+1 [ Centre ci Effectifs ni Fréquences relatives fi Fréquances cumulées Fi
[b1 , b2 [ c1 n1 f1 F1
[b2 , b3 [ c2 n2 f2 F2
[b3 , b4 [ c3 n3 f3 F3
. . . . .
. . . . .
. . . . .
[bk , bk+1 [ ck nk fk Fk
Total - n 1 -
Exemple 1.15. Prenons l’exemple 1.12, le tableau statistique relatif à la taille des étudiants
est :
Classes i Centre ci ni fi Ni ↑ Fi ↑
140+145
[140, 145[ c1 = 2
= 142, 5 6 0, 30 6 0,30
145+150
[145, 150[ c2 = 2
= 147, 5 3 0, 15 9 0,45
150+155
[150, 155[ c3 = 2
= 152, 5 5 0, 25 14 0,70
155+160
[155, 160[ c4 = 2
= 157, 5 5 0, 25 19 0,95
160+165
[160, 165[ c5 = 2
= 162, 5 1 0, 05 20 1
Total - 20 1 - -
Tableau 10 : Tableau de la distribution des fréquences des tailles des étudiants

1.4 Représentations graphiques


1.4.1 Caractères qualitatifs
Diagramme à barre (diagramme en tuyaux d’orgues ou diagramme à bandes)

Les différentes modalités sont représentées par des rectangles dont la base est constante
et de hauteur égal à l’effectif ou à la fréquence.
Statistique descriptive à une dimension 10

Fig. 1.1 – Répartition selon le groupe sanguin de 100 étudiants

Diagramme circulaire (diagramme en secteurs ou diagramme en camembert)

Ce diagramme est un disque divisé en secteurs angulaires dont les angles au centre sont
proportionnels aux effectifs ou aux fréquences de chaque modalité. L’angle de chaque modalité
se calcule par :
ni
αi = × 360◦ = fi × 360◦
n
avec αi ; l’angle correspondant à la modalité i, ni : effectif de la modalité i et n : effectif total.
Les angles correspondant de l’exemple 1.11 sont :

α1 = f1 × 360◦ = 0, 40 × 360◦ = 144◦ −→ groupe sanguin A

α2 = f2 × 360◦ = 0, 43 × 360◦ = 154, 8◦ −→ groupe sanguin B


α3 = f3 × 360◦ = 0, 12 × 360◦ = 43, 2◦ −→ groupe sanguin AB
α4 = f4 × 360◦ = 0, 05 × 360◦ = 18◦ −→ groupe sanguin O

Fig. 1.2 – Répartition selon le groupe sanguin de 100 étudiants


Statistique descriptive à une dimension 11

1.4.2 Caractères quantitatifs discrets


Diagramme en bâtons

Il est formé d’un certain nombre de segments (ou bâtons). Les valeurs discrètes xi prises
par les variables sont placées sur l’axe des abscisses, et les effectifs (ou les fréquences) sur
l’axe des ordonnées. La hauteur du bâton est proportionnelle à l’effectif (ou à la fréquence).

Fig. 1.3 – Nombre de lapin dans 20 lots

Polygone des fréquences

En joignant les sommets des bâtons par une ligne brisée, on obtient le polygone de
fréquences.

Fig. 1.4 – Nombre de lapin dans 20 lots

Courbe cumulative

Dans le cas d’une variable discrète, la courbe cumulative se présente comme une courbe
en escalier. En abscisse figurent les observations de la variable considérée xi , tandis qu’en
ordonnée figurent les fréquences cumulées Fi (ou les effectifs cumulées Ni ). Dans un premier
temps, en face de chaque observation xi figure un point dont l’ordonnée est égale à la fréquence
cumulée correspondante Fi . Ensuite, pour compléter le graphique, les différents points sont
Statistique descriptive à une dimension 12

joints par des segments horizontaux puisque, par définition, le cumul reste constant entre
deux observations (la variable considérée est discrète, ce qui signifie qu’entre deux entiers il
n’y a pas d’observation possible). Chaque segment de cette courbe en escalier est ouvert à
droite et fermé à gauche (sauf le dernier).

Fig. 1.5 – Nombre de lapin dans 20 lots

1.4.3 Caractères quantitatifs continus


Histogramme

a) Classes d’amplitudes égales : Dans le cas où les amplitudes sont égales, l’histo-
gramme est un diagramme composé de rectangles verticaux dont les hauteurs sont propor-
tionnelles aux fréquences (ou aux effectifs) et dans les bases sont égales à l’amplitude de la
classe associée.

Fig. 1.6 – Histogramme : cas d’amplitudes égales

b) Classes d’amplitudes inégales : Dans le cas où les amplitudes ai sont différentes,
l’histogramme est un diagramme composé de rectangles verticaux dont les hauteurs sont
Statistique descriptive à une dimension 13

proportionnelles aux fréquences corrigées fic (ou aux effectifs corrigés nci ) et dont les bases
sont égales à l’amplitude de la classe associée.
ni fi
nci = , oufic =
ai ai
Supposons que l’on regroupe les données de l’exemple 1.12 classe d’amplitudes inégales.
xi ni ai hi = ni /ai
[140, 145[ 6 5 h1 = n1 /a1 = 6/5 = 1, 2
[145, 155[ 8 10 h2 = n2 /a2 = 8/10 = 0, 8
[155, 158[ 3 3 h3 = n3 /a3 = 3/3 = 1
[158, 165[ 3 7 h4 = n4 /a4 = 3/7 = 0, 42

Fig. 1.7 – Histogramme : cas d’amplitudes inégales

Polygone des fréquences

Pour tracer le polygone, on joint les points milieu du sommet des rectangles adjacents
par un segment de droite.

Fig. 1.8 – Polygone des fréquences


Statistique descriptive à une dimension 14

Fig. 1.9 – Courbe cumulative

Courbe cumulative

La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant les
points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées les
fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.

1.5 Indicateurs numériques


Les représentations graphiques ne permettent qu’une analyse visuelle de la répartition
des données. Les indicateurs numériques n’ont de sens que pour des variables quantitatives.

1.5.1 Paramètres de position ou Tendance centrale


Les paramètres de postion nous donne une idée de ce qui se passe au centre d’une dis-
tribution, d’un ensemble de données. On distingue trois mesures de tendance centrale : Le
mode, la médiane et la moyenne.

Le mode

Le mode, noté M0 , est la seule mesure centrale qui peut être relevée et utilisée aussi bien
pour des données qualitatives que quantitatives.
1) Variable discrète : Le mode est la valeur de la variable statistique pour laquelle l’effectif
(ou la fréquence) est le plus grand.

Exemple 1.16.
Le mode de l’exemple 1.11 est le groupe sanguin B (M0 = B), car il correspond à l’effectif le
plus élevé 43.
La distribution des notes obtenues à un examen de mathématiques d’une classe de 100
étudiants.
Notes xi 5 6 8 9 10 12 13 14 Total
Nombre d’étudiants ni 4 8 9 18 10 25 16 10 100
Statistique descriptive à une dimension 15

Le mode de cette série statistique est égal à 12 car il correspond au plus grand effectif 25.
L’interprétation est que la note la plus fréquente est 25.

2) Variable continue : On parle dans ce cas de classe modale :


Classe modale : C’est la classe ayant le plus grand effectif par unité d’amplitude. Graphi-
quement la classe modale est la base du rectangle ayant la hauteur la plus élevée. Cependant,
on distingue deux cas :
a) Classes d’amplitudes égales : Si les classes sont d’amplitudes égales, alors la classe
modale est la classe qui a l’effectif ni le plus élevé ou la fréquence fi la plus élevée, soit
[ei , ei+1 [. Pour déterminer la valeur du mode, on utilise la méthode d’interpolation linéaire
suivante :
α1
M0 = ei + ai · , (1.1)
α1 + α2
où
– ei : c’est la borne inférieure de la classe modale.
– ai : c’est l’amplitude de la classe modale.
– α1 = n0 − n1 ou bien α1 = f0 − f1 avec n0 et f0 sont l’effectif et la fréquence de la classe
modale. n1 et f1 sont l’effectif et la fréquence de la classe qui précède la classe modale.
– α2 = n0 − n2 ou bien α2 = f0 − f2 avec n2 et f2 sont l’effectif et la fréquence de la classe
qui suit la classe modale.

Exemple 1.17. Dans le tableau ci-dessous, les valeurs d’une variable X ont été groupées
par classes de valeurs d’amplitudes égales.
Classes n i Ni
[0, 5[ 2 2
[5, 10[ 7 9
[10, 15[ 18 27
[15, 20[ 3 30
La classe modale est [10, 15[ correspondant à l’effectif le plus élevé n3 = 18.

α1 = n0 − n1 = 18 − 7 = 11, α2 = n0 − n2 = 18 − 3 = 15, ai = 15 − 10 = 5, ei = 10
Appliquons la formule (1.1)
α1 11
M0 = ei + ai · = 10 + 5 · = 12, 115.
α1 + α2 11 + 15
b) Classe d’amplitudes inégales :
ni fi
Si les classes sont d’amplitudes inégales, alors la classe modale est la classe qui a ou le
ai ai
plus élevé. Dans ce cas, pour calculer le mode, il faut appliquer la formule précedente (1.1),
ni fi
et remplacer les effectifs ni par hi = ou fi par hi = .
ai ai
Exemple 1.18. Soit le tableau suivant où des données sont présentées par classes d’ampli-
tudes inégales.
Statistique descriptive à une dimension 16

Fig. 1.10 – Détermination graphique du mode : classes d’amplitudes égales

xi ni ai hi = naii
[0, 10[ 9 10 0,9
[10, 12[ 9 2 4,5
[12, 20[ 12 8 1,5

La classe modale est [10, 12[ correspondant à hi le plus élevé h2 = 4, 5.


On a donc

α1 = h0 − h1 = 4, 5 − 0, 9 = 3, 6; α2 = h0 − h2 = 4, 5 − 1, 5 = 3

et
α1 3, 6
M0 = ei + ai · = 10 + 2 · = 11, 09
α1 + α2 3, 6 + 3
Remarque 1.3. Le mode peut etre déterminé par la méthode graphique à partir de l’histo-
gramme de fréquence.

La médiane

Noté Me , la médiane est la valeur, observée ou possible, dans la série des données classées
par ordre croissant (ou décroissant) qui partage cette série en deux ensembles d’effectifs
égaux : 50% des valeurs lui sont supérieures et 50% lui sont inférieures.
1) Variable discrète : Soit x1 , x2 , x3 , ..., xn une série statistique discrète ordonnée dans
l’ordre croissant tel que x1 ≤ x2 ≤ x3 ≤ ... ≤ xn .
1. Si n est impair, la médiane est unique :

Me = x n+1
2

2. Si n est pair, la médiane peut prendre toutes valeur comprise dans [x n2 , x n2 +1 ] :

x n2 + x n2 +1
Me = .
2
Statistique descriptive à une dimension 17

Exemple 1.19. : Soit un échantillon de 11 personnes dont le poid en kg est :

45, 68, 89, 74, 55, 62, 56, 74, 49, 52, 63.

Les poids classés par ordre croissant sont :

45, 49, 52, 55, 56, |{z}


62 , 63, 68, 74, 74, 89 .
| {z } | {z }
5 x6 =Me 5

Le nombre d’individus est impair, n = 11, la médiane est :

Me = x n+1 = x 12 = x6 = 62kg.
2 2

Exemple 1.20. Soit maintenant un échantillon de 12 personnes dont le poid en kg est :

45, 68, 89, 74, 55, 55, 62, 56, 74, 49, 52, 63.

Les poids classés par ordre croissant sont :

45, 49, 52, 55, 55, 56, 62, 63, 68, 74, 74, 89 .
| {z } | {z }
6 6

45, 49, 52, 55, 55, 56, 62, 63, 68, 74, 74, 89.
| {z }
L’effectif total est pair, n = 12, la médiane est :
x n2 + x n2 +1 x 12 + x 12 +1 x6 + x7 56 + 62
Me = = 2 2
= = = 59kg.
2 2 2 2
Il ne s’agit pas d’une valeur observée.

Remarque 1.4. Si n est impair alors la médiane est égale à l’une des données. Si n est
pair, elle n’est pas forcément égale à l’une des données.

2) Variable continue : La médiane Me d’une variable statistique continue est la valeur


pour laquelle la fréquence cumulée est égale à 0, 5 ou 50%, c’est à dire F (Me ) = 0.5. On
détermine alors une classe médiane (classe contenant la médiane). C’est la classe [ei ; ei+1 [
telle que F (ei ) < 12 < F (ei+1 ). Ensuite, par interpolation linéaire, on peut calculer la valeur
exacte de la médiane.
0.5 − F (ei )
Me = ei + ai (1.2)
F (ei+1 ) − F (ei )
où ai est l’amplitude de la classe médiane [ei , ei+1 [

Remarque 1.5. L’expression de la médiane en utilisant l’effectifs cumulés est donnée par :
n
2
− Ni
Me = ei + ai (1.3)
Ni+1 − Ni
Remarque 1.6. on peut déterminer la médiane Me au moyen de la représentation graphique
des Fréquences cumulées.
Statistique descriptive à une dimension 18

Exemple 1.21. Répartition des 100 individus selon leur âge :


Classes Effectifs ni Effectifs cumulés Ni ↑ Fréquences fi Fréquences cumulées Fi ↑
[5, 10[ 11 11 0,11 0,11
[10, 15[ 10 21 0,10 0,21
[15, 20[ 15 36 0,15 0,36
[20,30[ 20 56 0,20 0,56
[30, 40[ 18 74 0,18 0,74
[40, 60[ 16 90 0,16 0,90
[60, 80[ 10 100 0,10 1
Total 100 - 1 -
n
2
= 50 alors la classe qui contient la médiane est [20, 30[, par interpolation linéaire on
trouve : n
− Ni 50 − 36
Me = ei + ai 2 = 20 + 10 · = 27
Ni+1 − Ni 56 − 36
C’est à dire que 50% des individus sont âgés de moins de 27 ans.

Moyenne

1) Variable discrète : Soit X une variable statistique discrète pouvant prendre les
valeurs x1 , x2 , . . . , xk .
Définition 1.1. La moyenne arithmétique : On appelle moyenne arithmétique la somme
de toutes les données statistiques divisée par le nombre de ces données :
k
x1 + x2 + ... + xk 1X
x = = xi (1.4)
n n i=1
Définition 1.2. La moyenne arithmétique pondérée : Si les valeurs xi de X sont
observées ni fois, la formule (1.4) devient :
k
n1 x1 + n2 x2 + ... + nk xk 1X
x = = ni xi (1.5)
n n i=1
on peut écrir la moyenne arithmétique (1.5) à l’aide des fréquences fi comme suit :
k
X
x = fi xi (1.6)
i=1

Exemple 1.22. Les résultats de poids de 20 chiens de race Berger Allemand, tous sexes
confondus, exprimés en kg sont :
29 28 30 35 35 33 31 30 36 37 38 37 35 33 31 29 28 28 34 35
La moyenne arithmétique vaut :
n 20 P20
1X 1 X xi
x = xi = xi = i=1
n i=1 20 i=1 n
29 + 28 + 30 + 35 + 35 + 33 + 31 + 30 + 36 + 37 + 38 + 37 + 35 + 33 + 31 + 29 + 28 + 28 + 34 + 35
=
20
652
= = 32, 6
20
Statistique descriptive à une dimension 19

La distribution d’effectifs correspondant aux poids de 20 chiens de race Berger Allemand est
xi 28 29 30 31 33 34 35 36 37 38
ni 3 2 2 2 2 1 4 1 2 1
ni xi 84 58 60 62 66 34 140 36 74 38
La moyenne arithmétique pondérée égale à :
k 10 P10
1X 1 X i=1ni xi
x = ni xi = ni xi =
n i=1 20 i=1 20
84 + 58 + 60 + 62 + 66 + 34 + 140 + 36 + 74 + 38 652
= = = 32, 6
20 20
2) Variable continue : Dans ce cas on utilise les mêmes formules que dans le cas discret
sauf que les xi seront remplacés par les centres de classes ci .
La moyenne arithmétique est donnée par la formule suivante :
k
c1 + c2 + ... + ck 1X
x = = ci (1.7)
n n i=1

La moyenne arithmétique pondérée est donnée par :


k k
n1 c1 + n2 c2 + ... + nk ck 1X X
x = = ni ci = fi ci (1.8)
n n i=1 i=1

Propriété 1.1.
La somme des écarts à la moyenne arithmétique est nulle :
k
1X
ni (x − xi ) = 0
n i=1

Si l’on multiplie par un même nombre a chaque valeur de la série, la moyenne arithmétique
est multipliée par ce nombre :
k
1X
ni axi = ax
n i=1
Si l’on ajoute (ou retranche) un même nombre à chaque valeur de la série, la moyenne
arithmétique se trouve augmentée (diminuée) de ce nombre :
k
1X
ni (xi ± a) = a ± x
n i=1

la moyenne arithmétique des moyennes arithmétiques calculées sur des sous-ensembles d’une
série est égale à la moyenne arithmétique générale de la série.

Remarque 1.7. La moyenne est plus sensible aux valeurs extrêmes que la médiane.
Statistique descriptive à une dimension 20

Exemple 1.23. Considérons les deux séries suivantes :

1 3 5 8 10 1 3 5 8 10000

La médiane est x3 = 5 pour les deux série, alors que la moyenne x vaut 5, 4 pour la première
série et 2003, 4 pour la deuxième. La moyenne est fortement infuencée par la valeur 10000
du deuxième série, alors que la médiane ne l’est pas.

Quartiles

Les quartiles découpent la série statistique en quatre classes d’effectifs égaux.


Le premier quartile : noté Q1 , est la plus petite valeur de la série statistique telle qu’au
moins 25% des données soient inférieures ou égales à Q1 .
Le deuxième quartile : noté Q2 , est la médiane
Le troisième quartile : noté Q3 , est la plus petite valeur de la série statistique, telle qu’au
moins 75% des données soient inférieures ou égales à Q3 .

Calcul des quartiles

variable discrète :
Xnα +Xnα+1

 2
, si nα ∈ N ;
Qα =
X[nα]+1 , si nα ∈
/ N.

1 1 1
avec α = , ,
4 2 3
Exemple 1.24. Considérons la série des observations suivantes :

2, 3, 4, 5, 6, 6, 7, 7, 8, 9, 10,

Calcul de Q1 : Q1 est la valeur xi dont le rang (la position) est le plus petit entier qui suit
n
4
.
On a : n = 11 et n4 = 11 4
= 2, 75. Le plus petit entier qui suit n4 = 2, 75 est 3, alors Q1 est la
troisième valeur. D’où Q1 = x3 = 4.
Calcul de Q3 : Q3 est la valeur xi dont le rang (la position) est le plus petit entier qui suit
3n
4
.
On a : n = 11 et 3n 4
= 3×11
4
= 8, 25. Le plus petit entier qui suit 3n4
= 8, 25 est 9, alors Q3
ème
est la 9 valeur. D’où Q3 = x9 = 8.

variable continue : Pour la détermination de la valeur exacte de Q1 et Q3 , on va utiliser


la méthode d’interpolation linéaire.
0.25 − F (ei )
Q1 = ei + ai
F (ei+1 ) − F (ei )

0.75 − F (ei )
Q3 = ei + ai
F (ei+1 ) − F (ei )
Statistique descriptive à une dimension 21

Exemple 1.25. Prenons l’exemple 1.19,


Calcul de Q1 : la classe de Q1 correspond, à la classe où le fréquences cumulée ( ou
l’effectifs cumulé ) atteint ou dépasse pour la première fois 0, 25 ( 25% de l’effectif total ).
F (Q1 ) = 0, 25 ⇒ Q1 ∈ [15, 20[, par interpolation linéaire on trouve :
0.25 − F (ei ) 0.25 − 0, 21
Q1 = ei + ai = 15 + 5 = 16, 33
F (ei+1 ) − F (ei ) 0, 36 − 0, 21
Calcul de Q3 : la classe de Q3 correspond, à la classe où le fréquences cumulée ( ou l’effectifs
cumulé ) atteint ou dépasse pour la première fois 0, 75 ( 75% de l’effectif total ).
F (Q3 ) = 0, 75 ⇒ Q1 ∈ [40, 60[, par interpolation linéaire on trouve :
0.75 − F (ei ) 0.75 − 0, 74
Q3 = ei + ai = 40 + 20 = 41, 25
F (ei+1 ) − F (ei ) 0, 90 − 0, 74

1.5.2 Paramètres de dispersion


Les paramètres de dispersion donnent des informations sur la répartition des valeurs
autour de la valeur centrale.
Exemple 1.26. Les deux séries d’observations suivantes :
X = {6, 6, 7, 7, |{z}
8 , 9, 9, 10, 10} et Y = {1, 2, 4, 6, |{z}
8 , 10, 12, 14, 15}
x=Me x=Me

ont la même moyenne et la même médiane x = y = Me = 8, mais elles sont différentes. La


première série est moins dispersée que la deuxième.

Étendue

L’étendue d’une série statistique quantitative est la différence entre la plus grande valeur
observée et la plus petite, notée E.
E = max(xi ) − min(xi )
Plus l’étendu est grande plus les valeurs sont dispersées.
Exemple 1.27. Prenons l’exemple 1.26 L’étendue de la première série d’observations : X =
{6, 6, 7, 7, 8, 9, 9, 10, 10} est égale à E1 = 10 − 6 = 4, et l’étendue de la deuxième série
d’observations : Y = {1, 2, 4, 6, 8, 10, 12, 14, 15} est égale à E2 = 15 − 1 = 14. Comme
E2 > E1 , on peut deduire alors que la deuxième série ( Y ) est plus dispersée que la première
( X ).
Définition 1.3. (Ecart-interquartile) l’intervalle interquartile [Q1 ; Q3 ] contient 50% des
observations. La longueur de cette intervalle est appelée écart-interquartile notée IQ .
IQ = Q3 − Q1
Plus cette différence est élevée, et plus les valeurs de la population sont dispersées.
Remarque 1.8. L’écart-interquartile mesure la dispersion des valeurs xi autour de la
médiane Me . Plus cet écart est petit, plus les valeurs appartenant à l’intervalle interquar-
tile sont proches de la médiane.
Statistique descriptive à une dimension 22

Variance

La variance est un indicateur de la dispersion d’une série par rapport à sa moyenne.


variable discrète :
n
1X
V (x) = ni (xi − x)2
n i=1

ou
n
1X
V (x) = ni (xi )2 − x2 (1.9)
n i=1

Remarque 1.9. cette dernière formule de la variance (1.9), limite les erreurs d’arrondis car
la moyenne n’intervient qu’une seule fois alors que dans la formule précédente elle intervient
i fois.

Remarque 1.10. Dans le cas de petit échantillon (n ≤ 30), on utilise la formule V (x) =
1
Pn 2
n−1 i=1 ni (xi −x) pour une raison qui dépasse le cadre de ce chapitre. Cependant, si la taille
de l’échantillon est grande (n > 30) les valeurs numériques fournies par les deux formules
sont relativement proches.

variable continue :
n
1X
V (x) = ni (ci − x)2
n i=1

ou
n
1X
V (x) = ni (ci )2 − x2 (1.10)
n i=1

où ci est le centre de la classe i.


Propriétés de la variance
1. V (x) ≥ 0.
2. ∀a ∈ R : V (ax) = a2 V (x).
3. ∀b ∈ R : V (x + b) = V (x).
4. ∀a, b ∈ R : V (ax + b) = a2 V (x).

Exemple 1.28. Supposons que X soit le poids en lb des bébés d’un certain échantillon et
que x = 5, 0lb, σ(x) = 2.0lb. Considérons la variable Z = [0, 454X + 3, 0]Kg. Il n’est pas
nécessaire de connaı̂tre les valeurs observées de X et de Z pour déterminer la moyenne, la
variance et l’écart type de Z. En effet :

z = [0.454x + 3.0]Kg = 5, 26Kg,

V (z) = 0, 4542V (x) = 0, 824Kg 2 .


Statistique descriptive à une dimension 23

Ecart-type

L’écart-type est défini comme la racine carrée positive de la variance


p
σ(x) = V (x).

Remarque 1.11.
• L’écart-type mesure la distance entre x et les valeurs de X. Il sert à mesurer la dispersion
d’une série statistique autour de sa moyenne.
• La série varie autour d’une moyenne x : x ± σ(x)
• Si l’écart-type est faible, cela signifie que les valeurs sont concentrées autour de la moyenne
(on dit que la série est homogène).
• Si l’écart-type est élevé, cela veut dire que les valeurs sont plus dispersées autour de la
moyenne (on dit que la série est hétérogène).

Exemple 1.29. Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a


2+3+4+4+5+6+7+9
x= =5
8

n
1X
V (x) = ni (xi − x)2
n i=1
1
(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2

=
8
36
= = 4, 5
8
On peut utiliser la deuxième formule (1.9) de la variance, ce qui nécessite moins de calcul.
n
1X
V (x) = ni (xi )2 − x2
n i=1
1 2
= (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
= (236) − 25 = 4, 5
8
p √
et L’écart-type σ(x) = V (x) = 4, 5 = 2, 12

Coefficient de variation

Le coefficient de variation est le rapport de l’écart-type par rapport à la moyenne. Il est


le plus souvant exprimé sous la forme d’un pourcentage.

σ(x)
CV = × 100
x
Statistique descriptive à une dimension 24

Remarque 1.12. Le coefficient de variation est une quantité sans unité. Il est utilisé pour
comparer les dispersions relatives de deux séries statistiques, lorsqu’elles sont exprimées dans
des unités différentes.

Exemple 1.30. On a mesuré la taille (en centimètres) et le poids (en gramme) de 10 pois-
sons. Les résultats sont :

x = {23, 20, 17, 15, 30, 25, 24, 27, 22, 19}.

y = {250, 220, 150, 180, 350, 250, 200, 240, 200, 100}.
On a
x = 22, 2cm, σ(x) = 4, 59cm, CV (x) = 20, 6%
et
y = 214gr, σ(y) = 67, 03gr, CV (y) = 31, 2%
Le coefficient de variation du poids est supérieur à celui de la taille (CV (y) = 31, 2% >
CV (x) = 20, 6%), le poids est donc plus dispersé que la taille.

Vous aimerez peut-être aussi