Vous êtes sur la page 1sur 10

Chapitre 1 : STATISTIQUE DESCRIPTIVE

cour 1
1. Distributions statistiques et représentations associées
1.1 Dé…nitions de base
Dans un premier temps, nous allons donner le vocabulaire de base de la statis-
tique descriptive.
Dé…nitions : on appellera :
individu : l’unité d’observation (exemples : entreprise, chaîne de production) ;
population : l’ensemble des individus concernés par l’étude (exemples : en-
semble des entreprises françaises, ensemble des pièces sortant de la chaîne) ;
échantillon : un sous-ensemble de la population dont les individus feront
l’objet de l’étude. Le choix de l’échantillon se fait en respectant certaines règles ;
variable ou caractère statistique : l’aspect de l’unité statistique que l’on va
étudier (exemples : situation géographique de l’entreprise, diamètre de la pièce. . . ).
On dira que cette variable prend des valeurs (ou modalités).
nature d’un caractère : on distingue deux nature de caractère :
les caractères qualitatifs ou catégoriels dont on distinguera deux types (nominal
et ordinal) et les caractères quantitatifs, et parmi ces derniers (les caractères quan-
titatifs), on distinguera aussi deux types : les caractères quantitatifs discrets et les
caractères quantitatifs continus.
a) Caractère qualitatif : un caractère est dit qualitatif si ses diverses modalités
ne peuvent être quanti…ées, c’est à dire qu’elles ne sont pas mesurables, et par
suite on ne peut leur associer ni une valeur numérique, ni un ordre naturel sauf
éventuellement pour le caractère ordinal qu’on pourra ordonner.
Exemple :
Caractère qualitatif nominale Caractère qualitatif ordinale
Sexe Mention à un examen
Nationalité La quali…cation professionnelle
Catégorie socioprofessionnelle
Situation familiale
b) Caractère quantitatif : un caractère est dit quantitatif si ses di¤érentes mo-
dalités sont mesurables, c’est à dire qu’on peut leurs associer une valeur numérique,
ou un ordre naturel.
b1 ) Caractère quantitatif discret : un caractère est dit discret lorsque ses
valeurs possibles sont des nombres isolés.
Exemple :
Nombre d’enfants
Nombre de diplômes
b2 ) Caractère quantitatif continu : un caractère est dit continu lorsque ses
valeurs possibles peuvent prendre toutes les valeurs possibles d’un intervalle déter-
miné.
Exemple :
Poids
La taille
Température
Fréquence d’un signal
Exercice : Déterminer la population statistique, l’unité statistique et la nature
du caractère parmi les données suivantes :
1- La durée de vie des tubes de télévisions fabriquées par une usine.
2- Les salaires annuels des enseignants d’une école.
3- La longueur de 200 boulons produits par une usine.
4- Le poids des chenilles.
5- La couleur des voitures.
6- Le nombre de personnes par ménage.
7- Le sport pratiqué par chacun des élèves d’une école.
8- Le nombre de travailleurs d’une usine selon la quali…cation.
9- Le nombre de véhicules en circulation dans un pays selon la marque.
10- Le volume des boites de conserve fabriquées par une usine.
11- Classi…cation des régions d’un pays selon la pluviométrie annuelle.
12- Classi…cation des étudiants selon le lieu de résidence.
13- Classi…cation des lycées d’un pays selon le taux de succès au BAC.
14- Le nombre de candidats selon le cycle d’inscriptions.

Solution :
N0= population unité statistique Caractère la nature
1
2
3
4
5
6
7
8
9
10
11
12
13
14
N0= population unité statistique Caractère la nature
1 les tubes de télévisions le tube la durée de vie quantitatif continu
2 les enseignants un enseignant les salaires annuels quantitatif continu
3 les 200 boulons le boulon(un) la longueur quantitatif continu
4 les chenilles la chenille(une) le poids quantitatif continu
5 les voitures la voiture la couleur qualitatif nominale
6 les ménage le ménage le nombre de personnes quantitatif disconti
7 les élèves l’élève(un) le sport pratiqué qualitatif nominale
8 les travailleurs le travailleur la quali…cation qualitatif nominale
9 les véhicules le véhicule la marque qualitatif nominale
10 les boites de conserve la boite le volume quantitatif continu
11 les régions la région la pluviométrie annuelle en (mm) quantitatif continu
12 les étudiants l’étudiant lieu de résidence qualitatif nominale
13 les lycées le lycée le taux de succès au BAC quantitatif disconti
14 les candidats le candidat le cycle d’inscriptions qualitatif ordinale

cour 2

1.3 Distributions statistiques.


E¤ectifs, fréquences
Lorsque le recueil des données a été e¤ectué, on dispose, pour chacun des in-
dividus de l’échantillon (ou de la population), de la valeur de la variable étudiée.
Le premier traitement consiste alors à relever cette valeur pour chaque individu et
ensuite à compter le nombre d’individus pour lesquels la variable prend une valeur
donnée.
On associe, à chaque valeur prise par le caractère statistique étudié, son e¤ectif.
Notation : les variables seront notées par des lettres majuscules X, Y, Z. . . ; on
note leurs modalités (valeurs) par des lettres minuscules xi ; yj ; zk ...et les e¤ectifs
associés par ni ; nj ; nk ... .
Exemple : X = sexe, x1 =féminin, x2 =masculin,
n1 = nombre de femmes, n2 = nombre d’hommes.
Ce traitement n’est bien sûr directement possible que pour les variables qualita-
tives ou discrètes, qui n’ont qu’un nombre limité de valeurs possibles, discernables
entre elles. Pour les variables continues, on commence par ranger les observations
en classes, celles-ci étant des intervalles de la forme [ai 1 ; ai [ . Ensuite, pour chaque
classe, on compte le nombre d’individus dont le caractère appartient à la classe : ce
nombre est l’e¤ectif de la classe. On note k le nombre de modalités.
Dé…nition : on appellera distribution statistique des e¤ectifs de la variable X :
l’ensemble des données (xi ; ni ) , si X est une variable qualitative ou discrète,
l’ensemble des données ([ai 1 ; ai [ ; ni ) , si X est une variable continue.
Les résultats sont généralement présentés dans un tableau du type du tableau
1:
Tableau 1 –Présentation des variables statistiques
X est nominale, ordinale ou discrète * X est continue
Classes E¤ectifs * Classes E¤ectifs
x1 n1 * [a0 ; a1 [ n1
x2 n2 * [a1 ; a2 [ n2
: : * . :
: : * . :
: : * . :
xk nk * [ak 1 ; ak [ nk
Total N * Total N
N = n1 + n2 + ::: + nk est l’e¤ectif total de l’échantillon.

Dé…nition : la fréquence (ou proportion) associée à la valeur du caractère xi


(resp. à la classe [ai 1 ; ai [) est la valeur fi dé…nie par :
ni
fi =
N
La fréquence fi représente donc la part de l’échantillon pour laquelle la valeur
de la variable est xi (ou appartient à [ai 1 ; ai [). On peut par exemple l’exprimer sous
forme de pourcentages (le pourcentage sera alors 100 fi ).

Remarque : Les fréquences véri…ent les propriétés suivantes :


0 fi 1 i = 1; :::; k
Xk
fi = f1 + f2 + ::: + fk = 1
i=1

Exercice (1) : Soit la série statistique donnant le nombre d’enfant par ménage :
1, 2, 3, 4, 2, 1, 2, 3, 4, 5, 6, 5, 6, 2, 3, 4, 1, 4, 2, 3, 2, 1, 3, 4, 2, 4, 3, 5, 6, 5.
1- Déterminer la population statistique, l’unité statistique et la variable statis-
tique.
2- Chercher les valeurs distinctes de la variable statistique dans la série.
3- Dresser le tableau statistique en commençant par ordonner de manière crois-
sante la série puis en cherchant les e¤ectifs, les fréquences.
La solution :
1- La population statistique : les ménages
L’unité statistique : le ménage
La variable statistique : le nombre d’enfant par ménage(discrète)
La taille de l’échantillon étudié est n = 30
2- Les valeurs distinctes de la série sont : 1; 2; 3; 4; 5; 6
3- On note par xi les valeurs de la variable statistique(le nombre d’enfant)
et ni le nombre de ménage :e¤ectif (ou fréquence absolue)
ni
xi ni
fi =
N
4
1 4 = 0:13
30
2 7 0:24
3 6 0:20
4 6 0:20
5 4 0:13
6 3 0:10
Total 30 1

cour 3
* Dans le cas d’un caractère quantitatif continu, l’établissement du tableau de
fréquences implique d’e¤ectuer au préalable une répartition en classes des données.
Cela nécessite de dé…nir le nombre de classes attendu et donc l’amplitude associée
à chaque classe ou intervalle de classe.
En règle générale, on choisit des classes de même amplitude. Pour que la dis-
tribution en fréquence est un sens, il faut que chaque classe comprenne un nombre
su¢ sant de valeurs (ni ).
Diverses formules empiriques permettent d’établir le nombre de classes pour un
échantillon de taille n.
La règle de STURGE : Nombre de classes = 1p+ (3; 3 log n)
La règle de YULE : Nombre de classes = 2; 5 4 n
L’intervalle entre chaque classe est obtenu ensuite de la manière suivante :
(Xmax Xmin )
Intervalle de classe = a = l0 amplitude =
N ombre de classes
avec Xmax et Xmin , respectivement la plus grande et la plus petite valeur de X
dans la série statistique.
Exercice (2) :Une enquête sur la taille des soldats au niveau d’une caserne
donne les résultats bruts suivants : 1.70, 1.71, 1.84, 1.73, 1.76, 1.79, 1.71, 1.72, 1.72,
1.75, 1.76, 1.77, 1.80, 1.80, 1.80, 1.80, 1.72, 1 .75, 1.75, 1.75, 1.78, 1.87, 1.89, 1.88,
1.86, 1.85, 1.84, 1.78, 1.79, 1.88, 1.79, 1.81, 1.81, 1.82, 1.84, 1.84, 1.85, 1.87, 1.87,
1.73, 1.81, 1.81, 1.82, 1.82, 1.81, 1.81, 1.82, 1.89, 1.89, 1.90.
Déterminer l’amplitude de la classe et ranger ces données dans un tableau en
calculant les e¤ectifs, les fréquences.
La solution :
La taille de l’échantillon étudié est n = 50
(Xmax Xmin )
a = l0 amplitude =
N ombre de classes
dé…nition du nombre de classes :
Règle de Sturge := 1 p + (3; 3 log n) = 1 + (3; 3 log 50) = 6; 60 ' 7
Règle de Yule := 2; 5 4 50 = 6; 64 ' 7
190 170
a =l’intervalle de classe= IC = ' 3cm
7
ei :les limites de classe=) ei+1 = ei + a =) e2 = e1 + a = 170 + 3 = 173cm
ei+1 + ei
ci :le centre de classe=) ci =
2
Tableau de distribution des fréquences :
xi ci ni fi
[170; 173[ 171; 5 6 0:12
[173; 176[ 174; 5 6 0:12
[176; 179[ 177; 5 5 0:10
[179; 182[ 180; 5 13 0:26
[182; 185[ 183; 5 8 0:16
[185; 188[ 186; 5 6 0:12
[188; 191[ 189; 5 6 0:12

1.4 Représentations graphiquesdes distributions statistiques


Les représentations sont adaptées au type de variable étudiée : nominale, ordi-
nale, discrète ou continue.

1.4.1 Variables nominales


On dispose pour ces variables de diagrammes en bâtons, ainsi que de diagrammes
circulaires (ou en secteurs, ou en «camembert» ).
Diagramme en bâtons :
A chaque modalité xi , on associe un « bâton » de longueur hi proportionnelle à
la fréquence fi (ou à l’e¤ectif ni ).
On a donc hi = cte fi (hi = cte ni )
Diagramme circulaire :
L’angle de chaque secteur i est proportionnel à la fréquence fi .
En degrés, on a i = 360 fi .
C’est la représentation la plus utilisée pour les variables nominales.
De surcroît, elle est plus …dèle que la précédente.
Exemple :
dans un échantillon de mille individus, on a fait le relevé de la catégorie socio-
professionnelle (CSP) (tableau 2).
.
Tableau 2 –E¤ectifs et fréquences
i CSP xi E¤ectifs ni Fréquence fi
1 Profession libérale,cadre supérieur 60 0:06
2 Patron 90 0:09
. 3 Employé, cadre moyen 170 0:17
4 Ouvrier 320 0:32
5 Retraité, inactif 230 0:23
6 Agriculteur 130 0:13
Totale 1000 1

1.4.2 Variables ordinales et variables discrètes

Variables ordinales
On utilise les mêmes représentations que pour les variables nominales. Toutefois,
il convient de noter que, pour le diagramme en bâtons, l’ordre des modalités à un
sens concret, car il doit correspondre à l’ordre existant entre les valeurs.
Variables discrètes
Pour ce type de variables, on préfère le diagramme en bâtons car, dans ce cas,
l’ordre et l’écart entre les bâtons sont signi…catifs.

cour 4
1.4.3 Variables continues : histogramme, polygone des fréquences.
Pour représenter graphiquement la distribution statistique d’une telle variable,
on a recours à un histogramme.
Le principe est le suivant :
à chaque classe, on fait correspondre un rectangle de base l’intervalle [ai 1 ; ai [
(pour la classe i) et de hauteur hi , de sorte que la surface du rectangle soit propor-
tionnelle à l’e¤ectif.
Ainsi, on calcule la hauteur hi du rectangle au moyen de la formule suivante :
ni
hi =
ai ai 1
Exemple :
dans une entreprise comptant 150 ouvriers, on a relevé l’âge de ceux-ci.
Les résultats de l’enquête sont donnés dans le tableau 3
Tableau 3
ni
Classes E¤ectifs Amplitudes Hauteurs hi =
ai ai 1
[20; 25[ 9 5 1; 8
[25; 30[ 27 5 5; 4
[30; 35[ 36 5 7; 2
[35; 40[ 45 5 9
[40; 50[ 27 10 2; 7
[50; 60[ 6 10 0; 6
Total N = 150 / /

3. Caractéristiques d’une distribution.


Tendance centrale et dispersion
Le tableau 4 donne les caractéristiques étudiées pour chaque type de variable.
Tableau 4 –Caractéristiques d’une distribution
Type de la variable Tendance centrale Dispersion
Nominale Mode
Ordinale Mode, médiane,quantiles Ecart interquartile
Quantitative Mode, médiane,quantiles, moyenne Ecart-type,écart interquartile
3.1 Caractéristiques de tendance centrale
3.1.1 Mode
Il est dé…ni pour tous les types de variables.
Dé…nition :
si X est une variable statistique nominale, ordinale ou discrète,
le mode de la distribution associée est la modalité de X la plus représentée,
c’est-à-dire celle pour laquelle l’e¤ectif est le plus grand ;
si X est une variable continue, le mode (ou classe modale) de la distribution
associée est la classe dont la surface dans l’histogramme est la plus élevée.
Exemple :
Soient les distributions suivantes :
Distribution 1 : qualitatif nominale
i CSP xi E¤ectifs ni
1 Profession libérale,cadre supérieur 60
2 Patron 90
3 Employé, cadre moyen 170
4 Ouvrier 320
5 Retraité, inactif 230
6 Agriculteur 130
=)Mode M o = Ouvrier, (car le plus grand e¤ectif ni = 320)
Distribution 2 : quantitatif discontinue
xi 1 1; 5 2 2; 5 3 3; 5 4 4; 5 =)Mode M o = 2
ni 414 210 750 92 510 50 20 12

Distribution 3 : quantitatif continue


xi [20; 25[ [25; 45[ [45; 70[ =)Mode M o 2 [25; 45[
ni 10 23 21

3.1.2 Médiane et quantiles


Ces indicateurs sont dé…nis pour toutes les variables sauf lesvariables nominales.
Donnons une première dé…nition simple de la médiane :
la médiane est la valeur de la variable telle que le nombre d’observations su-
périeures ou égales à cette valeur est égal au nombre d’observations strictement
inférieures à cette valeur

Dé…nition : la médiane de la distribution de X est donnée par :


— pour les variables ordinales ou discrètes :
si la fréquence cumulée en xi 1 est < 0; 5 et celle en xi est > 0; 5, alors la
médiane vaut xi ,
si la fréquence cumulée en xi 1 est égale à 0; 5, alors la médiane vaut xi ;
— pour les variables continues, réparties en classes [ai 1 ; ai [ :
si fi 1 c% < 0; 5 < fi c% , la classe médiane est [ai 1 ; ai [ et on calcule la médiane
par interpolation linéaire sur l’intervalle [ai 1 ; ai [ :
0 1
N %
ni 1 c
B C
ai 1 M e ai =) M e = ai 1 + @ 2 A (ai ai 1 )
ni
0 1
1 N %
BN 2 n i 1 c C %
=) M e = ai 1 +B C (ai ai 1 ) = ai 1 + 0:5 fi 1 c (ai ai 1 )
@ 1 A fi
(ni )
N
avec :
ni : e¤ectif de la classe médiane
ni 1 c% : e¤ectif cumulé inférieur à ai 1
ni 1 c%
fi 1 c% = : fréquence cumulé inférieur à ai 1
N
N : taille de l’échantillon
Exemple :
Distribution 2 : quantitatif discontinue
xi 1 1; 5 2 2; 5 3 3; 5 4 4; 5
ni 414 210 750 92 510 50 20 12
ni c% 414 624 1374 1466 1976 2026 2046 2058
%
fi 1 c 0:201 0:303 0:667 0:712
0:303 < 0:5 < 0:667

N = 2058
0:303 < 0:5 < 0:667 =) f2 c% < 0:5 < f3 c% =) M e = x3 = 2

Distribution 3 : quantitatif continue


xi [20; 25[ [25; 45[ [45; 70[
ni 10 23 21
ni c% 10 33 54

N 54
= = 27
2 2
N
10 < 27 < 33 =) n1 c% < < n2 c% =) M e 2Classe2=[25; 45[
0 2 1
N %
ni 1 c 27 10
B C
M e = ai 1 + @ 2 A (ai ai 1 ) = 25 + (45 25)
ni 23
M e = 25 + 0; 7391 20 = 25 + 14; 78 = 39; 78 2Classe2=[25; 45[
Exercice :
Soit la distribution :
xi 1 1; 5 2 2; 5 3
ni 40 20 40 15 5

Calculer le mode M o et la médiane M e

Les quantiles d’ordre :


Soit 2]0,1[. Si fi 1 c% < < fi c% on dé…nit le nombre Q , quantile d’ordre
, par :
fi 1 c%
Q = ai 1 + (ai ai 1 )
fi
Les cas particuliers 8
les plus usités sont :
< Q0:25 = 1er quartile
— les quartiles : Q0:50 = M e;
:
Q0:75 = dernier quartile
— les déciles : (Q0:1 ; Q0:2 ; ::::; Q0:9 )

Exemple :
Soit la distribution :
Classes fi fi c% Rong Q
[20; 25[ 0:06 0:06
[25; 30[ 0:20 0:26 0:06 < 0:25 < 0:26 8
< Q0:25 2 [25; 30[
[30; 35[ 0:22 0:48
=) Q0:50 2 [35; 40[
[35; 40[ 0:20 0:68 0:48 < 0:5 < 0:68 :
Q0:75 2 [40; 50[
[40; 50[ 0:28 0:96 0:68 < 0:75 < 0:96
[50; 60[ 0:04 1
Total 1
fi 1 c%
Q = ai 1 + (ai ai 1 )
fi
8
>
> 0:25 0:06
>
> Q0:25 = 25 + (30 25) = 29: 75 2 [25; 30[
>
> 0:20
< 0:50 0:48
=) Q0:50 = 35 + (40 35) = 35:5 2 [35; 40[
>
> 0:20
>
> 0:75 0:68
>
>
: Q0:75 = 40 + (50 40) = 42:5 2 [40; 50[
0:28

3.1.3 Moyenne arithmétique


Elle n’est dé…nie que pour les variables quantitatives et, pour celles-ci, c’est la
caractéristique de tendance centrale la plus « naturelle » et la plus utilisée.
Dé…nition :
si X est une variable quantitative discrète, donnée par sa distribution d’e¤ectifs
(xi ; ni ) ; i = 1; :::; k, alors la moyenne de X est donnée par :

X
k
1 X
k
1
x= fi xi = ni xi = (n1 x1 + n2 x2 + ::: + nK xK )
i=1
N i=1 N

si X est une variable continue rangée en classes [ai 1 ; ai [,


la moyenne de X est :

1 X X
k k
x = ni ci = fi ci
N i=1 i=1
ai 1 + ai
ci = centre de la classe
2

3.2 Caractéristiques de dispersion


Ecart interquartile
Il est dé…ni pour toutes les variables, excepté les variables nominales.
Dé…nition : l’écart interquartile est la distance entre le 1er et le 3e quartile. Il
vaut donc Q0:75 Q0:25 . Il représente les valeurs extrêmes d’une dispersion de 50%
des e¤ectifs autour de la médiane.
Ecart-type. Variance
Ils ne sont dé…nis que pour les variables quantitatives.
Dé…nition : la variance est la moyenne des carrés des écarts à la moyenne,
c’est-à-dire :
— pour une variable discrète :

1 X 1 X
k k
var (x) = ni (xi 2
x) = ni xi 2 (x)2 = x2 (x)2
N i=1 N i=1

1 X
k
x2 = ni xi 2
N i=1

— pour une variable continue rangée en classes [ai 1 ; ai [, de centres ci :

1 X 1 X
k k
var (x) = ni (ci x) 2 = ni ci 2 (x)2 = x2 (x)2
N i=1 N i=1

1 X
k
x2 = ni ci 2
N i=1

L’écart-type est alors la racine carrée de la variance :


p
(x) = var (x)
Exercice : Etant donné la série statistique (poids en grammes de 30 pommes) :
42:50 45:00 47:75 52:10 29:50 31:25 21:50 56:30 55:60 49:80
35:55 42:30 43:50 34:60 65:50 45:10 40:25 58:00 30:30 44:80
36:50 55:00 59:20 36:50 38:50 41:10 46:50 39:95 25:35 49:50

1- Déterminer l’étendue des valeurs :

E = :::::::::::::::::::: = :::::::::::::::::::::::::: = ::::::

2- Construire selon le poids des pommes une distribution de fréquences compor-


tant les classes suivantes :
(20g à moins de 30g), (30g à moins de 40g), (40g à moins de 50g), (50g à moins
de 60g), (60g à moins de 70g), (faire un tableau des e¤ectifs) :
xi [ ; [ [ ; [ [ ; [ [ ; [ [ ; [ Total
ni :::: :::: :::: :::: :::: ::::

3- Construire une distribution de fréquences à 8 classes de même amplitude :

L’amplitude : a = :::::::::::::::::::: = :::::::::::::::::::::::::: = :::::::::: w

xi [ ; [ [ ; [ [ ; [ [ ; [ [ ; [ [ ; [ [ ; [ [ ; [
ni :::: :::: :::: :::: :::: :::: :::: ::::

4- Compléter le tableau (r)en calculant les e¤ectifs à 3 classes d’amplitude


inégale :

xi (gramme) [20; 30[ [30; 50[ [50; 70[


(r) :
ni :::: :::: ::::

5- Tracer l’histogramme de la distribution de fréquence établie en 4-(r) .


6- Déterminer l’amplitude de la classe et ranger ces données dans un tableau en
appliquant la règle de STURGE

Tracer la courbe des e¤ectifs cumulés croissants.

A partir de la courbe, la médiane M e =

Déterminer les quartiles Q1 ; Q2 ; Q3 ;le mode M o.

Vous aimerez peut-être aussi