Vous êtes sur la page 1sur 6

Statistique descriptive

L’objectif de la statistique descriptive est de synthétiser la masse d’information sous forme de


tableaux, de graphiques et de résumés numériques.

1 Exemple introductif
On s’intéresse aux notes d’une épreuve passée par 90 étudiants. Considérons donc le tableau
suivant qui regroupe ces notes.
La note 0 3 5 6 7 8 9 10 11 12 13 14 15 16 18
L’effectif 2 4 3 4 10 6 5 8 13 10 7 8 5 2 3

1.1 Vocabulaires statistiques

b
1- Population : Les objets sur lesquels on effectue des études forment un ensemble que l’on
tta
appelle population et que l’on note P.
Dans notre exemple: L’ensemble des étudiants forme la population.
ha

2- Individu : Les éléments de la population sont appelés individus.


El

Dans notre exemple: Chaque étudiant est un individu de la population.


3- Variable statistique : Une application X permettant d’associer à chaque élément de la po-
pulation une valeur (unique) dans un ensemble E.
m
sa

X : Ω → E.
Is

Dans notre exemple: L’ensemble E n’est rien que les notes des étudiants. Associer à
chaque étudiant une note c’est définir une variable statistique de l’ensemble des étudiants
dans l’ensemble des notes.
3- Observation : Chaque élément de l’ensemble E est appelé observation (ou modalité). Notons
que les observations sont souvent notées par xi .
Dans notre exemple: Chaque note est une observation ; x1 = 0, x2 = 3, x8 = 10, . . . .
4- Caractère : Le caractère d’une variable statistique change selon les éléments de l’ensemble E
et donc change selon la nature des observations étudiées.
(i)- Le caractère est dit qualitatif : si les éléments de E sont des qualités.
Dans notre exemple: Si on s’est intéressé à la couleur des yeux de chaque étudiant,
l’ensemble E aura comme éléments des couleurs. C’est une qualité.
(ii)- Le caractère est dit quantitatif : si les éléments de E sont des quantités. Le caractère
quantitatif peut être :
a- discret : si les éléments de E sont de nature discrete. C’est à dire des valeurs isolées.
Dans notre exemple: Si on s’est intéressé au nombre de stylos qu’il a chaque
étudiant, l’ensemble E aura comme éléments des entiers naturels. Ce sont des
valeurs discrètes.
b- continu : si les éléments de E sont de nature continue. C’est-à-dire des valeurs qui
peuvent être très proche l’une de l’autre.
Dans notre exemple: Si on s’est intéressé à la taille de chaque étudiants, l’en-
semble E aura la possibilité de prendre n’importe quelle valeur dans un intervalle.

1
1.2 Caractère quantitatif discret
Soit X une variable de caractère discret prenant n valeurs x1 , x2 , . . . , xn .
1- Effectif : Le nombre ni d’apparition de l’observation xi .
Dans notre exemple: Le nombre d’étudiants qui ont eu la note 14 est 8. On dit donc que
la douzième observation "x12 = 14" est d’effectif n5 = 8.
2- Effectif cumulés : Le nombre Ni d’individus d’observation ≤ xi .
Dans notre exemple: N3 = 2 + 4 + 3 = 9.
3- Fréquence : Le pourcentage d’observations xi est le nombre fi = nni .
Dans notre exemple: La fréquence de la note 12 est f12 = 1090 .

4- Fréquence cumulée : Le pourcentage d’observations ≤ xi est le nombre Fi = Ni


n .
9
Dans notre exemple: La fréquence cumulée de la note 5 est F3 = 90 .

b
tta
1.3 Caractère quantitatif continu
Soit X une variable statistique, de caractère continu, prenant les valeurs x1 , x2 , . . . , xn . On
ha

regroupe ces valeurs en k classes d’extrémités e0 , e1 , . . . , ek et l’on note pour chaque classe [ei−1 , ei [
∑i
El

le centre ci = (ei−1 + ei )/2, l’effectif ni , l’effectif cumulée Ni = j=1 nj , la fréquence fi = nni


∑i
ainsi que la fréquence cumulée Fi = j=1 fj , ou proportion des individus pour lesquels X < ei .
∑ k ∑k
La moyenne est X = n1 i=1 ni ci , la variance Var(X) = n1 i=1 ni (ci − X)2 et l’écart-type
m


σX = Var(X). La classe modale est la classe la plus fréquente. La médiane est la valeur de
sa

la variable statistique qui correspond à une fréquence cumulée de 0,5. Elle peut être calculer par
interpolation linéaire en traçant la courbe des fréquence cumulées. Ainsi, si [ei−1 , ei [ est l’intervalle
Is

qui contient la médiane xM alors celle-ci est donnée par :


n
− Ni−1 0, 5 − Fi−1
xM = ei−1 + (ei − ei−1 ) 2 ou encore xM = ei−1 + (ei − ei−1 ) .
ni fi

La classe [e0 , e1 [ [e1 , e2 [ ... [ei−1 , ei [ ... [en−k , ek ]


Le centre (e0 + e1 )/2 (e1 + e2 )/2 ... (ei−1 + ei )/2 ... (en−k + ek )/2
L’effectif n1 n2 ... ni ... nk
L’effectif cumulée N1 = n1 N2 = N1 + n2 ... Ni = Ni−1 + ni ... Nk = Nk−1 + nk
La fréquence f1 = nn1 f2 = nn2 ... fi = nni ... fk = nnk
La fréquence cumulée F1 = f1 F2 = F1 + f2 ... Fi = Fi−1 + fi ... Fk = Fk−1 + fk

2
2 Représentations graphiques
2.1 Caractère qualitatif

1- Diagramme en barres ou en tuyaux :


Pour construire ce diagramme, on associe à chaque valeur distincte observé un rectangle
de base fixée a priori (dont la langueur n’a pas de signification) et de hauteur égale à
l’effectif correspondant.
Il est à noter que la distance entre deux valeurs (ou deux barres) ne signifie rien.
Exemple.1 : Dans une enquête réalisée auprès de 100 étudiants d’une université eu-
ropéenne, on demande l’origine géographique aux individus. Les réponses à cette
question sont regroupées dans le tableau suivant :

b
tta
L’origine AFR AME ASI EUR OCE
L’effectif 21 6 10 62 1
ha

Le diagramme en barre correspondant à ce tableau est celui de Table.1 à gauche.


Souvent il est préférable, si l’ordre des modalités n’est imposé pour des raisons
El

divers, de ranger les modalités par ordre d’effectifs décroissants de manière à faciliter
la comparaison entre ces derniers. Le diagramme correspondant à cette situation est
m

celui de Table.1 à droite.


sa

Distribution des origines géographiques Distribution des origines géographiques


Is
70

70
60

60
50

50
40

40
Effectifs

Effectifs
30

30
20

20
10

10
0

AFR AME ASI EUR OCE EUR AFR ASI AME OCE

Origines Origines

Table 1 – Diagrammes en barres.

3
2- Diagramme en secteur ou en camembert s’obtient en découpant un cercle en parties
dont les surfaces sont égales aux effectifs correspondants. Autrement, si l’effectif total,
n, correspond à 360˚, on cherche l’angle θi correspond à l’effectif ni de l’observation xi .
Pour cet effet, on peut utiliser la règle de croix, on obtient ainsi :
}
n −→ 360˚ 360˚× ni
⇒ θi = = 360˚fi .
ni −→ θi n

Il est à noter que cette représentation n’est pas recommandée. Elle est en effet jugée
mauvaise par de nombreux statisticiens considérant que l’œil humain sait mieux juger
d’une mesure linéaire que d’une mesure angulaire ou de surface.
Exemple : Reprenons l’exemple.1. Le diagramme en secteur est donné par la figure
ci-dessous (voir Table.2).

b
tta
Distribution des origines géographiques
ha
El
m

EUR
sa
Is

OCE

AME

ASI

AFR

Table 2 – Diagrammes en secteurs.

4
2.2 Caractère quantitatif discret

1- Diagramme en bâtons :
Pour construire ce diagramme, on associe à chaque valeur distincte observé un segment de
droite parallèle à l’axe des ordonnées, élevé à partir du point de l’axe des abscisses défini par
la valeur xi et dont la hauteur égale à l’effectif correspondant ni .
Il est à noter que la distance entre deux segments est liée à la distance entre les deux valeurs
qui représentent.
Exemple.1 : La cécidomyie du hêtre provoque sur les feuilles de cet arbre des galles. Soient
xi le nombre de galles par feuille et ni le nombre de feuilles portant xi galles. La distri-
bution de fréquences observées est la suivante :
xi 0 1 2 3 4 5 6 7 8 9 10
ni
b 182 133 46 24 6 5 2 1 0 1 0
tta
Le diagramme en bâtons correspondant à ce tableau est celui de Table. 3 à gauche. Par
fois il est préférable, pour faciliter la lecture, d’indiquer la valeur des effectifs au dessus
ha

de chaque bâton. Le diagramme correspondant à cette situation est celui de Table.3 à


droite.
El
m

Distribution de nombre de galles par feuilles Distribution de nombre de galles par feuilles
sa 200

200

182
Is
150

150

133
L’effectif

L’effectif
100

100
50

50

46

24

6 5 2 1 0 1 0
0

0 1 2 3 4 5 6 7 9 0 1 2 3 4 5 6 7 9

Nombre de galles par feuille Nombre de galles par feuille

Table 3 – Diagrammes en bâtons.

5
2.3 Caractère quantitatif continu

1- Histogramme des effectifs ou des fréquences :


Pour construire un histogramme, on associe à chaque classe i un rectangle de surface égale
à ni . Si hi est la longueur (ou l’amplitude) de la classe i, la hauteur du rectangle associé est
ni /hi .
Il est à noter que cette représentation n’est pas équivalente à celle qui définit la hauteur des
rectangles par l’effectif, sauf évidement dans le cas d’égale étendue (hi = h, pour tout i).
Exemple.1 : On a relevé le taux d’hémoglobine (mesuré en g/ℓ de sang) chez 60 personnes
adultes présumées en bonne santé. La distribution de fréquences observées, répartie en
8 classes d’égale étendue, est la suivante :
Classe [105,115[ [115,125[ [125,135[ [135,145[ [145,155[ [155,165[ [165,175[ [175,185]
ni 4 4
b 6 8 12 10 7 4
tta
On construit le polygone de fréquences en traçant une droite segmentée reliant les points
ha

centraux des sommets de chaque rectangle de l’histogramme.


El

Histogramme Polygone des effectifs


m
20

20

Distribution de taux d’hémoglobine Distribution de taux d’hémoglobine


sa 15

15
Effectif

Effectif
10

10
Is
5

5
0

100 120 140 160 180 100 120 140 160 180

Taux d’hémoglobine en g/l Taux d’hémoglobine en g/l

Polygone des fréquences Polygone de fréquences cumulées


0.030

1.0
Fréquence/Amplitude

0.8
0.020

Fréquence

0.6
0.4
0.010

0.2
0.000

0.0

100 120 140 160 180 110 120 130 140 150 160 170 180

Taux d’hémoglobine en g/l Taux d’hémoglobine en g/l

Table 4 –

Vous aimerez peut-être aussi