Vous êtes sur la page 1sur 12

Statistique descriptive Chargée de cours Mme AUMORASSI

Chapitre1: Statistique descriptive

1 Introduction:
La statistique descriptive est une méthode d’analyse numérique que les scienti-
fiques utilisent pour recueillir, classer, présenter et analyser des informations prove-
nant des ensembles comportant un grand nombre d’éléments tels les sciences expérimentales
(Biologie, médecine, agronomie), les sciences humaines (la démographie, l’économie)
démontre l’intérêt qu’on lui porte.

La statistique descriptive a pour buts essentiels le receuil des données chiffrées (quan-
titatives), leurs classements, leurs présentations pour mieux les utiliser, leurs analyse
afin d’entirer des conclusions significatives.
La statistique utilise le chiffre comme moyen d’expression.

2 Concepts de base et définitions:


2.1 Population et individus:
L’ensemble des éléments sur lesquels va porter l’étude statistique est appelé ”po-
pulation”, qu’on notera Ω.
Les éléments de cette population seront dites ”individus” ou ”unité statistique”.
La partie de la population étudiée est appelée ”échantillon” et on cherche toujours
à généraliser les résultats obtenus sur l’échantillon sur toute la population.

2.2 Caractère ou variable statistique:


Chaque individus d’une population est décrit par un ensemble de caractéristiques
appelées ”variable ou caractère”. On les représente souvent par des lettres majuscules:
X, Y, Z,....
Les valeurs que peut prendre une variable statistique sont appelées ”modalités” du
caractère.
Une variable doit donc pésenter au minimum deux modalités.
Exemple: Le sexe: masculin, féminin.
Le nombre d’enfants par famille: 0, 1, 2, 3,.....
Le taux de la glécimie dans le sang: [0.8, 0.9[, [0.9, 1[, [1, 1.1[

1
Statistique descriptive Chargée de cours Mme AUMORASSI

2.3 Classification des caractères:


Les caractères (ou les variables) statistiques peuvent être classés selon leurs na-
tures en deux catégories: les qualitatifs et les quantitatifs. Parmi ces derniers on
distinguera ceux qui sont discets et ceux qui sont continus

2.3.1 Caractère qualitatif:


Un caractère est qualitatif si ses différentes modalités ne sont pas mesurables.(aux
quelles on ne peut pas associer des chiffres).
Exemple: Le sexe, la couleur des yeux, intensité de la douleur.

2.3.2 Caractère quantitatif:


Un caractère est quantitatif si ses modalités sont mesurables.
Il ya deux types de caractères quantitatifs:
Caractère quantitatif discret: Un Caractère quantitatif est discret si l’ensemble
des valeurs prises par les modalités sont des nombres isolés (fixes), généralement des
entiers.
Exemple: nombre de malades dans un service, nombre d’enfants par famille.
Caractère quantitatif continu: Un caractère est continu si l’ensemble des valeurs
prises par les différentes modalités sont en nombres infini et quelconques dans un
intervalle de valeurs réelles.
On représente les modalités d’un caractère continu par des intervalles de la forme
[ei ,ei+1 [ appelés ”des classes”, chaque classe est caractérisé par:
ei+1 + ei
l’amplitude ai = ei+1 − ei et son centre ci = . Les ei ,i = 1,...,n sont appelées
2
extremités des classes.
Exemple: le poids, la taille, le taux de glécimie dans le sang .

2.4 Effectif et fréquence:


Soient une population de cardinal n et X un caractère ayant k modalités M1 ,
M2 ,...,Mk .

L’effectif de la ième modalité Mi est le nombre d’individus de la population ayant


la modalité Mi , qu’on notera ni .
La fréquence fi de cette modalité est définie par la proportion d’individus ayant la
ni
modalité Mi , on écrit fi = .
n
2
Statistique descriptive Chargée de cours Mme AUMORASSI

P
On remarque que: 0 ≤ fi ≤ 1 et fi = 1.

2.5 Tableaux statistiques:


Les receuillies sont classées dans des tableaux dits statistiques, qui sont des ta-
bleaux à deux colonnes (deux lignes) dont la première représente les modalités et la
seconde les effectifs ou les fréquences relatives correspondantes.

Modalités Effectifs
M1 n1
M2 n2
. .
. .
. .
Mk nk
Remarque: Dans le cas d’un caractère quantitatif on remplacera les modalités par
les valeurs de la statistique X assocées au caractère considéré et donc un tableau
statistique de la distribution.
Dans le cas discret la première colonne va comporter les valeurs x1 ,x2 ,...,xk de X.
Si la variable est continue la première colonne du tableau sera formée par des classes.

3 Représentation graphique des tableaux statis-


tiques:
Pour mieux visualiser un tableau statistique on le représente sous forme gra-
phique.

3.1 Variables qualitatives:


Soit X une variable statistique qualitative à k modalités Mi ,i = 1,...,k, de fréquence
respectives fi .
On représente les modalités de ce caractère par des secteurs circulaires d’angles θi
donnée par:
θi = 2π.fi i = 1,...,k

3
Statistique descriptive Chargée de cours Mme AUMORASSI

3.2 Variables quantitatives


3.2.1 Cas discret:
Soit un tableau sataistique associés à une variable discète X à k modalités x1 ,x2 ,...,xk ,
de fréquences respectives f1 ,f2 ,...,fk .
Le graphe de cette distribution est appelé ”diagramme en bâtons”, qui est la succes-
sion de segments de droites d’abscisses xi et de hauteurs fi .
Si on reporte les effectifs sur le second axe on aura un diagramme d’effectifs.

3.2.2 Cas continu:


Soit X un caractère continu à p modalités [ei ,ei+1 [ de fréquences respectives
fi ,i = 1,...,p.
Notons ai les amplitudes des classes.
Le graphe associé à un caractère continu est appelé ”histogramme” qui est la juxta-
position de rectangles de bases ai et de hauteurs fi i = 1,...,p.
Remarque: Cette représentation est valable seulement dans le cas où les amplitudes
sont les mêmes.
Dans le cas où les amplitudes sont différentes, pour tracer l’histogramme on utulise
la méthode des effectifs réctifiés qui est:
0 la plus petite amplitude
ni = ni ×
amplitude de la classe
Exemple: Soit le tableau statistique suivant:
Classes [0, 5[ [5, 10[ [10, 12[ [12, 15[ [15, 20[ total
ni 20 30 2 18 30 100
ai 5 5 2 3 5 /
0
ni 8 12 2 12 12 /

3.3 Règle de STURGES:


Cette règle est utilisée pour déterminer le nombre de classes à utiliser pour
représenter une variable statistique continue.
Le nombre de classes est égal à l’entier le plus proche de la quantité:1 + 3,3 log n.
L’amplitude constante de ces classes est égale à
Xmax − Xmin
a=
nombre de classes

4
Statistique descriptive Chargée de cours Mme AUMORASSI

Fig. 1 – Représentations des variables statistiques

5
Statistique descriptive Chargée de cours Mme AUMORASSI

4 Fonction cumulative:
Soit X une variable statistique. On appelle fonction cumulative notée F la fonc-
tion définie de R dans [0, 1] par: F(x) est la proportion d’individus dont le caractère
est inférieur ou égale à x.

F : R → [0,1]

4.1 Propriétés:
– 0 ≤ F (x) ≤ 1
– F est tjrs croissante
– F est continue à droite.
– limx→+∞ F (x) = 1, limx→−∞ F (x) = 0

4.2 Fréquences cumulées:


la fréquence cumulée Fi est la somme des fréquences relatives correspondantes
aux valeurs X ≤ xi .
i
X
Fi = f1 + f2 + ... + fi = fj
j=1

4.3 Fonction cumulative et courbes cumulatives:


4.3.1 Cas discret:
Soient x1 ,x2 ,...,xp les valeurs observées d’une variable statistique et n1 ,n2 ,...,np
les effectifs correspondands.
La fonction cumulative F est donnée sous la forme suivante:


 0 x < x1
F = f , x1 ≤ x < x2

1 1



 F2 = f1 + f2 , x2 ≤ x < x3


F (x) = .
.




.




1 x ≥ xp

La courbe cumulative est le graphe en escalier de F(x).

6
Statistique descriptive Chargée de cours Mme AUMORASSI

Fig. 2 – Courbe cumulative en escalier de F(x)

Fig. 3 – Courbe cumulative de F(x)

4.3.2 Cas continu:


La fonction cumulative est donnée par:


 0 x ≤ e1
F1 = f1 , x = e2




 F2 = f1 + f2 x = e3


F (x) = .
.




.




1 x ≥ ep

Le graphe de F est appelé courbe cumulative de F(x).

7
Statistique descriptive Chargée de cours Mme AUMORASSI

5 Caractéristiques numériques d’une variable sta-


tistique:
Le but de ces caractéristiques est de résumer, à partir de quelques constantes,
l’essentiel de l’information relative à la variable statistique.

5.1 Caractéristiques de position (tendance centrale):


Les paramètres de position sont: la moyenne, le mode, les quartiles et la mediane.

5.1.1 a- La moyenne arithmétique:


est la somme de toutes les valeurs observées divisée sur le nombre total d’obser-
vations. Elle est notée X.

1X X
ni xi = fi xi , Si X discrète


n


X=

 1X X

 ni ci = fi ci , Si x continue
n
Où ci est le centre des classes.

5.1.2 b- Le mode:
C’est la valeur notée Mo.
Cas discret: Le mode est la valeur du caractère qui correspond au plus grand effectif
(la fréquence maximale).
Cas continu: On cherche la classe modale (celle qui a le plus grand effectif). Si on
note cette classe [ei ,ei+1 [, le mode est donné par la formule suivante:
nM o − nM o−1
M o = ei + ai
(nM o − nM o−1 ) + (nM o − nM o+1 )
nM o : l’effectif de la classe modale.
nM o−1 : l’effectif de la classe avant la classe modale.
nM o+1 : l’effectif de la classe après la classe modale.
Remarque: 1-Une série statistique peut avoir plusieurs modes, dans le cas où l’ef-
fectif le plus élevé correspond à plusieurs modalités (observations).

8
Statistique descriptive Chargée de cours Mme AUMORASSI

2- Dans le cas ou les amplitudes ne sont pas les mêmes, on utilise les effectifs rectifiés
avec la même formule de Mo.
n0M o − n0M o−1
M o = ei + ai
(n0M o − n0M o−1 ) + (n0M o − n0M o+1 )

5.1.3 c- La médiane Me:


C’est la valeur du caractère qui partage la série en deux parties d’effectif égal.
telque F (M e) = 0.5.
Cas discret: On doit d’abord ordonner la série statistique dans l’ordre croissant,
par la suite, on peut avoir deux cas:
Si n est pair: n = 2p alors la médiane sera
x(p) + x(p+1)
Me =
2
Si n est impair: n = 2p + 1 alors

M e = xp+1

Exemple 5.1. 1. Considérons les notes de biostatistique de 7 étudiants:


8 14 11 9 11 8 11
On range les observations (notes) dans l’ordre croissant
8 8 9 11 11 11 14
n = 7 = 2.p + 1 = 2.3 + 1 donc la médiane M e = x3+1 = 11

2. Soit le tableau statistique suivant:

xi 0 1 2 3 4 5 total
ni 20 40 70 40 20 10 200
fi 0.1 0.2 0.35 0.2 0.1 0.05 1
Fi 0.1 0.3 0.65 0.85 0.95 1 /
x(100) + x(101) 3+3
n = 200 = 2.100, donc M e = = =3
2 2
Cas continu: Pour déterminer la médiane d’une variable continue, on doit
d’abord la localiser, c’est à dire déterminer la classe qui la contienne et ceci à partir
des fréquences cumulées de la manière suivante:
Si la valeur 0.5 est comprise entre F(ei ) et F(ei+1 ) , alors la médiane Me doit se trouver

9
Statistique descriptive Chargée de cours Mme AUMORASSI

dans la classe [ei ,ei+1 [.

F(ei ) ≤ 0,5 ≤ F(ei+1 ) ⇒ M e ∈ [ei ,ei+1 [


Cette classe est appelée classe médiane.
La médiane Me est donnée par la formule suivante:
0.5 − F(ei )
M e = ei + ai
F(ei+1 ) − F(ei )

Exemple 5.2.

poids [40, 45[ [45, 50[ [50, 55[ [55, 60[ [60, 65[ total
ni 30 10 20 25 15 100
fi 0,30 0,10 0,2 0,25 0,15 1
Fi 0,30 0,40 0,6 0.85 1 /

On voit que 0,5 est compris entre 0,4 et 0,6 donc la classe médiane est [50, 55[, la
valeur Me est:
0,5 − 0,4
M e = 50 + (55 − 50) = 52,5 ∈ [50,55[
0,6 − 0,4
Ce qui signifie que 50% des individus ont un poid inférieur à 52,5.

5.1.4 d- Les quartiles:


C’est la généralisation de la notion de la médiane, ils s’agissent des valeurs qui
partagent les observations en quatre (4) parties égales.
Le premier quartile noté Q1 telque F (Q1 ) = 0,25.
Le deuxième quartile noté Q2 telque F (Q2 ) = 0,5, il est en même temps la médiane.
Le troisième quartile noté Q3 telque F (Q3 ) = 0,75.

Cas discret: Par analogie, on ordonne d’abord les observations dans l’ordre
croissant, deux cas peuvent se présenter:
1- Si n est pair: n = 2p, alors
x( p2 ) + x( p2 )+1
Q1 =
2
Q2 = M e

10
Statistique descriptive Chargée de cours Mme AUMORASSI

x( 3p ) + x( 3p )+1
2 2
Q3 =
2
2- Si n est impair: 2p + 1, alors

Q1 = x( p2 )+1
Q2 = M e
Q3 = x( 3p )+1
2

Cas continu:
0.25 − F(ei )
F (Q1 ) = 0.25 ⇒ Q1 = ei + ai
F(ei+1 ) − F(ei )
Q2 = M e
0.75 − F(ei )
F (Q3 ) = 0.75 ⇒ Q3 = ei + ai
F(ei+1 ) − F(ei )

5.1.5 e- Intervalle interquartile:


Intervalle interquartile est la différence entre les valeurs du troisième et le premier
quartile: Q3 − Q1 .
Autrement dit: c’est l’intervalle qui regroupe 50% des observations, en laissant 25%
à droite et 25% à gauche.

5.2 Les caractéristiques de dispersion:


Sont des nombres qui mesurent la dispersion des valeurs observées autour d’un
paramètre de position (X, Mo, Me).

5.2.1 a- L’étendue:
On appelle étendue notée ”e”, la différence entre la plus grande valeur et la plus
petite valeur observée.
e = xmax − xmin

11
Statistique descriptive Chargée de cours Mme AUMORASSI

5.2.2 b- La variance et l’écart-type:


2
La variance d’une distribution statistique notée V(X) σX est la myenne des carrés
des écarts entre les observations xi et la moyenne X.
La variance est donnée par:
1X X
V (X) = ni (xi − X)2 = fi (xi − X)2
n
En développant cette expression, on obtient une formule plus simple
1X 2
V (X) = ni x2i − X
n
L’écart-type noté σX est égal à la racine carrée de la variance
p
σX = V (X)

5.2.3 c- coefficient de variation:


L’écart-type et la moyenne s’expriment dans la même unité que la variable sta-
tistique, mais dans certain cas on peut être ramené à comparer les dispersions de
distributions qui ne sont pas exprimées dans la même unité.
Pour cela, on utilise de coefficient de variation qui est défini par le rapport de l’écart-
type àla moyenne.
σX
CV =
X

12

Vous aimerez peut-être aussi