Vous êtes sur la page 1sur 68

Ecole Nationale Polytechnique

de Constantine

COURS DE STATISTIQUE
DESCRIPTIVE

Zaher MOHDEB

E-mail: z.mohdeb@gmail.com, zaher.mohdeb@umc.edu.dz

Zaher Mohdeb (E. N. P. de Constantine) 1 / 68


SÉRIE STATISTIQUE À UN CARACTÈRE

Chap. 1 SÉRIE STATISTIQUE À UN


CARACTÈRE
1- Introduction : La statistique descriptive est un
ensemble de méthodes permettant de décrire, résumer des
données souvent très nombreuses.
Ces méthodes peuvent être numériques et qui consistent à
1 la présentation brute des données,
2 des présentations par tableaux numériques,
3 des représentations graphiques et
4 des résumés numériques fournis par un certain nombre
de paramètres caractéristiques.
Zaher Mohdeb (E. N. P. de Constantine) 2 / 68
Définitions

2- Définitions : population, individu, échantillon


1 Une population est l’ensemble des éléments auxquels
se rapportent les données étudiées. Exemples :
étudiants d’une université, production d’une usine,
poissons d’une rivière, entreprises d’un secteur donné.
2 Dans une population donnée, chaque élément est
appelé individu ou unité statistique.
3 Un échantillon est une partie (ou sous-ensemble)
d’une population.
4 Le nombre d’objets composant une population ou un
échantillon est appelé sa taille ou effectif.
Zaher Mohdeb (E. N. P. de Constantine) 3 / 68
Définitions

3- Caractères
Pour étudier une population, le statisticien ne retient que
les caractères qui l’intéressent.
Un caractère ou une variable statistique est une
variable qui caractérise les individus de cette
population. Par exemple : le poids, la taille, la couleur
des yeux, etc. . .
Les modalités sont les différentes situations
susceptibles d’être prises par le caractère.

Zaher Mohdeb (E. N. P. de Constantine) 4 / 68


Caractères

3.1. Caractères qualitatifs et quantitatifs


Il existe deux grandes catégories de caractères : les
caractères qualitatifs et les caractères quantitatifs.
Un caractère est dit qualitatif si ses différentes
réalisations (modalités) ne sont pas numériques. Par
exemple : la catégorie socio-professionnelle des
individus d’une population donnée (artisan, ouvrier,
etc. . . ) est un caractère qualitatif.
Un caractère est dit quantitatif lorsqu’il est
intrinsèquement numérique. Une variable quantitative
peut être une variable statistique discrète ou continue.
Zaher Mohdeb (E. N. P. de Constantine) 5 / 68
Caractères

La variable stastistique X est dite discrète, lorsqu’elle ne


peut prendre que des valeurs isolées, discrètes : x1 , x2 , . . . , xn
(où x1 < x2 < . . . < xn ).
Par exemple : le nombre d’enfants d’une famille, le nombre de
buts marqués lors d’une rencontre de football, . . . sont des
variables (caractères) quantitatives discrètes.
La variable statistique X est dite continue, lorsqu’elle peut
prendre n’importe quelle valeur d’un intervalle [α, β] ⊂ IR.
Exemple : la durée d’une conversation téléphonique, le revenu, la
taille, le taux de natalité sont des variables continues.
Dans ce cas l’intervalle des valeurs possibles [α, β] est divisé en k
intervalles : [a0 , a1 [, [a1 , a2 [, . . . , [ak−1 , ak ], (où
a0 = α < a1 < a2 < . . . < ak = β), qui sont appelées des
classes. Les valeurs ak−1 , ak sont les frontières de la k eme
ak−1 + ak
classe. est le centre de cette classe.
2
Zaher Mohdeb (E. N. P. de Constantine) 6 / 68
Série statistique

2- Série statistique :
Considérons une variable X observée sur une population de n
individus. Si la variable X prend k valeurs ou ensemble de valeurs
(appelés modalités), le premier traitement des données brutes consiste
à compter le nombre ni d’individus qui présentent le i e modalité,
i = 1, 2, . . . , k.
Exemple 1 : (Cas quantitatitif discret) Dans une classe de 26
étudiants, le professeur a relevé les notes suivantes :
8, 8, 10, 6, 2, 10, 8, 12, 4, 8, 6, 10, 10, 10, 0, 8, 10, 12, 6, 6, 10, 4,
10, 8, 8, 6.
Afin d’y voir plus clair, il regroupe les notes dans un tableau

Zaher Mohdeb (E. N. P. de Constantine) 7 / 68


Série statistique

Notes Etudiants
Observations i Valeurs : xi Effectifs : ni

1 0 1
2 2 1
3 4 2
4 6 5
5 8 7
6 10 8
7 12 2
Effectif total
X7
n= ni = 26
i =1

Zaher Mohdeb (E. N. P. de Constantine) 8 / 68


Série statistique

Exemple 2 : (Cas quantitatitif continu) Lors d’une course de


vitesse, les n = 40 partipants ont mis les temps représentés dans le
tableau suivant pour effectuer le parcours.
Temps Centres des classes Effectifs
(classes) xi ni
[43, 45[ 44 2
[45, 47[ 46 3
[47, 49[ 48 7
[49, 51[ 50 11
[51, 53[ 52 8
[53, 55[ 54 6
[55, 57[ 56 3
X 7
n= ni = 40
i =1

Zaher Mohdeb (E. N. P. de Constantine) 9 / 68


Série statistique

Définition
On appelle série statistique ou distribution statistique la donnée
simultannée (dans un tableau) des valeurs du caractère étudié, notées
{x1 , x2 , . . . , xk }, (resp. {[a0 , a1 [, . . . , [ak−1 , ak [} dans le cas d’un
caractère continu), rangées dans l’ordre croissant et des effectifs notés
n1 , n2 , . . . , nk de ces valeurs.
Remarque : Une série statistique peut décrire un échantillon ou bien
la totalité d’une population statistique.
En résumé : On a vu qu’à chaque modalité Ci , (xi dans le cas
discret et [ai −1 , ai [ dans le cas continu), est associé son effectif ni .
Les couples (Ci , ni ) forment une suite qu’on appelle série statistique.
Ainsi pour les exemples précédents, la série statistique est pour :
1 l’exemple 1 : (0 ;1), (2 ;1), (4 ;2), (6 ;5), (8 ;7), (10 ;8), (12 ;2).
2 l’exemple 2 : ([43-45[ ;2), ([45-47[ ;3), ([47-49[ ;7), ([49-51[ ;11),
([51-53[ ;8), ([53-55[ ;6), ([55-57[ ;3).
Zaher Mohdeb (E. N. P. de Constantine) 10 / 68
Série statistique

Exemple 3 : (Caractère qualitatif)


Rappelons que si les modalités d’un caractère ne peuvent
être désignées que par leurs qualités, nous dirons que la
nature du caractère est qualitative. Autrement dit un
caractère est qualitatif quand il ne peut pas être quantifié.
Par exemple ; l’étude de la répartition des actifs d’un
échantillon de 25000 personnes selon la catégorie
socio-professionnelle, a donné lieu aux chiffres suivants :

Zaher Mohdeb (E. N. P. de Constantine) 11 / 68


Série statistique

Population en emploi selon la catégorie socio-professionnelle

Effectif ni en %
Agriculteurs exploitants 5750 23 %
Artisans, commerçants, chefs d’entreprise 7250 29 %
Cadres et professions intellectuelles supérieures 6000 24 %
Professions intermédiaires 1500 6%
Employés 750 3%
Ouvriers 3750 15 %
Effectif total 25000 100 %

Zaher Mohdeb (E. N. P. de Constantine) 12 / 68


Série statistique

3- Distributions (séries) statistiques et représentations


graphiques
Considérons une variable (caractère) observée sur une population de n
individus. Si la variable X prend k valeurs ou ensemble de valeurs
(appelées modalités), le premier traitement des données brutes
consiste à compter le nombre ni d’individus qui présentent la i e
modalité (i = 1, 2, . . . , k).
3.1- Cas d’une variable quantitative discrète
Les résultats concernant les observations de la variable X dont
l’ensemble des valeurs est {x1 , x2 , . . . , xk } sont présentés dans le
tableau des effectifs (xi , ni ), i = 1, . . . , k ou dans le tableau des
ni
fréquences relatives (xi , fi ), où fi = appelée fréquence
n
relative de la i e modalité xi de la variable X .

Zaher Mohdeb (E. N. P. de Constantine) 13 / 68


Série statistique

Modalité Effectif

x1 n1
.. ..
. .
xi ni
.. ..
. .
xk nk
Pk
n= i =1 ni

Tableau des effectifs

Zaher Mohdeb (E. N. P. de Constantine) 14 / 68


Série statistique

Remarque : L’effectif ni de la modalité xi est appelé également


fréquence absolue.

Modalité Fréquence relative


n1
x1 f1 = n
.. ..
. .
ni
xi fi = n
.. ..
. .
nk
xk fk = n

Pk
i =1 fi =1

Tableau des fréquences relatives


Zaher Mohdeb (E. N. P. de Constantine) 15 / 68
Série statistique

On présente les modalités numériques en ordre croissant. On peut


associer à ces tableaux une représentation graphique appelée
diagramme en bâtons. Reprenons l’exemple 1 des notes obtenues
de la classe de 26 étudiants :
Modalité : xi Effectif : ni Fréquence relative : fi = nni
0 1 1/26
2 1 1/26
4 2 2/26
6 5 5/26
8 7 7/26
10 8 8/26
12 2 2/26
P7 Pk
i =1 ni = 26 i =1 fi = 1

Tableau des effectifs et des fréquences relatives


Zaher Mohdeb (E. N. P. de Constantine) 16 / 68
Série statistique

Diagramme en bâtons des effectifs de l’exemple 1


9

5
i
n

0
0 2 4 6 8 10 12
x
i

Figure: Diagramme en bâtons des effectifs de l’exemple 1

Zaher Mohdeb (E. N. P. de Constantine) 17 / 68


Série statistique

3.2- Cas d’une variable quantitative continue


L’infinité des valeurs observables ne rend pas possible la
généralisation du diagramme en bâtons. Le domaine de
variation d’une variable statistique continue X est partagé
en k parties.

L’intervalle [ai−1, ai [ fermé à gauche, ouvert à droite, est


appelé i e classe, i = 1, . . . , k ; son amplitude est égale à

αi = ai − ai−1 .

Zaher Mohdeb (E. N. P. de Constantine) 18 / 68


Série statistique

L’histogramme est constitué de la juxtaposition de rectangles dont


les bases représentent les différentes classes et dont les surfaces
sont proportionnelles aux effectifs des classes.
A la i e classe, correspond un rectangle dont la base est l’intervalle
[ai −1 , ai [ et dont la surface est proportionnelle à la fréquence relative
fi = nni (ou à l’efectif ni ). Si toutes les classes ont la même amplitude,
les hauteurs des rectangles sont proportionnelles aux fréquences.
Dans le cas où le classes sont d’amplitudes inégales, la hauteur du
rectangle à la i e classe d’amplitude αi = ai − ai −1 sera
fi
hi = .
αi

La surface du rectangle représentant la i e classe sera ainsi égale à


ni
fi = .
n
Zaher Mohdeb (E. N. P. de Constantine) 19 / 68
Série statistique

α = a −a
i i i−1

Surface = f
i

h
i

Figure: Représentation du rectangle d’un histogramme correspondant à la i e


classe

Zaher Mohdeb (E. N. P. de Constantine) 20 / 68


Série statistique

Reprenons l’exemple 2 d’une course de vitesse de 40 participants. Les


effectifs ainsi que les fréquences relatives sont dressés dans la tableau
suivant.
Temps centre de Effectif : Fréquence
(classes) classe : xi ni relative : fi = nni
[43, 45[ 44 2 2/40
[45, 47[ 46 3 3/40
[47, 49[ 48 7 7/40
[49, 51[ 50 11 11/40
[51, 53[ 52 8 8/40
[53, 55[ 54 6 6/40
[55, 57[ 56 3 3/40
P7 P7
n = i =1 ni = 40 i =1 fi = 1

Table: Distribution statistique des données de l’exemple 2.


Zaher Mohdeb (E. N. P. de Constantine) 21 / 68
Série statistique

Histogramme des données d’une course de vitesse de 40 participants


12

10

0
44 46 48 50 52 54 56

Figure: Histogramme des données d’une course de vitesse de 40 participants.

Zaher Mohdeb (E. N. P. de Constantine) 22 / 68


Série statistique

3.3- Cas d’une variable qualitative


Les modalités d’un caractère qualitatif n’étant pas ordonnées, on les
représente par des graphiques qui utilisent des surfaces :
représentation en cercle ou demi-cercle, carrés, tuyaux, etc, ou des
volumes : sphères, cônes, cylindres, etc. Comme on ne peut pas leur
appliquer les techniques de calcul utilisées avec les nombres,
c’est-à-dire que l’on ne peut pas en donner un résumé par quelques
chiffres significatifs. L’étude graphique constitue donc une partie
importante de l’analyse de ce type de caractères.
Reprenons l’exemple 3 de l’étude de la répartition des actifs d’un
échantillon d’une population de taille n = 25 000 personnes. On
pourra représenter ces données dans un cercle, la surface attribuée à
chaque catégorie socio-professionnelle étant proportionnelle à
l’importance de la catégorie dans l’ensemble de l’échantillon de la
population étudiée. Cela donne le digramme en cercle ci-dessous :

Zaher Mohdeb (E. N. P. de Constantine) 23 / 68


Série statistique

Employés 3%
Professions intermédiaires 6%

Agriculteurs exploitants 23%

Ouvriers 15%

Cadres 24%
Artisans, commerçants, chefs d entreprise 29%

Figure: Diagramme en cercle de la répartition des actifs d’un échantillon d’une


population de taille n = 25 000 personnes.

Zaher Mohdeb (E. N. P. de Constantine) 24 / 68


Série statistique

Représentation en tuyau :
• Pour représenter les données en tuyau, on respecte le
principe de proportionnalité de la surface du tuyau
attribué à chaque modalité Ci , i = 1, . . . , k du caractère
dans la population étudiée.
• On peut également associer à chaque modalité Ci ,
i = 1, . . . , k un rectangle (tuyau) de base constante
(étant donné que la longueur de la base n’a pas de
signification) et de hauteur égale à l’effectif ni ,
i = 1, . . . , k correspondant.
• Pour obtenir un graphique plus lisible, on peut trier les
données avant, par ordre croissant ou décroissant.
Zaher Mohdeb (E. N. P. de Constantine) 25 / 68
Série statistique

30
Répartition des actifs

25

20

15

10

0
C1 C2 C3 C4 C5 C6

Figure: Représentation par tuyaux d’orgue de la répartition des actifs d’un


échantillon d’une population de taille n = 25 000 personnes. C 1 : Employés 3% ;
C2 : Professions intermédiaires 6% ; C3 : Ouvriers 15% ; C4 : Agriculteurs
exploitants 23% ; C5 : Cadres et professions intellectuelles supérieures 24% ; C 6 :
Artisans, commerçants, chefs d’entreprise 29%.
Zaher Mohdeb (E. N. P. de Constantine) 26 / 68
Série statistique

3.4- Fréquences cumulées et courbe cumulative


a) Tableau des fréquences cumulées
i) Dans le cas d’une variable statistique discrète X , de modalités
x1 , . . . , xk et d’effectifs respectifs n1 , . . . , nk , on appelle :
- effectif cumulé ou fréquence cumulée absolue, associée à une valeur
xi de la variable X , le nombre d’individus N i pour lesquels la variable X
prend une valeur inférieure (ou égale) à x i :

i
X
Ni = nj , pour i = 1, . . . , k .
j=1

- On définit de même la fréquence cumulée relative F i associée à une


valeur xi de la variable X , :

X nj i
Ni
Fi = = , pour i = 1, . . . , k .
n n
Zaher Mohdeb (E. N. P. de Constantine) j=1 27 / 68
Série statistique

ii ) Dans le cas d’une distribution continue, les données


sont en général regroupées en classes.
Les fréquences absolues, relatives et cumulées sont
définies par rapport aux classes et non par rapport aux
valeurs de la variable.

Zaher Mohdeb (E. N. P. de Constantine) 28 / 68


Série statistique

b) Fonction cumulative et courbe cumulative


La courbe cumulative ou courbe des fréquences cumulées est la
représentation graphique de la proportion F (t) des individus de la
population dont le caractère prend une valeur inférieure à t.
Cette fonction, appelée fonction cumulative ou fonction de répartition,
est :
i) définie ∀ t ∈ IR,
ii) monotone non décroissante,
iii) F (t) = 0, ∀ t < min xi ,
i =1,...,n
iv ) F (t) = 1, ∀ t ≥ max xi .
i =1,...,n
• Pour une variable statistique discrète, cette fonction est une fonction
en escalier, présentant en chacune des valeurs possibles x i , un saut égal à
la fréquence correspondante fi .
• Dans le cas d’une variable statistique X continue, la fonction cumulative
n’est connue que pour les valeurs de X égales aux extrémités des classes.
Zaher Mohdeb (E. N. P. de Constantine) 29 / 68
Série statistique

Remarque :
On peut aussi définir les fréquences pour lesquelles le caractère étudié
X est supérieur à xi . Quand on ne spécifie pas le type de fréquences
cumulées, on sous-entend qu’il s’agit des fréquences cumulées
ascendantes.
Exemples
- Cas discret : L’unité statistique (ou l’individu) étant la famille de
quatre enfants dont l’ainé(e) a moins de 16 ans. On s’intéresse au
nombre X de garçons qui la compose. La variable statistique X peut
donc prendre les valeurs : 0, 1, 2, 3 ou 4.
L’étude statistique ci-dessous porte sur un échantillon de n = 250
familles.

Zaher Mohdeb (E. N. P. de Constantine) 30 / 68


Série statistique

Valeurs de fréquence fréquence fréq. absolue fréq. relative


absolue relative cumulée cumulée
i i
ni X X nj
X ni fi = Ni = nj Fi =
n n
j=1 j=1

0 13 0.052 13 0.052
1 61 0.244 74 0.296
2 93 0.372 167 0.668
3 65 0.260 232 0.928
4 18 0.072 250 1

5
X 5
X
ni = 250 fi = 1
i =1 i =1

Zaher Mohdeb (E. N. P. de Constantine)


Table: 31 / 68
Série statistique

Diagramme en bâtons du nombre X de garçons


100

90

80

70

60

50

40

30

20

10

0
0 1 2 3 4

Figure: Diagramme en bâtons du nombre X de garçons.

Zaher Mohdeb (E. N. P. de Constantine) 32 / 68


Série statistique

Graphe des fréquences cumulées de la distribution du nombre X de garçons

1
y=F(t)

0.8

0.6
y

0.4

0.2

0
−3 −2 −1 0 1 2 3 4 5 6 7
t

Figure: Graphe des fréquences cumulées de la distribution du nombre X de


garçons d’un échantillon de 250 familles de quatre enfants dont l’aı̂né(e) a moins
de 16 ans.

Zaher Mohdeb (E. N. P. de Constantine) 33 / 68


Série statistique

- Cas continu : On s’intéresse à la durée X de service d’un guichet


qui peut servir au plus un client à la fois. On a relevé la durée de
service de n = 1000 clients consécutifs. L’unité de temps est la
seconde. Les résultats sont consignés dans le tableau 3 suivant :

Zaher Mohdeb (E. N. P. de Constantine) 34 / 68


Série statistique

Classes de fréquence fréquence fréq. absolue fréq. relative


Valeurs de absolue relative cumulée cumulée
P P n
X ni fi = nni Ni = ij=1 nj Fi = ij=1 nj

[0, 30[ 369 0.369 369 0.369


[30, 60[ 251 0.251 620 0.620
[60, 90[ 148 0.148 768 0.768
[90, 120[ 98 0.098 866 0.866
[120, 150[ 65 0.065 931 0.831
[150, 180[ 43 0.043 974 0.974
[180, 240[ 26 0.026 1000 1
7
X 7
X
ni = 1000 fi = 1
i =1 i =1

Table: Tableau 3
Zaher Mohdeb (E. N. P. de Constantine) 35 / 68
Série statistique

Histigramme de la distribution de la durée de service X


400

350

300

250

200

150

100

50

0
0 50 100 150 200 250

Figure: Histogramme de la distribution de la durée X de service (série


statistique du tableau 3).

Zaher Mohdeb (E. N. P. de Constantine) 36 / 68


Série statistique

Remarque importante :

Notons que l’histogramme a une signification statistique et que, dans


ce cas, en réalité la somme de toutes les surfaces des rectangles de
l’histogramme doit être égale à 1.
Autrement dit, toutes les surfaces

Si = hi (ai − ai −1 ) = fi , i = 1, . . . , n,

où ai − ai −1 est l’amplitude de la i e classe et hi la hauteur


correspondant e
Pk Pk au rectangle de la i classe, ce qui entraine bien
i =1 Si = i =1 fi = 1.

Zaher Mohdeb (E. N. P. de Constantine) 37 / 68


Série statistique

Cependant, l’histogramme peut être également représenté


en conservant l’allure de l’évolution des fréquences en
prenant en compte le caractère de proportionnalité (même
coefficient) pour toutes les surfaces des rectangles de
l’histogramme par rapport aux fréquences relatives
correspondantes. Ce qui revient à prendre des surfaces
σi = Hi (ai − ai−1) = α fi , i = 1, . . . , n,
avec α coefficient de proportionnalité constant. Ainsi la
hauteur du rectangle correspondant à la i e classe est
donnée par
α
Hi = fi , i = 1, . . . , n.
ai − ai−1
Zaher Mohdeb (E. N. P. de Constantine) 38 / 68
Série statistique
1
- Pour α = 1, on retrouve hi = fi , i = 1, . . . , n, dont la
ai − ai −1
représentation graphique c’est-à-dire
P l’histogramme
P correspondant a
bien une signification statistique ( ki=1 Si = ki=1 fi = 1).
- Si toutes les classes ont la même amplitude, on peut représenter
l’histogramme avec des rectangles dont les hauteurs sont égales aux
fréquences correspondantes.
- Cependant, dans le cas où les classes sont d’amplitudes inégales, il
faut tenir compte du caractère de proportionnalité des surfaces des
rectangles de l’histogramme par rapport aux fréquences relatives
correspondantes. C’est le cas, par exemple de la variable représentant
la durée X de service d’un guichet qui peut servir au plus un client à
la fois (voir tableau 3). La dernière classe [180, 240[ a une amplitude
est égale au double de celle des autres classes, ce qui justifie la
26
hauteur correspondante h7 = = 13 (voir figure 8).
2
Zaher Mohdeb (E. N. P. de Constantine) 39 / 68
Série statistique

0.8

0.6

0.4

0.2

0
15 45 75 105 135 165

Figure: Courbe cumulative de la distribution de la durée X de service d’un


guichet. − Histogramme des fréquences relatives cumulées.

Zaher Mohdeb (E. N. P. de Constantine) 40 / 68


Les indicateurs de tendance centrale et de position

4- Distributions (séries) statistiques et représentations


graphiques
4.1- Les indicateurs de tendance centrale et de position
4.1.1- Le mode
Définition
Le mode est la valeur de la variable statistique qui correspond au plus
grand effectif.

Remarque :
- Lorsque la variable statistique est discrète, le mode se définit donc à
l’aide du tableau de distribution ou du diagramme en bâtons.
- Lorsque la variable statistique est continue, la classe modale est la
classe dont la fréquence par unité d’amplitude est la plus élevée.
- Par ailleurs, le mode peut ne pas être unique.
Zaher Mohdeb (E. N. P. de Constantine) 41 / 68
Les indicateurs de tendance centrale et de position

4.1.2- La moyenne arithmétique


Définition
On appelle moyenne arithmétique, la somme de toute les données
statistiques divisée par le nombre de ces données.
Ainsi, si on considère une série statistique {(x1 , n1 ), . . . , (xk , nk )}, où
les xi , i = 1, . . . , k sont les valeurs observées de la variable statistique
X , (dans le cas continu, les xi , i = 1, . . . , k représentent les centres
des classes : [a0 , a1 [, . . . , [ak−1 , ak [), la moyenne empirique notée x est
donnée par
k k
1X X
x= ni xi , où n = ni
n i =1 i =1
ou bien
k
X ni
x= fi x i , où fi = , i = 1, . . . , k .
i =1
n
Zaher Mohdeb (E. N. P. de Constantine) 42 / 68
Les indicateurs de tendance centrale et de position

Propriétés de la moyenne arithmétique


k k
1X X
• ni (xi − x) = fi (xi − x) = 0, en effet,
n
i=1 i=1

k
X k
X k
X
fi (xi − x) = fi x i − x fi = x − x ,
i=1 i=1 i=1
Pk Pk ni
puisque i=1 fi = i=1 n = 1.
• Si X et Y sont deux variables statistiques vérifiant la
relation affine Y = aX + b, alors sa moyenne arithmétique
subit la même transformation : y = a x + b.

Zaher Mohdeb (E. N. P. de Constantine) 43 / 68


Les indicateurs de tendance centrale et de position

• Soit X , une variable statistique observée sur une population P de


taille n partagée en deux Psous-populations PP 1 de taille n1 et P2
de taille n2 , avec x 1 = n1 j=1 νj ξj et x 2 = n2 kj=1
1 k1 1 2
νk1 +j ξk1 +j .
Alors, on peut exprimer la moyenne x de X en fonction des moyennes
x 1 sur P1 et x 2 sur P2 en remarquant que la somme totale
n x = n 1 x 1 + n2 x 2 ,
(en effet,
P P1 P2
n x = kj=1 νj ξj = kj=1 νj ξj + kj=1 νk1 +j ξk1 +j = n1 x 1 + n2 x 2 , où
P k1 P k2
n1 = j=1 νj , n2 = j=1 νk1 +j et k1 + k2 = k).
Ce résultat se généralise à une partition en p sous-populations
P
(p ≥ 2), chacune de taille nj , j = 1, . . . , p avec pj=1 nj = n :
p
1X
x= nj x j .
n j=1

Zaher Mohdeb (E. N. P. de Constantine) 44 / 68


Les indicateurs de tendance centrale et de position

Exemples
- Reprenons l’exemple de la variable statistique X représentant le nombre
de garçons composant les n = 250 familles de quatre enfants dont
l’aı̂ne(e) a moins de 16 ans (série statistique du tableau 2). La valeur
moyenne de X est :
1
x= (13 × 0 + 61 × 1 + 93 × 2 + 65 × 3 + 18 × 4) = 2.056 .
250
- Pour ce qui est de l’exemple de la variable statistique X représentant la
durée de service d’un guichet qui peut servir au plus un client à la fois
(n = 1000 clients) (série statistique du tableau 3), la valeur moyenne du
temps de service :
1
x= (369×15+251×45+148×75+98×105+65×135+43×165+26×210)
1000
P
(x = ki=1 ni xi , les xi étant les centres de classe).
Zaher Mohdeb (E. N. P. de Constantine) 45 / 68
Les indicateurs de tendance centrale et de position

Remarque : La moyenne est influencée par toutes les


valeurs et est malheureusement très sensible aux valeurs
extrêmes, au point d’en perdre parfois une bonne partie
de sa représentativité, surtout dans des échantillons de
petite taille. Ainsi, la moyenne des six salaires mensuelles
suivants :

3 500, 4 200, 4 600, 5 000, 6 200, 36 500

est égale à 10 000, alors qu’un seul salaire dépasse cette


moyenne.

Zaher Mohdeb (E. N. P. de Constantine) 46 / 68


Les indicateurs de tendance centrale et de position

4.1.3- La médiane et les quantiles


Définition
La médiane (notée Me) est la valeur de la variable
statistique telle qu’il y ait autant d’observations
supérieures et d’observations inférieures à cette valeur
(Me).
Autrement dit, c’est la valeur de la variable statistique qui
partage la population en deux populations d’effectifs
égaux.

Zaher Mohdeb (E. N. P. de Constantine) 47 / 68


Les indicateurs de tendance centrale et de position

Recherche pratique de la médiane


Pour déterminer une médiane d’un ensemble de valeurs de la variable
statistique X discrète, il suffit d’ordonner les valeurs en une liste
croissante (chaque valeur xi de la variable doit apparaı̂tre un nombre
de fois égal à l’effectif ni correspondant).
- Si la taille n de l’échantillon est impaire, c’est-à-dire : n = 2N + 1,
la médiane Me est la valeur de la variable située au milieu,
c’est-à-dire la valeur de profondeur N + 1 (la (N + 1)e valeur de la
série statistique ordonnée sous forme de liste).
- Si la taille n de l’échantillon est paire, c’est-à-dire : n = 2N, toute
valeur comprise entre le N e élément et le (N + 1)e élément de la série
statistique ordonnée est une médiane ; en pratique, dans le cas d’une
liste de nombres, la médiane Me est la demi-somme de deux valeurs
centrales qui est le plus souvent utilisée, mais, dans ces conditions, ce
n’est pas une valeur observée.
Zaher Mohdeb (E. N. P. de Constantine) 48 / 68
Les indicateurs de tendance centrale et de position

Exemples
1) On considère la série statistique sivante (tableau 4)
P Pi nj
X ni fi = nni Ni = ij=1 nj Fi = j=1 n

7 2 2/10 2 2/10
8 1 1/10 3 3/10
9 1 1/10 4 4/10
10 1 1/10 5 5/10
11 2 2/10 7 7/10
14 1 1/10 8 8/10
16 2 2/10 10 1

P7 P7
i =1 ni = 10 i =1 fi =1

Zaher Mohdeb (E. N. P. de Constantine) 49 / 68


Les indicateurs de tendance centrale et de position

Dans cet exemple d’observations, il y a n = 10


observations (nombre pair) et 5 individus dont la
caractère est inférieur ou égal à 10 et 5 individus dont la
caractère est supérieur ou égal à 11 :

7; 7; 8; 9; 10;
| {z 11}; 11; 14; 16; 16
Me

Dans ce cas (n pair), la médiane Me est la demi-somme


des 2 valeurs situées au milieu. D’où
10 + 11
Me = = 10.5
2

Zaher Mohdeb (E. N. P. de Constantine) 50 / 68


Les indicateurs de tendance centrale et de position

0.9

0.8 y=F(t)
0.7

0.6
y=0.5
0.5
y

0.4

0.3

0.2

0.1

0 2 4 6 8 10 12 14 16 18
t

Figure: Courbe cumulative de la série statistique du tableau 4.

Zaher Mohdeb (E. N. P. de Constantine) 51 / 68


Les indicateurs de tendance centrale et de position

2) Considérons maintenant la série statistique suivante (tableau 5).


P P nj
X ni fi = nni Ni = ij=1 nj Fi = ij=1 n

6 3 3/13 3 3/13
8 1 1/13 4 4/13
9 2 2/13 6 6/13
12 1 1/13 7 7/13
13 3 3/13 10 10/13
17 3 3/13 13 1

P6 P6
i =1 ni = 13 i =1 fi =1

Table:
Zaher Mohdeb (E. N. P. de Constantine) 52 / 68
Les indicateurs de tendance centrale et de position

Dans cet exemple (tableau 5), il y a un nombre n = 13


impair d’observations. La médiane Me est la valeur située
au milieu des observations ordonnées une à une par ordre
croissant.
D’où Me = 12,
6; 6; 6; 8; 9; 9; 12 ;
|{z} 13; 13; 13; 17; 17; 17
Me

Zaher Mohdeb (E. N. P. de Constantine) 53 / 68


Les indicateurs de tendance centrale et de position

0.9
y=F(t)
0.8

0.7

0.6
y=0.5
0.5
y

0.4

0.3

0.2

0.1

0 5 10 15 20
t

Figure: Courbe cumulative de la série statistique du tableau 5.

Zaher Mohdeb (E. N. P. de Constantine) 54 / 68


Les indicateurs de tendance centrale et de position

• Pour les variables statistiques continues, la valeur médiane Me


est telle que F (Me) = 0.5, où F est la fonction cumulative de la
variable statistique. On commence par chercher la classe médiane à
l’aide des fréquences cumulées, la classe médiane [a i −1 , ai [ étant telle
que
i −1 i
X nj X nj
Fi −1 = < 0.50 et Fi = > 0.50 .
j=1
n j=1
n
La valeur de la médiane s’obtient ensuite par interpolation linéaire.
Me − xi −1 0.5 − Fi −1 0.5 − Fi −1
= = ,
xi − xi −1 Fi − Fi −1 fi
ce qui entraine que
0.5 − Fi −1
Me = xi −1 + (xi − xi −1 ) . (1)
Fi − Fi −1
Zaher Mohdeb (E. N. P. de Constantine) 55 / 68
Les indicateurs de tendance centrale et de position

C
Fi

B
0.5

F
i−1
A D E

0
xi−1 Me xi

Figure: Détermination graphique de la médiane pour une variable continue.

Zaher Mohdeb (E. N. P. de Constantine) 56 / 68


Les indicateurs de tendance centrale et de position

Remarques
1) Notons qu’une seule observation très élevée (ou très
faible) peut influencer fortement la valeur de la moyenne ;
alors que la médiane peut supporter sans être modifiée
qu’une moitié des observations soit très élevée (ou très
faible). On dit que la médiane est résistante (robuste).
2) Dans le cas de distribution unimodale, la médiane est
fréquemment comprise entre la moyenne arithmétique et
le mode et plus près de la moyenne que du mode.
Si la distribution est symétrique, ces trois caractéristiques
de tendance centrale sont confondues (voir les figures 13).
Zaher Mohdeb (E. N. P. de Constantine) 57 / 68
Les indicateurs de tendance centrale et de position

0
Mode=Med=Moy

0 0
Mode Med Moy Moy. Med. Mode

Figure: Positions respectives du mode (Mode), de la médiane (Med.) et de la


moyenne (Moy.).

Zaher Mohdeb (E. N. P. de Constantine) 58 / 68


Les indicateurs de tendance centrale et de position

b) Les quantiles
Les quantiles sont des indicateurs de position.
Définition
Le quantile d’ordre α, (0 ≤ α ≤ 1), noté xα est tel qu’une
proportion α des individus de la population (l’échantillon)
ait une valeur du caractère X inférieure ou égale à xα .

Par exemple le quantile x0.5 est égal à la médiane.

Zaher Mohdeb (E. N. P. de Constantine) 59 / 68


Les indicateurs de tendance centrale et de position

On utilise couramment les quantiles d’ordre 1/4, 1/2 et 3/4. Ils sont
ainsi notés et nommés :

Q1 = premier quartile = x0.25


Q2 = deuxième quartile = médiane = Me = x0.50
Q3 = troisième quartile = x0.75

Les quartiles se déterminent, comme la médiane, à l’aide des


fréquences cumulées.
Il suffit pour le premier quantile Q1 , de situer où se trouve la valeur
de la variable correspondant à 1/4 de l’effectif total sur la colonne des
fréquences (ou effectifs) cumulées (0.25 sur la colonne des fréquences
relatives cumulées).
Pour le troisième quartile, nous avons à situer 3/4 de l’effectif total
(ou 0.75 sur la colonne des fréquences relatives cumulées).

Zaher Mohdeb (E. N. P. de Constantine) 60 / 68


Les indicateurs de tendance centrale et de position

Remarques
• Q3 − Q1 est appelé l’écart interquartile,
• ]Q1 , Q3 [ est appelé intervalle interquartile.
- Interprétation
• 25% de la population admet une valeur de la variable (du caractère)
entre la plus petite valeur des observations et Q1 .
• 25% de la population admet une valeur de la variable entre Q 1 et
Me.
• 25% de la population admet une valeur de la variable entre Me et
Q3 .
• 25% de la population admet une valeur de la variable entre Q 3 et la
plus grande valeur des observations.

Zaher Mohdeb (E. N. P. de Constantine) 61 / 68


Les indicateurs de tendance centrale et de position

Exemples
1) Reprenons l’exemple des données du tableau 4. On a
1
Q1 = min{x ∈ IR / F (x) ≥ = 0.25} ,
4
où F est la fonction cumulative.
D’après le tableau 4, on a F (7) = 0.20 et F (8) = 0.30
=⇒ Q1 = 8 .
Par ailleurs
3
Q3 = min{x ∈ IR / F (x) ≥ = 0.75} ,
4
d’après le tableau 4, on a F (11) = 0.7 et F (14) = 0.8
=⇒ Q3 = 14 .
Zaher Mohdeb (E. N. P. de Constantine) 62 / 68
Les indicateurs de tendance centrale et de position

2) Reprenons, maintenant, l’exemple des données du


tableau 5. On a
F (6) = 0.23 et F (8) = 0.30 =⇒ Q1 = 8
et
F (12) = 0.53 et F (13) = 0.76 =⇒ Q3 = 13 .
Par ailleurs, on a déjà vu que la médiane Me = 12, ce qui
entraine que l’écart interquartile Q3 − Q1 = 13 − 8 = 5.
Remarque : Dans le cas d’une variable statistique
continue, le calcul de Q1 et Q3 se fait en suivant la même
démarche que celle du calcul de la médiane.

Zaher Mohdeb (E. N. P. de Constantine) 63 / 68


Les indicateurs de tendance centrale et de position

4.2- Les indicateurs de dispersion (paramètres de dispersion)


4.2.1- L’étendue
L’étendue est la différence entre la plus grande et la plus petite des
valeurs observées :
Etendue = max xi − min xi
i =1,...,n i =1,...,n

Cette mesure de la dispersion ne dépend que des valeurs extrêmes.


4.2.2- L’étendue interquartile De par la définition des quartiles,
l’intervalle interquartile [Q1 , Q3 ] contient 50 % des observations. Sa
longueur, notée EIQ (Etendue Inter-Quartile), est un indicateur de
dispersion :
EIQ = Q3 − Q1 .
Notons que le calcul de l’étendue inter-quartile a l’avantage par
rapport a celui de l’étendue d’écarter les valeurs extrêmes, souvent
sans signification.
Zaher Mohdeb (E. N. P. de Constantine) 64 / 68
Les indicateurs de tendance centrale et de position

4.2.3- L’écart-type et variance


La variance d’une variable statistique X , notée Var (X ), est la moyenne
arithmétique des carrés des écarts à la moyenne arithmétique x :
k
1X
Var (X ) = ni (xi − x)2
n
i =1
k
1 X
= ni xi2 − x 2 .
n
i =1
Dans le cas d’une variable statistique continue, on ramène la valeur de
chaque individu au milieu de sa classe d’affectation (x i : centre de la i e
classe).
L’écart-type noté SX d’une variable statistique X est la mesure de
dispersion la plus couramment utilisée. Il se définit comme la racine carrée
de la variance : p
SX = Var (X ) .
Zaher Mohdeb (E. N. P. de Constantine) 65 / 68
Les indicateurs de tendance centrale et de position

Propriétés
1. On montre que la variance est le plus petit écart
quadratique moyen, c’est-à-dire :
k
1X
Var (X ) ≤ ni (xi − C )2 , ∀C ∈ IR .
n
i=1

2. Lorsque deux variables X et Y sont en correspondance


par le changement d’origine x0 et le changement d’échelle
a, les écart-types se correspondent par le seul changement
d’échelle a pris en valeur absolue, c’est-à-dire :
Y = aX + x0 ⇒ SY = |a|SX .
Zaher Mohdeb (E. N. P. de Constantine) 66 / 68
Les indicateurs de tendance centrale et de position

3. Soit une population P de taille n composée de deux


sous-populations P1 de taille n1 et P2 de taille n2 .
Soit X , une variable statistique observée sur la population P, on peut
exprimer sa variance Var (X ) en fonction de x, x 1 , x 2 , Var (X1 ) et
Var (X2 ) :

1h 2 2
i
Var (X ) = n1 Var (X1 ) + n2 Var (X2 ) + n1 (x 1 − x) + n2 (x 2 − x) .
n

Il faut bien remarquer que la variance de X sur P est la somme


pondérée des variances de X sur P1 et P2 augmentée de la somme
pondérée des carrés des différences entre la moyenne de X sur P et
les moyennes sur P1 et P2 .
Ce résultat se généralise à une partition en k sous-populations
(k ≥ 2).
Zaher Mohdeb (E. N. P. de Constantine) 67 / 68
Rappel

Ce qu’il faut absolument savoir


1) Dessiner un histogramme
2) Dessiner un diagramme à secteurs
3) Dessiner un polygone des fréquences cumulées
4) Calculer une moyenne, un écart-type, une médiane, un
intervalle interquartile et un mode dans le cas discret
5) Calculer une moyenne, un écart-type, une médiane, un
intervalle semi-interquartile et un mode dans le cas
continu.

Zaher Mohdeb (E. N. P. de Constantine) 68 / 68

Vous aimerez peut-être aussi