Vous êtes sur la page 1sur 29

MUS ILT

Statistiques descriptives
Par M. AKHIAT

Chapitre I : Généralités sur les statistiques

I) Définitions et terminologie

Définition I.1
La statistique descriptive est l’ensemble des méthodes et techniques permettant de présenter,
décrire, de résumer des donnés nombreuses et variées.

Définition I.2
On peut définir aussi la statistique descriptive comme l’instrument statistique qui permet de
donner un sens, une expression à l’information recueillie.

L’un des objectifs de la statistique est d’étudier les propriétés numériques et les caractères
d’ensembles comportant de nombreux individus ou unités statistiques

Définitions I.3
1- Population (statistique) ou ensemble statistique désigne un ensemble d’unités
statistique ou ensemble d’individus on le note Ω.
2- Individus ou unités statistique sont les entités abstraites qui représentent des
personnes, des populations d’animaux, des objets ou des nombres, on le note ω ou ωi
avec 1≤ i ≤ N si la population contient N individus.

Donc la statistique descriptive sert à décrire l’ensemble des unités statistique ou individus
qui composent la population.

On commence par compter ces unités, la première information statistique que l’on tire
d’une population est en effet le nombre de ses unités (individus).

Définitions I.4
1- On appelle échantillon de taille n un ensemble constitué de n individus tirés d’une
population statistique qu’on note E.
2- L’effectif total de la population est le nombre N d’individus qui la constituent.

Population : Ω

x
x Echantillon: E
x x x x
x
x x x
x x

Individus: ωi 1
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Remarque I.1
Le formalisme mathématique permet de résumer les définitions précédentes sous la forme
suivante :

ω Є Ω : ω appartient à Ω (ωi Є Ω 1≤ i ≤ N )

E C Ω : E est inclus dans Ω

Card(Ω)=N : Le cardinal (nombre d’élément) de Ω est N

Exemple I.1
Une association professionnelle regroupe 1000 membres un rapport statistique concernant la
rémunération des membres. Les 1000 membres constituent ce qu’on appelle population
statistique, chaque membre est une unité statistique ou individus de cette population.

Dans une étude statistique on s’intéresse à certains particularités des individus, ces
particularité ce que nous appelons caractères. Dans l’exemple précédent les membres de
l’association professionnelle se caractérise par leur rémunération.

II ) Caractères

Définitions II.1
On appelle caractère tout aspect particulier des individus auxquels on s’intéresse.

On distingue différents types de caractères selon la nature des résultats de l’observation.

Définitions II.2
1- Un caractère est dite qualitatif, ou nominal, si ses valeurs sont des attributs ou des
modalités.
2- Un caractère est dite quantitatif ou numérique si ses valeurs sont des résultats d’une
mesure, c’est-à-dire sont des nombres.

Mathématiquement un caractère peut être considéré comme une application, noté X, de


l’ensemble Ω (la population) vers un autre ensemble V qui à tout individus ω, associe une
valeur x= X(ω), et une seul.

X:Ω V

ω X(ω) = x

2
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Remarques II.1
1- Lorsque il s’agit d’un caractère qualitatif X est dite variable qualitative.
2- Une variable quantitatif peut être discrète ou continue, elle est discrète s’elle prendre
qu’un nombre fini ou limités de valeurs. Lorsque la variable peut prendre toutes les
valeurs d’un intervalle fini ou infini elle est dite continue

III ) Série statistique discrète – série statistique continue

Définitions III.1
1- On appelle série statistique discrète tout p uplet (xi , ni)1≤ i ≤ p noté aussi
{(x1 , n1), (x2 , n2),…, (xp , np) } ou ni est le nombre d’individus de l’échantillon
pour lesquels le caractère observé prend la valeurs xi.

2- On appelle série statistique continue tout p uplet ([ ei-1 , ei[ , ni) 1≤ i ≤ p noté aussi
{([ e0 , e0+1[ , n1) , ([ e2 , e1+1[ , n2) ,…, ([ ep-1 , ep [ , np) } ou ni est
le nombre d’individus de l’échantillon pour lesquels le caractère observé
prend une valeur dans l’intervalle [ ei-1 , ei[.

III.1) Présentation en Tableau

Le recueil des données fournit un tableau à deux colonnes dit Tableau des données
ponctuelles

Individus valeurs
ω1 x1
ω2 x2
ω3 x1
ω4 x4
ω5 x2
ω6 x3
ω7 x2

Ce tableau lourd à gérer, donc dans le pratique ce tableaux est remplacé par le tableau de
distribution des observations.

valeurs Individus
x1 {ω1 , ω3}
x2 {ω2 , ω5, ω7 }
x3 {ω6 }
x4 {ω7 }

3
MUS ILT
Statistiques descriptives
Par M. AKHIAT

III.2) Effectifs fréquences

Soit (xi , ni)1≤ i ≤p (respectivement ([ ei-1 , ei[ , ni) 1≤ i ≤p ) une série statistique :

1- Les valeurs (xi )1≤ i ≤p (respectivement ([ ei-1 , ei[ ) 1≤ i ≤p ) définissent une partition
des individus de l’échantillon en classes disjointes.
2- ni est appelé effectif de la classe définie par xi (respectivement la classe définie par
([ ei-1 , ei[ ) 1≤ i ≤ p ).
𝒑
3- L’entier 𝐍 = 𝒊=𝟏 𝐧𝐢 est appelé effectif total de la série statistique.
𝐧𝐢
4- Le rapport 𝐟𝐢 = est appelé fréquence de la classe définie par xi (respectivement la
𝐍

classe définie par ([ ei-1 , ei[ ) 1≤ i ≤ p ).


𝒊
5- 𝑭𝒊 = 𝒋=𝟏 𝐟𝐣 est appelé fréquence cumulée croissante.
𝒑
6- De même on obtient la fréquence cumulées décroissante : 𝐹𝑖↘ = fi+fi+1+…+fp= 𝒋=𝟏 𝒇𝒋

Exemples III .1

1) Le tableau suivant donne le nombre de voitures qui possède chacun des 100 chefs de
famille interrogés.

Nombre de
0 1 2 3
voiture
Effectifs 13 44 39 4
Fréquence 13/100=0.13 44/100=0.44 39/100=0.39 4/100=0.04
Fréquences
0.13 0.13+0.44=0.57 0.57+0.39=0.96 0.96+0.04=1
cumulée

2) Budget publicitaire de chaque entreprise exprimé en centaine de milliers de dirhams.

Budget
[0 , 0.2[ [0.2 , 0.8[ [0,8 , 1[ [1 , 3[ [3 , 10[
publicitaire
Nombre
31 25 14 6 4
d’entreprise
Fréquence 31/80=0.3875 25/80=0.3125 14/80=0.175 6/80=0.075 4/80=0.05
Fréquences 0.3875+0.3125 0.95+0.05=
0.3875 0.7+0.175=0.875 0.875+0.075=0.95
cumulées =0.7 1

4
MUS ILT
Statistiques descriptives
Par M. AKHIAT

IV ) Représentations Graphiques

Pour faire le synthèse visuelle de l’information contenue dans les données brutes, il est
recommandé de représenter ces dernières par le dessin. Cette représentation s’appelle un
graphique.

Pour chaque type de caractères on distingue différentes sortes de graphiques.

IV.1) Les caractères qualitatifs

a) Le diagramme circulaire :

C’est un disque divisé en un nombre de secteurs égal au nombre de modalités tel que l’angle
au centre de chaque secteur est proportionnelle à la fréquence (ou à l’effectif) de la modalité
correspondante.

Si αi est l’angle au centre du secteur i, alors

αi = k × f i pour i=1,…,p

En somment sur les P secteurs, on obtient


𝑝 𝑝
𝑖=1 𝛂𝐢 = C× 𝑖=1 𝐟𝐢 360°= C× 1 C=360°

Donc les αi vérifiant αi =360°× fi pour i=1,…,p. Ou bien αi =3.6× fi %

Exemple IV .1

On relève l’état matrimonial de 20 personnes âgées de plus de 40 ans et on obtient la série


suivante : M ,C, D, D, C, D, M, M, M, M, V, M, C, C, D, M, M, C, M, M.

Où M désigne mariée

C désigne célibataire

D désigne divorcé

V désigne veuve

Donc on dispose de 4 modalités M, C, D et V d’effectifs respectifs 10, 5, 4 et 1.

Le tableau statistique correspondant est comme suit:

5
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Modalités xi Effectif ni Fréquence fi(%) αi (en °)


M 10 50% 180
C 05 25% 90
D 24 20% 72
V 01 5% 18
Total 20 100% 360

5%

20% M

50% C

25% D
V
Representation selon l'état matrimonial de
20 personnes agées de plus 40 ans

b) Le graphique en tuyaux d’orgue

Il consiste en une suite de rectangles de base constante dont les hauteurs sont égales
aux fréquences (ou aux effectifs). En général les rectangles sont des donnés du plus
grand au plus petit en partant de l’origine du repère.

Exemple IV .2
On prend toujours le même exemple.

Representation selon l'état matrimonial de 20 personnes agées


de plus 40 ans
60%
50%
40%
30%
20%
10%
0%
M C D V

6
MUS ILT
Statistiques descriptives
Par M. AKHIAT

IV.2) Les caractères quantitatifs

a) Cas des variables statistique discrètes :


i) Diagramme en bâtons :
A chaque modalité xi (représenter sur l’axe des abscisses) on associe un segment
vertical de longueur égal à fi ( ou ni) (représenter sur l’axe des ordonnées )

Exemple IV .3
On désire étudier une population de 100 entreprises selon le nombre de cadres, le recensement
à été fait par société A à une date t. Le tableau statistique obtenu est le suivant.

Nombres
Nombres de cadres xi fi (%) Fi (%)
d’entreprises ni
1 30 30 30
2 40 40 70
3 20 20 90
4 10 10 100
Total 100 100 -------

Le diagramme en bâton est le suivant :

fi

50

40

30

20

10

0 1 2 3 4 Nombre de cadres xi

ii) Courbe cumulative :

Définitions IV.1
On appelle fonction de répartition F(x), la fonction qui à chaque x de R associe la proportion
d’individus pour lesquels la valeur de la variable X est inferieur ou égal à x.

Si on note Ex={ ω Є Ω / X(ω) ≤ x}. Alors la fonction de répartition du variable statistique X


est la fonction F : R [0, 1]
𝐜𝐚𝐫𝐝(𝐄𝐱 )
x F(x) = 𝐍

7
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Conclusion : F(x) = Fi si xi-1 ≤ x ≤ xi

La représentation graphique de F(x) est appelée courbe cumulative c’est une courbe en
escalier dont les paliers sont horizontaux puisque F(x) est constante sur chaque intervalle
[xi-1, xi[.

Propriétés de F(x)

i- F(x)=0 si x < x0
ii- F(x)=1 si x > xp
iii- F(-∞)=0 et F(+∞)=1
iv- F est constante sur chaque intervalle séparant deux modalité

Exemple IV .4

On reprend l’exemple de nombre de cadres

100
90
80
70
60
50
40
30
20
10
0
1 2 3 4

Courbe cumulative dans le cas d’une variable statistique


discrète

b) Cas des variables statistique continue :

i) Histogramme:
On associe à chaque classe dont la base est égale à l’amplitude de la classe et dont la
hauteur est de telle sorte que sa surface soit proportionnelle à la fréquence de la classe.
Donc c’est représentation en surface.
Deux cas peuvent se présenter :

8
MUS ILT
Statistiques descriptives
Par M. AKHIAT

1) Les amplitudes des classes sont tous égales : la hauteur est alors prise égale à la
fréquence de la classe correspondante.

Exemple IV .4
Dans une entreprise, une enquête statistique a été faite sur 100 employés selon leur
salaire mensuel en KDH :

Nombres
Classes en KDH fi hi
d’employés : ni
[1.2, 1.4[ 40 0.4 0.4
[1.4, 1.6[ 20 0.2 0.2
[1.6, 1.8[ 30 0.3 0.3
[1.8, 2[ 10 0.1 0.1
Total 100 1

Notons ai l’amplitude de la ième classe. D’après le tableau ci-dessus : ai = 0.2 KDH=a


pour i=1,..,4. Les amplitudes sont donc égales, la hauteur de chaque rectangle est égale
à la fréquence de la classe correspondante hi=fi.

hi
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0 1.2 1,4 1,6 1.8 2

Histogramme : Répartition des employés selon le


salaire mensuel

2) Les amplitudes des classes ne sont pas égales : on procède en deux étapes

Choix de l’amplitude de référence ar . Généralement, elle est choisie comme étant la


plus petite des amplitudes ou bien la plus fréquentée.

Correction de la fréquence dont l’amplitude de la classe correspondante, est différente


de ar :
𝐚
Soit ai l’amplitude de cette classe, alors fi’ =𝐚𝐫 ×fi
𝐢

9
MUS ILT
Statistiques descriptives
Par M. AKHIAT

fi’ est appelée fréquence corrigée de la ième classe. On prend alors pour hauteur du
rectangle correspondant à la ième classe : hi = fi’.

Exemple IV .5

On reprend l’exemple des 100 employés. Mais cette fois-ci, on regroupe les deux
premières classes.

Classes en
fi ai l hi = fi’
KDH
[1.2, 1.5[ 0.6 0.3 3 0.2
[1.5, 1.7[ 0.3 0.2 2 0.15
[1.7, 1.8[ 0.1 0.1 1 0.1
Total 1 ar=0.1
0,25

0,2
Histogramme : Répartition des employés selon le
0,15 salaire mensuel

0,1

0,05

0
1.2 1.5 1.7 1.8
.7

i) Polygone de Fréquences:

On construit le polygone de fréquence à partir de l’histogramme. On l’obtient en joignant, par


des segments de droites, les milieux des sommes des rectangles correspondants aux classes
d’amplitudes égales, de telle sorte que l’aire soit égale à l’aire totale de l’histogramme.

Pour remplir cette condition, on est amené à ajouter aux extrémités de l’histogramme deux
rectangles fictifs de hauteur nulle et de base égale à l’amplitude de référence ar

10
MUS ILT
Statistiques descriptives
Par M. AKHIAT

0,25 Polygone de fréquence : Répartition des employés


selon le salaire mensuel
0,2

0,15

0,1

0,05

0
1.1 1.2 1.5 1.7 1.8 1.9
.7

iii) Courbe cumulative:

On construit la courbe de la fréquence cumulée en joignant les points (ei, Fi), où ei est la
borne supérieur de la ième classe [ei-1, ei[ et Fi est la fréquence cumulée de la ième classe.

Revenons à notre exemple du salaire mensuel des 100 employés et essayons de tracer la
courbe cumulative.

Classes en
fi Fi (ei, Fi)
KDH
[1.2, 1.5[ 0.6 0.6 (1.5 , 0.6)
[1.5, 1.7[ 0.3 0.9 (1.7 , 0.9)
[1.7, 1.8[ 0.1 1 (1.8 , 1)
Total 1

Fi
1,2
1
0,8
0,6
0,4
0,2
0 xi
1,2 1,5 1,7 1,8

Remarque IV.1

L’un des avantages de cette courbe est qu’elle nous permet de calculer toutes les proportions
qu’on désire. Par exemple le lecture du tableau tout seul ne nous permet pas de répondre à la
question : Quelle est la proportion des employés ayant un salaire inférieur à 1.4 KDH ?. Or
d’après la graphique ci-dessus, la proportion cherchée est l’image par la courbe cumulative de
l’abscisse 1.4 ce qui donne 0.4 ou bien 40%.

11
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Définitions, compléments et exemples

1- Effectifs cumulés croissants : On obtient le ième effectif cumulé croissant, qu’on note
𝒊
Ni , en sommant les i premières effectifs Ni = n1+n2+…+ni= 𝒋=𝟏 𝒏𝒋

2- Effectifs cumulés décroissants : On obtient le ième effectif cumulé décroissant, qu’on


𝒑
note 𝑁𝑖↘ , en sommant les i premières effectifs 𝑁𝑖↘ = ni+ni+1+…+np= 𝒋=𝟏 𝒏𝒋

Reprenons l’exemple IV.3 dont On désire étudier une population de 100 entreprises selon le
nombre des cadres, le recensement à été fait par société A à une date t. Le tableau statistique
obtenu est le suivant.

Nombres de Nombres
fi Ni 𝑵𝒊↘ Fi 𝑭𝒊↘
cadres xi d’entreprises ni
1 30 0.3 30 100 0.3 1
2 40 0.4 70 70 0.7 0.7
3 20 0.2 90 30 0.9 0.3
4 10 0.1 100 10 1 0.1
Total 100 1 ------- ------- ------- -------

Combien d’entreprises ont au plus 3 cadres ?

N3 =n1+n2+n3= 30+40+20=90 cela veut dire qu’il ya 90 entreprises qui ont au plus 3 cadres.

Et F3=f1+f2+f3=0.9=90% cela veut dire qu’il ya90% d’entreprise qui ont au plus 3 cadres.

Combien d’entreprise ont au moins 2 cadres ?

Donc on a besoin de calculer le 2ème effectif cumulé décroissant 𝑵𝟐↘ = n2+n3+n4=70. On dit
qu’il ya 70% des entreprises qui ont au moins deux cadres et puisque 𝑭𝟐↘ = f2+f3+f4=0.7=70%

Reprenons l’exemple IV.4 : Dans une entreprise, une enquête statistique a été faite sur 100
employés selon leur salaire mensuel en KDH :
Nombres 𝑭𝒊 ↘
Classes en KDH fi Fi
d’employés : ni
[1.2, 1.4[ 40 0.4 0.4 1
[1.4, 1.6[ 20 0.2 0.6 0.6
[1.6, 1.8[ 30 0.3 0.9 0.4
[1.8, 2[ 10 0.1 1 0.1
Total 100 1 ------- --------

12
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Combien d’employés qui touchent entre 1.2 et 1.4 KDH ?

f1=0.4 veut dire qu’il ya 40% d’employés qui touchent entre 1.2 et 1.4 KDH

Combien d’employés qui gagnent moins de 1.6 KDH ?

F2=0.6 signifie que 60% des employés gagne moins de 1.6 KDH.

Combien d’employés qui gagnent plus de 1.6 KDH ? 𝐹3↘ = 1-F2=0.4=40%

signifie que 60% gagnent plus de 1.6 KDH

II ) Tendance centrale dans les Distributions à un caractère

Récapitulatif : Représentations des séries par Tableaux et Graphiques permettent une vue
d’ensemble mais ne peuvent résumer des tendances moyennes ou encore des dispersions dans
les séries.
La façon la plus commode de résumer une série se fait à partir de :
- La tendance centrale (ou sa valeur la plus représentative comme la moyenne)
- Et de la dispersion de la série

Dans cette partie, on présente toutes les statistiques alternatives renseignant sur la tendance
centrale

II.1- Le mode

Souvent on veut avoir une première estimation ‘à la louche’ de la valeur centrale (ou
‘moyenne’) d’une série.
La manière la plus simple : regarder quelle valeur d’une variable a été le plus souvent observé
suivant les individus. Elle va renseigner sur la ‘tendance moyenne’ de la série.
Cette valeur s’appelle Mode d’une distribution statistique.

Définition II.1
Le mode est la valeur de la variable associée au plus grand nombre d’effectif (ou encore à la
plus grande fréquence).

Cas de la variable discrète

Chaque valeur (observation) étant bien définie, le mode va être facilement repéré.

Exemple II.1 : grille de salaire (3 rémunérations fixes)

Salaire Effectif fréquence

13
MUS ILT
Statistiques descriptives
Par M. AKHIAT

1000 25 0,25

1800 45 0,45

2200 30 0,3

Mode= 1800

Cas de variables continues

a) Amplitudes Egales

Le terme ‘mode’ est remplacé ici par ‘classe modale’

Définition II.2: Classe modale est la classe correspondant au plus grand nombre d’effectif
(ou plus grande fréquence)

Dans ce cas le mode est :


𝒇𝒊 − 𝒇𝒊−𝟏
𝑴𝒐𝒅𝒆 = 𝒆𝒊−𝟏 + 𝒂𝒊
𝟐𝒇𝒊 − (𝒇𝒊−𝟏 + 𝒇𝒊+𝟏 )

Exemple II.2 : Salaires observés en continu

Salaires Effectif fréquence Classe modale

[1000-2000[ 25 0,25

[2000-3000[ 45 0,45 [2000-3000[

[3000-4000[ 30 0,3

𝟎.𝟒𝟓−𝟎.𝟐𝟓
𝑴𝒐𝒅𝒆 = 𝟐𝟎𝟎𝟎 + 𝟏𝟎𝟎𝟎 𝟐∗𝟎.𝟒𝟓−(𝟎.𝟐𝟓+𝟎.𝟑)= ……

b) Amplitudes Inégales

La classe modale devient celle où la fréquence ‘ajustée’ est la plus élevée


Dans ce cas le mode est
𝒉𝒊 − 𝒉𝒊−𝟏
𝑴𝒐𝒅𝒆 = 𝒆𝒊−𝟏 + 𝒂𝒊
𝟐𝒉𝒊 − (𝒉𝒊−𝟏 + 𝒉𝒊+𝟏 )
𝒂𝒓
Ou 𝒉𝒊 = ∗ 𝒇𝒊
𝒂𝒊

Exemple : Salaires observés en continu

Salaires Effecti Fréquence Amplitude Fréquence

14
MUS ILT
Statistiques descriptives
Par M. AKHIAT

f Ajustée

[10, 12 [ 15 0,136 2 0.34

[12, 15[ 35 0.318 3 0.53

[15, 20 [ 45 0.410 5 0.410

[20, 25 [ 10 0.091 5 0.091

[25, 30[ 5 0.045 5 0.045

La classe modale est donc [12, 15[. Ce qui donne

𝟎. 𝟓𝟑 − 𝟎. 𝟑𝟒
𝑴𝒐𝒅𝒆 = 𝟏𝟐 + 𝟑 = 𝟏𝟑. 𝟖𝟑𝟗
𝟏. 𝟎𝟔 − (𝟎. 𝟑𝟒 + 𝟎. 𝟒𝟏)

II.2- La médiane

Définition II.3
La médiane est la valeur d’une série ordonnée partageant celle-ci en deux sous ensembles à
taille égale.

a)- variable discrète

1)- Chaque valeur observée est unique dans la série

Soit le série ordonné (par ordre croissant) de n observations : x1 ,x2, …,xn


- Si n est impair, alors la valeur médiane est l’observation qui occupe le rang (n+1)/2
- Si n est paire, on ne peut plus déterminer exactement la médiane mais on un intervalle
médian 𝑥𝑛 , 𝑥𝑛 +1
2 2

Exemple II.3

 Série ordonné à nombre d’observations impairs : [3, 5, 7, 9, 10 ,11, 12]. Mé=9


 Série ordonné à nombre d’observations pairs : [3, 5, 7, 9, 10, 11,12, 13].

Intervalle Médian=[9,10],
On peut l’estimer à 9.5

2)- Chaque valeur observée plusieurs fois dans la série

15
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Quand la variable est discrète, et que ses valeurs sont observées plusieurs fois alors, la moitié
des observations peut être repérée au niveau d’une valeur donnée, mais qui se trouve être
observée elle-même plusieurs fois.
Dans ce cas pour déterminer la médiane on utilise les fréquences cumulées croissantes Fi , et
on procède comme suit :

1- La médiane est la modalité xi qui correspond à la plus petite fréquence cumulée


dépassant strictement 0.5.
2- S’il existe une modalité xi pour laquelle Fi= 0.5 dans ce cas on parle d’un intervalle
médian [xi, xi+1] .

Exemple plus général: grille de salaire (3 rémunérations fixes) pour 101 personnes

Salaire Effectif Fréquence F cumulée

1000 25 0,25 0.25

1800 45 0,45 0.70

2200 30 0,3 1

On a F2 =0.70 > 0.5. Donc la médiane est la deuxième modalité, qui n’est autre que la valeur
M= 1800.

b)- Variable continue

Définition de la médiane pour une variable continue est un cas particulier de la définition
générale:
La médiane est la valeur d’une série ordonnée partageant celle-ci en deux sous ensembles à
taille égale.
En outre, dans le cas d’une variable continue, un sous-ensemble de 50% prend des valeurs
inférieures à la médiane. L’autre sous ensemble prend des valeurs supérieures.

Exemple : Distribution des Salaires observés en continu

Salaires Effectif Fréquence (fi) F cumulée

[1000-2000[ 20 0,20 0.20

[2000-4000[ 50 0,50 0.70

16
MUS ILT
Statistiques descriptives
Par M. AKHIAT

[4000-6000[ 30 0,30 1

Ainsi, la classe médiane est celle qui contient l’observation qui coupe l’échantillon en deux :
la 50ième obs. se trouve dans la classe [2000-4000[.
En outre, la valeur médiane est une valeur particulière dans cette classe.

2 méthodes de détermination de la valeur médiane :

1/ Graphique

- On trace la fonction de répartition F


- On localise la valeur sur la fonction F pour laquelle 50% de la population est associée
- Cette valeur est la médiane

Fx
1

0.5
0

Mé X

2/ Par interpolation linéaire

D’après le tableaux statistique, on détermine d’aborde la classe médiane [a i-1, ai[ contenant la
médian, c'est-à-dire la classe telle que Fi > 0.5, puis on détermine la médian M par
interpolation linéaire sur cette classe.

𝟎. 𝟓 − 𝑭𝒊−𝟏
𝑴é = 𝒆𝒊−𝟏 + 𝒂𝒊
𝑭𝒊 − 𝑭𝒊−𝟏

Exemple : Distribution des Salaires observés en continu


17
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Salaires Effecti Fréquence Amplitude Fréquence


f Cumulée
croissantes

[10, 12 [ 15 0,136 2 0.136

[12, 15[ 35 0.318 3 0.454

[15, 20 [ 45 0.410 5 0.864

[20, 25 [ 10 0.091 5 0.955

[25, 30[ 5 0.045 5 1

La classe médiane est donc [15, 20[. Ce qui donne

𝟎. 𝟓 − 𝟎. 𝟒𝟓𝟒
𝑴é = 𝟏𝟓 + 𝟓 = 𝟏𝟓. 𝟓𝟔𝟏
𝟎. 𝟒𝟏

II.3 Les quantiles

Définition II.3
Valeur de la variable qui partage la série en plusieurs (ou encore ‘n’) sous-groupes égaux.
Pour des raisons d’interprétation, les quantiles ne se prêtent qu’à des séries en continue.

a)- variable discrète

1)- Chaque valeur observée est unique dans la série

Soit α dans l’intervalle ]0, 1[. On note


x(1) < x(2) < … < x(i) < … < x(n) la série ordonnée par
ordre croissant de la série brute x1; x2;…xi; …; xn de données. Alors on définit le nombre Qα
, quantile d’ordre α par

Si n*α n’est pas un entier naturel Qα=𝒙( 𝒏∗𝜶 +𝟏)

Si n*α est un entier naturel Qα={𝒙(𝒏∗𝜶) + 𝒙(𝒏∗𝜶+𝟏) }

Ou [n*α] représente la partie entière de n*α

2)- Chaque valeur observée plusieurs fois dans la série

18
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Quand la variable est discrète, et que ses valeurs sont observées plusieurs fois. Dans ce cas
pour déterminer les quantiles on utilise les fréquences cumulées croissantes Fi , et on procède
comme suit :

1- Le quantile d’ordre α est la modalité xi qui correspond à la plus petite fréquence


cumulée dépassant strictement α.

2- S’il existe une modalité xi pour laquelle Fi= α dans ce cas on parle d’un intervalle
quantile [xi, xi+1].

b)- Variable continue

1/ Par interpolation linéaire

D’après le tableaux statistique, on détermine d’aborde la classe [ai-1, ai[ contenant Qα, c'est-à-
dire la classe telle que Fi > α, puis on détermine Qα par interpolation linéaire sur cette classe.

𝜶 − 𝑭𝒊−𝟏
𝑸𝜶 = 𝒆𝒊−𝟏 + 𝒂𝒊
𝑭𝒊 − 𝑭𝒊−𝟏

PS : La médiane est un ‘quantile particulier’.

Nb de sous
Chaque écart
ensembles Nombre de Fonction de répartition
Quantile inter-quantile F (quantile )
obtenues quantiles (n-1)
représente :
(n)
Médiane 2 1 (la médiane)
50% (écart Mé-
valeur extrêmes)
F ( Mé)  50%
F (Q1)  25%
Quartile 4 3 (Q1, Q2, Q3) 25% F (Q2)  50%
F (Q3)  75%
F ( D1)  10%
Décile 10 9 (D1,…,D9) 10% …
F ( D9)  90%
Centile 100 99 (C1,…, C99) 1%
F (C1)  1%

19
MUS ILT
Statistiques descriptives
Par M. AKHIAT

F (C99)  99%

II.3- La Moyenne Arithmétique

1- Moyenne Arithmétique

Définition II.5
La moyenne arithmétique, notée 𝑋, d’une variable statistique X de distribution (𝑥𝑖 , 𝑛𝑖 ) est
1 𝑝 𝑝
la quantité 𝑋=𝑁 𝑖=1 𝑛𝑖 𝑥𝑖 = 𝑖=1 𝑓𝑖 𝑥𝑖

Définition II.6
La moyenne arithmétique, notée 𝑋, d’une variable statistique X de distribution
1 𝑝 𝑝
([𝑒𝑖−1 , 𝑒𝑖 [, 𝑛𝑖 ) est la quantité 𝑋=𝑁 𝑖=1 𝑛𝑖 𝑐𝑖 = 𝑖=1 𝑓𝑖 𝑐𝑖 , 𝑜ù 𝑐𝑖 est le
centre de la classe [𝑒𝑖−1 , 𝑒𝑖 [.

II.4- Variance

Définition II.7
La variance d’une série statistique discrète X={(xi, ni) } i=1,…,k, que l’on note : V(X) ou 𝜎𝑋2 ,
est donné par :
𝑘 𝑘
1
𝑉 𝑋 = 𝑛𝑖 𝑥𝑖 − 𝑋 = 𝑓𝑖 𝑥𝑖 − 𝑋
𝑁
𝑖=1 𝑖=1

Où 𝑋 est la moyenne arithmétique de X.

Définition II.8
La variance d’une série statistique continue {([ei-1, ei[, ni )} i=1,…,k, que l’on note : V(X) ou
𝜎𝑋2 , est donné par :
𝑘 𝑘
1
𝑉 𝑋 = 𝑛𝑖 𝑐𝑖 − 𝑋 = 𝑓𝑖 𝑐𝑖 − 𝑋
𝑁
𝑖=1 𝑖=1

Où 𝑋 est la moyenne arithmétique de X et ci est le centre de la classe [ai-1, ai[.

20
MUS ILT
Statistiques descriptives
Par M. AKHIAT

II.4-1 Propriétés de la Variance

(i) Formule développé de la variance

Cas d’une variable statistique discrète :

𝑘 𝑘
1
𝑉 𝑋 = 𝑛𝑖 𝑥𝑖2 2
− 𝑋 = 𝑓𝑖 𝑥𝑖2 − 𝑋 2
𝑁
𝑖=1 𝑖=1

( Pratique pour le calcul de V(X) )

Cas d’une variable statistique continue :

𝑘 𝑘
1
𝑉 𝑋 = 𝑛𝑖 𝑐𝑖2 2
− 𝑋 = 𝑓𝑖 𝑐𝑖2 − 𝑋 2
𝑁
𝑖=1 𝑖=1
Où ci est le centre de la classe [ai-1, ai[.

(ii) Changement d’origine et d’échelle

V( X+ b)= V(X)
V( aX)= 𝑎2 V(X)
V( aX+ b)= 𝑎2 V(X)

II.5- Ecart-type

Définition II.9
Cas Discrète
L’écart-type d’une distribution statistique discrète X={(xi, ni) } i=1,…,k, que l’on note :
𝑉(𝑋) ou 𝜎𝑋 , est donné par :
𝑘 𝑘
1
𝜎𝑋 = 𝑛𝑖 𝑥𝑖 − 𝑋 = 𝑓𝑖 𝑥𝑖 − 𝑋
𝑁
𝑖=1 𝑖=1

Cas continue
L’écart-type d’une série statistique continue {([ei-1, ei[, ni )} i=1,…,k, que l’on note : 𝑉(𝑋)
ou 𝜎𝑋 , est donné par :
𝑘 𝑘
1
𝜎𝑋 = 𝑛𝑖 𝑐𝑖 − 𝑋 = 𝑓𝑖 𝑐𝑖 − 𝑋
𝑁
𝑖=1 𝑖=1

Où 𝑋 est la moyenne arithmétique de X et ci est le centre de la classe [ai-1, ai[.


21
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Remarque II.5.1
i) L’écart-type est un paramètre de dispersion qui s’exprime dans la même unité que
les observations 𝑥𝑖
ii) Dans la pratique on calcule la variance et on déduit l’écart-type.

II.6- Coefficient de variation

Définition II.10
Le coefficient de variation d’une série statistique de moyenne 𝑋 et d’écart-type 𝜎𝑋 est égal
au rapport de 𝜎𝑋 à 𝑋 . On le note 𝐶𝑣 .
𝜎𝑋
𝐶𝑣 = ( rapport sans unité)
𝑋

Exemple : On considère la répartition de 80 salariés d’une entreprise, selon leur salaires


journalier. Le tableau statistique associé est le suivant

Classe en
ni fi Centre ci f i ci fi ci2
DH

[90, 120 [ 30 0.375 105 39.375 4134.375

[120, 130[ 24 0.300 125 37.500 4687.500

[130, 150 [ 20 0.250 140 35.000 4900.000

[150, 170 [ 6 0.075 160 12.000 1920.000

Total 80 1 ----------- 123.875 15641.875

4
𝑋= 𝑖=1 𝐟𝐢 × 𝐜𝐢 = 123.875 DH
4
𝑉 𝑋 = 𝑖=1 𝑓𝑖 𝑐𝑖2 − 𝑋 2 = 1564.875-(123.875)2 =296.859

22
MUS ILT
Statistiques descriptives
Par M. AKHIAT

4
𝜎𝑋 = 𝑉 𝑋 = 𝑖=1 𝑓𝑖 𝑐𝑖2 − 𝑋 2 = 296.859 = 17.230 DH

𝜎𝑋 17.230
𝐶𝑣 = = = 0.139 = 13.9% ≈ 14%
𝑋 13.875
Il s’agit d’une faible dispersion, car l’écart-type ne représente qu’à peu prés 14% de la
moyenne.

II.7 Les écarts interquantiles

Définition II.11
L’étendue d’une série statistique est la différence entre la plus grande valeur et la plus petite
valeurs de la série. On le note e.
Si xmax et xmin sont respectivement la plus grande valeur et la plus petite valeur de la série,
alors on a :
e= xmax - xmin

Définition II.12
L’écart interquantile est un paramètre de dispersion, donné par la différence entre le premier
et le dernier quantile.
Ainsi on a les trois écarts interquantiles particuliers :

- L’écart interquartile : ∆𝑄 = 𝑄3 − 𝑄1 = 𝑄0.75 − 𝑄0.25

- L’écart interdécile : ∆𝐷 = 𝐷9 − 𝐷1 = 𝐷0.9 − 𝐷0.1

- L’écart intercentile ∆𝐶 = 𝐶99 − 𝐶1 = 𝐶0.99 − 𝐶0.01

III ) Paramètres de concentrations


Selon un rapport de la banque mondiale en 1995, on dit que << 20% de la population
mondiale détient 80% des richesses du monde>> c´ est le phénomène de la concentration des
richesses.

III-1) Médiale

Notations et définitions

Soit X une variable statistique continue. Dont les valeurs sont positives et regroupées en k
classes [e0, e1[, [e1, e2[,…[ek-1, ek[ d’effectifs respectifs n1,n2,…nk et de centre respectifs

c1, c2, ….ck. On note :

𝐬𝐢 = 𝐧𝐢 × 𝐜𝐢 est la masse du caractère X dans la classe [ei-1, ei[


𝐤 𝐤
𝐒= 𝐢=𝟏 𝐬𝐢 = 𝐢=𝟏 𝐧𝐢 × 𝐜𝐢 est la masse globale du caractère.
23
MUS ILT
Statistiques descriptives
Par M. AKHIAT

𝐢 𝐢
𝐒𝐢 = 𝐣=𝟏 𝐬𝐣 = 𝐣=𝟏 𝐧𝐣 × 𝐜𝐣 est la masse du caractère possédée par les individus
présentant une valeurs≤ 𝑒𝑖 .

𝐬𝐢 𝐧𝐢 ×𝐜𝐢 𝐟𝐢 ×𝐜𝐢
𝐠𝐢 = = = est la masse relative de la classe [ei-1, ei[.
𝐒 𝐒 𝐗

𝐢
𝐒𝐢 𝐣=𝟏 𝐧𝐣 ×𝐜𝐣
𝐆𝐢 = = 𝐤 𝐧 ×𝐜 est la masse cumulée relative associe à la classe [ei-1, ei[.
𝐒 𝐢=𝟏 𝐢 𝐢

Définition III.1

La médiale de la série statistique X est le caractère qui partage la masse globale en deux
parties égales.
On la note Ml et on a G(Ml)= 0.5 = 50%
Ou G(x)= Gi pour 𝑒𝑖−1 ≤ 𝑥 ≤ 𝑒𝑖

Détermination de la médiale

D’après le tableaux statistique, on détermine d’aborde la classe [ei-1, ei[ contenant la médiale,
c'est-à-dire la classe telle que Gi > 0.5, puis on détermine la médiale Ml par interpolation
linéaire sur cette classe.
𝟎. 𝟓 − 𝑮𝒊−𝟏 𝟎. 𝟓 − 𝑮𝒊−𝟏
𝑴𝒍 = 𝒆𝒊−𝟏 + (𝒆𝒊 − 𝒆𝒊−𝟏 ) = 𝒆𝒊−𝟏 + 𝒂𝒊
𝑮𝒊 − 𝑮𝒊−𝟏 𝑮𝒊 − 𝑮𝒊−𝟏
([ei-1, ei[ est la classe contenant la médiale et Gi la masse cumulée relative.)

III-2) L’écart médiale-médiane

L’écart absolu médiale-médiane, noté ∆𝑀, et l’écart relatif noté ∆𝑀𝑟 sont deux indécateurs de
concentration, donnés respectivement par :

∆𝑀 = 𝑀𝑙 − 𝑀é (même unité que les ci)


𝑀𝑙 −𝑀é
∆𝑀𝑟 = (rapport sans unité)
𝐞

Où e est l’étendue de la série statistique

Exemple : On considère la distribution statistique des salaires par heure de travail en DH, de
110 salariés d’une entreprise. Calculer ∆𝑀 et ∆𝑀𝑟 .

Salaires en 𝐒𝐢
ni ci 𝐬𝐢 = 𝐧𝐢 × 𝐜𝐢 Si 𝐆𝐢 =
DH/h 𝐒

24
MUS ILT
Statistiques descriptives
Par M. AKHIAT

[10, 12 [ 15 11 165 165 0.092

[12, 15[ 35 13.5 472.5 637.5 0.375

[15, 20 [ 45 17.5 787.5 1425 0.797

[20, 25 [ 10 22.5 225 1650 0.923

[25, 30[ 5 27.5 137.5 1787.5 1

Total 110 ----------- 1787.5 ----------------- ----------------

On a G3= 0.797> 0.5 donc 𝑀𝑙 ∈ [15, 20[

𝟎.𝟓−𝟎.𝟑𝟓𝟕
𝑴𝒍 = 𝟏𝟓 + 𝟐𝟎 − 𝟏𝟓 = 𝟏𝟔. 𝟔𝟐𝟓 ≈ 𝟏𝟔. 𝟔𝟑 𝑫𝑯/𝒉
𝟎.𝟕𝟗𝟕−𝟎.𝟑𝟓𝟕

∆𝑴 = 𝑴𝒍 − 𝑴é = 16.63 - 15.56 = 1.07 DH/h

𝑀𝑙 −𝑀é 1.07
∆𝑀𝑟 = = = 0.054= 5.4%
𝐞 𝐞𝟐𝟎

On dit que l’écart absolu ∆𝑀 représente 5.4% de l’étendue, par conséquent la concentration
est faibl

IV ) Paramètres (caractéristiques) de Forme


Les caractéristiques de forme permettent de préciser l’allure de la courbe des fréquences
sans avoir besoin de la tracer.
On repère généralement deux mesures de la forme d’une série : celle de l’asymétrie a pour
objet de nous renseigner sur la façon régulière ou non dont les observations se répartissent
de part et d’autre d’une valeur centrale.

Définitions IV.1
(1) Soit a un nombre réel et r un entier positif. On appelle moment d’ordre r par rapport
au nombre a d’une distribution statistique X={(xi, ni) } i=1,…,k, la quantité notée
𝟏 𝐊 𝐊
𝐦𝐫 (𝐚) = 𝐍 𝐢=𝟏 𝐧𝐢 (𝐱 𝐢 − 𝐚)𝐫 = 𝐢=𝟏 𝐟𝐢 (𝐱 𝐢 − 𝐚)𝐫

(2) Selon les valeurs de a on distingue deux cas particuliers :

25
MUS ILT
Statistiques descriptives
Par M. AKHIAT

i) Si a=0, on a le moment simple d’ordre r, que l’on note mr

𝐊 𝐊
𝟏
𝐦𝐫 (𝟎) = 𝐧𝐢 𝐱 𝐢𝐫 = 𝐟𝐢 𝐱 𝐢𝐫
𝐍
𝐢=𝟏 𝐢=𝟏

ii) Si 𝑎 = 𝑋, on a le moment centré d’ordre r, que l’on note

𝐊 𝐊
𝟏
𝛍𝐫 = 𝐦𝐫 (𝐗) = 𝐧𝐢 (𝐱 𝐢 − 𝐗)𝐫 = 𝐟𝐢 (𝐱 𝐢 − 𝐗)𝐫
𝐍
𝐢=𝟏 𝐢=𝟏

A) La mesure de l’asymétrie

Définitions IV.2

26
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Une distribution statistique est symétrique si les observations, repérées par leurs fréquences
sont également dispersées de part et d’autre d’une valeur centrale.

B) Coefficient d’asymétrie

On utilise un certain nombre de coefficients, c’est-à-dire de nombres sans dimension


permettant les comparaisons, pour mesurer l’asymétrie.
Ces coefficients ne sont généralement valables que si la distribution contient un nombre
assez élevé d’observations, et qu’elle ne présente pas plusieurs modes.

1. Le coefficient de Yule

27
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Le statisticien britannique Yule propose une mesure de l’asymétrie en comparant


l’étalement vers la gauche et l’étalement vers la droite, tous deux repérés par la position des
quartiles (Q₁, Mé, Q₃).

𝑄3 − 𝑀é − (𝑀é − 𝑄1)
𝑠=
𝑄3 − 𝑀é + (𝑀é − 𝑄1)

Si s = 0 ↔ symétrie (quartiles équidistants)


Si s ˃ 0 ↔ oblique à gauche (étalement vers la droite)
Si s ˂ 0 ↔ oblique à droite (étalement vers la gauche)

2. Les coefficients de Pearson


Karl Pearson, statisticien britannique du début du siècle propose deux coefficients.
 Le premier(s) analyse la position de deux valeurs centrales (le mode et la moyenne
arithmétique) relativisée par la dispersion de la série :

𝑥 − 𝑀𝑜
𝑠=
𝜎
Si s = 0 ↔ symétrie
Si s ˃ 0 ↔ oblique à gauche
Si s ˂ 0 ↔ oblique à droite

Remarque IV.1 :
Ce coefficient n’est valable que pour des distributions faiblement asymétriques.

 Le deuxième coefficient d’asymétrie de Pearson (β₁) est plus élaboré : il s’appuie sur
le calcul des moments centrés d’ordre impair.
Le calcul est donc beaucoup plus fastidieux, mais le résultat obtenu est plus
intéressant, surtout pour des séries possédant un grand nombre d’observations.

𝛽1 = (𝜇32 )/(𝜇23 )

Si β₁ = 0 ↔ symétrie
Si β₁ ˃ 0 ↔ oblique à gauche ou à droite

Le sens de l’asymétrie est donné par « s » ou par le signe de « μ₃ »

3. Le coefficient de Fisher

28
MUS ILT
Statistiques descriptives
Par M. AKHIAT

Sir Ronald Fisher, biologiste-statisticien britannique, propose, une vingtaine d’années plus tard, le
coefficient suivant, qui n’est autre que la racine carrée du coefficient β₁ de Pearson.

μ₃
γ₁ =
𝜎𝑋 3

Si γ₁ = 0 ↔ symétrie
Si γ₁ ˃ 0 ↔ oblique à gauche
Si γ₁ ˂ 0 ↔ oblique à droite

29

Vous aimerez peut-être aussi