Vous êtes sur la page 1sur 217

Notes Partielles de Statistiques Descriptives

A. Benchekroun

A. Benchekroun - Statistiques Descriptives 0


Bibliographie

• Le cours est autosuffisant (pas les notes présentes): Aucun ouvrage


complémentaire n'est requis.

• Bernard Grais: "Statistique descriptive". Collection Modules économiques,


Dunod.

• Bernard Grais: "Méthode Statistique ". Collection Modules économiques,


Dunod.

• Et évidemment, beaucoup d'autres ouvrages …

A. Benchekroun - Statistiques Descriptives 1


Partie I : Méthode statistique, Caractéristiques de tendance
centrale et de dispersion, Problèmes de concentration

I.1) INTRODUCTION A LA METHODE STATISTIQUE


I.1 A) CONCEPTS DE BASE DE LA STATISTIQUE DESCRIPTIVE
La statistique est une méthode d'analyse des ensembles comportant un
grand nombre d'éléments. S'étant développée d'abord dans le domaine de
la démographie, elle en a adopté et gardé la terminologie.
Population = Ensemble étudié par le statisticien
Individu = Elément de l'ensemble étudié
Unité statistique : c'est l'unité qui sert à dénombrer la population étudiée.
L'unité statistique est le plus souvent l'individu. C'est pourquoi on utilisera
indifféremment l'un des deux termes: "unité statistique" & "individu".

A. Benchekroun - Statistiques Descriptives 2


• Caractère: Chaque individu est étudié selon un ou plusieurs caractères.
Exemples: sexe, âge, taille, poids, état matrimonial, nombre d'enfants, profession, niveau
de formation, revenu, etc...
• Un caractère comporte différentes modalités. Celles-ci doivent être mutuellement
incompatibles et exhaustives: un individu ne peut appartenir qu'à une et à une seule de
ces modalités.
Exemples: l'état matrimonial comporte quatre modalités:célibataire, marié,veuf, et
divorcé.

A. Benchekroun - Statistiques Descriptives 3


• Pour qu'un individu ne puisse appartenir qu'à une et à une seule de ces
modalités, il faut se donner une règle de classement respectant
l'incompatibilité de celles-ci. Par exemple, on conviendra qu'un veuf remarié
sera classé comme marié.

• Par ailleurs, tous les cas doivent être prévus (exhaustivité) et on doit pouvoir
classer tous les individus, sans exception.

A. Benchekroun - Statistiques Descriptives 4


• Un caractère peut être, soit qualitatif, soit quantitatif.

• Caractère qualitatif = Caractère repérable mais non mesurable.


Exemples
Sexe, profession, religion, race, appartenance politique. etc.

• Les modalités d'un caractère qualitatif constituent les différents postes (ou
rubriques) d'une nomenclature ou classification. Ces postes doivent être
mutuellement incompatibles et exhaustifs. Si on n'est pas sûr de couvrir
tous les cas possibles, on sera conduit à prévoir une rubrique
supplémentaire: « Autres» pour répondre à l'exigence d'exhaustivité.

A. Benchekroun - Statistiques Descriptives 5


• Caractère quantitatif = Caractère mesurable.
exemple : nombre d'enfants, âge, revenus.
• Dans ce cas, à chaque individu correspond un nombre qui est la mesure
du caractère. Ce nombre est la variable statistique. Une variable
statistique peut être, soit discrète, soit continue.

• Variable statistique discrète


Une variable statistique discrète ne peut prendre qu'un certain nombre de
valeurs possibles, généralement des valeurs entières.
exemple : nombre d'enfants d'un ménage. Celui-ci peut prendre les
valeurs: 0, 1, 2, 3, 4, 5, etc.

A. Benchekroun - Statistiques Descriptives 6


• Variable statistique continue
Une variable statistique continue peut prendre n'importe quelle valeur
à l'intérieur de son intervalle de définition. Ce nombre de valeurs possibles
est toujours infini.
Pour classer les observations, il est donc nécessaire de redéfinir les
modalités du caractère en groupant en classes les valeurs possibles de la
variable statistique.
exemples : Revenu, âge, durée du chômage.
On définira avec précision les limites de classe, de façon à respecter
l'exigence d'incompatibilité. Pour l'âge, par exemple, on énoncera: 0 à moins
de 5 ans, 5 à moins de 10 ans,10 à moins de 15 ans,etc. et non:0 à 5 ans5 à
10 ans1 0 à 15 ans etc.

A. Benchekroun - Statistiques Descriptives 7


I.1 B) DISTRIBUTIONS STATISTIQUES À UNE DIMENSION

Forme générale d'un tableau statistique

A. Benchekroun - Statistiques Descriptives 8


Tableau 1. Forme générale d'un tableau statistique

Classe ou modalité n° Effectif Fréquence


1 n1 f1
. . .
. . .
. . .

i ni fi
. . .
. . .
. . .

M nM fM

Total M

 ni = N
M

i =1

i =1
fi = 1

A. Benchekroun - Statistiques Descriptives 9


• Soit une population comportant N individus que l'on étudie du point de vue
d'un caractère déterminé. Supposons que ce caractère comporte M
modalités. On va classer chacun des N individus dans les M sous-ensembles
définis par les modalités du caractère étudié (tableau 1).
Pour chaque modalité, on inscrira dans le tableau le nombre d'éléments
(cardinal) du sous-ensemble correspondant. Ce nombre est l'effectif (ou
fréquence absolue) ni des individus présentant la modalité n° i.
• La fréquence (relative) de la modalité n° i est définie par le rapport :

C'est la proportion des individus de la population présentant la


modalité n° i.
ni
fi =
N

A. Benchekroun - Statistiques Descriptives 10


• La somme des effectifs ni étant égale à l'effectif total N de la population:
n1 + n2 + ... + nM = N
la somme des fréquences est égale à l'unité:

n1 n2 nM
f1 + f 2 + ... + f M = + + ... + =1
Formellement, on écrira : N N N

M M

n
i =1
i =N & fi =1
i =1

A. Benchekroun - Statistiques Descriptives 11


Tableaux statistiques et représentations graphiques.

• Les modes de représentation graphique utilisés dépendent de la


nature du caractère, qualitatif ou quantitatif, et, dans ce dernier cas
du type de variable statistique, discrète ou continue.

A. Benchekroun - Statistiques Descriptives 12


Caractères qualitatifs.
• Tableau statistique
Les différentes modalités du caractère sont constituées par les
rubriques de la nomenclature (ou classification) utilisée.
Exemple : Composition de la Production d'une entreprise de
fabrication d'automobiles en 20(A-1)

A. Benchekroun - Statistiques Descriptives 13


Tableau 2. Production d'une entreprise de fabrication d'automobiles en 20(A-1) (en milliers de véhicules)

Effectif (Nombre
Véhicule Fréquence fi
de véhicules) ni
C2P 10 40,00%
P4P 8 32,00%
5P 5 20,00%
ML 2 8,00%
Total 25 100,00%

C2P: Cabriolet, Deux Places; P4P: Petite 4 Places; 5P: Cinq Places; ML: Modèle Luxe

A. Benchekroun - Statistiques Descriptives 14


• Représentation graphique
Deux types de représentations graphiques sont surtout utilisées: les tuyaux
d'orgues et les secteurs.
➢Tuyaux d'orgue
Chaque modalité i du caractère est représentée par un rectangle dont la base
est toujours constante et dont la hauteur (et par conséquent l'aire), est
proportionnelle à l'effectif ni (et donc aussi à la fréquence fi) de cette
modalité (fig. 1 & fig.2).
➢Secteurs
Chaque modalité i du caractère est représentée par un secteur, inscrit dans un cercle
ou un demi-cercle dont l'aire (et donc l'angle au centre) est proportionnelle à l'effectif
(ou à la fréquence fi) (fig. 3 & fig.4).

A. Benchekroun - Statistiques Descriptives 15


fig.1 : Représentation par tuyaux d'orgue- Composition de la production
d'automobiles en 20(A-1)
Nombre de véhicules ni

12

C2P
10

P4P
8

6
5P

ML
2

0
C2P P4P 5P ML

A. Benchekroun - Statistiques Descriptives 16


fig.2 : Représentation par tuyaux d'orgue- Composition de la production
d'automobiles en 20(A-1)
Fréquence de la production fi
45,00%
C2P
40,00%

35,00%
P4P
30,00%

25,00%
5P
20,00%

15,00%

10,00% ML

5,00%

0,00%
C2P P4P 5P ML

A. Benchekroun - Statistiques Descriptives 17


fig.3 : Représentation par Secteurs - Composition de la production d'automobiles en
20(A-1)

ML
8%
5P C2P
20% 40%

P4P
32%

A. Benchekroun - Statistiques Descriptives 18


Evidemment, il existe plusieurs variantes du diagramme précédent
(diagramme du type camembert)

fig.4 : Représentation par Secteurs - Composition de la production d'automobiles en


20(A-1)

ML
8%
5P
C2P
20%
40%

P4P
32%

A. Benchekroun - Statistiques Descriptives 19


➢Il existe évidemment d'autres représentations, comme la représentation en
"Radar". Cette représentation est intéressante lorsque "économiquement"
les modalités ont la même importance et que la "performance
économique" est croissante avec l'effectif.

A. Benchekroun - Statistiques Descriptives 20


Fig.5 Diagramme en "Radar" de la production d'automobiles en 20(A-1)
C2P
Effectif (Nombre de véhicules) 10

2
ML P4P
0

5P

Plus l'aire du polygone est grande, plus la production globale l'est.

A. Benchekroun - Statistiques Descriptives 21


• Superposition de plusieurs graphiques relatives à plusieurs
distributions en un seul graphique
Pour des raisons évidentes d'interprétation et de comparaison, il est
parfois très important de représenter dans un même graphique
plusieurs distributions.
Complétons l'exemple précédant en donnant la production
d'automobiles en 20(A).

A. Benchekroun - Statistiques Descriptives 22


Tableau 3. Production d'automobiles en 20(A) (en milliers de véhicules)

Effectif (Nombre
Véhicule Fréquence
de véhicules)
C2P 14 35,00%
P4P 10 25,00%
5P 12 30,00%
ML 4 10,00%
Total 40 100,00%

A. Benchekroun - Statistiques Descriptives 23


On peut superposer les deux diagrammes en tuyaux d'orgue 20(A-1) &
20(A)
On obtient ce qui suit :

A. Benchekroun - Statistiques Descriptives 24


Fig 6 : Comparaison des ventes des véhicules de l'année 20(A) avec celle de l'année 20(A-1)

16
ventes (en milliers)

14

12

10
Effectif (Nombre de véhicules) 20(A-1)

8 Effectif (Nombre de véhicules) 20(A)

0
C2P P4P 5P ML

A. Benchekroun - Statistiques Descriptives 25


On peut également faire des diagrammes à bandes : chaque année sera
représentée par une "bande" : les deux bandes auront la même longueur, des
colorations et/ou des hachures représenteront les modalités; La surface de chaque
coloration sera proportionnelle à la fréquence de la modalité qui lui est associée.

A. Benchekroun - Statistiques Descriptives 26


Fig.7 : Diagramme à bandes (en
Pourcentage de fréquences)
véhicules
100%
ML ML
90%
80% 5P
5P
70%
60%
P4P ML
50% 5P
P4P P4P
40% C2P

30%
20% C2P C2P
10%
0%
20(A-1) 20(A)

A. Benchekroun - Statistiques Descriptives 27


Sur le diagramme de la fig. 7, l'évolution de A par rapport à A-1
des différentes ventes de voitures de l'entreprise est évidente : une
évolution se dessine vers la production de voitures plus grandes ou
plus luxueuses.

A. Benchekroun - Statistiques Descriptives 28


Caractères quantitatifs
• Variables discrètes
Les différentes modalités sont constituées par les valeurs possibles
de la variable discrète.
Exemple : Distribution de 500 familles d'un village selon le nombre de
leurs enfants (en 20(A)) (tableau 4)

A. Benchekroun - Statistiques Descriptives 29


Tableau 4 : Distribution de 500 familles d'un village selon le nombre de leurs enfants

Nombre Nombre de Effectif Fréquence


d'enfants familles Fréquence Cumulé Cumulée
xi ni fi Ni Fi
0 80 16,00% 80 16,00%
1 120 24,00% 200 40,00%
2 150 30,00% 350 70,00%
3 90 18,00% 440 88,00%
4 40 8,00% 480 96,00%
5 10 2,00% 490 98,00%
6 et plus 10 2,00% 500 100,00%

Total 500 100,00%

A. Benchekroun - Statistiques Descriptives 30


➢Diagramme en bâtons
Le diagramme en bâtons est la représentation graphique différentielle de la
distribution des effectifs(ou des fréquences) d'une variable statistique
discrète. A chaque valeur xi de cette variable, on fait correspondre un bâton
vertical de longueur proportionnelle à l'effectif ni (ou à la fréquence fi) de
cette valeur (fig.8 & 9).

On suppose que les modalités xi sont ordonnées:


x1 x2 x3 ... xM −1 xM

A. Benchekroun - Statistiques Descriptives 31


Fig. 8 Diagramme en bâtons de la variable "Nombre d'enfants" (représentation des effectifs)
160
150
140

120 120

100
Effectifs ni

90
80 80

60

40 40

20
10 10
0
0 1 2 3 4 5 6 7
xi

A. Benchekroun - Statistiques Descriptives 32


Fig. 9 Diagramme en bâtons de la variable "Nombre d'enfants" (représentation des fréquences)

35,00%

30,00% 30,00%

25,00%
24,00%

20,00%
18,00%
15,00%
16,00%

10,00%
8,00%
5,00%

2,00% 2,00%
0,00%
0 1 2 3 4 5 6 7

A. Benchekroun - Statistiques Descriptives 33


➢Courbe en escalier
La courbe en escalier est la représentation graphique intégrale d'une variable
statistique discrète. Elle représente les effectifs cumulés (ou les fréquences
cumulées) de cette variable. A chaque valeur xi de la variable correspond
une « marche» d'escalier dont la hauteur est proportionnelle à l'effectif
cumulé Ni (ou à la fréquence cumulée Fi ) de cette valeur (fig. 10 & 11)

A. Benchekroun - Statistiques Descriptives 34


Fig. 10 Courbe en escalier de la variable "Nombre d'enfants" (représentation des effectifs)
600

500
500
490
480
440
400
Effectifs Cumulés

350
300

200
200

100
80

0
0 1 2 3 4 5 6 7
Nombre d'enfants

A. Benchekroun - Statistiques Descriptives 35


Fig. 11 Courbe en escalier de la variable "Nombre d'enfants" (représentation des fréquences)
120,00%

100,00%
100,00%
98,00%
96,00%
88,00%
80,00%
Fréquences Cumulées

70,00%
60,00%

40,00%
40,00%

20,00%

16,00%

0,00%
0 1 2 3 4 5 6 7
Nombre d'enfants

A. Benchekroun - Statistiques Descriptives 36


Les paliers horizontaux ont pour ordonnées:
N i = n1 + n2 + ... + ni (ou Fi = f1 + f 2 + ... + f i )

La courbe en escalier est la représentation graphique du nombre N (x),


ou de la proportion F (x), des individus de la population pour lesquels la
valeur de la variable statistique est inférieure ou égale x.
Cette fonction, définie pour toute valeur de x, est appelée fonction
cumulative, ou fonction de répartition (empirique).
F : IR → IR
x Pr op[ X  x ]
La définition qui vient d'être donnée est usuellement dite anglo-saxonne;
La définition française est la suivante:

F : IR → IR
x Pr op[ X x]

A. Benchekroun - Statistiques Descriptives 37


Que ce soit l'une ou l'autre définition, la fonction F possède les
propriétés suivantes:
• C'est une fonction en escalier, monotone croissante, dont les points de
discontinuité correspondent aux points xi
• Elle est égale à zéro pour les valeurs de x inférieures à la plus petite valeur
possible, et égale à 1 pour les valeurs supérieures à la plus grande:donc F( -
∞) = 0, F( + ∞) = 1

A. Benchekroun - Statistiques Descriptives 38


Dans toute la suite, on ne retiendra que la définition anglo-
saxonne (d'ailleurs c'est la définition qui est retenue par la plus part
des logiciels spécialisés). Pour cette définition F est continue à
droite aux points de discontinuité xi.

i
F ( x) = Fi =  f p pour xi  x xi +1
p =1

A. Benchekroun - Statistiques Descriptives 39


⚫ Variables continues
Tableau statistique
Les observations sont regroupées par classe
Exemple
Distribution des 500 salariés d'un établissement industriel selon
leur salaire mensuel (tableau 5).

A. Benchekroun - Statistiques Descriptives 40


Tableau 5 : Distribution des 500 salariés d'un établissement industriel selon
leur salaire mensuel

Effectif Fréquence
Salaire mensuel Nombre de
Fréquence corrigé Corrigée
ei-1 - ei salariés ni
1000xni/ai 1000xfi/ai
]3 000 ; 4 000] 30 6,00% 30 6,00%
]4 000 ; 6 000] 100 20,00% 50 10,00%
]6 000 ; 10 000] 150 30,00% 37,5 7,50%
]10 000 ; 20 000] 155 31,00% 15,5 3,10%
]20 000 ; 40 000] 40 8,00% 2 0,40%
Plus de 40 000 25 5,00% 0,5 0,10%

On précise que le centre de la dernière classe est égale à 65 000 DH

A. Benchekroun - Statistiques Descriptives 41


➢Histogramme
L'histogramme est la représentation graphique différentielle de la
distribution d'une variable statistique continue. Chaque classe ei-1 -
ei est représentée par un rectangle basé sur cette classe dont l'aire
est proportionnelle à l'effectif ni (ou à la fréquence fi) de cette classe
(fig. 12).

A. Benchekroun - Statistiques Descriptives 42


Fig. 12 : Histogramme du salaire mensuel

Effectif Corrigé 1000 x ni/ai

Courbe de fréquence

Salaire mensuel en kDH


A. Benchekroun - Statistiques Descriptives 43
ATTENTION
Lorsque les amplitudes de classe ai sont inégales, il faut calculer la hauteur
du rectangle représentatif de chaque classe de façon que son aire soit
proportionnelle à la fréquence de la classe:
fi
hi = 
ai
Ce calcul a été effectué dans le tableau 5.
Pour la dernière classe, qui est une classe ouverte, un calcul particulier doit
être effectué. En égalant la moyenne de la dernière classe à son centre , on
obtient une estimation de l'extrémité supérieure qui peut être estimée à
90 000 DH; L'amplitude de cette classe sera donc évaluée à 50 000 DH.

A. Benchekroun - Statistiques Descriptives 44


Courbe de fréquence
L'histogramme donne une représentation imparfaite de la
population étudiée du fait du groupement des observations en un petit
nombre de classes.
Pour améliorer la représentation, l'idée est donc d'augmenter le
nombre de classes. La courbe de fréquence est la limite vers laquelle
tendrait l'histogramme si, la population étant très nombreuse, on
augmentait à l'infini le nombre de classes en faisant tendre leurs
amplitudes vers 0.

On propose parfois comme représentation graphique d'une variable


continue, le polygone de fréquence. On obtient celui-ci en joignant par une droite le
milieu des côtés supérieurs des rectangles constitutifs de l'histogramme. Cette
représentation graphique donne une idée sur la courbe (théorique) de fréquence.
L'inconvénient de ce polygone est qui ne respecte pas la règle de compensation des
aires.

A. Benchekroun - Statistiques Descriptives 45


Fig. 13 Polygone des fréquences du salaire mensuel

A. Benchekroun - Statistiques Descriptives 46


➢Courbe cumulative
La courbe cumulative est la représentation graphique intégrale d'une
variable statistique continue. Elle
représente les effectifs cumulés N(x) ou les fréquences cumulées F(x) de
cette variable.
Les observations étant groupées par classe, on ne connaît de cette
fonction que les valeurs Fi qui correspondent aux extrémités supérieures
de classe ei.
On tracera donc la courbe cumulative en la faisant passer par les points
(ei ,Fi) représentatifs de ces valeurs (fig. 14).

C'est une fonction monotone croissante,


Elle est égale à zéro pour les valeurs de x inférieures à la plus petite valeur
possible, et égale à 1 pour les valeurs supérieures à la plus grande: donc F( - ∞)
= 0, F( + ∞) = 1

A. Benchekroun - Statistiques Descriptives 47


Fig. 14- Fonction de Répartition du Salaire mensuel (Fréq. Cumulée)
100,00%

90,00%

80,00%

70,00%

60,00%

50,00%

40,00%

30,00%

20,00%

10,00%

0,00%
0 10 000 20 000 30 000 40 000 50 000 60 000 70 000 80 000 90 000 100 000
Salaire mensuel

A. Benchekroun - Statistiques Descriptives 48


Fig. 15

A. Benchekroun - Statistiques Descriptives 49


REMARQUES SUR LA DETERMINATION DU NOMBRE DE CLASSES
Position du problème
Etant donné un caractère quantitatif continu que l’on observe. La taille de l’échantillon est n.
Les questions sont les suivantes :
• Comment déterminer le nombre de classes ?
• Comment déterminer les amplitudes de classe ?
La réponse à ces questions n’est pas évidente. Mais d’une manière générale on peut faire
les remarques suivantes :
➢ le nombre de classes doit être modéré (environ entre 5 et 12), et ceci pour des raisons
de synthèse.
➢ Souvent, on effectue un découpage en classes où l’amplitude est la même pour la
totalité ou quasi-totalité des classes.
➢ Parfois, on s’arrange que l’effectif de chaque classe soit le même pour toutes les
classes ou la quasi-totalité des classes.
➢ Souvent pour des raisons de significativité, on impose qu’il faut un effectif d’au moins
5 unités dans une classe

A. Benchekroun - Statistiques Descriptives 50


Règle de Sturges (Herbert Sturges statisticien américain (1882-1958))

Sturges a proposé la formule suivante pour déterminer le nombre k de classes en fonction


de n : 10
k  1+ log10 n
3
Le calcul de Sturges repose sur l'analyse d'un échantillon suivant une distribution
gaussienne qu'il approxime par une distribution binomiale de paramètre p = 1/2.

La formule de Sturges se base sur une distribution symétrique, de distribution binomiale


ou gaussienne. Pour peu que les données à représenter ne suivent pas cette forme, la
formule n’est pas justifiée. Même si ce n’est pas le cas, on se base souvent sur cette formule
pour avoir une idée sur le nombre de classes.
Une formule alternative est la règle de Yule où k  2,5 4 n
2  EIQ
Une autre formule est celle de Freedman–Diaconis où k  3
n

EIQ représente l’écart interquartile sur toute la plage de données (voir plus loin la notion
d’écart interquartile ).

A. Benchekroun - Statistiques Descriptives 51


I.2) CARACTÉRISTIQUES DE TENDANCE CENTRALE
ET DE DISPERSION
I.2.) A. NOTION DE TENDANCE CENTRALE ET DE
DISPERSION

A. Benchekroun - Statistiques Descriptives 52


Fig. 20 - NOTION DE TENDANCE CENTRALE ET DE DISPERSION

Considérons la figure 20 : les distributions A et B ont des tendances centrales


différentes et même dispersion. Au contraire, les distributions A, C et D ont même
tendance centrale et des dispersions différentes: le phénomène C a une dispersion
moins forte que A, qui lui-même est moins dispersé que D.

A. Benchekroun - Statistiques Descriptives 53


• Il suffit a priori de deux nombres, mesurant respectivement la
tendance centrale et la dispersion d'une distribution pour résumer
assez convenablement l'information contenue dans celle-ci.
• Conditions de Yule
Le statisticien britannique Yule a énoncé les six propriétés que devrait
présenter une bonne caractéristique de tendance centrale ou de
dispersion:

A. Benchekroun - Statistiques Descriptives 54


1. Être définie de façon objective.
2. Dépendre de toutes les observations.
3. Avoir une signification simple et concrète.
4. Être facile à calculer.
5. Être peu sensible aux fluctuations d'échantillonnage.
6. Se prêter aisément au calcul algébrique.

A. Benchekroun - Statistiques Descriptives 55


I.2.) B. LES CARACTERISTIQUES DE TENDANCE
CENTRALE
I.2)B.)i) Le mode

Le mode d'une variable statistique est la valeur qui correspond au maximum du


diagramme différentiel (diagramme en bâtons ou histogramme selon le cas).
Si la variable est discrète, le mode est bien défini. Ainsi le mode de la distribution des
familles selon le nombre de leurs enfants (tableau 4) est de 2 enfants.

A. Benchekroun - Statistiques Descriptives 56


Si la variable est continue, on ne peut définir que la classe modale qui correspond
au maximum de la fréquence moyenne par unité d'amplitude : cela correspond au pic de
l'histogramme.
Le salaire mensuel modal de la distribution des salariés d'un établissement
industriel est compris entre 4 000 et 6 000 DH (voir tableau 5); On dira que (4 000 ; 6 000)
est la classe modale.

Si X désigne une v.a.r. ayant une densité de probabilité f, le mode (théorique) de X est le
nombre m0 tel que

f ( m0 ) = Max ( f ( x ))
xIR

A. Benchekroun - Statistiques Descriptives 57


Le mode est une caractéristique de tendance centrale qui satisfait aux
conditions 1,3 & 4 de Yule. Son inconvénient majeur est de ne pas satisfaire à la
condition 5 et plus encore à la condition 6 : le mode empirique est très sensible aux
fluctuations d'échantillonnage; De plus, le groupement des observations en classes (cas
des variables continues) peut faire passer le mode d'une classe à une autre suivant les
extrémités de classe que l'on retient.

A. Benchekroun - Statistiques Descriptives 58


I.2)B.) ii) La médiane

Première définition
La médiane est la valeur de la variable statistique qui partage en deux effectifs
égaux les observations préalablement rangées par ordre croissant ou décroissant du
caractère.
Donc si par exemple on considère une population de 15 personnes décrite
suivant la taille, la taille médiane est celle de la 8ième personne,les personnes étant
rangées par ordre de taille croissante (ou décroissante).
Supposons maintenant que dans l'exemple précédant la population soit de 16
personnes rangées par ordre de taille croissante; Une taille médiane sera celle de la
8ième, mais une autre taille médiane sera celle de la 9ième. Il convient donc de donner une
définition plus rigoureuse.

A. Benchekroun - Statistiques Descriptives 59


Définition en termes de probabilités
Soit X une v.a.r.
On appellera médiane de X tout nombre réel  tel que

 Pr ob[ X   ]  0, 5

 Pr ob[ X   ]  0, 5

Compte tenu de Pr ob[ X   ] = 1 − Pr ob[ X ]


On peut aussi écrire

 médiane de X  Pr ob[ X  ]  0, 5  Pr ob[ X   ]


50% 50%

médiane

A. Benchekroun - Statistiques Descriptives 60


Soit F la f.r. de X IR → [0;1]
F :
x Pr ob[ X  x ]

Si F est continue (x) Pr ob[ X = x] = 0

D'où si F est continue

1
 médiane de X  F (  ) =
2

A. Benchekroun - Statistiques Descriptives 61


Définition en termes statistiques
Soit X un caractère (quantitatif) observée sur une population
On appellera médiane (empirique) de X tout nombre réel  tel que

 Pr op[ X   ]  0, 5

 Pr op[ X   ]  0, 5
On peut aussi écrire

 médiane de X  Pr op[ X  ]  0, 5  Pr op[ X   ]

A. Benchekroun - Statistiques Descriptives 62


Propriété de la médiane empirique
Soit X un caractère (quantitatif) observé sur une population de N individus; Soit X1,…,XN les
valeurs observées, et soit X ,... X ces valeurs observées de manière
(1) (N)
croissante ( X
(1)  X (2)  ...  X ( N −1)  X ( N ) ) alors

une médiane (empirique) de X est  = X ([ N / 2]+1)

[x] désigne la partie entière de x (pour x IR).

A. Benchekroun - Statistiques Descriptives 63


Exemple : Considérons l'exemple suivant correspondant à une variable comportant 17 observations :

X On effectue le tri croissant de X, on obtient


1 15 X tri
2 16 1 4 5,88% 5,88%
3 9 2 5 11,76% 5,88% Une médiane de X correspond à la 9ème valeur, soit
4 7 3 6 17,65% 5,88%
5 11 4 6 23,53% 5,88% à 11. Et d'ailleurs c'est la seule, et on a bien
6 19 5 7 29,41% 5,88%
7 11 6 7 35,29% 5,88% Prop[X 11]=47,06% 50% Prop[X 11]=58,82%
8 16 7 8 41,18% 5,88%
9 8 8 9 47,06% 5,88%
10 6 9 11 52,94% 5,88%
11 15 10 11 58,82% 5,88%
La médiane de X est unique et elle est
12 5 11 15 64,71% 5,88%
13 4 12 15 70,59% 5,88% égale 11, et heureusement c'est ce que
14 21 13 16 76,47% 5,88%
15 6 14 16 82,35% 5,88% va donner la fonction MEDIANE de
16 7 15 19 88,24% 5,88%
17 19 16 19 94,12% 5,88% Excel
17 21 100,00% 5,88%

A. Benchekroun - Statistiques Descriptives 64


Supprimons la 10ème observation. Les 16 observations de X sont les suivantes :

X Le tri croissant de X donne les résultats suivants :


1 15
2 16 X tri Une médiane de X correspond à la 9ème valeur, soit à 11. Et
3 9 1 4 6,25%
4 7 2 5 12,50% d'ailleurs c'est la seule, et on a bien
3 6 18,75%
5 11
4 7 25,00%
6 19 Prop[X 11]=43,75% 50% Prop[X 11]=56,25%
5 7 31,25%
7 11 6 8 37,50%
8 16 7 9 43,75%
9 8 8 11 50,00% La médiane de X est encore ici unique et elle
10 15 9 11 56,25%
11 5 10 15 62,50% est égale 11, et heureusement c'est ce que va
12 4 11 15 68,75%
13 21 12 16 75,00% donner la fonction MEDIANE de Excel
14 6 13 16 81,25%
15 7 14 19 87,50%
16 19 15 19 93,75%
16 21 100,00%

A. Benchekroun - Statistiques Descriptives 65


Supprimons maintenant des données initiales la 11ème observation. Les 16 observations de X
sont les suivantes :

Le tri croissant de X donne les résultats suivants :


X X tri Une médiane de X correspond à la 9ème valeur, soit à 11. Et, et
1 15 1 4 6,25%
2 16 2 5 12,50% on a bien
3 9 3 6 18,75%
4 7 4 6 25,00%
Prop[X 11]=50,00% 50% Prop[X 11]=62,50%
5 11 5 7 31,25% Mais, on peut remarquer que l'on a aussi
6 19 6 7 37,50% Prop[X 9]=43,75% 50% Prop[X 9]=50%
7 11 7 8 43,75%
8 16 8 9 50,00% Donc 9 est aussi une médiane de X.
9 8 9 11 56,25%
10 6 10 11 62,50% On peut aussi remarquer la propriété suivante
11 5 11 15 68,75% t ]9;11[ Prop[X t]=50%=Prop[X t]
12 4 12 16 75,00%
13 21 13 16 81,25%
14 6 Donc tout nombre compris ente 9 et 11 est une médiane (il
14 19 87,50%
15 7 15 19 93,75% y a théoriquement une infinité de médianes).
16 19 16 21 100,00%

A. Benchekroun - Statistiques Descriptives 66


Dans l'exemple précédant, il y a un intervalle médian, il s'agit de l'intervalle [9;11] et il n'y
a pas de médianes en dehors de cet intervalle.

Si on demande à Excel, de calculer la médiane de la variable avec la fonction MEDIANE,


il donnera la valeur 10 (il faut bien qu'il donne un résultat) . Quand il va exister un
intervalle médian, Excel donnera comme médiane le centre de cet intervalle. C'est aussi ce
que feront les autres softwares.
On remarquera que dans cet exemple, 10 n'est pas une valeur observée de la variable.

On remarquera aussi qu'Excel donne aussi la valeur de  = X ([ N / 2]+1) , il faudra utiliser la


fonction PETITE.VALEUR(Matrice;K) où "Matrice" sera la plage des valeurs observées
de la variable et K =[N/2]+1.

A. Benchekroun - Statistiques Descriptives 67


Calcul de médiane dans le cas d'un caractère quantitatif discret

On suppose que les modalités xi sont ordonnées:


x1 x2 x3 ... xM −1 xM

ni
Soit ni (resp. fi = ) l'effectif (resp. la fréquence)
N
correspondant à la modalité xi

Soit Ni (resp. N i ) l'effectif cumulé (resp. la


Fi =
N
fréquence cumulée) correspondant à la modalité xi

(i = 1 à M ) N i = n1 + n2 + ... + ni & Fi = f1 + f 2 + ... + f i

A. Benchekroun - Statistiques Descriptives 68


Si on convient que N0= 0 & F0= 0 , il est évident que l'on aura:

(! p  IN;1  p  M ) N p −1 [N ] +1  N p
2
On sait qu'une médiane (empirique) de X est

 = X ([ N / 2]+1) = x p

A. Benchekroun - Statistiques Descriptives 69


Reprenons l'exemple du caractère "nombre d'enfants" du tableau 4
Nombre Nombre de Effectif
d'enfants familles Cumulé
xi ni Ni
0 80 80
1 120 200
2 150 350 X (251)=x3=2

3 90 440
4 40 480
5 10 490
6 10 500

Total 500

Le nombre médian d'enfant est 2.

A. Benchekroun - Statistiques Descriptives 70


Propriété (cas des caractères discrets):
Une médiane de X est la première modalité pour laquelle la f.r. (resp.
l'effectif cumulé) dépasse strictement 0,5 (resp. N/2).
De plus, lorsqu'il n'existe aucune modalité xi pour laquelle F(xi) =0,5 (resp.
N(xi)=N/2), la médiane est unique.
Lorsqu'il existe une modalité xi pour laquelle F(xi) =0,5 (resp. N(xi)=N/2)
(situation ne pouvant se produire que si N est pair) , il existe une infinité de
médianes (empiriques) : tout nombre de l'intervalle [xi , xi+1] est une médiane; On
dira dans ce cas que [xi , xi+1] est un intervalle médian.

A. Benchekroun - Statistiques Descriptives 71


Reprenons l'exemple du caractère "nombre d'enfants" du tableau 4

Nombre Nombre de Effectif


d'enfants familles Cumulé
xi ni Ni
0 80 80
1 120 200 500/2=250
2 150 350
Le nombre médian d'enfants est 2:
3 90 440
c'est la première modalité où
4 40 480 l'effectif cumulé dépasse
strictement 500/2=250; Il y a
5 10 490
unicité de la médiane (il n'y a
6 10 500 aucune modalité pour laquelle
l'effectif cumulé vaut 250).
Total 500

A. Benchekroun - Statistiques Descriptives 72


Modifions les effectifs de l'exemple précédant comme suit :

Nombre Nombre de Effectif


d'enfants familles Cumulé
xi ni Ni
0 80 80
1 120 200
2 50 250 500/2=250

3 140 390 A la modalité 2 l'effectif cumulé


4 90 480 est égal à 500/2=250; Il y a une
infinité de médianes: tout nombre
5 10 490 de l'intervalle [2 ; 3].
6 10 500

Total 500

A. Benchekroun - Statistiques Descriptives 73


Désignation de la Médiane dans le cas d'un caractère continu

On considère implicitement que les valeurs observées X1,…,XN sont issues d'une v.a.r. X
ayant une f.r. F continue et strictement croissante.
Soit X (1) ,... X ( N ) ces valeurs observées ordonnées de manière croissante.
X (1)  X (2)  ...  X ( N −1)  X ( N )
On a vu qu'une médiane (empirique) de X est  = X ([ N / 2]+1)
([N/2] désigne la partie entière de N/2).

Soit Me la médiane théorique de X (médiane au sens des probabilités), celle pour laquelle
F(Me)=1/2 . On considère que  est une estimation de Me. Cela est justifié par le
comportement asymptotique de .

A. Benchekroun - Statistiques Descriptives 74


On démontre que si F est continue et strictement croissante,
ps

N
Me

Mais souvent les observations sont groupées en classe (et donc soit on ne
dispose pas de toutes les observations, soit on ne veut pas "utiliser" toutes les
observations). On a alors l'habitude d'appeler médiane de X, la médiane Me
(théorique) de la v.a.r. X (au sens des probabilités); La médiane Me est donc
définie par F(Me)=1/2. Donc, souvent lorsque X est un caractère quantitatif
continu dont on a effectué un groupement des observations en classes, la médiane
de X désignera ce nombre Me dont on verra comment obtenir une estimation.
Evidemment, on n'a pas la valeur exacte de Me mais seulement un estimateur.

A. Benchekroun - Statistiques Descriptives 75


Le problème réside dans l'estimation de Me car la fonction F est généralement
inconnue.
F devrait être estimée par la f.r. empirique dont la définition a déjà été donnée. La
fonction de répartition empirique FN* ("courbe" cumulative) est définie par :

FN* : IR → IR
1 N
x Pr op[ X  x] = 1 (X p )
N p =1 ]−, x]

Cette fonction FN* dépend de la taille de l'échantillon N et des valeurs observées, et donc si
les observations constituent les valeurs observées de variables aléatoires, FN* est elle-même
une variable aléatoire que l'on observe.

A. Benchekroun - Statistiques Descriptives 76


F* possède de "bonnes propriétés" de convergence vers F (quand N→+∞).

ps
Non seulement on a ( x) FN* ( x) N F ( x)

ps
On a même Sup F ( x)
*
N F ( x) N
0 Théorème de Glivenko-Cantelli
x

A. Benchekroun - Statistiques Descriptives 77


Finalement, quand on a un caractère quantitatif continu, on désigne par médiane le nombre
théorique Me (appelée médiane théorique ou "vraie médiane") pour lequel F(Me)=0,5. Deux
alternatives sont possibles pour estimer Me :
✓ Alternative 1: (la meilleure) On utilise toutes les valeurs observées qui sont à la disposition
et on prend souvent pour estimation de Me le nombre  = X ([ N / 2]+1) qui est
souvent appelé médiane empirique.
✓ Alternative 2 : (celle qu'on présente dans tous les manuels de "Statistiques Descriptives")
où toutes les valeurs observées ont été regroupées en classes et on a une estimation moins
précise de Me obtenue par la méthode d'interpolation linéaire.

A. Benchekroun - Statistiques Descriptives 78


Pour la 2ème alternative, on procède de la manière suivante :
→ On détermine la classe "médiane" c’est-à-dire la classe (ei-1 ; ei) pour laquelle
1
FN* (e p −1 ) = F ( M e )  FN* (e p ) ce qui est équivalent à
2
N
N (e p −1 ) = N  F ( M e )  N (e p )
2

N désigne par abus de notation soit l'effectif total soit la fonction "Effectif cumulé" : le
contexte permet de savoir de quoi il s'agit.

A. Benchekroun - Statistiques Descriptives 79


On utilise implicitement les approximations suivantes :
F (e p −1 )  FN* (e p −1 ) & F (e p )  FN* (e p )

D'ailleurs, si on utilise pas la fonction F, on confondra dans les notations F avec FN* (c'est
ce qu'on a l'habitude de faire en "Statistiques Descriptives") ; Me est alors estimée par
simple interpolation linéaire ; Compte tenu de
1
F (e p −1 ) = F ( M e )  F (e p ) on peut dire que e p −1 M e  ep
2

A. Benchekroun - Statistiques Descriptives 80


d'où l'interpolation linéaire:
M e − e p −1 e p − e p −1
F ( M e ) − F (e p −1 ) F (e p ) − F (e p −1 )
1
− F (e p −1 )
 Me e p −1 + (e p − e p −1 ) 2
F (e p ) − F (e p −1 )

On peut évidemment utiliser de manière équivalente les effectifs cumulés :

M e − e p −1 e p − e p −1
F ( M e ) − F (e p −1 ) F (e p ) − F (e p −1 )
N
− N (e p −1 )
 Me e p −1 + (e p − e p −1 ) 2
N (e p ) − N (e p −1 )

A. Benchekroun - Statistiques Descriptives 81


Estimons le salaire médian mensuel des 500 salariés de l'exemple du tableau 5

Salaire mensuel Nombre de Effectif


ei-1 - ei salariés ni cumulé

]3 000 ; 4 000] 30 30
]4 000 ; 6 000] 100 130
]6 000 ; 10 000] 150 280 500/2=250

]10 000 ; 20 000] 155 435


]20 000 ; 40 000] 40 475
Plus de 40 000 25 500

La classe médiane est (6 000 ; 10 000)

A. Benchekroun - Statistiques Descriptives 82


6 000 M e 10 000

 500
 N (6000) = 130 N (10 000) = 280
 2

M e − 6 000 10 000 − 6000


 =
250 − 130 280 − 130
120 4 46 000
 M e = 6 000 + 4000 = 6000 + 4 000 = = 9 200
150 5 5

Donc Me9 200

A. Benchekroun - Statistiques Descriptives 83


Propriétés de la médiane

La médiane satisfait aux conditions de Yule, à l'exception de la dernière: elle ne


se prête pas au calcul algébrique.

Elle dépend de toutes les observations, mais seulement par leur ordre, et non
par leurs valeurs. Elle n'est donc pas influencée par des observations aberrantes,
anormalement grandes ou petites.

Son emploi n'est pas recommandé dans le cas de séries discrètes dont la
courbe en escalier comporte des « sauts» importants, ni dans celui de séries continues
ne comportant que peu d'observations, car son interprétation devient alors très
incertaine.

A. Benchekroun - Statistiques Descriptives 84


I.2)B.) iii) La moyenne arithmétique

On désigne généralement par X la moyenne arithmétique de la variable X.

Soit X une série statistique comportant N observations: X1,…,XN


Par définition

X
N
X1 + X 2 + + XN 1
X = = i
N N
i =1

A. Benchekroun - Statistiques Descriptives 85


Exemple
Huit personnes ont fait don à l'Association de lutte contre le cancer des sommes
Xi suivantes:120, 150, 200, 210, 240, 300, 350 et 500 DH.
Le don moyen effectué par ces huit personnes est égal à :

120 +150+ 200+ 210+ 240+ 300+ 350+ 500 2 070


X= = = 258,75 DH
8 8

A. Benchekroun - Statistiques Descriptives 86


Calcul de la moyenne arithmétique

Soit X une variable comportant N observations X1,…,XN, prenant les valeurs (modalités) :
x1, x2, …, xM

auxquelles correspondent respectivement les effectifs:


n1, n2, …, nM
(n1 + n 2 + ... + nM = N )

  
N M M
1 1
X = Xi = np xp = f p xp
N N
i =1 p =1 p =1

np
où f p =
N
Autrement dit, la moyenne arithmétique est égale à la moyenne des modalités
pondérées par leurs fréquences respectives.

A. Benchekroun - Statistiques Descriptives 87


Exemple
Supposons que les huit personnes précédentes aient effectué les dons suivants:120, 120,
200, 200, 200, 350, 350, 500
Le don moyen effectué par ces huit personnes est égal à :

2120 + 3200 + 2350 + 1500 2 040


X = = = 255,00 DH
8 8

A. Benchekroun - Statistiques Descriptives 88


Calcul Pratique de la moyenne arithmétique

→ Cas d’une variable discrète

On suppose que les modalités ordonnées xi sont:

x1 x2 x3 ... xM −1 xM

Le calcul est exactement le même que précédemment

  
N M M
1 1
X = Xi = np xp = f p xp
N N
i =1 p =1 p =1

np
où f p =
N
np désigne l’effectif correspondant à la modalité xp (p=1 à M)

89
A. Benchekroun - Statistiques Descriptives
Reprenons l'exemple du caractère "nombre d'enfants" du tableau 4

(2)
(1) Nombre
Nombre de
d'enfants familles (3)=(1) x (2)
ni x xi
1 500
xi ni X = 
500 i =1
Xi

0 80 0 1 7 960
1 120 120
= 
500 p =1
np xp =
500
= 1, 92 enfant

2 150 300
3 90 270
4 40 160
5 10 50
6 10 60

Total 500 960


A. Benchekroun - Statistiques Descriptives 90
→ Cas d’une variable continue

Lorsque les observations sont groupées par classes, on ne peut (ou veut) pas
appliquer directement la formule de définition, car on ne connaît pas (ou on ne veut pas
connaître) précisément les valeurs prises par la variable statistique à l'intérieur de chaque
classe.

Par convention, pour effectuer le calcul, on suppose que toutes les


observations à l'intérieur d'une classe i sont groupées en son centre ci :
ei −1 + ei
ci =
2

 
M M
1
X  npcp = f pc p
N
p =1 p =1 M désigne ici le nombre de
np classes
où f p =
N

A. Benchekroun - Statistiques Descriptives 91


Estimons le salaire moyen mensuel des 500 salariés de l'exemple du tableau 5.

Salaire mensuel Nombre de Centre de classe


ei-1 ; ei salariés ni ni x ci
ei −1 + ei
ci =
2
]3 000 ; 4 000] 30 3 500 105 000
]4 000 ; 6 000] 100 5 000 500 000
]6 000 ; 10 000] 150 8 000 1 200 000
]10 000 ; 20 000] 155 15 000 2 325 000
]20 000 ; 40 000] 40 30 000 1 200 000
]40 000 ; 90 000] 25 65 000 1 625 000
Total 500 6 955 000


6
1 6 955 000
X = npcp = = 13910 DH
500 500
p =1
A. Benchekroun - Statistiques Descriptives 92
Propriétés algébriques de la moyenne arithmétique

La moyenne arithmétique satisfait à l'ensemble des conditions de Yule. Mais son


principal mérite est d'avoir une signification concrète simple et de se prêter au calcul
algébrique.

La somme algébrique des écarts des observations à la moyenne est nulle

N M

(X
i =1
i − X ) = n p ( x p − X ) =0
p =1

A. Benchekroun - Statistiques Descriptives 93


 Propriété de linéarité

Si on effectue un changement de variable Y=b X + a, la même transformation


s’applique aux moyennes:

Y = bX + a

Si une variable Z est la somme de deux autres: Z=X + Y; alors la même
transformation s’applique aux moyennes:

Z = X +Y

A. Benchekroun - Statistiques Descriptives 94


Lien avec les probabilités

Soit X une v.a.r. (variable aléatoire réelle) ayant une espérance mathématique E(X)=m

Si X1,X2,…Xn est un échantillon aléatoire suivant la même loi que X, alors


X est un estimateur sans biais convergeant vers m.

A. Benchekroun - Statistiques Descriptives 95


Calcul de la moyenne sur une population décomposée en sous populations

Supposons que la population  soit décomposée en une partition (h)h=1 à H


et soit X h (h=1 à H) la moyenne de X sur la sous population h; Alors

H
1
(1) X =
N
N
h =1
h Xh Nh désigne la taille de la population h

(N1 + N 2 + ... + N H = N )

A. Benchekroun - Statistiques Descriptives 96


Exemple
L'entreprise à laquelle appartient l'établissement industriel de N1 = 500
salariés dont on vient de calculer le salaire moyen, X 1 = 13910 DH possède
un autre établissement de N2 = 1500 salariés dont le salaire moyen est
X 2 = 16500 DH
On vous demande de calculer le salaire moyen X de l’ensemble des N= N1 + N2
salariés de l’entreprise. On obtient:

1
X = ( N1 X 1 + N 2 X 2 )
N
1
= (500  13910 + 1500  16500)
2000
1 31705 000
= (6 955 000 + 24 750 000) = = 15852,50 DH
2000 2000

A. Benchekroun - Statistiques Descriptives 97


I.2)B.) iii) Généralisation de la notion de moyenne

Moyenne Géométrique

Soit une série statistique X strictement positive comportant N observations: X1,…,XN


Par définition, la moyenne géométrique de X est

G = N X1  X 2   XN
N
1
Il est évident que : ln G =
N
 ln X
i =1
i = ln X

A. Benchekroun - Statistiques Descriptives 98


En "Economie et Finance", la moyenne géométrique sert essentiellement à
calculer un taux de variation moyen d'une suite de taux de variations en faisant l'hypothèse
que ce taux moyen correspond à une progression géométrique de la variable dont on
étudie les variations; Il est alors évident que:

1 + r = N (1 + r1 )  (1 + r2 )   (1 + rN )

r désigne le taux moyen de variation de la variable étudiée.

A. Benchekroun - Statistiques Descriptives 99


Exemple
Dans un pays d'Amérique latine le taux d'inflation des prix à la consommation (en %) a
été, au cours des années 2000 à 2004, de :

2000 2001 2002 2003 2004


+117,80 +84,50 +58,30 +31,70 +12,80

On vous demande de calculer le taux d'inflation moyen de la période 2000 à


2004.

A. Benchekroun - Statistiques Descriptives 100


Solution :

À ces taux de hausse des prix, correspondent les indices (base 100 l'année précédente)
suivants:

2000 2001 2002 2003 2004


+217,80 +184,50 +158,30 +131,70 +112,80

D'où l'indice moyen

G= 5
217,8  184,5  158,3  131, 7  112,8 156, 71
Ce qui correspond à un taux d'inflation annuel moyen de 56,71%.

A. Benchekroun - Statistiques Descriptives 101


Les remarques faites concernant le calcul pratique de la moyenne arithmétique
restent valables pour la moyenne géométrique.

Soit X une variable strictement positive comportant N observations X1,…,XN, prenant les M
valeurs (modalités): x1, x2, …, xM

auxquelles correspondent respectivement les effectifs:


n1, n2, …, nM
(n1 + n 2 + ... + nM = N )

  
N M M
1 1 1
ln G = ln X = ln X i = n p ln x p =
np
ln x p
N N N
i =1 p =1 p =1


M
1
= ln(
n N
xp p )
p =1


M
1
D'où
G=(
np N
xp )
p =1
A. Benchekroun - Statistiques Descriptives 102
Exemple
Dans le pays d'Amérique latine précédemment évoqué, le taux moyen annuel
d'inflation des prix à la consommation (en %) a été la suivante pour les trois périodes
suivantes:

1990 à 1991 1992 à 1999 2000 à 2004


+17,20 +34,60 +56,70

On vous demande de calculer le taux d'inflation moyen de la période 1990 à


2004.

A. Benchekroun - Statistiques Descriptives 103


Solution :

À ces taux de hausse des prix, correspondent les indices moyens annuels suivants:

1990 à 1991 1992 à 1999 2000 à 2004


+117,20 +134,60 +156,70
D'où l'indice moyen annuel de cette période de 15 années:

G = 15 117, 22  134, 68  156, 75 139, 01

Ce qui correspond à un taux d'inflation annuel moyen de 39,01%.

A. Benchekroun - Statistiques Descriptives 104


Moyenne Harmonique

Soit une série statistique X strictement positive comportant N observations: X1,…,XN


Par définition, la moyenne harmonique de X est

N N
H = = N
1 1 1 1
X1
+
X2
+ ... +
XN i =1 Xi

N
1 1 1 1
Il est évident que :
H
=
N
 i =1 Xi
=(
X
)

A. Benchekroun - Statistiques Descriptives 105


En "Gestion d'entreprise", la moyenne harmonique sert essentiellement à
calculer une productivité moyenne d'une suite de productivités; Il est en effet, presque
évident, que la productivité globale correspondante à une suite de productivités est égale à
la moyenne harmonique de cette suite.

Preuve : soit t la variable servant à mesurer la productivité (par exemple le temps)


Si l'unité i (i=1 à N) "consomme" ti en variable t, par définition la productivité relative à
1
cette unité est ri = .
ti
La quantité totale "consommée" en t par les N unités est
1 1 1
t1 + t2 + ... + t N = + + ... + d'où l'expression de la productivité globale:
r1 r2 rN
N N
r= = =H
t1 + t2 + ... + t N 1 + 1 + ... + 1
r1 r2 rN
A. Benchekroun - Statistiques Descriptives 106
Exemple : Un groupe industriel dispose de trois usines pour fabriquer un produit; La
première (resp. deuxième et troisième) usine fabrique 800 (respectivement 600 et 400)
unités à l'heure.
Calculer la productivité moyenne de l'ensemble des 3 usines du groupe pour une même
production de chaque usine.

Solution : r1 = 800 u / h ; r2 = 600 u / h ; r3 = 400 u / h.

Chaque usine p (p = 1 à 3) produit la même quantité Q en un nombre


Q
d'heures de travail égal à t p = , la productivité moyenne des 3 usines est donc
rp

3Q 3 Ici, nous sommes dans le cas N = 3Q; les Q


r= =
Q +Q +Q 1 + 1 + 1 unités de l'usine p ont la même
r1 r2 r3 r1 r2 r3
productivité rp.
3
=  553,85 u / h.
1 +1 +1
800 600 400

A. Benchekroun - Statistiques Descriptives 107


Il serait faux de dire que les 3Q unités ont été produites avec une productivité globale
de :

800 + 600 + 400


= 600 u / h.
3

A. Benchekroun - Statistiques Descriptives 108


Soit X une variable strictement positive comportant N observations X1,…,XN, prenant les M
valeurs (modalités): x1, x2, …, xM

auxquelles correspondent respectivement les effectifs : n1, n2, …, nM

(n1 + n 2 + ... + nM = N )

 
N M
1 1 1 1 np
= (1 ) = =
H X N Xi N xp
i =1 p =1

N
H =


M
np
xp
p =1
N
H =


M
np
xp
p =1

A. Benchekroun - Statistiques Descriptives 109


Exemple : Reprenons l'exemple du groupe industriel qui dispose de trois usines pour
fabriquer un produit; La première (resp. deuxième et troisième) usine fabrique 800
(respectivement 600 et 400) unités à l'heure.
Calculer la productivité moyenne de l'ensemble des 3 usines du groupe pour une
production de 20 000 (resp. de 15 000 et 5 000) unités de la première (resp. deuxième
et troisième) usine.
Solution : Ici N=20 000+15000+5000 = 40 000 ; M=3 ;
x1 = r1= 800 u/h ; x2 = r2= 600 u/h ; x3 = r3= 400 u/h.
La productivité moyenne des 3 usines est
N 40
H = = = 640 u / h.


+ +
M
np 20 15 5
800 600 400
xp
p =1

A. Benchekroun - Statistiques Descriptives 110


Comparaison entre les trois moyennes

Moyenne Harmonique  Moyenne Géométrique  Moyenne Arithmétique

A. Benchekroun - Statistiques Descriptives 111


Généralisation: Notion de -moyenne

Soit  une fonction réelle définie sur un intervalle I de , strictement monotone et continue
sur I ( induit donc une bijection monotone de I sur l'intervalle (I)=J, dont la réciproque,
nécessairement continue, sera notée -1);

Soit X une variable à valeurs dans I comportant N observations X1,…,XN; On appelle -


moyenne de X, le nombre M défini par:

N
1
 (M ) =
N
 ( X ) =  ( X )
i =1
i
Cette définition a un sens, car  ( X )J
puisque J est un intervalle.

Donc M =  −1 ( ( X ))

A. Benchekroun - Statistiques Descriptives 112


Quelques cas particuliers de -moyenne

  = Identité, on retrouve la moyenne arithmétique usuelle


*

 Pour : +
on retrouve la moyenne géométrique.
x ln x
*
+ → *
+
 Pour on retrouve la moyenne harmonique.
: 1
x
x

 Pour  :
+ +
la -moyenne X s'appelle moyenne
2
x x quadratique de X, elle est donc égale à:
N
1
M =
N
X
i =1
i
2
= X2

A. Benchekroun - Statistiques Descriptives 113



 Toujours pour : + +

x x2
la -moyenne de X − X , qui correspond à la moyenne quadratique de ( X − X )
s'appelle "l'écart type" de X : nous l'étudierons dans la prochaine section.

 On peut généraliser les deux exemples précédents


+ →
: +

x xp
p 1;+ 
la -moyenne de X (resp. de X − X ) s'appelle moyenne absolue (resp.
moyenne absolue centrée) d'ordre p de X.
1 n
Pour p* on appelle moment (non centré) d'ordre p de X la statistique m p ( X ) X ip
n i 1

1 n

Pour p* on appelle moment centré d'ordre p de X la statistique p


(X ) (Xi X )p
n i 1

A. Benchekroun - Statistiques Descriptives 114


I.2.) C. LES CARACTERISTIQUES DE DISPERSION
I.2)C.)i) L'étendue

L'étendue est la différence entre la plus grande et la plus petite des valeurs observées:

Etendue= X ( N ) − X (1)

Exemples
✓Dans le cas du caractère "nombre d'enfants" du tableau 4
l'étendue est égale à w = 6 - 0 = 6 enfants.
✓Dans le cas de la distribution des 500 salariés d'un établissement industriel selon le salaire
mensuel (tableau 5), l'étendue peut être estimée par la différence entre l'extrémité
supérieure de la dernière classe (évaluée pour construire l'histogramme) et l'extrémité
inférieure de la première classe:w=90 000-3 000=87 000 DH.

A. Benchekroun - Statistiques Descriptives 115


Naturellement, si l'on connaît précisément les valeurs de la plus petite et de la plus grande
observation, on utilisera celles-ci pour le calcul de l'étendue. Supposons que l'on ait:
X(1) = 3 200 DH, X(N) = 87000 DH, alors:w= 87000-3200= 83800 DH

A. Benchekroun - Statistiques Descriptives 116


Propriétés de l'étendue

La signification de l'étendue est claire, mais, puisqu'elle ne dépend que des


termes extrêmes, la forme de la distribution n'a pas d'influence sur elle: une même valeur
de l'étendue peut résulter d'une distribution symétrique ou d'une distribution
asymétrique. Or, dans le second cas la dispersion risque d'être plus grande.
De surplus, les termes extrêmes, sont souvent des valeurs exceptionnelles, voire
des valeurs erronées. L'étendue est donc une caractéristique de dispersion très imparfaite.
Elle est cependant utilisée, par exemple dans le contrôle industriel de fabrication, en raison
de sa facilité de calcul.

A. Benchekroun - Statistiques Descriptives 117


I.2)C.)ii) L'intervalle (écart) interquartile

La notion de médiane peut être généralisée.


Soit   ]0 ; 1[ on peut définir la notion de quantile (ou fractile) d'ordre 

A. Benchekroun - Statistiques Descriptives 118


Définition en termes de probabilités
Soit X une v.a.r.
On appellera quantile (ou fractile) d'ordre  de X tout nombre réel  tel que

Pr ob[ X   ]   La médiane correspond à =1/2.



Pr ob[ X   ]  1 − 
Compte tenu de Pr ob[ X   ] = 1 − Pr ob[ X ]

On peut aussi écrire


 quantile d'ordre  de X  Pr ob[ X  ]    Pr ob[ X   ]

 1-

quantile d'ordre 

A. Benchekroun - Statistiques Descriptives 119


Soit F la f.r. de X IR → [0;1]
F :
x Pr ob[ X  x ]

Si F est continue (x) Pr ob[ X = x] = 0

D'où si F est continue

 quantile d'ordre  de X  F (  ) = 

A. Benchekroun - Statistiques Descriptives 120


Définition en termes statistiques
Soit X un caractère (quantitatif) observée sur une population
On appellera quantile (empirique) (ou fractile) d'ordre  de X tout nombre réel  tel
que

Pr op[ X   ]  

Pr op[ X   ]  1 − 
On peut aussi écrire

 quantile d'ordre  de X  Pr op[ X  ]    Pr op[ X   ]

A. Benchekroun - Statistiques Descriptives 121


Détermination du quantile d'ordre 
Soit X un caractère (quantitatif) observé sur une population de N individus; Soit X1,…,XN
les valeurs observées, et soitX ,... X ces valeurs observées de manière
(1) (N)
croissante ( X (1)  X (2)  ...  X ( N −1)  X ( N ) ) alors un quantile ( ou fractile)

(empirique) d'ordre  de X est  = X ([ N ]+1)

[x] désigne la partie entière de x (pour x  IR).

Et souvent on dira que  est le fractile empirique d'ordre  de X, même s'il en existe plusieurs.

A. Benchekroun - Statistiques Descriptives 122


Quelques valeurs usuelles de 
k
→ Quartiles. Les quartiles correspondent à (k 1, 2,3) k=1 correspond
4
au 1er quartile, k=2 correspond au 2ème quartile appelée médiane, k=3 au 3ème
quartile. k
→ Déciles. Les déciles correspondent à (k {1,2,3,...,9} k=1 correspond au 1er
10
décile, k=2 correspond au 2ème décile,…, k=9 au 9ème décile.

k
→ Centiles. Les centiles correspondent à (k {1,2,3,...,99} k=1
100
correspond au 1er centile, k=2 correspond au 2ème centile,…, k=99 au 99ème centile.

A. Benchekroun - Statistiques Descriptives 123


Désignation du quantile d'ordre  dans le cas d'un caractère continu

Tout ce qui a été dit pour la médiane se généralise exactement de la même manière

Soit X1,…,XN les valeurs observées d'une v.a.r. X ayant une f.r. F continue et strictement
croissante et soit X (1) ,... X ( N ) ces valeurs observées ordonnées de manière
croissante.

X (1)  X (2)  ...  X ( N −1)  X ( N )

On vient de voir qu'un fractile (empirique) d'ordre  de X est  = X ([ N ]+1)


([ N] désigne la partie entière de  N).

A. Benchekroun - Statistiques Descriptives 124


Mais comme on l'a déjà vu pour la médiane, on a l'habitude d'appeler fractile d'ordre  de
X, le fractile Q (théorique) de la v.a.r. X (au sens des probabilités); le fractile d'ordre , Q,
est donc défini par F(Q )=. Donc, lorsque X est un caractère quantitatif continu, le fractile
d'ordre  de X désignera ce nombre Q.

On démontre que si F est continue et strictement croissante,


ps

N
Q

A. Benchekroun - Statistiques Descriptives 125


Finalement, quand on a un caractère quantitatif continu, on désigne par fractile d'ordre  le
nombre théorique Q (appelée fractile théorique ou "vrai fractile") pour lequel F(Q)=0,5.
Deux alternatives sont possibles pour estimer Q :
✓ Alternative 1: (la meilleure) On utilise toutes les valeurs observées qui sont à la disposition
et on prend souvent pour estimation de Q le nombre  = X ([ N ]+1) qui est
souvent appelé fractile empirique d'ordre .
✓ Alternative 2 : (celle qu'on présente dans tous les manuels de "Statistiques Descriptives")
où toutes les valeurs observées ont été regroupées en classes et on a une estimation moins
précise de Q obtenue par la méthode d'interpolation linéaire.

A. Benchekroun - Statistiques Descriptives 126


Si on utilise Excel dans le cadre de la 1ère alternative,
la fonction PETITE.VALEUR(Matrice; [N]+1), donne la médiane empirique (exactement
la valeur de ).

A. Benchekroun - Statistiques Descriptives 127


Soit X un caractère quantitatif continu.

Les nombres Q0,25 , (resp. Q0, 50, Q0,75) s'appellent premier (resp. deuxième,
troisième) quartile de X. Le deuxième quartile Q0, 50 n'est autre que la médiane de X. Ces
trois nombres divisent la série, préalablement ordonnée par ordre croissant, en quatre
parties "égales".
On appelle intervalle interquartile (ou écart interquartile ou encore étendue interquartile)
de X, la différence entre le troisième et premier quartile : Q0,75 - Q0,25.

Remarque : il est préférable de réserver le terme "intervalle interquartile" à


l'intervalle [Q0,25 ; Q0,75 ] et de désigner par " écart interquartile" (ou encore "étendue
interquartile" le nombre Q0,75 - Q0,25

EIQ = Q0,75- Q0,25

De la même manière que Q0, 50=Me a été estimé, Q0,25 et Q0,75 seront estimés.

A. Benchekroun - Statistiques Descriptives 128


Estimons l'intervalle interquartile du salaire mensuel des 500 salariés de l'exemple du
tableau 5;

Salaire mensuel Nombre de Effectif


ei-1 - ei salariés ni cumulé

]3 000 ; 4 000] 30 30
]4 000 ; 6 000] 100 130 500/4=125

]6 000 ; 10 000] 150 280


]10 000 ; 20 000] 155 435 3x 500/4=375
]20 000 ; 40 000] 40 475
Plus de 40 000 25 500

Le rang de l'observation associée à Q0,25 est N/4 = 500/4=125 , d'où la 1ère classe
interquartile ]4000 ; 6000]; Le rang de l'observation associée à Q0,75 est 3N/4 = 375 ,
d'où la 3ème classe interquartile ]10 000 ; 20 000].

A. Benchekroun - Statistiques Descriptives 129


 4 000 Q0,25 6 000

 500
 N (4000) = 30 N (6 000) = 130
 4

Q0,25 − 4 000 6 000 − 4000


 =
125 − 30 130 − 30
95 95 590 000
 Q0,25 = 4 000 + 2000 = 4000 + 2 000 = = 5900
100 100 100

Donc Q0,255 900 DH

A. Benchekroun - Statistiques Descriptives 130


10000 Q0,75 20000

 500
 N (10000) = 280 3 N (20000) = 435
 4

Q0,75 − 10000 20000 − 10000


 =
375 − 280 435 − 280
95 19 500 000
 Q0,75 = 10 000 + 10000 = 10000 + 10000 =  16129
155 31 31

Donc Q0,7516 129 DH

L'écart interquartile est donc évalué à


Q0,75- Q0,25 16 129 - 5 900 = 10 229 DH.

A. Benchekroun - Statistiques Descriptives 131


Pour voir visuellement l'ampleur de l'intervalle interquartile, on a l'habitude de le
représenter graphiquement. La représentation graphique qui est habituellement faite
est celle de la "boîte à moustaches". Historiquement ce graphique est dû à
"John Wilder Tuckey". Le nom de "boite à moustaches" provient de la traduction de
l'anglais "Box and Whiskers Plot". En français on utilise aussi l'expression
"Boîte à Pattes". En anglais, le graphique est aussi appelé "Box-Plot".

A. Benchekroun - Statistiques Descriptives 132


Le principe de construction de la "Box-Plot" est le suivant :
▪ On représente sur un axe (qui peut-être horizontal ou vertical) les quatre
valeurs : le Min, le 1er quartile, la médiane, le 3ème quartile, et le Max.
▪ Entre le premier quartile et le troisième, un rectangle est tracé. Ce rectangle
est divisé en deux par un trait au niveau de la médiane.
▪ A la boîte, sont rajoutés deux segments de droite coupant les valeurs
extrêmes. Ce sont les "moustaches" ou les "pattes" de la boîte.

A. Benchekroun - Statistiques Descriptives 133


Il existe quelques variantes de la "Box-Plot" où les "moustaches" ne se trouvent pas
aux valeurs extrêmes, mais par exemple on coupe les moustaches à peu près 1,5 fois
l'écart interquartile. Les valeurs où l'on coupe les moustaches sont respectivement
appelées "Valeur adjacente inférieure" et "Valeur adjacente supérieure". Les autres
valeurs appelés souvent à tort en anglais "outliers" et qu'il vaut mieux traduire par
"valeurs fuyardes", sont représentés par des points.

Evidemment, les softwares en Statistiques proposent ce genre de diagramme.

A. Benchekroun - Statistiques Descriptives


134
Le Box-Plot obtenu avec XLStat est le suivant :

Box plot (Salaire)

93 000

83 000

73 000

63 000
Salaire

53 000

43 000

33 000

23 000

13 000

3 000

A. Benchekroun - Statistiques Descriptives 135


Le Box-Plot obtenu avec Excel est le suivant :

A. Benchekroun - Statistiques Descriptives 136


Les Box-Plot prennent leur importance pour la comparaison d'un même caractère sur
plusieurs populations.

A. Benchekroun - Statistiques Descriptives 137


A ce stade, il est très important de faire la distinction entre "dispersion locale" et
"dispersion globale".

D'abord en termes de vocabulaire :


▪ "Dispersion" est le contraire de "Concentration";
▪ Donc "plus dispersé" est équivalent à "moins concentré";
▪ et "moins dispersé" est équivalent à "plus concentré".

A. Benchekroun - Statistiques Descriptives 138


La dispersion locale est une dispersion autour d'un paramètre.
Par exemple l'écart interquartile est un indicateur de la dispersion autour de la médiane.

A. Benchekroun - Statistiques Descriptives 139


Prenons l'exemple suivant : La série 1 correspond à celle des données
Série 1 Série 2 Série 3 des 500 salariés que l'on a pris
Minimum 3 000,00 2 000,00 2 000,00 précédemment. Les séries 2 et 3 à celles de
Q1 5 911,00 8 145,50 5 911,00 deux autres entreprises du même secteur.
Médiane (Q2) 9 145,50 9 145,50 9 145,50 Dans la 2ème entreprise, il y a beaucoup moins
Q3 16 425,00 10 145,50 16 425,00 de dispersion autour de la médiane (plus de
Maximum 90 000,00 15 000,00 200 000,00 concentration autour de celle-ci) (2000 DH
EIQ 10 514,00 2 000,00 10 514,00 contre 10514 DH) que dans la 1ère . Mais dans
Etendue 87 000,00 13 000,00 198 000,00 la 2ème nous avons un IDG de 15,38% contre
Indice de 12,09% dans la 1ère : globalement la
12,09% 15,38% 5,31%
dispersion globale distribution des salaires dans la 2ème est plus
L'indice de dispersion globale qui est pris ici est dispersée (moins concentrée) que dans la 1ère ;
EIQ/Etendue. On aurait pu prendre comme indice de Dans la 1ère il y a plus de concentration vers
concentration 1- EIQ/étendue. On verra par la suite un les extrêmes que dans la 2ème.
autre indice de concentration globale beaucoup plus
pertinent : l'indice de Gini.

La 1ère et 3ème entreprise ont la même dispersion autour de la médiane. Mais la 3ème est moins dispersée globalement
avec un IDG de 5,31% contre 12,09% : dans la 3ème entreprise il y a plus forte concentration vers les hauts salaires que
dans la 1ère.

A. Benchekroun - Statistiques Descriptives

140
I.2)C.)iii) L’écart type

Soit X une série statistique comportant N observations: X1,…,XN


Par définition, la variance de X est

N
1
VX =
N
 i
( X
i =1
− X ) 2

C’ est donc la moyenne arithmétique des carrés des écarts à la moyenne arithmétique:

VX = ( X − X )2

L'écart type de X, X , est égal à la racine carrée de la variance de X :

 X = VX

A. Benchekroun - Statistiques Descriptives 141


Calcul pratique de l’écart type

On peut faire exactement les mêmes remarques que pour la moyenne arithmétique
concernant le calcul selon les modalités de la variable.

Soit X une variable comportant N observations X1,…,XN, prenant les M valeurs (modalités):
x1, x2, …, xM

M
1
X =
N
n
p =1
p ( x p − X )2

A. Benchekroun - Statistiques Descriptives 142


Reprenons l'exemple du caractère "nombre d'enfants" du tableau 4

xp np xp- m (xp-m)² np(xp-m)² m = X = 1,92


0 80 -1,92 3,6864 294,912 936,800
VX = = 1,8736
1 120 -0,92 0,8464 101,568 500
2 150 0,08 0,0064 0,96
3 90 1,08 1,1664 104,976
4 40 2,08 4,3264 173,056
5 10 3,08 9,4864 94,864
6 10 4,08 16,646 166,464
Total 500 936,800

 X = VX = 1,8736  1,37 enfant

A. Benchekroun - Statistiques Descriptives 143


Calcul pratique de la variance

Il est facile de démontrer que : VX = X ² − ( X )²


Reprenons l'exemple précédant
xp np npxp² 2780
VX = − 1, 92² = 1, 8736
0 80 0 500
1 120 120
2 150 600
3 90 810
4 40 640
5 10 250
6 10 360
Total 500 2 780

A. Benchekroun - Statistiques Descriptives 144


Cas d’une variable continue
On peut faire les mêmes remarques que pour la moyenne arithmétique
Estimons l’écart type du salaire mensuel des 500 salariés de l'exemple du tableau
5;
Salaires np cp np x cp²/106
3 000 4 000 30 3 500 367,5
4 000 6 000 100 5 000 2 500,0
6 000 10 000 150 8 000 9 600,0
10 000 20 000 155 15 000 34 875,0
20 000 40 000 40 30 000 36 000,0
40 000 90 000 25 65 000 105 625,0
Total 500 188 967,5

188 967,50
VX = 106 − 13 9102 = 184 446 900
500
 X = 184 446 900  13 581,12 DH
A. Benchekroun - Statistiques Descriptives 145
Propriétés de la variance et de l’écart type

Comme la moyenne arithmétique, l'écart type satisfait assez bien à l'ensemble des
conditions de Yule. Sa signification n'est peut-être pas facile à saisir: étant une moyenne -
la moyenne quadratique des écarts à la moyenne arithmétique- on comprend cependant
qu'il mesure la dispersion moyenne de la distribution.

L'écart-type est un indicateur de dispersion locale : il donne une mesure de la dispersion


autour de la moyenne.

A. Benchekroun - Statistiques Descriptives 146


A propos d'indicateurs de dispersion autour de la moyenne
On peut évidemment proposer d'autres. En voici quelques-uns :
❖ Pour p+* on peut considérer comme indicateur la moyenne absolue centrée d'ordre p
1 N p 1
1

p
(X −X ) p
=( Xi − X ) p
L'écart-type correspond à p=2
N i =1

Pour p=1, l'indicateur s'appelle l'écart absolu moyen.


1 N
Pour p* on appelle moment empirique (non centré) d'ordre p de X la statistique m p ( X ) X ip X p

N i 1

1 N
Pour p* on appelle moment empirique centré d'ordre p de X la statistique p
(X ) (Xi X )p (X X )p
N i 1

Le moment centré d'ordre 2 de X , correspond à sa variance.

❖ On peut aussi proposer Max ( X i


i 1àN
X )

A. Benchekroun - Statistiques Descriptives 147


On préfère utiliser l'écart-type par rapport à un autre indicateur de dispersion autour de la
moyenne, car la variance se prête bien aux calculs algébriques.

A. Benchekroun - Statistiques Descriptives 148


 Propriété algébrique

Si on effectue un changement de variable Y=b X + a, il est évident que:

VY = b2VX ou  Y = b  X

A. Benchekroun - Statistiques Descriptives 149


Lien avec les probabilités et Ecart-type Standard

Soit X une v.a.r. ayant un moment d'ordre 2 (E(X2)<+) , ce qui implique l'existence de
m=E(X) et de V(X)=E((X-m)2)=E(X2)-m2 ; l'écart-type de X est par définition V (X )

Si X1,X2,…Xn est un échantillon aléatoire suivant la même loi que X


2 1 n
1 n

est un estimateur biaisé de la variance théorique 2.


2
(Xi X) X i2 X2
n i 1 n i 1

2
Plus précisément, on a 2 n 1 2
(il y a un biais égal à E ( )
2
2 )
E( )
n n
C'est pourquoi, on préfère pour estimer la variance théorique 2 , utiliser la variance
2 n 2 1 n

standard définie par s (Xi X ) 2 qui est un estimateur sans biais


n 1 n 1i 1

de 2.

A. Benchekroun - Statistiques Descriptives 150


2
Classiquement, en "Statistiques Descriptives" on l'habitude de calculer que l'on
appelle variance du caractère, mais on lui préfère dans le cadre d'une estimation de 2 , la
variance standard s2.
2 n
2
Notons que l'on a n (n 1) s SCC (Xi X )2
i 1

SCC : Somme des carrés centrés

Evidemment, dès que la taille n de l'échantillon devient assez grande, il n'y a quasiment
pas de différence entre ces deux variances d'échantillon. La différence se ressent que
pour des échantillons de taille petite.
2
est appelée "variance empirique", et la variance standard s2 est parfois appelée
"variance empirique corrigée".

A. Benchekroun - Statistiques Descriptives 151


La plupart des softwares, dont Excel, calculent s2 quand il est demandé de calculer la
variance, et s (écart-type standard) quand il est demandé de calculer l'écart-type . La
2
variance empirique est appelée par Excel "variance au sens de Pearson" (et
évidemment est appelé "écart-type au sens de Pearson")

2
Que ce soit s2 ou , tous les deux ce sont des estimateurs convergents de 2

A. Benchekroun - Statistiques Descriptives

152
On rappelle que bien que "grossière", l'inégalité de "Beinaymé-Tchébytchev" montre que
 est un paramètre de la dispersion autour de la moyenne m.
1
( t 0) Proba[ X-m t ] 2
t
1
Ou encore ( t 0) Proba[ X-m t ] 1
t2
Autrement dit X est compris entre m - t et m + t  avec une proba ≥ à 1-1/t2 la
longueur de l'intervalle est 2t . Donc  est bien un indicateur de la dispersion autour de
m puisque plus  est grand, plus la longueur de l'intervalle est grande. Par exemple si on
prend t=2, X sera compris entre m-2 et m+2 avec une proba ≥ à 75% (ce sera même
95% si X suit une loi normale).

A. Benchekroun - Statistiques Descriptives 153


 Equation de la variance

Supposons que la population  soit décomposée en une partition (h)h=1 à H et soit X h


(resp.  h ) (h=1 à H) la moyenne (resp. la variance) de X sur la sous population h; Alors
2

H H
1 1
 =
2

N

h =1
nh +
2
h
N
n
h =1
h ( X h − X )2

Le premier terme représente la moyenne (pondérée par les effectifs) des variances des
sous-populations; le second, la variance des moyennes des sous-populations. On a :

Variance totale = Moyenne des variances + Variance des moyennes

A. Benchekroun - Statistiques Descriptives 154


Le premier terme est la variance que l'on obtiendrait si toutes les sous-
populations avaient la même moyenne (le second terme serait alors nul). On l'appelle
"variance intra-populations"(c'est-à-dire à l'intérieur des sous-populations).

Le second terme est la variance que l'on obtiendrait si toutes les sous-
populations étaient homogènes, c'est-à-dire si toutes les observations de chaque sous-
population h étaient égales à leur moyenne X h (le premier terme serait alors nul). On
l'appelle "variance inter-populations" (c'est-à-dire entre les sous-populations):

Variance totale = Variance intra-populations + Variance inter-populations

A. Benchekroun - Statistiques Descriptives 155


Exemple
L'entreprise à laquelle appartient l'établissement industriel de N1 = 500 salariés dont on a
calculé le salaire moyen X 1 = 13910 DH , et l'écart type 1 13 581,12 DH possède un
autre établissement de N2 = 1500 salariés dont le salaire moyen est X 2 = 16500 DH et
l'écart type 2= 15 000 DH.
Calculons l’écart type  du salaire de l’ensemble des N =N1+N2 salariés de l’entreprise.

1
La moyenne a déjà été calculée : X = ( N1 X 1 + N 2 X 2 ) = 15852,50 DH
N

A. Benchekroun - Statistiques Descriptives 156


En appliquant la formule (2), on obtient:

500 184 446 900 +1500 15000 2 500  (13910 − 15852,5) 2 + 1500  (16500 − 15852,5) 2
 =
2
+
2000 2000
429723450000 2515537500 432 238987500
= + = = 216119 493,8
2000 2000 2000
  = 216119 493,8  14701, 00 DH

A. Benchekroun - Statistiques Descriptives 157


I.2)C.)iv) Le coefficient de variation

Le coefficient de variation est le rapport de l'écart type à la moyenne:



CV =
X
C'est un nombre sans dimension, indépendant de l'unité utilisée. Il mesure la
dispersion relative de la distribution étudiée. Il permettra de comparer les
dispersions de distributions qui ne sont pas exprimées dans la même unité (par
exemple, les distributions des revenus dans divers pays industrialisés) ou de
distributions dont les moyennes sont très différentes.

A. Benchekroun - Statistiques Descriptives 158


Exemple:
Une étude sur le coût mensuel d'un salarié dans les industries manufacturières a été
effectuée en France, au R.U., et aux E.U. On a trouvé les résultats suivants exprimés en
monnaie nationale:

France R.U. E.U.


Coût mensuel moyen X 2000€ 1200£ 1250$
Ecart type  1000€ 720£ 1000$
(les chiffres sont fictifs)

Dans lequel de ces trois pays, la dispersion du coût de la main d’œuvre est-elle
la plus grande?
Pour répondre à cette question, il faut, soit exprimer les écart types dans une monnaie
commune, par exemple le dollar (mais en utilisant quels coefficients de conversion? Les
taux de change? Les parités de pouvoir d'achat ?), soit utiliser le coefficient de variation.

A. Benchekroun - Statistiques Descriptives 159


France R.U. E.U.
CV 0,50 0,60 0,80

C'est donc les E.U. qui, de ces trois pays, ont la plus forte dispersion relative des
coûts de la main-d'œuvre.

A. Benchekroun - Statistiques Descriptives 160


I.2.) D. COURBES DE CONCENTRATION
I.2)D.)i) Courbe de Lorenz

Une distribution de revenus est inégalitaire si une faible proportion des individus perçoit
une forte proportion du montant total des revenus distribués.

Soit X un caractère (quantitatif) à valeur strictement positive observé sur une population de
N individus; Soit X1,…,XN les valeurs
observées, et soit X (1) , ... X ( N ) ces valeurs observées
ordonnées de manière croissante ( X (1)  X (2)  ...  X ( N −1)  X ( N ) )

On utilisera exceptionnellement la notation suivante:

(i = 1 à N ) xi = X (i )

A. Benchekroun - Statistiques Descriptives 161


Définition de la courbe de Lorenz

Les k (k=0 à N) individus "les plus pauvres" perçoivent la


x1 + ... + xk
proportion qk = du revenu total (avec la convention
x1 + ... + x N
q0=0 & x0=0 ;
La courbe de Lorenz est obtenue en reliant entre eux les points
k
( pk = , qk ) k = 0,..., N
N
On peut remarquer que, si le tri est strictement croissant, alors

Tot ( X  xk )
pk= Prop[ X≤xk ] & qk =
Tot ( X )

A. Benchekroun - Statistiques Descriptives 162


Exemple: prenons le cas suivant N=4, x1=1, x2=3, x3=5 & x4=11; La courbe de Lorenz a la
forme suivante:

1 100%; 100%
q : proportion des revenus

0,9

0,8

0,7
Courbe de Lorenz
0,6 q= L(p)
0,5
75%; 45%
0,4

0,3

0,2 50%; 20%

0,1
25%; 5% p: proportion des individus
0%;
0 0%
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
A. Benchekroun - Statistiques Descriptives 163
Propriétés de la courbe de Lorenz

•La courbe de Lorenz est linéaire par morceaux, inscrite dans le carré de côté 1, car p & q
sont des proportions variant entre 0 et 1.
•Elle passe par les points (0;0) & (1;1) correspondant respectivement à k=0 & k=N.
•Elle est croissante ( qk+1≥ qk ) (et même strictement , s'il n'y a pas de revenu nul.
•Elle est convexe et donc située sous la première bissectrice.

A. Benchekroun - Statistiques Descriptives 164


Utilisation pour l'étude de "l'inégalité" d'une distribution

Les individus perçoivent le même revenu (distribution égalitaire) lorsque la


courbe de Lorenz est confondue avec la première bissectrice (les p% plus
pauvres perçoivent le même pourcentage du revenu total). Par continuité,
la distribution sera presque égalitaire, si la courbe est proche de la première
bissectrice.
1

0,9

0,8

0,7 Disrtribution presque égalitaire


0,6

0,5

0,4

0,3

0,2

0,1

0
0 0,2 0,4 0,6 0,8 1
A. Benchekroun - Statistiques Descriptives 165
Prenons l'exemple suivant: N=3, x1=5, x2=5, x3=90; L'individu le plus riche, qui représente
seulement le tiers de la population reçoit 90% du revenu total. La courbe de Lorenz est
alors proche des côtés du carré.

1 100%; 100%
q : proportion des revenus

0,9

0,8

0,7

0,6
Forte Inégalité

0,5

0,4

0,3

0,2

0,1 67%; 10%


33%; 5% p: proportion des individus
0%;
0 0%
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

A. Benchekroun - Statistiques Descriptives 166


Considérons maintenant 2 partages différents A et B d'une même somme 100:
➢Partage A : x1=10, x2=30, x3=60
➢Partage B : y1=5, y2=10, y3=85

1 1 ;1
La courbe de Lorenz associée à A est
0,9
située au dessus de celle associée à
0,8 B; Les "pauvres" de A sont moins
"pauvres" que ceux de B ( et
0,7
évidemment les riches moins
0,6 riches). Le deuxième partage
apparaît comme plus inégalitaire.
0,5

0,4 2/3;40%
A
0,3

B
0,2
2/3;15%
0,1 1/3;10%
1/3;5%
0 0;0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

A. Benchekroun - Statistiques Descriptives 167


Définition

Une distribution B est plus inégalitaire qu'une autre A, si sa courbe de Lorenz est
constamment située en dessous de celle de A

Deux partages quelconques ne sont généralement pas comparables au sens de la


définition précédente

A. Benchekroun - Statistiques Descriptives 168


Considérons les 2 partages A et B suivants
➢A : x1=20, x2=20, x3=60
➢B : y1=10, y2=45, y3=45

1 1
0,9

0,8

0,7

0,6 B
Aucune des 2 courbes
2/3;55% n'est constamment sous
0,5
A l'autre; B est plus
0,4 2/3;40% égalitaire que A pour les
0,3 hauts revenus ( et A est
plus égalitaire pour les
0,2 1/3;20%
bas revenus)
0,1 1/3;10%

0 0;0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

A. Benchekroun - Statistiques Descriptives 169


La courbe de Lorenz est un résumé de la distribution initiale x1,…, xN ; Elle ne permet pas
de reconstituer entièrement cette dernière; En effet connaissant la courbe,
xk
c'est à dire les quantités qk, on en déduit les quantités
x1 + ... + x N

xk
( qk − qk −1 = )
x1 + ... + xN
Les valeurs des revenus sont donc connues à une constante multiplicative près.

A. Benchekroun - Statistiques Descriptives 170


Réciproquement, il est facile de voir que les distributions x1,…, xN et x1,…,  xN (>0) ont
même courbe de Lorenz; Les courbes de Lorenz sont donc invariantes par changement
d'échelle.

On peut aussi voir comment se comporte la courbe, lorsque tous les revenus x1,…, xN sont
augmentés d'une même quantité positive h; La nouvelle distribution y1 = x1 +h,…, yN = xN +h
apparaît plus égalitaire que la distribution initiale.

A. Benchekroun - Statistiques Descriptives 171


Preuve:

y1 + ... + yk x1 + ... + xk + kh x1 + ... + xk


[(k ) = 
y1 + ... + y N x1 + ... + xN + Nh x1 + ... + xN
 [(k ) kh ( x1 + ... + xN )  Nh ( x1 + ... + xk )]
 [(k ) kh ( xk +1 + ... + xN )  ( N − k )h ( x1 + ... + xk )]
or cette dernière inégalité est vraie puisque les revenus sont rangés par ordre
croissant; En effet on a:

kh ( xk +1 + ... + xN )  kh( N − k ) xk +1 ( N − k )h ( x1 + ... + xK )

c.q.f.d.

A. Benchekroun - Statistiques Descriptives 172


I.2)D.)ii) Construction pratique de la courbe de Lorenz

Pour des raisons qu'on a déjà exposé, les données sont souvent
regroupées en classes.
Considérons une distribution de revenus où les données sont regroupées en M
classes. Les bornes de la kème classe sont ek-1, ek (ek-1< ek) ; pour cette classe, on
connaît le nombre nk d'individus percevant entre ek-1et ek; Soit Sk la masse totale
des revenus qu'ils perçoivent. On ne peut (ou on ne veut) construire que M+1
points de la courbe de Lorenz.

 n1 + ... + nk N (ek )
 kp ( e ) = = = F (ek )
N N
 k = 1à M
q(ek ) = 1 S + ... + S S + ... + S Tot ( X  e ) Tot ( X  e )
k
= 1 k
= k
= k

 S1 + ... + S M NX Tot ( X ) S

Avec la convention p(e0)=q(e0)=0

A. Benchekroun - Statistiques Descriptives 173


 n1 + ... + nk N (ek )
 kp ( e ) = = = F (ek )
N N
 k = 1à M
q(ek ) = S1 + ... + Sk = S1 + ... + Sk = Tot ( X  ek )
 S1 + ... + S M NX S

Les autres points de la courbe (N-M, il y en a N+1au total) ne sont pas représentés car on ne
sait pas (ou on ne veut pas savoir) comment sont répartis les revenus à l'intérieur de
chaque classe.

A. Benchekroun - Statistiques Descriptives 174


Il convient de souligner que le regroupement en classes conduit à réduire
artificiellement l'inégalité.

p
1
A. Benchekroun - Statistiques Descriptives 175
Même la masse des revenus Sk à l'intérieur d'une classe est rarement utilisée pour les
mêmes raisons exposées plus haut: on fait souvent l'hypothèse que le revenu moyen de
chaque classe est égal à son centre ; Ce qui conduit à l'approximation suivante :
S k  nk ck

 n1 + ... + nk N (ek )
 p(ek ) = N
=
N
= F (ek )
D'où  k = 1à M
q(ek )  n1c1 + ... + nk ck  Tot ( X  ek )
 n1c1 + ... + nM cM S

Construisons la courbe de Lorenz du salaire mensuel des 500 salariés de l'exemple du


tableau 5;

A. Benchekroun - Statistiques Descriptives 176


Centre Masse
Fréq.
Nbre de Eff. de Sal.
Salaires Cumul. ni x ci = Si Si Cumul.
salariés Cum. classe Cumul.
(p)
ci (q)

3 000 4 000 30 30 6,00% 3 500 105 000 105 000 1,51%


4 000 6 000 100 130 26,00% 5 000 500 000 605 000 8,70%
6 000 10 000 150 280 56,00% 8 000 1 200 000 1 805 000 25,95%
10 000 20 000 155 435 87,00% 15 000 2 325 000 4 130 000 59,38%
20 000 40 000 40 475 95,00% 30 000 1 200 000 5 330 000 76,64%
40 000 90 000 25 500 100% 65 000 1 625 000 6 955 000 100%
Total 500 6 955 000

A. Benchekroun - Statistiques Descriptives 177


Courbe de Concentration du salaire

100%

90%

80%
95,00%-76,64%
70%

60% 87,00%-59,38%

50%

40%

30%
56,00%-25,95%
20%

10% 26,00%-8,70%
6,00%-1,51%
0%
0% 20% 40% 60% 80% 100%

A. Benchekroun - Statistiques Descriptives 178


I.2)D.)iv) Mesures d'inégalité, de pauvreté, et de concentration

L'indice de Gini est la mesure d'inégalité la plus utilisée : il est défini comme étant le
rapport entre l'aire comprise entre la première bissectrice et la courbe de Lorenz et l'aire
du triangle (égale à ½).
Donc G= 2  Aire entre la droite et la courbe.
Il est évident que 0≤G≤1;
➢G=0 pour la distribution totalement égalitaire ;
➢G=1 pour la distribution totalement inégalitaire.

A. Benchekroun - Statistiques Descriptives 179


A. Benchekroun - Statistiques Descriptives 180
Calcul pratique de l'indice de Gini

G=2Aire=2[1/2 – Aire des Trapèzes] (le premier trapèze est un triangle); D'où

M
G = 1 − 2 Ak
k =1

1 1
(k = 1 à M ) Ak = ( qk −1 + qk )( pk − pk −1 ) = f k ( qk −1 + qk )
2 2
M
1 M
 G = 1 − f k ( qk −1 + qk ) = 1 −  nk ( Sqk −1 + Sqk )
k =1 NS k =1
1 M
G = 1− 
NS k =1
nk ( Sqk −1 + Sqk )

Cette dernière formule est très pratique car elle évite des pertes en précision, dues
aux divisions, dans le calcul de G.

A. Benchekroun - Statistiques Descriptives 181


Calculons l'indice de Gini de la distribution du salaire mensuel des 500 salariés de
l'exemple du tableau 5;

Si cumulé= ni x (S qi-1+ S qi)


Salaires Effectif ni S qi-1+ S qi
S x qi

3 000 4 000 30 105 000 105 000 3 150 000


4 000 6 000 100 605 000 710 000 71 000 000
6 000 10 000 150 1 805 000 2 410 000 361 500 000
10 000 20 000 155 4 130 000 5 935 000 919 925 000
20 000 40 000 40 5 330 000 9 460 000 378 400 000
40 000 90 000 25 6 955 000 12 285 000 307 125 000
Total 500 2 041 100 000
1 1
G = 1−  2 041 100 000
500 6 955 000
14364
=  0, 413055
34775
G  41, 31%
A. Benchekroun - Statistiques Descriptives 182
Un autre indice classique de mesure de la concentration d'une distribution est basée sur la
notion de médiale.
La médiale de la distribution des revenus est le revenu tel que les individus qui
perçoivent moins que la médiale perçoivent globalement autant que les individus dont le
revenu dépasse le revenu médial. C'est par conséquent la valeur de x telle que :
q(x)=1/2.
Comme la médiane, la médiale est évaluée par interpolation linéaire à partir des
extrémités de la classe médiale.

Calculons le salaire mensuel médial des 500 salariés de l'exemple du tableau 5 ;

A. Benchekroun - Statistiques Descriptives 183


S 6 955 000
= = 3 477 500
2 2
Si cumulé=
Salaires Effectif ni
S x qi

3 000 4 000 30 105 000


4 000 6 000 100 605 000
6 000 10 000 150 1 805 000
10 000 20 000 155 4 130 000 Classe médiale

20 000 40 000 40 5 330 000


40 000 90 000 25 6 955 000
Total 500

A. Benchekroun - Statistiques Descriptives 184


10000 M l 20000

 Sq (10000) = 1805000 Sq( M l ) = S / 2 = 3477500 Sq(20000) = 4130000
M l − 10000 20000 − 10000 10000
 = =
3477500 − 1805000 4130000 − 1805000 2325000
10 39975000
 M l =10000+ 1672500 =  17193,55 DH
2325 2325

Ml= 17 193,55 DH

A. Benchekroun - Statistiques Descriptives 185


L'indice de mesure de concentration basée sur la médiale est le suivant :
Ml − Me
IC =
w
Ml  17 194 DH; Me  9 200 DH ; w  87000 DH
17194 − 9200 7994
IC = =  09,19%
87000 87000

A. Benchekroun - Statistiques Descriptives 186


Partie II : Régression & Corrélation
II.1) Position du problème
On considère deux variables statistiques quantitatives x & y ; On suppose qu'on observe le
couple (x,y) et qu'on dispose de N observations: (x1 , y1), (x2 , y2),… (x N , yN).

➢ Existe t-il une relation entre les 2 variables x et y ?


➢Sont-elles totalement indépendantes ? très dépendantes l'une de l'autre ?
➢Peut- on remplacer le nuage des points (xi , y i) par une courbe pour mieux apprécier le
degré de dépendance ?

A. Benchekroun - Statistiques Descriptives 187


II.2) Coefficient de corrélation linéaire

y x y x x
x x
x x x
x x x
x x
x x x x x
x x x x
x x x x
x x x
x
xx x
x
x x
Dépendance relative – Ajustement A priori, il y a indépendance totale
linéaire justifié. entre les variables.

A. Benchekroun - Statistiques Descriptives 188


x x
x y
y
x x
x
x
x
x
x
x x x
x
x
x x
x x
x
x
x x x
x x
x x x x x x x
x x
x
x
x x
Dépendance relative – Ajustement de Dépendance relative – Ajustement de type
type parabolique ou exponentielle. hyperbolique ou exponentielle

A. Benchekroun - Statistiques Descriptives 189


y
x x
x x
x x x
x x
x x
x x
x x
x
x x
x x
x
x x x
x x
x x x x
x x x x

x
Très forte dépendance – La dépendance est Non Linéaire.

A. Benchekroun - Statistiques Descriptives 190


II.2)a) Détermination de la corrélation théorique

Soit X et Y deux v.a.r. On appelle covariance de X et Y et on note cov( X,Y) le


nombre E[(X-E(X))(Y-E(Y))] (espérance mathématique des produits des variables
centrées).

La covariance vérifie les propriétés suivantes:


➢La symétrie: cov( X,Y) = cov( Y,X)
➢La bilinéarité: cov( X1+X2 ,Y) = cov( X1 ,Y) +  cov( X2 ,Y)
➢Si X est constante, cov( X,Y)=0
➢ cov( X,X)=V(X)
➢Si X et Y sont indépendantes, alors cov( X,Y)=0; La réciproque est fausse (sauf en cas de
normalité).

A. Benchekroun - Statistiques Descriptives 191


La formule VX = E ( X 2 ) − [ E ( X )]2 se généralise à la covariance :

cov( X , Y ) = E ( XY ) − E ( X ) E (Y )
On appelle coefficient de corrélation linéaire de X et Y, et on notera corr( X,Y) le nombre

cov( X , Y )
r =
 XY

A. Benchekroun - Statistiques Descriptives 192


Le coefficient de corrélation linéaire vérifie les propriétés suivantes:

➢ On a toujours −1  r  1

➢ r = +1  (b 0)(a  ) Y = bX + a

➢ r = −1  (b 0)(a  ) Y = bX + a

A. Benchekroun - Statistiques Descriptives 193


II.2)b) Détermination de la corrélation empirique

Soit deux variables statistiques quantitatives X & Y ; On suppose qu'on observe le


couple (X,Y) et qu'on dispose de N observations: (X1,Y1), (X2,Y2),… (X N,YN).
On appelle covariance (empirique) de X et Y et on note cov( X,Y) le nombre

cov( X , Y ) = ( X − X )(Y − Y )
(c'est la moyenne des produits des variables centrées)
N
1
cov( X , Y ) =
N
(X
i =1
i − X )(Yi − Y )

A. Benchekroun - Statistiques Descriptives 194


La covariance (empirique) vérifie les propriétés suivantes:
➢La symétrie: cov( X,Y) = cov( Y,X)
➢La bilinéarité: cov( X1+X2 ,Y) = cov( X1 ,Y) +  cov( X2 ,Y)
➢Si X est constante, cov( X,Y)=0
➢ cov( X,X)=V(X)
➢La covariance empirique est un estimateur convergent de la covariance théorique.

A. Benchekroun - Statistiques Descriptives 195


La formule
VX = X ² − ( X )² se généralise à la
covariance:

cov( X , Y ) = XY − XY

On appelle coefficient de corrélation linéaire (empirique) de X et Y, et on notera corr( X,Y)


le nombre

cov( X , Y )
r =
 X Y

A. Benchekroun - Statistiques Descriptives 196


Le coefficient de corrélation linéaire (empirique) vérifie les propriétés suivantes:
➢ On a toujours −1  r  1

➢ r = +1  (b 0)(a  )(i = 1 à N ) Yi = bX i + a

➢ r = −1  (b 0)(a  ) (i = 1 à N ) Yi = bX i + a

A. Benchekroun - Statistiques Descriptives 197


II.3) Régression linéaire simple
Soit deux variables statistiques quantitatives X & Y ; On suppose qu'on observe
le couple (X,Y) et que l'on dispose de N observations: (X1,Y1), (X2,Y2),… (X N,YN).
On dit que l'on effectue la régression linéaire de Y sur X lorsqu'on écrit:
où a et b sont des nombres réels fixés ;

(i = 1 à N ) Yi = bX i + a + ui

ui est par définition la différence Yi − (bX i + a ) ; Elle est appelée "erreur" ou


"perturbation" associée à l'observation i.

Y et X sont respectivement appelées "variable expliquée" et "variable explicative".

A. Benchekroun - Statistiques Descriptives 198


II.3)a) Estimateurs des moindres carrés ordinaires

On appelle estimateurs des moindres carrés ordinaires (MCO) de a et b les


nombres a* et b* qui minimisent la somme des carrés des "erreurs".

On démontre facilement que a* et b* existent et sont uniques dès que X n'est


pas constante. b* se calcule par la formule :
cov( X , Y )
b* =
V (X )

Et a* se calcule en utilisant la propriété suivante:


Y = b* X + a*

La droite de régression passe par la moyenne du nuage des observations.

A. Benchekroun - Statistiques Descriptives 199


II.3)b) Propriétés de la droite de régression

a*et b* étant les estimateurs des MC de a et b, la variable Y*


définie par : (i = 1 à N ) Yi* = b* X i + a*
est appelée variable "ajustée" de Y sur X

La variable u*=Y- Y* est appelée variable "des erreurs ajustées" ou "des résidus"
dues à la régression de Y sur X ; Elle est donc définie par

(i = 1 à N ) u*i = Yi − Yi* = Yi − (b* X i + a* )

A. Benchekroun - Statistiques Descriptives 200


On démontre les propriétés suivantes:
N

➢La somme des résidus est nulle  i =0


u *

i =1
; Donc Y* = Y

N N N

 (Y − Y )
i =1
i
2
=  (Y − Y ) +  ui*2
i =1
*
i
2

i =1

En effectuant une division par N, on obtient:


Variance totale (de Y) = Variance expliquée + Variance résiduelle VY = VY * + Vu*
VT= VE + VR

Si on n’effectue pas la division par N, on écrira SCT = SCE + SCR


N
SCT = Somme des carrés totale =  (Y
i =1
i − Y )2 ;
N

SCE = Somme des carrés expliquée =  (Y i − Y )


* 2

i =1

SCR = Somme des carrés des résidus = u


i =1
*2
i

A. Benchekroun - Statistiques Descriptives 201


VE VR
La formule VT = VE + VR peut aussi s'écrire 1= +
VT VT

Il est facile de voir que plus l'ajustement de Y sur X est "correct", plus le rapport
VE/VT est proche de 1; Ce rapport est appelé coefficient de détermination de la
régression: il est souvent noté R2. Donc:

VE VR
R2 = = 1−
VT VT

Il est facile de démontrer que le coefficient de détermination est égale au carré du


coefficient de corrélation linéaire.

cov 2 ( X , Y )
R 2
=r 2
=
 X2  Y2

A. Benchekroun - Statistiques Descriptives 202


Partie III : Séries temporelles
Une série temporelle (ou chronologique) est une variable "économique" dont on
observe l'évolution dans le temps. Si on note X cette variable, la série temporelle sera notée
( X t )t , Xt est la valeur de X à la date t. Le temps est considéré ici comme discret : c'est
ce qui sera supposé dans la suite.
Théoriquement, Xt est une v.a.r., et donc dans la notation il faudrait faire la différence
entre celle-ci et la valeur observée ; Dans le cadre de ce séminaire d'introduction aux séries
temporelles, on ne le fera pas.

A. Benchekroun - Statistiques Descriptives 203


III.1) Composantes d'une série chronologique

Prenons l'exemple suivant: une société exploite un produit cosmétique P sur le marché
intérieur. On dispose des ventes trimestrielles des quatre dernières années.

Années A1 A2 A3 A4
Trimestres
T1 1 000 1 050 1 100 1 250
T2 1 200 1 350 1 450 1 650
T3 1 400 1 500 1 700 1 850
T4 1 150 1 300 1 400 1 550
Total 4 750 5 200 5 650 6 300

A. Benchekroun - Statistiques Descriptives 204


Evolution des ventes annuelles du produit P

6 500

6 000

5 500

5 000

4 500
A1 A2 A3 A4

A. Benchekroun - Statistiques Descriptives 205


Evolution des ventes trimestrielles du produit P

1900
1800
1700
1600
1500

1400
1300
1200
1100
1000
900
A1T1 A1T2 A1T3 A1T4 A2T1 A2T2 A2T3 A2T4 A3T1 A3T2 A3T3 A3T4 A4T1 A4T2 A4T3 A4T4

On voit facilement qu'une tendance ou "Trend", qu’on notera Zt , se dégage du graphique


précédent; On peut suggérer une tendance linéaire croissante du temps du type
Zt= a + b t avec b>0)

A. Benchekroun - Statistiques Descriptives 206


Le graphe précédant appelé aussi "diagramme de dispersion" permet d’identifier
un mouvement périodique trimestriel : C’est ce qu’on appelle la saisonnalité.
D'une manière générale, la saisonnalité est caractérisée par un mouvement
périodique de période inférieure à l'année. La saisonnalité sera notée St.
La saisonnalité trimestrielle de l'exemple peut être mise en évidence en
partitionnant le diagramme de dispersion par année.

A. Benchekroun - Statistiques Descriptives 207


Saisonnalité trmestriielle des ventes du produit P
1900

1800
A4
1700

1600 A3

1500 A2

1400
A1
1300
1200
1100
1000
900
T1 T2 T3 T4

Cette représentation graphique montre des similitudes de forme au cours de l’année :


il y a à peu près des sommets pour les mêmes trimestres avec un "parallélisme" entre
les courbes.

A. Benchekroun - Statistiques Descriptives 208


On peut donc, pour l'exemple donné, suggérer une décomposition

de la forme X t = Z t + St + ut
u t appelé "partie irrégulière" ou "variation résiduelle" ou encore "perturbation" de la
série, aura le statut de variable aléatoire centrée.
Cette décomposition est classique; on y ajoute quelquefois une quatrième partie,
appelée le cycle, représentant des mouvements périodiques à moyen terme:

X t = Z t + St + Ct + ut

Dans la suite on négligera la composante cyclique C t .

A. Benchekroun - Statistiques Descriptives 209


Il est important de noter que dans la décomposition X t = Z t + St + ut
Zt et St sont déterministes, l'aléa n'est représenté que par la perturbation ut.
D’une manière plus générale, on peut proposer un modèle du type :

où f est une fonction assez simple. Les deux formes les plus utilisées de f sont la forme
additive et la forme multiplicative.

X t = f ( Z t , St , ut )

La forme additive correspond au cas que nous venons de voir:

X t = f ( Z t , St , ut ) = Z t + St + ut
on dit que le modèle est un modèle d’ajustement "additif"

A. Benchekroun - Statistiques Descriptives 210


La forme multiplicative correspond à

X t = f ( Z t , S t , ut ) = Z t  S t  u t

on dit que le modèle est un modèle d’ajustement multiplicatif.

Lorsque les diverses variables sont positives, on passe du modèle multiplicatif à un modèle
additif à l’aide de la fonction logarithme.

A. Benchekroun - Statistiques Descriptives 211


III.2) Calcul des coefficients saisonniers

Nous présentons ici la méthode classique élémentaire appelée "méthode des


rapports au trend". Elle consiste à
➢ déterminer la droite des MCO qui ajuste la série par le modèle
X t = b t + a + ut (t = 1 à T )
➢ Calculer les valeurs ajustées par l'équation de régression trouvée :
(t = 1 àT ) X t* = b*t + a*

➢ Calculer les rapports entre les valeurs observées et les valeurs ajustées X t
X t*

➢ Calculer, pour chaque période de saisonnalité (mois, trimestre,…), le rapport


moyen qui sera considéré comme le coefficient saisonnier de la période.

A. Benchekroun - Statistiques Descriptives 212


Appliquons la méthode à l'exemple: On commence par estimer le Trend

X t t2 tX
A1T1 1 000 1 1 1000
A1T2 1 200 2 4 2400
A1T3 1 400 3 9 4200
A1T4 1 150 4 16 4600
A2T1 1 050 5 25 5250
A2T2 1 350 6 36 8100
A2T3 1 500 7 49 10500
A2T4 1 300 8 64 10400
A3T1 1 100 9 81 9900
A3T2 1 450 10 100 14500
A3T3 1 700 11 121 18700
A3T4 1 400 12 144 16800
A4T1 1 250 13 169 16250
A4T2 1 650 14 196 23100
A4T3 1 850 15 225 27750
A4T4 1 550 16 256 24800

21 900 136 1 496 198 250


Moyenne 1 368,75 8,50 93,50 12 390,63

A. Benchekroun - Statistiques Descriptives 213


V (t ) = 93,50-(8,50) 2 = 21, 25

198 250
cov(t , X ) = -(8,50)(1368,75)=756,25
16

cov(t , X ) 756, 25
b* = =  35,5882
V (t ) 21, 25

756, 25
a* = X − bT = 1368, 75 − 8, 50 = 1066, 25
21, 25

D'où l'équation du trend : Z t = 35,5882 t + 1066,25

Le calcul des coefficients saisonniers se présente comme suit:

A. Benchekroun - Statistiques Descriptives 214


t X* = Z X/X* Trim1 Trim2 Trim3 Trim4
1 1101,83824 0,9076 0,9076
2 1137,42647 1,0550 1,0550
3 1173,01471 1,1935 1,1935
4 1208,60294 0,9515 0,9515
5 1244,19118 0,8439 0,8439
6 1279,77941 1,0549 1,0549
7 1315,36765 1,1404 1,1404
8 1350,95588 0,9623 0,9623
9 1386,54412 0,7933 0,7933
10 1422,13235 1,0196 1,0196
11 1457,72059 1,1662 1,1662
12 1493,30882 0,9375 0,9375
13 1528,89706 0,8176 0,8176
14 1564,48529 1,0547 1,0547
15 1600,07353 1,1562 1,1562
16 1635,66176 0,9476 0,9476
Total 3,3624 4,1841 4,6563 3,7989
Coefficient
Saisonnier 0,8406 1,0460 1,1641 0,9497
A. Benchekroun - Statistiques Descriptives 215
En se basant sur le modèle, on peut calculer les prévisions trimestrielles des ventes
pour l'année A5

 Z (17 ) = 35,5882  17+1066,25  1671,25



 Z (18) = 35,5882  18+1066,25  1706,84

 Z (19) = 35,5882  19+1066,25  1742,43
Z = 35,5882  20+1066,25  1778,01
 ( 20)

 Pr év( X 17 ) = Z17  c1  Z17  0,8406  1405



 Pr év( X 18 ) = Z18  c2  Z18 1,0460  1785

 Pr év( X 19 ) = Z19  c3  Z19  1,1641  2028

 Pr év( X 20 ) = Z 20  c4  Z 20  0,9497  1689

A. Benchekroun - Statistiques Descriptives 216

Vous aimerez peut-être aussi