Stat Desc v.6

Notes Partielles de Statistiques Descriptives
A. Benchekroun
A. Benchekroun - Statistiques Descriptives 0

Bibliographie
• Le cours est autosuffisant (pas les notes présentes): Aucun ouvrage

complémentaire n'est requis.
• Bernard Grais: "Statistique descriptive". Collection Modules économiques,

Dunod.
• Bernard Grais: "Méthode Statistique ". Collection Modules économiques,

Dunod.
• Et évidemment, beaucoup d'autres ouvrages …

Partie I : Méthode statistique, Caractéristiques de tendance
centrale et de dispersion, Problèmes de concentration
I.1) INTRODUCTION A LA METHODE STATISTIQUE

I.1 A) CONCEPTS DE BASE DE LA STATISTIQUE DESCRIPTIVE
La statistique est une méthode d'analyse des ensembles comportant un
grand nombre d'éléments. S'étant développée d'abord dans le domaine de
la démographie, elle en a adopté et gardé la terminologie.
Population = Ensemble étudié par le statisticien
Individu = Elément de l'ensemble étudié
Unité statistique : c'est l'unité qui sert à dénombrer la population étudiée.
L'unité statistique est le plus souvent l'individu. C'est pourquoi on utilisera
indifféremment l'un des deux termes: "unité statistique" & "individu".

• Caractère: Chaque individu est étudié selon un ou plusieurs caractères.
Exemples: sexe, âge, taille, poids, état matrimonial, nombre d'enfants, profession, niveau
de formation, revenu, etc...
• Un caractère comporte différentes modalités. Celles-ci doivent être mutuellement
incompatibles et exhaustives: un individu ne peut appartenir qu'à une et à une seule de
ces modalités.
Exemples: l'état matrimonial comporte quatre modalités:célibataire, marié,veuf, et
divorcé.

• Pour qu'un individu ne puisse appartenir qu'à une et à une seule de ces
modalités, il faut se donner une règle de classement respectant
l'incompatibilité de celles-ci. Par exemple, on conviendra qu'un veuf remarié
sera classé comme marié.
• Par ailleurs, tous les cas doivent être prévus (exhaustivité) et on doit pouvoir
classer tous les individus, sans exception.

• Un caractère peut être, soit qualitatif, soit quantitatif.
• Caractère qualitatif = Caractère repérable mais non mesurable.

Exemples
Sexe, profession, religion, race, appartenance politique. etc.
• Les modalités d'un caractère qualitatif constituent les différents postes (ou
rubriques) d'une nomenclature ou classification. Ces postes doivent être
mutuellement incompatibles et exhaustifs. Si on n'est pas sûr de couvrir
tous les cas possibles, on sera conduit à prévoir une rubrique
supplémentaire: « Autres» pour répondre à l'exigence d'exhaustivité.

• Caractère quantitatif = Caractère mesurable.
exemple : nombre d'enfants, âge, revenus.
• Dans ce cas, à chaque individu correspond un nombre qui est la mesure
du caractère. Ce nombre est la variable statistique. Une variable
statistique peut être, soit discrète, soit continue.
• Variable statistique discrète

Une variable statistique discrète ne peut prendre qu'un certain nombre de
valeurs possibles, généralement des valeurs entières.
exemple : nombre d'enfants d'un ménage. Celui-ci peut prendre les
valeurs: 0, 1, 2, 3, 4, 5, etc.

• Variable statistique continue
Une variable statistique continue peut prendre n'importe quelle valeur
à l'intérieur de son intervalle de définition. Ce nombre de valeurs possibles
est toujours infini.
Pour classer les observations, il est donc nécessaire de redéfinir les
modalités du caractère en groupant en classes les valeurs possibles de la
variable statistique.
exemples : Revenu, âge, durée du chômage.
On définira avec précision les limites de classe, de façon à respecter
l'exigence d'incompatibilité. Pour l'âge, par exemple, on énoncera: 0 à moins
de 5 ans, 5 à moins de 10 ans,10 à moins de 15 ans,etc. et non:0 à 5 ans5 à
10 ans1 0 à 15 ans etc.

I.1 B) DISTRIBUTIONS STATISTIQUES À UNE DIMENSION
Forme générale d'un tableau statistique

Tableau 1. Forme générale d'un tableau statistique
Classe ou modalité n° Effectif Fréquence

1 n1 f1
. . .
. . .
. . .
i ni fi
. . .
. . .
. . .
M nM fM
Total M
 ni = N
M
i =1

i =1
fi = 1

• Soit une population comportant N individus que l'on étudie du point de vue
d'un caractère déterminé. Supposons que ce caractère comporte M
modalités. On va classer chacun des N individus dans les M sous-ensembles
définis par les modalités du caractère étudié (tableau 1).
Pour chaque modalité, on inscrira dans le tableau le nombre d'éléments
(cardinal) du sous-ensemble correspondant. Ce nombre est l'effectif (ou
fréquence absolue) ni des individus présentant la modalité n° i.
• La fréquence (relative) de la modalité n° i est définie par le rapport :
C'est la proportion des individus de la population présentant la

modalité n° i.
ni
fi =
N

• La somme des effectifs ni étant égale à l'effectif total N de la population:
n1 + n2 + ... + nM = N
la somme des fréquences est égale à l'unité:
n1 n2 nM
f1 + f 2 + ... + f M = + + ... + =1
Formellement, on écrira : N N N
M M
n
i =1
i =N & fi =1
i =1

Tableaux statistiques et représentations graphiques.
• Les modes de représentation graphique utilisés dépendent de la

nature du caractère, qualitatif ou quantitatif, et, dans ce dernier cas
du type de variable statistique, discrète ou continue.

Caractères qualitatifs.
• Tableau statistique
Les différentes modalités du caractère sont constituées par les
rubriques de la nomenclature (ou classification) utilisée.
Exemple : Composition de la Production d'une entreprise de
fabrication d'automobiles en 20(A-1)

Tableau 2. Production d'une entreprise de fabrication d'automobiles en 20(A-1) (en milliers de véhicules)
Effectif (Nombre
Véhicule Fréquence fi
de véhicules) ni
C2P 10 40,00%
P4P 8 32,00%
5P 5 20,00%
ML 2 8,00%
Total 25 100,00%
C2P: Cabriolet, Deux Places; P4P: Petite 4 Places; 5P: Cinq Places; ML: Modèle Luxe

• Représentation graphique
Deux types de représentations graphiques sont surtout utilisées: les tuyaux
d'orgues et les secteurs.
➢Tuyaux d'orgue
Chaque modalité i du caractère est représentée par un rectangle dont la base
est toujours constante et dont la hauteur (et par conséquent l'aire), est
proportionnelle à l'effectif ni (et donc aussi à la fréquence fi) de cette
modalité (fig. 1 & fig.2).
➢Secteurs
Chaque modalité i du caractère est représentée par un secteur, inscrit dans un cercle
ou un demi-cercle dont l'aire (et donc l'angle au centre) est proportionnelle à l'effectif
(ou à la fréquence fi) (fig. 3 & fig.4).

fig.1 : Représentation par tuyaux d'orgue- Composition de la production
d'automobiles en 20(A-1)
Nombre de véhicules ni
12
C2P
10
P4P
8
6
5P
ML
2
0
C2P P4P 5P ML

fig.2 : Représentation par tuyaux d'orgue- Composition de la production
d'automobiles en 20(A-1)
Fréquence de la production fi
45,00%
C2P
40,00%
35,00%
P4P
30,00%
25,00%
5P
20,00%
15,00%
10,00% ML
5,00%
0,00%
C2P P4P 5P ML

fig.3 : Représentation par Secteurs - Composition de la production d'automobiles en
20(A-1)
ML
8%
5P C2P
20% 40%
P4P
32%

Evidemment, il existe plusieurs variantes du diagramme précédent
(diagramme du type camembert)
fig.4 : Représentation par Secteurs - Composition de la production d'automobiles en

20(A-1)
ML
8%
5P
C2P
20%
40%
P4P
32%

➢Il existe évidemment d'autres représentations, comme la représentation en
"Radar". Cette représentation est intéressante lorsque "économiquement"
les modalités ont la même importance et que la "performance
économique" est croissante avec l'effectif.

Fig.5 Diagramme en "Radar" de la production d'automobiles en 20(A-1)
C2P
Effectif (Nombre de véhicules) 10
2
ML P4P
0
5P
Plus l'aire du polygone est grande, plus la production globale l'est.

• Superposition de plusieurs graphiques relatives à plusieurs
distributions en un seul graphique
Pour des raisons évidentes d'interprétation et de comparaison, il est
parfois très important de représenter dans un même graphique
plusieurs distributions.
Complétons l'exemple précédant en donnant la production
d'automobiles en 20(A).

Tableau 3. Production d'automobiles en 20(A) (en milliers de véhicules)
Effectif (Nombre
Véhicule Fréquence
de véhicules)
C2P 14 35,00%
P4P 10 25,00%
5P 12 30,00%
ML 4 10,00%
Total 40 100,00%

On peut superposer les deux diagrammes en tuyaux d'orgue 20(A-1) &
20(A)
On obtient ce qui suit :

Fig 6 : Comparaison des ventes des véhicules de l'année 20(A) avec celle de l'année 20(A-1)
16
ventes (en milliers)
14
12
10
Effectif (Nombre de véhicules) 20(A-1)
8 Effectif (Nombre de véhicules) 20(A)
0
C2P P4P 5P ML

On peut également faire des diagrammes à bandes : chaque année sera
représentée par une "bande" : les deux bandes auront la même longueur, des
colorations et/ou des hachures représenteront les modalités; La surface de chaque
coloration sera proportionnelle à la fréquence de la modalité qui lui est associée.

Fig.7 : Diagramme à bandes (en
Pourcentage de fréquences)
véhicules
100%
ML ML
90%
80% 5P
5P
70%
60%
P4P ML
50% 5P
P4P P4P
40% C2P
30%
20% C2P C2P
10%
0%
20(A-1) 20(A)

Sur le diagramme de la fig. 7, l'évolution de A par rapport à A-1
des différentes ventes de voitures de l'entreprise est évidente : une
évolution se dessine vers la production de voitures plus grandes ou
plus luxueuses.

Caractères quantitatifs
• Variables discrètes
Les différentes modalités sont constituées par les valeurs possibles
de la variable discrète.
Exemple : Distribution de 500 familles d'un village selon le nombre de
leurs enfants (en 20(A)) (tableau 4)

Tableau 4 : Distribution de 500 familles d'un village selon le nombre de leurs enfants
Nombre Nombre de Effectif Fréquence

d'enfants familles Fréquence Cumulé Cumulée
xi ni fi Ni Fi
0 80 16,00% 80 16,00%
1 120 24,00% 200 40,00%
2 150 30,00% 350 70,00%
3 90 18,00% 440 88,00%
4 40 8,00% 480 96,00%
5 10 2,00% 490 98,00%
6 et plus 10 2,00% 500 100,00%
Total 500 100,00%

➢Diagramme en bâtons
Le diagramme en bâtons est la représentation graphique différentielle de la
distribution des effectifs(ou des fréquences) d'une variable statistique
discrète. A chaque valeur xi de cette variable, on fait correspondre un bâton
vertical de longueur proportionnelle à l'effectif ni (ou à la fréquence fi) de
cette valeur (fig.8 & 9).
On suppose que les modalités xi sont ordonnées:

x1 x2 x3 ... xM −1 xM

Fig. 8 Diagramme en bâtons de la variable "Nombre d'enfants" (représentation des effectifs)
160
150
140
120 120
100
Effectifs ni
90
80 80
60
40 40
20
10 10
0
0 1 2 3 4 5 6 7
xi

Fig. 9 Diagramme en bâtons de la variable "Nombre d'enfants" (représentation des fréquences)
35,00%
30,00% 30,00%
25,00%
24,00%
20,00%
18,00%
15,00%
16,00%
10,00%
8,00%
5,00%
2,00% 2,00%
0,00%
0 1 2 3 4 5 6 7

➢Courbe en escalier
La courbe en escalier est la représentation graphique intégrale d'une variable
statistique discrète. Elle représente les effectifs cumulés (ou les fréquences
cumulées) de cette variable. A chaque valeur xi de la variable correspond
une « marche» d'escalier dont la hauteur est proportionnelle à l'effectif
cumulé Ni (ou à la fréquence cumulée Fi ) de cette valeur (fig. 10 & 11)

Fig. 10 Courbe en escalier de la variable "Nombre d'enfants" (représentation des effectifs)
600
500
500
490
480
440
400
Effectifs Cumulés
350
300
200
200
100
80
0
0 1 2 3 4 5 6 7
Nombre d'enfants

Fig. 11 Courbe en escalier de la variable "Nombre d'enfants" (représentation des fréquences)
120,00%
100,00%
100,00%
98,00%
96,00%
88,00%
80,00%
Fréquences Cumulées
70,00%
60,00%
40,00%
40,00%
20,00%
16,00%
0,00%
0 1 2 3 4 5 6 7
Nombre d'enfants

Les paliers horizontaux ont pour ordonnées:
N i = n1 + n2 + ... + ni (ou Fi = f1 + f 2 + ... + f i )
La courbe en escalier est la représentation graphique du nombre N (x),

ou de la proportion F (x), des individus de la population pour lesquels la
valeur de la variable statistique est inférieure ou égale x.
Cette fonction, définie pour toute valeur de x, est appelée fonction
cumulative, ou fonction de répartition (empirique).
F : IR → IR
x Pr op[ X  x ]
La définition qui vient d'être donnée est usuellement dite anglo-saxonne;
La définition française est la suivante:
F : IR → IR
x Pr op[ X x]

Que ce soit l'une ou l'autre définition, la fonction F possède les
propriétés suivantes:
• C'est une fonction en escalier, monotone croissante, dont les points de
discontinuité correspondent aux points xi
• Elle est égale à zéro pour les valeurs de x inférieures à la plus petite valeur
possible, et égale à 1 pour les valeurs supérieures à la plus grande:donc F( -
∞) = 0, F( + ∞) = 1

Dans toute la suite, on ne retiendra que la définition anglo-
saxonne (d'ailleurs c'est la définition qui est retenue par la plus part
des logiciels spécialisés). Pour cette définition F est continue à
droite aux points de discontinuité xi.
i
F ( x) = Fi =  f p pour xi  x xi +1
p =1

⚫ Variables continues
Tableau statistique
Les observations sont regroupées par classe
Exemple
Distribution des 500 salariés d'un établissement industriel selon
leur salaire mensuel (tableau 5).

Tableau 5 : Distribution des 500 salariés d'un établissement industriel selon
leur salaire mensuel
Effectif Fréquence
Salaire mensuel Nombre de
Fréquence corrigé Corrigée
ei-1 - ei salariés ni
1000xni/ai 1000xfi/ai
]3 000 ; 4 000] 30 6,00% 30 6,00%
]4 000 ; 6 000] 100 20,00% 50 10,00%
]6 000 ; 10 000] 150 30,00% 37,5 7,50%
]10 000 ; 20 000] 155 31,00% 15,5 3,10%
]20 000 ; 40 000] 40 8,00% 2 0,40%
Plus de 40 000 25 5,00% 0,5 0,10%
On précise que le centre de la dernière classe est égale à 65 000 DH

➢Histogramme
L'histogramme est la représentation graphique différentielle de la
distribution d'une variable statistique continue. Chaque classe ei-1 -
ei est représentée par un rectangle basé sur cette classe dont l'aire
est proportionnelle à l'effectif ni (ou à la fréquence fi) de cette classe
(fig. 12).

Fig. 12 : Histogramme du salaire mensuel
Effectif Corrigé 1000 x ni/ai
Courbe de fréquence
Salaire mensuel en kDH

ATTENTION
Lorsque les amplitudes de classe ai sont inégales, il faut calculer la hauteur
du rectangle représentatif de chaque classe de façon que son aire soit
proportionnelle à la fréquence de la classe:
fi
hi = 
ai
Ce calcul a été effectué dans le tableau 5.
Pour la dernière classe, qui est une classe ouverte, un calcul particulier doit
être effectué. En égalant la moyenne de la dernière classe à son centre , on
obtient une estimation de l'extrémité supérieure qui peut être estimée à
90 000 DH; L'amplitude de cette classe sera donc évaluée à 50 000 DH.

Courbe de fréquence
L'histogramme donne une représentation imparfaite de la
population étudiée du fait du groupement des observations en un petit
nombre de classes.
Pour améliorer la représentation, l'idée est donc d'augmenter le
nombre de classes. La courbe de fréquence est la limite vers laquelle
tendrait l'histogramme si, la population étant très nombreuse, on
augmentait à l'infini le nombre de classes en faisant tendre leurs
amplitudes vers 0.
On propose parfois comme représentation graphique d'une variable

continue, le polygone de fréquence. On obtient celui-ci en joignant par une droite le
milieu des côtés supérieurs des rectangles constitutifs de l'histogramme. Cette
représentation graphique donne une idée sur la courbe (théorique) de fréquence.
L'inconvénient de ce polygone est qui ne respecte pas la règle de compensation des
aires.

Fig. 13 Polygone des fréquences du salaire mensuel

➢Courbe cumulative
La courbe cumulative est la représentation graphique intégrale d'une
variable statistique continue. Elle
représente les effectifs cumulés N(x) ou les fréquences cumulées F(x) de
cette variable.
Les observations étant groupées par classe, on ne connaît de cette
fonction que les valeurs Fi qui correspondent aux extrémités supérieures
de classe ei.
On tracera donc la courbe cumulative en la faisant passer par les points
(ei ,Fi) représentatifs de ces valeurs (fig. 14).
C'est une fonction monotone croissante,

Elle est égale à zéro pour les valeurs de x inférieures à la plus petite valeur
possible, et égale à 1 pour les valeurs supérieures à la plus grande: donc F( - ∞)
= 0, F( + ∞) = 1

Fig. 14- Fonction de Répartition du Salaire mensuel (Fréq. Cumulée)
100,00%
90,00%
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
0 10 000 20 000 30 000 40 000 50 000 60 000 70 000 80 000 90 000 100 000
Salaire mensuel

Fig. 15

REMARQUES SUR LA DETERMINATION DU NOMBRE DE CLASSES
Position du problème
Etant donné un caractère quantitatif continu que l’on observe. La taille de l’échantillon est n.
Les questions sont les suivantes :
• Comment déterminer le nombre de classes ?
• Comment déterminer les amplitudes de classe ?
La réponse à ces questions n’est pas évidente. Mais d’une manière générale on peut faire
les remarques suivantes :
➢ le nombre de classes doit être modéré (environ entre 5 et 12), et ceci pour des raisons
de synthèse.
➢ Souvent, on effectue un découpage en classes où l’amplitude est la même pour la
totalité ou quasi-totalité des classes.
➢ Parfois, on s’arrange que l’effectif de chaque classe soit le même pour toutes les
classes ou la quasi-totalité des classes.
➢ Souvent pour des raisons de significativité, on impose qu’il faut un effectif d’au moins
5 unités dans une classe

Règle de Sturges (Herbert Sturges statisticien américain (1882-1958))
Sturges a proposé la formule suivante pour déterminer le nombre k de classes en fonction

de n : 10
k  1+ log10 n
3
Le calcul de Sturges repose sur l'analyse d'un échantillon suivant une distribution
gaussienne qu'il approxime par une distribution binomiale de paramètre p = 1/2.
La formule de Sturges se base sur une distribution symétrique, de distribution binomiale

ou gaussienne. Pour peu que les données à représenter ne suivent pas cette forme, la
formule n’est pas justifiée. Même si ce n’est pas le cas, on se base souvent sur cette formule
pour avoir une idée sur le nombre de classes.
Une formule alternative est la règle de Yule où k  2,5 4 n
2  EIQ
Une autre formule est celle de Freedman–Diaconis où k  3
n
EIQ représente l’écart interquartile sur toute la plage de données (voir plus loin la notion
d’écart interquartile ).

I.2) CARACTÉRISTIQUES DE TENDANCE CENTRALE
ET DE DISPERSION
I.2.) A. NOTION DE TENDANCE CENTRALE ET DE
DISPERSION

Fig. 20 - NOTION DE TENDANCE CENTRALE ET DE DISPERSION
Considérons la figure 20 : les distributions A et B ont des tendances centrales

différentes et même dispersion. Au contraire, les distributions A, C et D ont même
tendance centrale et des dispersions différentes: le phénomène C a une dispersion
moins forte que A, qui lui-même est moins dispersé que D.

• Il suffit a priori de deux nombres, mesurant respectivement la
tendance centrale et la dispersion d'une distribution pour résumer
assez convenablement l'information contenue dans celle-ci.
• Conditions de Yule
Le statisticien britannique Yule a énoncé les six propriétés que devrait
présenter une bonne caractéristique de tendance centrale ou de
dispersion:

1. Être définie de façon objective.
2. Dépendre de toutes les observations.
3. Avoir une signification simple et concrète.
4. Être facile à calculer.
5. Être peu sensible aux fluctuations d'échantillonnage.
6. Se prêter aisément au calcul algébrique.

I.2.) B. LES CARACTERISTIQUES DE TENDANCE
CENTRALE
I.2)B.)i) Le mode
Le mode d'une variable statistique est la valeur qui correspond au maximum du

diagramme différentiel (diagramme en bâtons ou histogramme selon le cas).
Si la variable est discrète, le mode est bien défini. Ainsi le mode de la distribution des
familles selon le nombre de leurs enfants (tableau 4) est de 2 enfants.

Si la variable est continue, on ne peut définir que la classe modale qui correspond
au maximum de la fréquence moyenne par unité d'amplitude : cela correspond au pic de
l'histogramme.
Le salaire mensuel modal de la distribution des salariés d'un établissement
industriel est compris entre 4 000 et 6 000 DH (voir tableau 5); On dira que (4 000 ; 6 000)
est la classe modale.
Si X désigne une v.a.r. ayant une densité de probabilité f, le mode (théorique) de X est le
nombre m0 tel que
f ( m0 ) = Max ( f ( x ))
xIR

Le mode est une caractéristique de tendance centrale qui satisfait aux
conditions 1,3 & 4 de Yule. Son inconvénient majeur est de ne pas satisfaire à la
condition 5 et plus encore à la condition 6 : le mode empirique est très sensible aux
fluctuations d'échantillonnage; De plus, le groupement des observations en classes (cas
des variables continues) peut faire passer le mode d'une classe à une autre suivant les
extrémités de classe que l'on retient.

I.2)B.) ii) La médiane
Première définition
La médiane est la valeur de la variable statistique qui partage en deux effectifs
égaux les observations préalablement rangées par ordre croissant ou décroissant du
caractère.
Donc si par exemple on considère une population de 15 personnes décrite
suivant la taille, la taille médiane est celle de la 8ième personne,les personnes étant
rangées par ordre de taille croissante (ou décroissante).
Supposons maintenant que dans l'exemple précédant la population soit de 16
personnes rangées par ordre de taille croissante; Une taille médiane sera celle de la
8ième, mais une autre taille médiane sera celle de la 9ième. Il convient donc de donner une
définition plus rigoureuse.

Définition en termes de probabilités
Soit X une v.a.r.
On appellera médiane de X tout nombre réel  tel que
 Pr ob[ X   ]  0, 5

 Pr ob[ X   ]  0, 5
Compte tenu de Pr ob[ X   ] = 1 − Pr ob[ X ]

On peut aussi écrire
 médiane de X  Pr ob[ X  ]  0, 5  Pr ob[ X   ]

50% 50%
médiane

Soit F la f.r. de X IR → [0;1]
F :
x Pr ob[ X  x ]
Si F est continue (x) Pr ob[ X = x] = 0
D'où si F est continue
1
 médiane de X  F (  ) =
2

Définition en termes statistiques
Soit X un caractère (quantitatif) observée sur une population
On appellera médiane (empirique) de X tout nombre réel  tel que
 Pr op[ X   ]  0, 5

 Pr op[ X   ]  0, 5
 médiane de X  Pr op[ X  ]  0, 5  Pr op[ X   ]

Propriété de la médiane empirique
Soit X un caractère (quantitatif) observé sur une population de N individus; Soit X1,…,XN les
valeurs observées, et soit X ,... X ces valeurs observées de manière
(1) (N)
croissante ( X
(1)  X (2)  ...  X ( N −1)  X ( N ) ) alors
une médiane (empirique) de X est  = X ([ N / 2]+1)
[x] désigne la partie entière de x (pour x IR).

Exemple : Considérons l'exemple suivant correspondant à une variable comportant 17 observations :
X On effectue le tri croissant de X, on obtient

1 15 X tri
2 16 1 4 5,88% 5,88%
3 9 2 5 11,76% 5,88% Une médiane de X correspond à la 9ème valeur, soit
4 7 3 6 17,65% 5,88%
5 11 4 6 23,53% 5,88% à 11. Et d'ailleurs c'est la seule, et on a bien
6 19 5 7 29,41% 5,88%
7 11 6 7 35,29% 5,88% Prop[X 11]=47,06% 50% Prop[X 11]=58,82%
8 16 7 8 41,18% 5,88%
9 8 8 9 47,06% 5,88%
10 6 9 11 52,94% 5,88%
11 15 10 11 58,82% 5,88%
La médiane de X est unique et elle est
12 5 11 15 64,71% 5,88%
13 4 12 15 70,59% 5,88% égale 11, et heureusement c'est ce que
14 21 13 16 76,47% 5,88%
15 6 14 16 82,35% 5,88% va donner la fonction MEDIANE de
16 7 15 19 88,24% 5,88%
17 19 16 19 94,12% 5,88% Excel
17 21 100,00% 5,88%

Supprimons la 10ème observation. Les 16 observations de X sont les suivantes :
X Le tri croissant de X donne les résultats suivants :

1 15
2 16 X tri Une médiane de X correspond à la 9ème valeur, soit à 11. Et
3 9 1 4 6,25%
4 7 2 5 12,50% d'ailleurs c'est la seule, et on a bien
3 6 18,75%
5 11
4 7 25,00%
6 19 Prop[X 11]=43,75% 50% Prop[X 11]=56,25%
5 7 31,25%
7 11 6 8 37,50%
8 16 7 9 43,75%
9 8 8 11 50,00% La médiane de X est encore ici unique et elle
10 15 9 11 56,25%
11 5 10 15 62,50% est égale 11, et heureusement c'est ce que va
12 4 11 15 68,75%
13 21 12 16 75,00% donner la fonction MEDIANE de Excel
14 6 13 16 81,25%
15 7 14 19 87,50%
16 19 15 19 93,75%
16 21 100,00%

Supprimons maintenant des données initiales la 11ème observation. Les 16 observations de X
sont les suivantes :
Le tri croissant de X donne les résultats suivants :

X X tri Une médiane de X correspond à la 9ème valeur, soit à 11. Et, et
1 15 1 4 6,25%
2 16 2 5 12,50% on a bien
3 9 3 6 18,75%
4 7 4 6 25,00%
Prop[X 11]=50,00% 50% Prop[X 11]=62,50%
5 11 5 7 31,25% Mais, on peut remarquer que l'on a aussi
6 19 6 7 37,50% Prop[X 9]=43,75% 50% Prop[X 9]=50%
7 11 7 8 43,75%
8 16 8 9 50,00% Donc 9 est aussi une médiane de X.
9 8 9 11 56,25%
10 6 10 11 62,50% On peut aussi remarquer la propriété suivante
11 5 11 15 68,75% t ]9;11[ Prop[X t]=50%=Prop[X t]
12 4 12 16 75,00%
13 21 13 16 81,25%
14 6 Donc tout nombre compris ente 9 et 11 est une médiane (il
14 19 87,50%
15 7 15 19 93,75% y a théoriquement une infinité de médianes).
16 19 16 21 100,00%

Dans l'exemple précédant, il y a un intervalle médian, il s'agit de l'intervalle [9;11] et il n'y
a pas de médianes en dehors de cet intervalle.
Si on demande à Excel, de calculer la médiane de la variable avec la fonction MEDIANE,

il donnera la valeur 10 (il faut bien qu'il donne un résultat) . Quand il va exister un
intervalle médian, Excel donnera comme médiane le centre de cet intervalle. C'est aussi ce
que feront les autres softwares.
On remarquera que dans cet exemple, 10 n'est pas une valeur observée de la variable.
On remarquera aussi qu'Excel donne aussi la valeur de  = X ([ N / 2]+1) , il faudra utiliser la

fonction PETITE.VALEUR(Matrice;K) où "Matrice" sera la plage des valeurs observées
de la variable et K =[N/2]+1.

Calcul de médiane dans le cas d'un caractère quantitatif discret
On suppose que les modalités xi sont ordonnées:

x1 x2 x3 ... xM −1 xM
ni
Soit ni (resp. fi = ) l'effectif (resp. la fréquence)
N
correspondant à la modalité xi
Soit Ni (resp. N i ) l'effectif cumulé (resp. la

Fi =
N
fréquence cumulée) correspondant à la modalité xi
(i = 1 à M ) N i = n1 + n2 + ... + ni & Fi = f1 + f 2 + ... + f i

Si on convient que N0= 0 & F0= 0 , il est évident que l'on aura:
(! p  IN;1  p  M ) N p −1 [N ] +1  N p
2
On sait qu'une médiane (empirique) de X est
 = X ([ N / 2]+1) = x p

Reprenons l'exemple du caractère "nombre d'enfants" du tableau 4
Nombre Nombre de Effectif
d'enfants familles Cumulé
xi ni Ni
0 80 80
1 120 200
2 150 350 X (251)=x3=2
3 90 440
4 40 480
5 10 490
6 10 500
Total 500
Le nombre médian d'enfant est 2.

Propriété (cas des caractères discrets):
Une médiane de X est la première modalité pour laquelle la f.r. (resp.
l'effectif cumulé) dépasse strictement 0,5 (resp. N/2).
De plus, lorsqu'il n'existe aucune modalité xi pour laquelle F(xi) =0,5 (resp.
N(xi)=N/2), la médiane est unique.
Lorsqu'il existe une modalité xi pour laquelle F(xi) =0,5 (resp. N(xi)=N/2)
(situation ne pouvant se produire que si N est pair) , il existe une infinité de
médianes (empiriques) : tout nombre de l'intervalle [xi , xi+1] est une médiane; On
dira dans ce cas que [xi , xi+1] est un intervalle médian.


xi ni Ni
0 80 80
1 120 200 500/2=250
2 150 350
Le nombre médian d'enfants est 2:
3 90 440
c'est la première modalité où
4 40 480 l'effectif cumulé dépasse
strictement 500/2=250; Il y a
5 10 490
unicité de la médiane (il n'y a
6 10 500 aucune modalité pour laquelle
l'effectif cumulé vaut 250).
Total 500

Modifions les effectifs de l'exemple précédant comme suit :

xi ni Ni
0 80 80
1 120 200
2 50 250 500/2=250
3 140 390 A la modalité 2 l'effectif cumulé

4 90 480 est égal à 500/2=250; Il y a une
infinité de médianes: tout nombre
5 10 490 de l'intervalle [2 ; 3].
6 10 500
Total 500

Désignation de la Médiane dans le cas d'un caractère continu
On considère implicitement que les valeurs observées X1,…,XN sont issues d'une v.a.r. X
ayant une f.r. F continue et strictement croissante.
Soit X (1) ,... X ( N ) ces valeurs observées ordonnées de manière croissante.
X (1)  X (2)  ...  X ( N −1)  X ( N )
On a vu qu'une médiane (empirique) de X est  = X ([ N / 2]+1)
([N/2] désigne la partie entière de N/2).
Soit Me la médiane théorique de X (médiane au sens des probabilités), celle pour laquelle
F(Me)=1/2 . On considère que  est une estimation de Me. Cela est justifié par le
comportement asymptotique de .

On démontre que si F est continue et strictement croissante,
ps
N
Me
Mais souvent les observations sont groupées en classe (et donc soit on ne
dispose pas de toutes les observations, soit on ne veut pas "utiliser" toutes les
observations). On a alors l'habitude d'appeler médiane de X, la médiane Me
(théorique) de la v.a.r. X (au sens des probabilités); La médiane Me est donc
définie par F(Me)=1/2. Donc, souvent lorsque X est un caractère quantitatif
continu dont on a effectué un groupement des observations en classes, la médiane
de X désignera ce nombre Me dont on verra comment obtenir une estimation.
Evidemment, on n'a pas la valeur exacte de Me mais seulement un estimateur.

Le problème réside dans l'estimation de Me car la fonction F est généralement
inconnue.
F devrait être estimée par la f.r. empirique dont la définition a déjà été donnée. La
fonction de répartition empirique FN* ("courbe" cumulative) est définie par :
FN* : IR → IR
1 N
x Pr op[ X  x] = 1 (X p )
N p =1 ]−, x]
Cette fonction FN* dépend de la taille de l'échantillon N et des valeurs observées, et donc si
les observations constituent les valeurs observées de variables aléatoires, FN* est elle-même
une variable aléatoire que l'on observe.

F* possède de "bonnes propriétés" de convergence vers F (quand N→+∞).
ps
Non seulement on a ( x) FN* ( x) N F ( x)
ps
On a même Sup F ( x)
*
N F ( x) N
0 Théorème de Glivenko-Cantelli
x

Finalement, quand on a un caractère quantitatif continu, on désigne par médiane le nombre
théorique Me (appelée médiane théorique ou "vraie médiane") pour lequel F(Me)=0,5. Deux
alternatives sont possibles pour estimer Me :
✓ Alternative 1: (la meilleure) On utilise toutes les valeurs observées qui sont à la disposition
et on prend souvent pour estimation de Me le nombre  = X ([ N / 2]+1) qui est
souvent appelé médiane empirique.
✓ Alternative 2 : (celle qu'on présente dans tous les manuels de "Statistiques Descriptives")
où toutes les valeurs observées ont été regroupées en classes et on a une estimation moins
précise de Me obtenue par la méthode d'interpolation linéaire.

Pour la 2ème alternative, on procède de la manière suivante :
→ On détermine la classe "médiane" c’est-à-dire la classe (ei-1 ; ei) pour laquelle
1
FN* (e p −1 ) = F ( M e )  FN* (e p ) ce qui est équivalent à
2
N
N (e p −1 ) = N  F ( M e )  N (e p )
2
N désigne par abus de notation soit l'effectif total soit la fonction "Effectif cumulé" : le
contexte permet de savoir de quoi il s'agit.

On utilise implicitement les approximations suivantes :
F (e p −1 )  FN* (e p −1 ) & F (e p )  FN* (e p )
D'ailleurs, si on utilise pas la fonction F, on confondra dans les notations F avec FN* (c'est
ce qu'on a l'habitude de faire en "Statistiques Descriptives") ; Me est alors estimée par
simple interpolation linéaire ; Compte tenu de
1
F (e p −1 ) = F ( M e )  F (e p ) on peut dire que e p −1 M e  ep
2

d'où l'interpolation linéaire:
M e − e p −1 e p − e p −1
F ( M e ) − F (e p −1 ) F (e p ) − F (e p −1 )
1
− F (e p −1 )
 Me e p −1 + (e p − e p −1 ) 2
F (e p ) − F (e p −1 )
On peut évidemment utiliser de manière équivalente les effectifs cumulés :
M e − e p −1 e p − e p −1
F ( M e ) − F (e p −1 ) F (e p ) − F (e p −1 )
N
− N (e p −1 )
 Me e p −1 + (e p − e p −1 ) 2
N (e p ) − N (e p −1 )

Estimons le salaire médian mensuel des 500 salariés de l'exemple du tableau 5
Salaire mensuel Nombre de Effectif

ei-1 - ei salariés ni cumulé
]3 000 ; 4 000] 30 30
]4 000 ; 6 000] 100 130
]6 000 ; 10 000] 150 280 500/2=250
]10 000 ; 20 000] 155 435

]20 000 ; 40 000] 40 475
Plus de 40 000 25 500
La classe médiane est (6 000 ; 10 000)

6 000 M e 10 000

 500
 N (6000) = 130 N (10 000) = 280
 2
M e − 6 000 10 000 − 6000

 =
250 − 130 280 − 130
120 4 46 000
 M e = 6 000 + 4000 = 6000 + 4 000 = = 9 200
150 5 5
Donc Me9 200

Propriétés de la médiane
La médiane satisfait aux conditions de Yule, à l'exception de la dernière: elle ne

se prête pas au calcul algébrique.
Elle dépend de toutes les observations, mais seulement par leur ordre, et non
par leurs valeurs. Elle n'est donc pas influencée par des observations aberrantes,
anormalement grandes ou petites.
Son emploi n'est pas recommandé dans le cas de séries discrètes dont la
courbe en escalier comporte des « sauts» importants, ni dans celui de séries continues
ne comportant que peu d'observations, car son interprétation devient alors très
incertaine.

I.2)B.) iii) La moyenne arithmétique
On désigne généralement par X la moyenne arithmétique de la variable X.
Soit X une série statistique comportant N observations: X1,…,XN

Par définition
X
N
X1 + X 2 + + XN 1
X = = i
N N
i =1

Exemple
Huit personnes ont fait don à l'Association de lutte contre le cancer des sommes
Xi suivantes:120, 150, 200, 210, 240, 300, 350 et 500 DH.
Le don moyen effectué par ces huit personnes est égal à :
120 +150+ 200+ 210+ 240+ 300+ 350+ 500 2 070

X= = = 258,75 DH
8 8

Calcul de la moyenne arithmétique
Soit X une variable comportant N observations X1,…,XN, prenant les valeurs (modalités) :
x1, x2, …, xM
auxquelles correspondent respectivement les effectifs:

n1, n2, …, nM
(n1 + n 2 + ... + nM = N )
  
N M M
1 1
X = Xi = np xp = f p xp
N N
i =1 p =1 p =1
np
où f p =
N
Autrement dit, la moyenne arithmétique est égale à la moyenne des modalités
pondérées par leurs fréquences respectives.

Exemple
Supposons que les huit personnes précédentes aient effectué les dons suivants:120, 120,
200, 200, 200, 350, 350, 500
Le don moyen effectué par ces huit personnes est égal à :
2120 + 3200 + 2350 + 1500 2 040

X = = = 255,00 DH
8 8

Calcul Pratique de la moyenne arithmétique
→ Cas d’une variable discrète
On suppose que les modalités ordonnées xi sont:
x1 x2 x3 ... xM −1 xM
Le calcul est exactement le même que précédemment
  
N M M
1 1
X = Xi = np xp = f p xp
N N
i =1 p =1 p =1
np
où f p =
N
np désigne l’effectif correspondant à la modalité xp (p=1 à M)
89
A. Benchekroun - Statistiques Descriptives
(2)
(1) Nombre
Nombre de
d'enfants familles (3)=(1) x (2)
ni x xi
1 500
xi ni X = 
500 i =1
Xi
0 80 0 1 7 960
1 120 120
= 
500 p =1
np xp =
500
= 1, 92 enfant
2 150 300
3 90 270
4 40 160
5 10 50
6 10 60
Total 500 960

→ Cas d’une variable continue
Lorsque les observations sont groupées par classes, on ne peut (ou veut) pas
appliquer directement la formule de définition, car on ne connaît pas (ou on ne veut pas
connaître) précisément les valeurs prises par la variable statistique à l'intérieur de chaque
classe.
Par convention, pour effectuer le calcul, on suppose que toutes les

observations à l'intérieur d'une classe i sont groupées en son centre ci :
ei −1 + ei
ci =
2
 
M M
1
X  npcp = f pc p
N
p =1 p =1 M désigne ici le nombre de
np classes
où f p =
N

Estimons le salaire moyen mensuel des 500 salariés de l'exemple du tableau 5.
Salaire mensuel Nombre de Centre de classe

ei-1 ; ei salariés ni ni x ci
ei −1 + ei
ci =
2
]3 000 ; 4 000] 30 3 500 105 000
]4 000 ; 6 000] 100 5 000 500 000
]6 000 ; 10 000] 150 8 000 1 200 000
]10 000 ; 20 000] 155 15 000 2 325 000
]20 000 ; 40 000] 40 30 000 1 200 000
]40 000 ; 90 000] 25 65 000 1 625 000
Total 500 6 955 000

6
1 6 955 000
X = npcp = = 13910 DH
500 500
p =1
Propriétés algébriques de la moyenne arithmétique
La moyenne arithmétique satisfait à l'ensemble des conditions de Yule. Mais son

principal mérite est d'avoir une signification concrète simple et de se prêter au calcul
algébrique.
La somme algébrique des écarts des observations à la moyenne est nulle
N M
(X
i =1
i − X ) = n p ( x p − X ) =0
p =1

 Propriété de linéarité
Si on effectue un changement de variable Y=b X + a, la même transformation

s’applique aux moyennes:
Y = bX + a
Si une variable Z est la somme de deux autres: Z=X + Y; alors la même
transformation s’applique aux moyennes:
Z = X +Y

Lien avec les probabilités
Soit X une v.a.r. (variable aléatoire réelle) ayant une espérance mathématique E(X)=m
Si X1,X2,…Xn est un échantillon aléatoire suivant la même loi que X, alors

X est un estimateur sans biais convergeant vers m.

Calcul de la moyenne sur une population décomposée en sous populations
Supposons que la population  soit décomposée en une partition (h)h=1 à H

et soit X h (h=1 à H) la moyenne de X sur la sous population h; Alors
H
1
(1) X =
N
N
h =1
h Xh Nh désigne la taille de la population h
(N1 + N 2 + ... + N H = N )

Exemple
L'entreprise à laquelle appartient l'établissement industriel de N1 = 500
salariés dont on vient de calculer le salaire moyen, X 1 = 13910 DH possède
un autre établissement de N2 = 1500 salariés dont le salaire moyen est
X 2 = 16500 DH
On vous demande de calculer le salaire moyen X de l’ensemble des N= N1 + N2
salariés de l’entreprise. On obtient:
1
X = ( N1 X 1 + N 2 X 2 )
N
1
= (500  13910 + 1500  16500)
2000
1 31705 000
= (6 955 000 + 24 750 000) = = 15852,50 DH
2000 2000

I.2)B.) iii) Généralisation de la notion de moyenne
Moyenne Géométrique
Soit une série statistique X strictement positive comportant N observations: X1,…,XN

Par définition, la moyenne géométrique de X est
G = N X1  X 2   XN
N
1
Il est évident que : ln G =
N
 ln X
i =1
i = ln X

En "Economie et Finance", la moyenne géométrique sert essentiellement à
calculer un taux de variation moyen d'une suite de taux de variations en faisant l'hypothèse
que ce taux moyen correspond à une progression géométrique de la variable dont on
étudie les variations; Il est alors évident que:
1 + r = N (1 + r1 )  (1 + r2 )   (1 + rN )
r désigne le taux moyen de variation de la variable étudiée.

Exemple
Dans un pays d'Amérique latine le taux d'inflation des prix à la consommation (en %) a
été, au cours des années 2000 à 2004, de :
2000 2001 2002 2003 2004

+117,80 +84,50 +58,30 +31,70 +12,80
On vous demande de calculer le taux d'inflation moyen de la période 2000 à

2004.

Solution :
À ces taux de hausse des prix, correspondent les indices (base 100 l'année précédente)
suivants:
2000 2001 2002 2003 2004

+217,80 +184,50 +158,30 +131,70 +112,80
D'où l'indice moyen
G= 5
217,8  184,5  158,3  131, 7  112,8 156, 71
Ce qui correspond à un taux d'inflation annuel moyen de 56,71%.

Les remarques faites concernant le calcul pratique de la moyenne arithmétique
restent valables pour la moyenne géométrique.
Soit X une variable strictement positive comportant N observations X1,…,XN, prenant les M
valeurs (modalités): x1, x2, …, xM
auxquelles correspondent respectivement les effectifs:

n1, n2, …, nM
(n1 + n 2 + ... + nM = N )
  
N M M
1 1 1
ln G = ln X = ln X i = n p ln x p =
np
ln x p
N N N
i =1 p =1 p =1

M
1
= ln(
n N
xp p )
p =1

M
1
D'où
G=(
np N
xp )
p =1
Exemple
Dans le pays d'Amérique latine précédemment évoqué, le taux moyen annuel
d'inflation des prix à la consommation (en %) a été la suivante pour les trois périodes
suivantes:
1990 à 1991 1992 à 1999 2000 à 2004

+17,20 +34,60 +56,70
On vous demande de calculer le taux d'inflation moyen de la période 1990 à

2004.

Solution :
À ces taux de hausse des prix, correspondent les indices moyens annuels suivants:
1990 à 1991 1992 à 1999 2000 à 2004

+117,20 +134,60 +156,70
D'où l'indice moyen annuel de cette période de 15 années:
G = 15 117, 22  134, 68  156, 75 139, 01
Ce qui correspond à un taux d'inflation annuel moyen de 39,01%.

Moyenne Harmonique
Soit une série statistique X strictement positive comportant N observations: X1,…,XN

Par définition, la moyenne harmonique de X est
N N
H = = N
1 1 1 1
X1
+
X2
+ ... +
XN i =1 Xi
N
1 1 1 1
Il est évident que :
H
=
N
 i =1 Xi
=(
X
)

En "Gestion d'entreprise", la moyenne harmonique sert essentiellement à
calculer une productivité moyenne d'une suite de productivités; Il est en effet, presque
évident, que la productivité globale correspondante à une suite de productivités est égale à
la moyenne harmonique de cette suite.
Preuve : soit t la variable servant à mesurer la productivité (par exemple le temps)

Si l'unité i (i=1 à N) "consomme" ti en variable t, par définition la productivité relative à
1
cette unité est ri = .
ti
La quantité totale "consommée" en t par les N unités est
1 1 1
t1 + t2 + ... + t N = + + ... + d'où l'expression de la productivité globale:
r1 r2 rN
N N
r= = =H
t1 + t2 + ... + t N 1 + 1 + ... + 1
r1 r2 rN
Exemple : Un groupe industriel dispose de trois usines pour fabriquer un produit; La
première (resp. deuxième et troisième) usine fabrique 800 (respectivement 600 et 400)
unités à l'heure.
Calculer la productivité moyenne de l'ensemble des 3 usines du groupe pour une même
production de chaque usine.
Solution : r1 = 800 u / h ; r2 = 600 u / h ; r3 = 400 u / h.
Chaque usine p (p = 1 à 3) produit la même quantité Q en un nombre

Q
d'heures de travail égal à t p = , la productivité moyenne des 3 usines est donc
rp
3Q 3 Ici, nous sommes dans le cas N = 3Q; les Q

r= =
Q +Q +Q 1 + 1 + 1 unités de l'usine p ont la même
r1 r2 r3 r1 r2 r3
productivité rp.
3
=  553,85 u / h.
1 +1 +1
800 600 400

Il serait faux de dire que les 3Q unités ont été produites avec une productivité globale
de :
800 + 600 + 400

= 600 u / h.
3

Soit X une variable strictement positive comportant N observations X1,…,XN, prenant les M
valeurs (modalités): x1, x2, …, xM
auxquelles correspondent respectivement les effectifs : n1, n2, …, nM
(n1 + n 2 + ... + nM = N )
 
N M
1 1 1 1 np
= (1 ) = =
H X N Xi N xp
i =1 p =1
N
H =

M
np
xp
p =1
N
H =

M
np
xp
p =1

Exemple : Reprenons l'exemple du groupe industriel qui dispose de trois usines pour
fabriquer un produit; La première (resp. deuxième et troisième) usine fabrique 800
(respectivement 600 et 400) unités à l'heure.
Calculer la productivité moyenne de l'ensemble des 3 usines du groupe pour une
production de 20 000 (resp. de 15 000 et 5 000) unités de la première (resp. deuxième
et troisième) usine.
Solution : Ici N=20 000+15000+5000 = 40 000 ; M=3 ;
x1 = r1= 800 u/h ; x2 = r2= 600 u/h ; x3 = r3= 400 u/h.
La productivité moyenne des 3 usines est
N 40
H = = = 640 u / h.

+ +
M
np 20 15 5
800 600 400
xp
p =1

Comparaison entre les trois moyennes
Moyenne Harmonique  Moyenne Géométrique  Moyenne Arithmétique

Généralisation: Notion de -moyenne
Soit  une fonction réelle définie sur un intervalle I de , strictement monotone et continue
sur I ( induit donc une bijection monotone de I sur l'intervalle (I)=J, dont la réciproque,
nécessairement continue, sera notée -1);
Soit X une variable à valeurs dans I comportant N observations X1,…,XN; On appelle -

moyenne de X, le nombre M défini par:
N
1
 (M ) =
N
 ( X ) =  ( X )
i =1
i
Cette définition a un sens, car  ( X )J
puisque J est un intervalle.
Donc M =  −1 ( ( X ))

Quelques cas particuliers de -moyenne
  = Identité, on retrouve la moyenne arithmétique usuelle

*
→
 Pour : +
on retrouve la moyenne géométrique.
x ln x
*
+ → *
+
 Pour on retrouve la moyenne harmonique.
: 1
x
x
→
 Pour  :
+ +
la -moyenne X s'appelle moyenne
2
x x quadratique de X, elle est donc égale à:
N
1
M =
N
X
i =1
i
2
= X2

→
 Toujours pour : + +
x x2
la -moyenne de X − X , qui correspond à la moyenne quadratique de ( X − X )
s'appelle "l'écart type" de X : nous l'étudierons dans la prochaine section.
 On peut généraliser les deux exemples précédents

+ →
: +
x xp
p 1;+ 
la -moyenne de X (resp. de X − X ) s'appelle moyenne absolue (resp.
moyenne absolue centrée) d'ordre p de X.
1 n
Pour p* on appelle moment (non centré) d'ordre p de X la statistique m p ( X ) X ip
n i 1
1 n
Pour p* on appelle moment centré d'ordre p de X la statistique p

(X ) (Xi X )p
n i 1

I.2.) C. LES CARACTERISTIQUES DE DISPERSION
I.2)C.)i) L'étendue
L'étendue est la différence entre la plus grande et la plus petite des valeurs observées:
Etendue= X ( N ) − X (1)
Exemples
✓Dans le cas du caractère "nombre d'enfants" du tableau 4
l'étendue est égale à w = 6 - 0 = 6 enfants.
✓Dans le cas de la distribution des 500 salariés d'un établissement industriel selon le salaire
mensuel (tableau 5), l'étendue peut être estimée par la différence entre l'extrémité
supérieure de la dernière classe (évaluée pour construire l'histogramme) et l'extrémité
inférieure de la première classe:w=90 000-3 000=87 000 DH.

Naturellement, si l'on connaît précisément les valeurs de la plus petite et de la plus grande
observation, on utilisera celles-ci pour le calcul de l'étendue. Supposons que l'on ait:
X(1) = 3 200 DH, X(N) = 87000 DH, alors:w= 87000-3200= 83800 DH

Propriétés de l'étendue
La signification de l'étendue est claire, mais, puisqu'elle ne dépend que des

termes extrêmes, la forme de la distribution n'a pas d'influence sur elle: une même valeur
de l'étendue peut résulter d'une distribution symétrique ou d'une distribution
asymétrique. Or, dans le second cas la dispersion risque d'être plus grande.
De surplus, les termes extrêmes, sont souvent des valeurs exceptionnelles, voire
des valeurs erronées. L'étendue est donc une caractéristique de dispersion très imparfaite.
Elle est cependant utilisée, par exemple dans le contrôle industriel de fabrication, en raison
de sa facilité de calcul.

I.2)C.)ii) L'intervalle (écart) interquartile
La notion de médiane peut être généralisée.

Soit   ]0 ; 1[ on peut définir la notion de quantile (ou fractile) d'ordre 

Définition en termes de probabilités
Soit X une v.a.r.
On appellera quantile (ou fractile) d'ordre  de X tout nombre réel  tel que
Pr ob[ X   ]   La médiane correspond à =1/2.


Pr ob[ X   ]  1 − 
Compte tenu de Pr ob[ X   ] = 1 − Pr ob[ X ]

 quantile d'ordre  de X  Pr ob[ X  ]    Pr ob[ X   ]
 1-
quantile d'ordre 

Soit F la f.r. de X IR → [0;1]
F :
x Pr ob[ X  x ]
Si F est continue (x) Pr ob[ X = x] = 0
D'où si F est continue
 quantile d'ordre  de X  F (  ) = 

Définition en termes statistiques
Soit X un caractère (quantitatif) observée sur une population
On appellera quantile (empirique) (ou fractile) d'ordre  de X tout nombre réel  tel
que
Pr op[ X   ]  

Pr op[ X   ]  1 − 
 quantile d'ordre  de X  Pr op[ X  ]    Pr op[ X   ]

Détermination du quantile d'ordre 
Soit X un caractère (quantitatif) observé sur une population de N individus; Soit X1,…,XN
les valeurs observées, et soitX ,... X ces valeurs observées de manière
(1) (N)
croissante ( X (1)  X (2)  ...  X ( N −1)  X ( N ) ) alors un quantile ( ou fractile)
(empirique) d'ordre  de X est  = X ([ N ]+1)
[x] désigne la partie entière de x (pour x  IR).
Et souvent on dira que  est le fractile empirique d'ordre  de X, même s'il en existe plusieurs.

Quelques valeurs usuelles de 
k
→ Quartiles. Les quartiles correspondent à (k 1, 2,3) k=1 correspond
4
au 1er quartile, k=2 correspond au 2ème quartile appelée médiane, k=3 au 3ème
quartile. k
→ Déciles. Les déciles correspondent à (k {1,2,3,...,9} k=1 correspond au 1er
10
décile, k=2 correspond au 2ème décile,…, k=9 au 9ème décile.
k
→ Centiles. Les centiles correspondent à (k {1,2,3,...,99} k=1
100
correspond au 1er centile, k=2 correspond au 2ème centile,…, k=99 au 99ème centile.

Désignation du quantile d'ordre  dans le cas d'un caractère continu
Tout ce qui a été dit pour la médiane se généralise exactement de la même manière
Soit X1,…,XN les valeurs observées d'une v.a.r. X ayant une f.r. F continue et strictement
croissante et soit X (1) ,... X ( N ) ces valeurs observées ordonnées de manière
croissante.
X (1)  X (2)  ...  X ( N −1)  X ( N )
On vient de voir qu'un fractile (empirique) d'ordre  de X est  = X ([ N ]+1)

([ N] désigne la partie entière de  N).

Mais comme on l'a déjà vu pour la médiane, on a l'habitude d'appeler fractile d'ordre  de
X, le fractile Q (théorique) de la v.a.r. X (au sens des probabilités); le fractile d'ordre , Q,
est donc défini par F(Q )=. Donc, lorsque X est un caractère quantitatif continu, le fractile
d'ordre  de X désignera ce nombre Q.
On démontre que si F est continue et strictement croissante,

ps
N
Q

Finalement, quand on a un caractère quantitatif continu, on désigne par fractile d'ordre  le
nombre théorique Q (appelée fractile théorique ou "vrai fractile") pour lequel F(Q)=0,5.
Deux alternatives sont possibles pour estimer Q :
✓ Alternative 1: (la meilleure) On utilise toutes les valeurs observées qui sont à la disposition
et on prend souvent pour estimation de Q le nombre  = X ([ N ]+1) qui est
souvent appelé fractile empirique d'ordre .
✓ Alternative 2 : (celle qu'on présente dans tous les manuels de "Statistiques Descriptives")
où toutes les valeurs observées ont été regroupées en classes et on a une estimation moins
précise de Q obtenue par la méthode d'interpolation linéaire.

Si on utilise Excel dans le cadre de la 1ère alternative,
la fonction PETITE.VALEUR(Matrice; [N]+1), donne la médiane empirique (exactement
la valeur de ).

Soit X un caractère quantitatif continu.
Les nombres Q0,25 , (resp. Q0, 50, Q0,75) s'appellent premier (resp. deuxième,
troisième) quartile de X. Le deuxième quartile Q0, 50 n'est autre que la médiane de X. Ces
trois nombres divisent la série, préalablement ordonnée par ordre croissant, en quatre
parties "égales".
On appelle intervalle interquartile (ou écart interquartile ou encore étendue interquartile)
de X, la différence entre le troisième et premier quartile : Q0,75 - Q0,25.
Remarque : il est préférable de réserver le terme "intervalle interquartile" à

l'intervalle [Q0,25 ; Q0,75 ] et de désigner par " écart interquartile" (ou encore "étendue
interquartile" le nombre Q0,75 - Q0,25
EIQ = Q0,75- Q0,25
De la même manière que Q0, 50=Me a été estimé, Q0,25 et Q0,75 seront estimés.

Estimons l'intervalle interquartile du salaire mensuel des 500 salariés de l'exemple du
tableau 5;
Salaire mensuel Nombre de Effectif

ei-1 - ei salariés ni cumulé
]3 000 ; 4 000] 30 30
]4 000 ; 6 000] 100 130 500/4=125
]6 000 ; 10 000] 150 280

]10 000 ; 20 000] 155 435 3x 500/4=375
]20 000 ; 40 000] 40 475
Plus de 40 000 25 500
Le rang de l'observation associée à Q0,25 est N/4 = 500/4=125 , d'où la 1ère classe
interquartile ]4000 ; 6000]; Le rang de l'observation associée à Q0,75 est 3N/4 = 375 ,
d'où la 3ème classe interquartile ]10 000 ; 20 000].

 4 000 Q0,25 6 000

 500
 N (4000) = 30 N (6 000) = 130
 4
Q0,25 − 4 000 6 000 − 4000

 =
125 − 30 130 − 30
95 95 590 000
 Q0,25 = 4 000 + 2000 = 4000 + 2 000 = = 5900
100 100 100
Donc Q0,255 900 DH

10000 Q0,75 20000

 500
 N (10000) = 280 3 N (20000) = 435
 4
Q0,75 − 10000 20000 − 10000

 =
375 − 280 435 − 280
95 19 500 000
 Q0,75 = 10 000 + 10000 = 10000 + 10000 =  16129
155 31 31
Donc Q0,7516 129 DH
L'écart interquartile est donc évalué à

Q0,75- Q0,25 16 129 - 5 900 = 10 229 DH.

Pour voir visuellement l'ampleur de l'intervalle interquartile, on a l'habitude de le
représenter graphiquement. La représentation graphique qui est habituellement faite
est celle de la "boîte à moustaches". Historiquement ce graphique est dû à
"John Wilder Tuckey". Le nom de "boite à moustaches" provient de la traduction de
l'anglais "Box and Whiskers Plot". En français on utilise aussi l'expression
"Boîte à Pattes". En anglais, le graphique est aussi appelé "Box-Plot".

Le principe de construction de la "Box-Plot" est le suivant :
▪ On représente sur un axe (qui peut-être horizontal ou vertical) les quatre
valeurs : le Min, le 1er quartile, la médiane, le 3ème quartile, et le Max.
▪ Entre le premier quartile et le troisième, un rectangle est tracé. Ce rectangle
est divisé en deux par un trait au niveau de la médiane.
▪ A la boîte, sont rajoutés deux segments de droite coupant les valeurs
extrêmes. Ce sont les "moustaches" ou les "pattes" de la boîte.

Il existe quelques variantes de la "Box-Plot" où les "moustaches" ne se trouvent pas
aux valeurs extrêmes, mais par exemple on coupe les moustaches à peu près 1,5 fois
l'écart interquartile. Les valeurs où l'on coupe les moustaches sont respectivement
appelées "Valeur adjacente inférieure" et "Valeur adjacente supérieure". Les autres
valeurs appelés souvent à tort en anglais "outliers" et qu'il vaut mieux traduire par
"valeurs fuyardes", sont représentés par des points.
Evidemment, les softwares en Statistiques proposent ce genre de diagramme.

134
Le Box-Plot obtenu avec XLStat est le suivant :
Box plot (Salaire)
93 000
83 000
73 000
63 000
Salaire
53 000
43 000
33 000
23 000
13 000
3 000

Le Box-Plot obtenu avec Excel est le suivant :

Les Box-Plot prennent leur importance pour la comparaison d'un même caractère sur
plusieurs populations.

A ce stade, il est très important de faire la distinction entre "dispersion locale" et
"dispersion globale".
D'abord en termes de vocabulaire :

▪ "Dispersion" est le contraire de "Concentration";
▪ Donc "plus dispersé" est équivalent à "moins concentré";
▪ et "moins dispersé" est équivalent à "plus concentré".

La dispersion locale est une dispersion autour d'un paramètre.
Par exemple l'écart interquartile est un indicateur de la dispersion autour de la médiane.

Prenons l'exemple suivant : La série 1 correspond à celle des données
Série 1 Série 2 Série 3 des 500 salariés que l'on a pris
Minimum 3 000,00 2 000,00 2 000,00 précédemment. Les séries 2 et 3 à celles de
Q1 5 911,00 8 145,50 5 911,00 deux autres entreprises du même secteur.
Médiane (Q2) 9 145,50 9 145,50 9 145,50 Dans la 2ème entreprise, il y a beaucoup moins
Q3 16 425,00 10 145,50 16 425,00 de dispersion autour de la médiane (plus de
Maximum 90 000,00 15 000,00 200 000,00 concentration autour de celle-ci) (2000 DH
EIQ 10 514,00 2 000,00 10 514,00 contre 10514 DH) que dans la 1ère . Mais dans
Etendue 87 000,00 13 000,00 198 000,00 la 2ème nous avons un IDG de 15,38% contre
Indice de 12,09% dans la 1ère : globalement la
12,09% 15,38% 5,31%
dispersion globale distribution des salaires dans la 2ème est plus
L'indice de dispersion globale qui est pris ici est dispersée (moins concentrée) que dans la 1ère ;
EIQ/Etendue. On aurait pu prendre comme indice de Dans la 1ère il y a plus de concentration vers
concentration 1- EIQ/étendue. On verra par la suite un les extrêmes que dans la 2ème.
autre indice de concentration globale beaucoup plus
pertinent : l'indice de Gini.
La 1ère et 3ème entreprise ont la même dispersion autour de la médiane. Mais la 3ème est moins dispersée globalement
avec un IDG de 5,31% contre 12,09% : dans la 3ème entreprise il y a plus forte concentration vers les hauts salaires que
dans la 1ère.
140
I.2)C.)iii) L’écart type
Soit X une série statistique comportant N observations: X1,…,XN

Par définition, la variance de X est
N
1
VX =
N
 i
( X
i =1
− X ) 2
C’ est donc la moyenne arithmétique des carrés des écarts à la moyenne arithmétique:
VX = ( X − X )2
L'écart type de X, X , est égal à la racine carrée de la variance de X :
 X = VX

Calcul pratique de l’écart type
On peut faire exactement les mêmes remarques que pour la moyenne arithmétique
concernant le calcul selon les modalités de la variable.
Soit X une variable comportant N observations X1,…,XN, prenant les M valeurs (modalités):
x1, x2, …, xM
M
1
X =
N
n
p =1
p ( x p − X )2

xp np xp- m (xp-m)² np(xp-m)² m = X = 1,92

0 80 -1,92 3,6864 294,912 936,800
VX = = 1,8736
1 120 -0,92 0,8464 101,568 500
2 150 0,08 0,0064 0,96
3 90 1,08 1,1664 104,976
4 40 2,08 4,3264 173,056
5 10 3,08 9,4864 94,864
6 10 4,08 16,646 166,464
Total 500 936,800
 X = VX = 1,8736  1,37 enfant

Calcul pratique de la variance
Il est facile de démontrer que : VX = X ² − ( X )²

Reprenons l'exemple précédant
xp np npxp² 2780
VX = − 1, 92² = 1, 8736
0 80 0 500
1 120 120
2 150 600
3 90 810
4 40 640
5 10 250
6 10 360
Total 500 2 780

Cas d’une variable continue
On peut faire les mêmes remarques que pour la moyenne arithmétique
Estimons l’écart type du salaire mensuel des 500 salariés de l'exemple du tableau
5;
Salaires np cp np x cp²/106
3 000 4 000 30 3 500 367,5
4 000 6 000 100 5 000 2 500,0
6 000 10 000 150 8 000 9 600,0
10 000 20 000 155 15 000 34 875,0
20 000 40 000 40 30 000 36 000,0
40 000 90 000 25 65 000 105 625,0
Total 500 188 967,5
188 967,50
VX = 106 − 13 9102 = 184 446 900
500
 X = 184 446 900  13 581,12 DH
Propriétés de la variance et de l’écart type
Comme la moyenne arithmétique, l'écart type satisfait assez bien à l'ensemble des
conditions de Yule. Sa signification n'est peut-être pas facile à saisir: étant une moyenne -
la moyenne quadratique des écarts à la moyenne arithmétique- on comprend cependant
qu'il mesure la dispersion moyenne de la distribution.
L'écart-type est un indicateur de dispersion locale : il donne une mesure de la dispersion

autour de la moyenne.

A propos d'indicateurs de dispersion autour de la moyenne
On peut évidemment proposer d'autres. En voici quelques-uns :
❖ Pour p+* on peut considérer comme indicateur la moyenne absolue centrée d'ordre p
1 N p 1
1

p
(X −X ) p
=( Xi − X ) p
L'écart-type correspond à p=2
N i =1
Pour p=1, l'indicateur s'appelle l'écart absolu moyen.

1 N
Pour p* on appelle moment empirique (non centré) d'ordre p de X la statistique m p ( X ) X ip X p
N i 1
1 N
Pour p* on appelle moment empirique centré d'ordre p de X la statistique p
(X ) (Xi X )p (X X )p
N i 1
Le moment centré d'ordre 2 de X , correspond à sa variance.
❖ On peut aussi proposer Max ( X i

i 1àN
X )

On préfère utiliser l'écart-type par rapport à un autre indicateur de dispersion autour de la
moyenne, car la variance se prête bien aux calculs algébriques.

 Propriété algébrique
Si on effectue un changement de variable Y=b X + a, il est évident que:
VY = b2VX ou  Y = b  X

Lien avec les probabilités et Ecart-type Standard
Soit X une v.a.r. ayant un moment d'ordre 2 (E(X2)<+) , ce qui implique l'existence de
m=E(X) et de V(X)=E((X-m)2)=E(X2)-m2 ; l'écart-type de X est par définition V (X )
Si X1,X2,…Xn est un échantillon aléatoire suivant la même loi que X

2 1 n
1 n
est un estimateur biaisé de la variance théorique 2.

2
(Xi X) X i2 X2
n i 1 n i 1
2
Plus précisément, on a 2 n 1 2
(il y a un biais égal à E ( )
2
2 )
E( )
n n
C'est pourquoi, on préfère pour estimer la variance théorique 2 , utiliser la variance
2 n 2 1 n
standard définie par s (Xi X ) 2 qui est un estimateur sans biais

n 1 n 1i 1
de 2.

2
Classiquement, en "Statistiques Descriptives" on l'habitude de calculer que l'on
appelle variance du caractère, mais on lui préfère dans le cadre d'une estimation de 2 , la
variance standard s2.
2 n
2
Notons que l'on a n (n 1) s SCC (Xi X )2
i 1
SCC : Somme des carrés centrés
Evidemment, dès que la taille n de l'échantillon devient assez grande, il n'y a quasiment
pas de différence entre ces deux variances d'échantillon. La différence se ressent que
pour des échantillons de taille petite.
2
est appelée "variance empirique", et la variance standard s2 est parfois appelée
"variance empirique corrigée".

La plupart des softwares, dont Excel, calculent s2 quand il est demandé de calculer la
variance, et s (écart-type standard) quand il est demandé de calculer l'écart-type . La
2
variance empirique est appelée par Excel "variance au sens de Pearson" (et
évidemment est appelé "écart-type au sens de Pearson")
2
Que ce soit s2 ou , tous les deux ce sont des estimateurs convergents de 2
152
On rappelle que bien que "grossière", l'inégalité de "Beinaymé-Tchébytchev" montre que
 est un paramètre de la dispersion autour de la moyenne m.
1
( t 0) Proba[ X-m t ] 2
t
1
Ou encore ( t 0) Proba[ X-m t ] 1
t2
Autrement dit X est compris entre m - t et m + t  avec une proba ≥ à 1-1/t2 la
longueur de l'intervalle est 2t . Donc  est bien un indicateur de la dispersion autour de
m puisque plus  est grand, plus la longueur de l'intervalle est grande. Par exemple si on
prend t=2, X sera compris entre m-2 et m+2 avec une proba ≥ à 75% (ce sera même
95% si X suit une loi normale).

 Equation de la variance
Supposons que la population  soit décomposée en une partition (h)h=1 à H et soit X h

(resp.  h ) (h=1 à H) la moyenne (resp. la variance) de X sur la sous population h; Alors
2
H H
1 1
 =
2
N

h =1
nh +
2
h
N
n
h =1
h ( X h − X )2
Le premier terme représente la moyenne (pondérée par les effectifs) des variances des
sous-populations; le second, la variance des moyennes des sous-populations. On a :
Variance totale = Moyenne des variances + Variance des moyennes

Le premier terme est la variance que l'on obtiendrait si toutes les sous-
populations avaient la même moyenne (le second terme serait alors nul). On l'appelle
"variance intra-populations"(c'est-à-dire à l'intérieur des sous-populations).
Le second terme est la variance que l'on obtiendrait si toutes les sous-
populations étaient homogènes, c'est-à-dire si toutes les observations de chaque sous-
population h étaient égales à leur moyenne X h (le premier terme serait alors nul). On
l'appelle "variance inter-populations" (c'est-à-dire entre les sous-populations):
Variance totale = Variance intra-populations + Variance inter-populations

Exemple
L'entreprise à laquelle appartient l'établissement industriel de N1 = 500 salariés dont on a
calculé le salaire moyen X 1 = 13910 DH , et l'écart type 1 13 581,12 DH possède un
autre établissement de N2 = 1500 salariés dont le salaire moyen est X 2 = 16500 DH et
l'écart type 2= 15 000 DH.
Calculons l’écart type  du salaire de l’ensemble des N =N1+N2 salariés de l’entreprise.
1
La moyenne a déjà été calculée : X = ( N1 X 1 + N 2 X 2 ) = 15852,50 DH
N

En appliquant la formule (2), on obtient:
500 184 446 900 +1500 15000 2 500  (13910 − 15852,5) 2 + 1500  (16500 − 15852,5) 2
 =
2
+
2000 2000
429723450000 2515537500 432 238987500
= + = = 216119 493,8
2000 2000 2000
  = 216119 493,8  14701, 00 DH

I.2)C.)iv) Le coefficient de variation
Le coefficient de variation est le rapport de l'écart type à la moyenne:


CV =
X
C'est un nombre sans dimension, indépendant de l'unité utilisée. Il mesure la
dispersion relative de la distribution étudiée. Il permettra de comparer les
dispersions de distributions qui ne sont pas exprimées dans la même unité (par
exemple, les distributions des revenus dans divers pays industrialisés) ou de
distributions dont les moyennes sont très différentes.

Exemple:
Une étude sur le coût mensuel d'un salarié dans les industries manufacturières a été
effectuée en France, au R.U., et aux E.U. On a trouvé les résultats suivants exprimés en
monnaie nationale:
France R.U. E.U.

Coût mensuel moyen X 2000€ 1200£ 1250$
Ecart type  1000€ 720£ 1000$
(les chiffres sont fictifs)
Dans lequel de ces trois pays, la dispersion du coût de la main d’œuvre est-elle
la plus grande?
Pour répondre à cette question, il faut, soit exprimer les écart types dans une monnaie
commune, par exemple le dollar (mais en utilisant quels coefficients de conversion? Les
taux de change? Les parités de pouvoir d'achat ?), soit utiliser le coefficient de variation.

France R.U. E.U.
CV 0,50 0,60 0,80
C'est donc les E.U. qui, de ces trois pays, ont la plus forte dispersion relative des
coûts de la main-d'œuvre.

I.2.) D. COURBES DE CONCENTRATION
I.2)D.)i) Courbe de Lorenz
Une distribution de revenus est inégalitaire si une faible proportion des individus perçoit
une forte proportion du montant total des revenus distribués.
Soit X un caractère (quantitatif) à valeur strictement positive observé sur une population de
N individus; Soit X1,…,XN les valeurs
observées, et soit X (1) , ... X ( N ) ces valeurs observées
ordonnées de manière croissante ( X (1)  X (2)  ...  X ( N −1)  X ( N ) )
On utilisera exceptionnellement la notation suivante:
(i = 1 à N ) xi = X (i )

Définition de la courbe de Lorenz
Les k (k=0 à N) individus "les plus pauvres" perçoivent la

x1 + ... + xk
proportion qk = du revenu total (avec la convention
x1 + ... + x N
q0=0 & x0=0 ;
La courbe de Lorenz est obtenue en reliant entre eux les points
k
( pk = , qk ) k = 0,..., N
N
On peut remarquer que, si le tri est strictement croissant, alors
Tot ( X  xk )
pk= Prop[ X≤xk ] & qk =
Tot ( X )

Exemple: prenons le cas suivant N=4, x1=1, x2=3, x3=5 & x4=11; La courbe de Lorenz a la
forme suivante:
1 100%; 100%
q : proportion des revenus
0,9
0,8
0,7
Courbe de Lorenz
0,6 q= L(p)
0,5
75%; 45%
0,4
0,3
0,2 50%; 20%
0,1
25%; 5% p: proportion des individus
0%;
0 0%
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Propriétés de la courbe de Lorenz
•La courbe de Lorenz est linéaire par morceaux, inscrite dans le carré de côté 1, car p & q
sont des proportions variant entre 0 et 1.
•Elle passe par les points (0;0) & (1;1) correspondant respectivement à k=0 & k=N.
•Elle est croissante ( qk+1≥ qk ) (et même strictement , s'il n'y a pas de revenu nul.
•Elle est convexe et donc située sous la première bissectrice.

Utilisation pour l'étude de "l'inégalité" d'une distribution
Les individus perçoivent le même revenu (distribution égalitaire) lorsque la

courbe de Lorenz est confondue avec la première bissectrice (les p% plus
pauvres perçoivent le même pourcentage du revenu total). Par continuité,
la distribution sera presque égalitaire, si la courbe est proche de la première
bissectrice.
1
0,9
0,8
0,7 Disrtribution presque égalitaire

0,6
0,5
0,4
0,3
0,2
0,1
0
0 0,2 0,4 0,6 0,8 1
Prenons l'exemple suivant: N=3, x1=5, x2=5, x3=90; L'individu le plus riche, qui représente
seulement le tiers de la population reçoit 90% du revenu total. La courbe de Lorenz est
alors proche des côtés du carré.
1 100%; 100%
q : proportion des revenus
0,9
0,8
0,7
0,6
Forte Inégalité
0,5
0,4
0,3
0,2
0,1 67%; 10%

33%; 5% p: proportion des individus
0%;
0 0%
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Considérons maintenant 2 partages différents A et B d'une même somme 100:
➢Partage A : x1=10, x2=30, x3=60
➢Partage B : y1=5, y2=10, y3=85
1 1 ;1
La courbe de Lorenz associée à A est
0,9
située au dessus de celle associée à
0,8 B; Les "pauvres" de A sont moins
"pauvres" que ceux de B ( et
0,7
évidemment les riches moins
0,6 riches). Le deuxième partage
apparaît comme plus inégalitaire.
0,5
0,4 2/3;40%
A
0,3
B
0,2
2/3;15%
0,1 1/3;10%
1/3;5%
0 0;0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Définition
Une distribution B est plus inégalitaire qu'une autre A, si sa courbe de Lorenz est
constamment située en dessous de celle de A
Deux partages quelconques ne sont généralement pas comparables au sens de la

définition précédente

Considérons les 2 partages A et B suivants
➢A : x1=20, x2=20, x3=60
➢B : y1=10, y2=45, y3=45
1 1
0,9
0,8
0,7
0,6 B
Aucune des 2 courbes
2/3;55% n'est constamment sous
0,5
A l'autre; B est plus
0,4 2/3;40% égalitaire que A pour les
0,3 hauts revenus ( et A est
plus égalitaire pour les
0,2 1/3;20%
bas revenus)
0,1 1/3;10%
0 0;0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

La courbe de Lorenz est un résumé de la distribution initiale x1,…, xN ; Elle ne permet pas
de reconstituer entièrement cette dernière; En effet connaissant la courbe,
xk
c'est à dire les quantités qk, on en déduit les quantités
x1 + ... + x N
xk
( qk − qk −1 = )
x1 + ... + xN
Les valeurs des revenus sont donc connues à une constante multiplicative près.

Réciproquement, il est facile de voir que les distributions x1,…, xN et x1,…,  xN (>0) ont
même courbe de Lorenz; Les courbes de Lorenz sont donc invariantes par changement
d'échelle.
On peut aussi voir comment se comporte la courbe, lorsque tous les revenus x1,…, xN sont
augmentés d'une même quantité positive h; La nouvelle distribution y1 = x1 +h,…, yN = xN +h
apparaît plus égalitaire que la distribution initiale.

Preuve:
y1 + ... + yk x1 + ... + xk + kh x1 + ... + xk

[(k ) = 
y1 + ... + y N x1 + ... + xN + Nh x1 + ... + xN
 [(k ) kh ( x1 + ... + xN )  Nh ( x1 + ... + xk )]
 [(k ) kh ( xk +1 + ... + xN )  ( N − k )h ( x1 + ... + xk )]
or cette dernière inégalité est vraie puisque les revenus sont rangés par ordre
croissant; En effet on a:
kh ( xk +1 + ... + xN )  kh( N − k ) xk +1 ( N − k )h ( x1 + ... + xK )
c.q.f.d.

I.2)D.)ii) Construction pratique de la courbe de Lorenz
Pour des raisons qu'on a déjà exposé, les données sont souvent
regroupées en classes.
Considérons une distribution de revenus où les données sont regroupées en M
classes. Les bornes de la kème classe sont ek-1, ek (ek-1< ek) ; pour cette classe, on
connaît le nombre nk d'individus percevant entre ek-1et ek; Soit Sk la masse totale
des revenus qu'ils perçoivent. On ne peut (ou on ne veut) construire que M+1
points de la courbe de Lorenz.
 n1 + ... + nk N (ek )
 kp ( e ) = = = F (ek )
N N
 k = 1à M
q(ek ) = 1 S + ... + S S + ... + S Tot ( X  e ) Tot ( X  e )
k
= 1 k
= k
= k
 S1 + ... + S M NX Tot ( X ) S
Avec la convention p(e0)=q(e0)=0

 n1 + ... + nk N (ek )
 kp ( e ) = = = F (ek )
N N
 k = 1à M
q(ek ) = S1 + ... + Sk = S1 + ... + Sk = Tot ( X  ek )
 S1 + ... + S M NX S
Les autres points de la courbe (N-M, il y en a N+1au total) ne sont pas représentés car on ne
sait pas (ou on ne veut pas savoir) comment sont répartis les revenus à l'intérieur de
chaque classe.

Il convient de souligner que le regroupement en classes conduit à réduire
artificiellement l'inégalité.
p
1
Même la masse des revenus Sk à l'intérieur d'une classe est rarement utilisée pour les
mêmes raisons exposées plus haut: on fait souvent l'hypothèse que le revenu moyen de
chaque classe est égal à son centre ; Ce qui conduit à l'approximation suivante :
S k  nk ck
 n1 + ... + nk N (ek )
 p(ek ) = N
=
N
= F (ek )
D'où  k = 1à M
q(ek )  n1c1 + ... + nk ck  Tot ( X  ek )
 n1c1 + ... + nM cM S
Construisons la courbe de Lorenz du salaire mensuel des 500 salariés de l'exemple du

tableau 5;

Centre Masse
Fréq.
Nbre de Eff. de Sal.
Salaires Cumul. ni x ci = Si Si Cumul.
salariés Cum. classe Cumul.
(p)
ci (q)
3 000 4 000 30 30 6,00% 3 500 105 000 105 000 1,51%

4 000 6 000 100 130 26,00% 5 000 500 000 605 000 8,70%
6 000 10 000 150 280 56,00% 8 000 1 200 000 1 805 000 25,95%
10 000 20 000 155 435 87,00% 15 000 2 325 000 4 130 000 59,38%
20 000 40 000 40 475 95,00% 30 000 1 200 000 5 330 000 76,64%
40 000 90 000 25 500 100% 65 000 1 625 000 6 955 000 100%
Total 500 6 955 000

Courbe de Concentration du salaire
100%
90%
80%
95,00%-76,64%
70%
60% 87,00%-59,38%
50%
40%
30%
56,00%-25,95%
20%
10% 26,00%-8,70%
6,00%-1,51%
0%
0% 20% 40% 60% 80% 100%

I.2)D.)iv) Mesures d'inégalité, de pauvreté, et de concentration
L'indice de Gini est la mesure d'inégalité la plus utilisée : il est défini comme étant le
rapport entre l'aire comprise entre la première bissectrice et la courbe de Lorenz et l'aire
du triangle (égale à ½).
Donc G= 2  Aire entre la droite et la courbe.
Il est évident que 0≤G≤1;
➢G=0 pour la distribution totalement égalitaire ;
➢G=1 pour la distribution totalement inégalitaire.

Calcul pratique de l'indice de Gini
G=2Aire=2[1/2 – Aire des Trapèzes] (le premier trapèze est un triangle); D'où
M
G = 1 − 2 Ak
k =1
1 1
(k = 1 à M ) Ak = ( qk −1 + qk )( pk − pk −1 ) = f k ( qk −1 + qk )
2 2
M
1 M
 G = 1 − f k ( qk −1 + qk ) = 1 −  nk ( Sqk −1 + Sqk )
k =1 NS k =1
1 M
G = 1− 
NS k =1
nk ( Sqk −1 + Sqk )
Cette dernière formule est très pratique car elle évite des pertes en précision, dues
aux divisions, dans le calcul de G.

Calculons l'indice de Gini de la distribution du salaire mensuel des 500 salariés de
l'exemple du tableau 5;
Si cumulé= ni x (S qi-1+ S qi)

Salaires Effectif ni S qi-1+ S qi
S x qi
3 000 4 000 30 105 000 105 000 3 150 000

4 000 6 000 100 605 000 710 000 71 000 000
6 000 10 000 150 1 805 000 2 410 000 361 500 000
10 000 20 000 155 4 130 000 5 935 000 919 925 000
20 000 40 000 40 5 330 000 9 460 000 378 400 000
40 000 90 000 25 6 955 000 12 285 000 307 125 000
Total 500 2 041 100 000
1 1
G = 1−  2 041 100 000
500 6 955 000
14364
=  0, 413055
34775
G  41, 31%
Un autre indice classique de mesure de la concentration d'une distribution est basée sur la
notion de médiale.
La médiale de la distribution des revenus est le revenu tel que les individus qui
perçoivent moins que la médiale perçoivent globalement autant que les individus dont le
revenu dépasse le revenu médial. C'est par conséquent la valeur de x telle que :
q(x)=1/2.
Comme la médiane, la médiale est évaluée par interpolation linéaire à partir des
extrémités de la classe médiale.
Calculons le salaire mensuel médial des 500 salariés de l'exemple du tableau 5 ;

S 6 955 000
= = 3 477 500
2 2
Si cumulé=
Salaires Effectif ni
S x qi
3 000 4 000 30 105 000

4 000 6 000 100 605 000
6 000 10 000 150 1 805 000
10 000 20 000 155 4 130 000 Classe médiale
20 000 40 000 40 5 330 000

40 000 90 000 25 6 955 000
Total 500

10000 M l 20000

 Sq (10000) = 1805000 Sq( M l ) = S / 2 = 3477500 Sq(20000) = 4130000
M l − 10000 20000 − 10000 10000
 = =
3477500 − 1805000 4130000 − 1805000 2325000
10 39975000
 M l =10000+ 1672500 =  17193,55 DH
2325 2325
Ml= 17 193,55 DH

L'indice de mesure de concentration basée sur la médiale est le suivant :
Ml − Me
IC =
w
Ml  17 194 DH; Me  9 200 DH ; w  87000 DH
17194 − 9200 7994
IC = =  09,19%
87000 87000

Partie II : Régression & Corrélation
II.1) Position du problème
On considère deux variables statistiques quantitatives x & y ; On suppose qu'on observe le
couple (x,y) et qu'on dispose de N observations: (x1 , y1), (x2 , y2),… (x N , yN).
➢ Existe t-il une relation entre les 2 variables x et y ?

➢Sont-elles totalement indépendantes ? très dépendantes l'une de l'autre ?
➢Peut- on remplacer le nuage des points (xi , y i) par une courbe pour mieux apprécier le
degré de dépendance ?

II.2) Coefficient de corrélation linéaire
y x y x x
x x
x x x
x x x
x x
x x x x x
x x x x
x x x x
x x x
x
xx x
x
x x
Dépendance relative – Ajustement A priori, il y a indépendance totale
linéaire justifié. entre les variables.

x x
x y
y
x x
x
x
x
x
x
x x x
x
x
x x
x x
x
x
x x x
x x
x x x x x x x
x x
x
x
x x
Dépendance relative – Ajustement de Dépendance relative – Ajustement de type
type parabolique ou exponentielle. hyperbolique ou exponentielle

y
x x
x x
x x x
x x
x x
x x
x x
x
x x
x x
x
x x x
x x
x x x x
x x x x
x
Très forte dépendance – La dépendance est Non Linéaire.

II.2)a) Détermination de la corrélation théorique
Soit X et Y deux v.a.r. On appelle covariance de X et Y et on note cov( X,Y) le

nombre E[(X-E(X))(Y-E(Y))] (espérance mathématique des produits des variables
centrées).
La covariance vérifie les propriétés suivantes:

➢La symétrie: cov( X,Y) = cov( Y,X)
➢La bilinéarité: cov( X1+X2 ,Y) = cov( X1 ,Y) +  cov( X2 ,Y)
➢Si X est constante, cov( X,Y)=0
➢ cov( X,X)=V(X)
➢Si X et Y sont indépendantes, alors cov( X,Y)=0; La réciproque est fausse (sauf en cas de
normalité).

La formule VX = E ( X 2 ) − [ E ( X )]2 se généralise à la covariance :
cov( X , Y ) = E ( XY ) − E ( X ) E (Y )
On appelle coefficient de corrélation linéaire de X et Y, et on notera corr( X,Y) le nombre
cov( X , Y )
r =
 XY

Le coefficient de corrélation linéaire vérifie les propriétés suivantes:
➢ On a toujours −1  r  1
➢ r = +1  (b 0)(a  ) Y = bX + a
➢ r = −1  (b 0)(a  ) Y = bX + a

II.2)b) Détermination de la corrélation empirique
Soit deux variables statistiques quantitatives X & Y ; On suppose qu'on observe le

couple (X,Y) et qu'on dispose de N observations: (X1,Y1), (X2,Y2),… (X N,YN).
On appelle covariance (empirique) de X et Y et on note cov( X,Y) le nombre
cov( X , Y ) = ( X − X )(Y − Y )
(c'est la moyenne des produits des variables centrées)
N
1
cov( X , Y ) =
N
(X
i =1
i − X )(Yi − Y )

La covariance (empirique) vérifie les propriétés suivantes:
➢La symétrie: cov( X,Y) = cov( Y,X)
➢La bilinéarité: cov( X1+X2 ,Y) = cov( X1 ,Y) +  cov( X2 ,Y)
➢Si X est constante, cov( X,Y)=0
➢ cov( X,X)=V(X)
➢La covariance empirique est un estimateur convergent de la covariance théorique.

La formule
VX = X ² − ( X )² se généralise à la
covariance:
cov( X , Y ) = XY − XY
On appelle coefficient de corrélation linéaire (empirique) de X et Y, et on notera corr( X,Y)

le nombre
cov( X , Y )
r =
 X Y

Le coefficient de corrélation linéaire (empirique) vérifie les propriétés suivantes:
➢ On a toujours −1  r  1
➢ r = +1  (b 0)(a  )(i = 1 à N ) Yi = bX i + a
➢ r = −1  (b 0)(a  ) (i = 1 à N ) Yi = bX i + a

II.3) Régression linéaire simple
Soit deux variables statistiques quantitatives X & Y ; On suppose qu'on observe
le couple (X,Y) et que l'on dispose de N observations: (X1,Y1), (X2,Y2),… (X N,YN).
On dit que l'on effectue la régression linéaire de Y sur X lorsqu'on écrit:
où a et b sont des nombres réels fixés ;
(i = 1 à N ) Yi = bX i + a + ui
ui est par définition la différence Yi − (bX i + a ) ; Elle est appelée "erreur" ou

"perturbation" associée à l'observation i.
Y et X sont respectivement appelées "variable expliquée" et "variable explicative".

II.3)a) Estimateurs des moindres carrés ordinaires
On appelle estimateurs des moindres carrés ordinaires (MCO) de a et b les

nombres a* et b* qui minimisent la somme des carrés des "erreurs".
On démontre facilement que a* et b* existent et sont uniques dès que X n'est

pas constante. b* se calcule par la formule :
cov( X , Y )
b* =
V (X )
Et a* se calcule en utilisant la propriété suivante:

Y = b* X + a*
La droite de régression passe par la moyenne du nuage des observations.

II.3)b) Propriétés de la droite de régression
a*et b* étant les estimateurs des MC de a et b, la variable Y*

définie par : (i = 1 à N ) Yi* = b* X i + a*
est appelée variable "ajustée" de Y sur X
La variable u*=Y- Y* est appelée variable "des erreurs ajustées" ou "des résidus"
dues à la régression de Y sur X ; Elle est donc définie par
(i = 1 à N ) u*i = Yi − Yi* = Yi − (b* X i + a* )

On démontre les propriétés suivantes:
N
➢La somme des résidus est nulle  i =0

u *
i =1
; Donc Y* = Y
N N N
➢
 (Y − Y )
i =1
i
2
=  (Y − Y ) +  ui*2
i =1
*
i
2
i =1
En effectuant une division par N, on obtient:

Variance totale (de Y) = Variance expliquée + Variance résiduelle VY = VY * + Vu*
VT= VE + VR
Si on n’effectue pas la division par N, on écrira SCT = SCE + SCR

N
SCT = Somme des carrés totale =  (Y
i =1
i − Y )2 ;
N
SCE = Somme des carrés expliquée =  (Y i − Y )

* 2
i =1
SCR = Somme des carrés des résidus = u

i =1
*2
i

VE VR
La formule VT = VE + VR peut aussi s'écrire 1= +
VT VT
Il est facile de voir que plus l'ajustement de Y sur X est "correct", plus le rapport
VE/VT est proche de 1; Ce rapport est appelé coefficient de détermination de la
régression: il est souvent noté R2. Donc:
VE VR
R2 = = 1−
VT VT
Il est facile de démontrer que le coefficient de détermination est égale au carré du

coefficient de corrélation linéaire.
cov 2 ( X , Y )
R 2
=r 2
=
 X2  Y2

Partie III : Séries temporelles
Une série temporelle (ou chronologique) est une variable "économique" dont on
observe l'évolution dans le temps. Si on note X cette variable, la série temporelle sera notée
( X t )t , Xt est la valeur de X à la date t. Le temps est considéré ici comme discret : c'est
ce qui sera supposé dans la suite.
Théoriquement, Xt est une v.a.r., et donc dans la notation il faudrait faire la différence
entre celle-ci et la valeur observée ; Dans le cadre de ce séminaire d'introduction aux séries
temporelles, on ne le fera pas.

III.1) Composantes d'une série chronologique
Prenons l'exemple suivant: une société exploite un produit cosmétique P sur le marché
intérieur. On dispose des ventes trimestrielles des quatre dernières années.
Années A1 A2 A3 A4
Trimestres
T1 1 000 1 050 1 100 1 250
T2 1 200 1 350 1 450 1 650
T3 1 400 1 500 1 700 1 850
T4 1 150 1 300 1 400 1 550
Total 4 750 5 200 5 650 6 300

Evolution des ventes annuelles du produit P
6 500
6 000
5 500
5 000
4 500
A1 A2 A3 A4

Evolution des ventes trimestrielles du produit P
1900
1800
1700
1600
1500
1400
1300
1200
1100
1000
900
A1T1 A1T2 A1T3 A1T4 A2T1 A2T2 A2T3 A2T4 A3T1 A3T2 A3T3 A3T4 A4T1 A4T2 A4T3 A4T4
On voit facilement qu'une tendance ou "Trend", qu’on notera Zt , se dégage du graphique

précédent; On peut suggérer une tendance linéaire croissante du temps du type
Zt= a + b t avec b>0)

Le graphe précédant appelé aussi "diagramme de dispersion" permet d’identifier
un mouvement périodique trimestriel : C’est ce qu’on appelle la saisonnalité.
D'une manière générale, la saisonnalité est caractérisée par un mouvement
périodique de période inférieure à l'année. La saisonnalité sera notée St.
La saisonnalité trimestrielle de l'exemple peut être mise en évidence en
partitionnant le diagramme de dispersion par année.

Saisonnalité trmestriielle des ventes du produit P
1900
1800
A4
1700
1600 A3
1500 A2
1400
A1
1300
1200
1100
1000
900
T1 T2 T3 T4
Cette représentation graphique montre des similitudes de forme au cours de l’année :

il y a à peu près des sommets pour les mêmes trimestres avec un "parallélisme" entre
les courbes.

On peut donc, pour l'exemple donné, suggérer une décomposition
de la forme X t = Z t + St + ut
u t appelé "partie irrégulière" ou "variation résiduelle" ou encore "perturbation" de la
série, aura le statut de variable aléatoire centrée.
Cette décomposition est classique; on y ajoute quelquefois une quatrième partie,
appelée le cycle, représentant des mouvements périodiques à moyen terme:
X t = Z t + St + Ct + ut
Dans la suite on négligera la composante cyclique C t .

Il est important de noter que dans la décomposition X t = Z t + St + ut
Zt et St sont déterministes, l'aléa n'est représenté que par la perturbation ut.
D’une manière plus générale, on peut proposer un modèle du type :
où f est une fonction assez simple. Les deux formes les plus utilisées de f sont la forme
additive et la forme multiplicative.
X t = f ( Z t , St , ut )
La forme additive correspond au cas que nous venons de voir:
X t = f ( Z t , St , ut ) = Z t + St + ut
on dit que le modèle est un modèle d’ajustement "additif"

La forme multiplicative correspond à
X t = f ( Z t , S t , ut ) = Z t  S t  u t
on dit que le modèle est un modèle d’ajustement multiplicatif.
Lorsque les diverses variables sont positives, on passe du modèle multiplicatif à un modèle
additif à l’aide de la fonction logarithme.

III.2) Calcul des coefficients saisonniers
Nous présentons ici la méthode classique élémentaire appelée "méthode des

rapports au trend". Elle consiste à
➢ déterminer la droite des MCO qui ajuste la série par le modèle
X t = b t + a + ut (t = 1 à T )
➢ Calculer les valeurs ajustées par l'équation de régression trouvée :
(t = 1 àT ) X t* = b*t + a*
➢ Calculer les rapports entre les valeurs observées et les valeurs ajustées X t
X t*
➢ Calculer, pour chaque période de saisonnalité (mois, trimestre,…), le rapport

moyen qui sera considéré comme le coefficient saisonnier de la période.

Appliquons la méthode à l'exemple: On commence par estimer le Trend
X t t2 tX
A1T1 1 000 1 1 1000
A1T2 1 200 2 4 2400
A1T3 1 400 3 9 4200
A1T4 1 150 4 16 4600
A2T1 1 050 5 25 5250
A2T2 1 350 6 36 8100
A2T3 1 500 7 49 10500
A2T4 1 300 8 64 10400
A3T1 1 100 9 81 9900
A3T2 1 450 10 100 14500
A3T3 1 700 11 121 18700
A3T4 1 400 12 144 16800
A4T1 1 250 13 169 16250
A4T2 1 650 14 196 23100
A4T3 1 850 15 225 27750
A4T4 1 550 16 256 24800
21 900 136 1 496 198 250

Moyenne 1 368,75 8,50 93,50 12 390,63

V (t ) = 93,50-(8,50) 2 = 21, 25
198 250
cov(t , X ) = -(8,50)(1368,75)=756,25
16
cov(t , X ) 756, 25
b* = =  35,5882
V (t ) 21, 25
756, 25
a* = X − bT = 1368, 75 − 8, 50 = 1066, 25
21, 25
D'où l'équation du trend : Z t = 35,5882 t + 1066,25
Le calcul des coefficients saisonniers se présente comme suit:

t X* = Z X/X* Trim1 Trim2 Trim3 Trim4
1 1101,83824 0,9076 0,9076
2 1137,42647 1,0550 1,0550
3 1173,01471 1,1935 1,1935
4 1208,60294 0,9515 0,9515
5 1244,19118 0,8439 0,8439
6 1279,77941 1,0549 1,0549
7 1315,36765 1,1404 1,1404
8 1350,95588 0,9623 0,9623
9 1386,54412 0,7933 0,7933
10 1422,13235 1,0196 1,0196
11 1457,72059 1,1662 1,1662
12 1493,30882 0,9375 0,9375
13 1528,89706 0,8176 0,8176
14 1564,48529 1,0547 1,0547
15 1600,07353 1,1562 1,1562
16 1635,66176 0,9476 0,9476
Total 3,3624 4,1841 4,6563 3,7989
Coefficient
Saisonnier 0,8406 1,0460 1,1641 0,9497
En se basant sur le modèle, on peut calculer les prévisions trimestrielles des ventes
pour l'année A5
 Z (17 ) = 35,5882  17+1066,25  1671,25


 Z (18) = 35,5882  18+1066,25  1706,84

 Z (19) = 35,5882  19+1066,25  1742,43
Z = 35,5882  20+1066,25  1778,01
 ( 20)
 Pr év( X 17 ) = Z17  c1  Z17  0,8406  1405


 Pr év( X 18 ) = Z18  c2  Z18 1,0460  1785

 Pr év( X 19 ) = Z19  c3  Z19  1,1641  2028

 Pr év( X 20 ) = Z 20  c4  Z 20  0,9497  1689

Stat Desc v.6

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Stat Desc v.6

Transféré par

Droits d'auteur :

Formats disponibles

Notes Partielles de Statistiques Descriptives

A. Benchekroun - Statistiques Descriptives 0

• Le cours est autosuffisant (pas les notes présentes): Aucun ouvrage

• Bernard Grais: "Statistique descriptive". Collection Modules économiques,

• Bernard Grais: "Méthode Statistique ". Collection Modules économiques,

• Et évidemment, beaucoup d'autres ouvrages …

A. Benchekroun - Statistiques Descriptives 1

I.1) INTRODUCTION A LA METHODE STATISTIQUE

A. Benchekroun - Statistiques Descriptives 2

A. Benchekroun - Statistiques Descriptives 3

A. Benchekroun - Statistiques Descriptives 4

• Caractère qualitatif = Caractère repérable mais non mesurable.

A. Benchekroun - Statistiques Descriptives 5

• Variable statistique discrète

A. Benchekroun - Statistiques Descriptives 6

A. Benchekroun - Statistiques Descriptives 7

Forme générale d'un tableau statistique

A. Benchekroun - Statistiques Descriptives 8

Classe ou modalité n° Effectif Fréquence

A. Benchekroun - Statistiques Descriptives 9

C'est la proportion des individus de la population présentant la

A. Benchekroun - Statistiques Descriptives 10

A. Benchekroun - Statistiques Descriptives 11

• Les modes de représentation graphique utilisés dépendent de la

A. Benchekroun - Statistiques Descriptives 12

A. Benchekroun - Statistiques Descriptives 13

A. Benchekroun - Statistiques Descriptives 14

A. Benchekroun - Statistiques Descriptives 15

A. Benchekroun - Statistiques Descriptives 16

A. Benchekroun - Statistiques Descriptives 17

A. Benchekroun - Statistiques Descriptives 18

fig.4 : Représentation par Secteurs - Composition de la production d'automobiles en

A. Benchekroun - Statistiques Descriptives 19

A. Benchekroun - Statistiques Descriptives 20

Plus l'aire du polygone est grande, plus la production globale l'est.

A. Benchekroun - Statistiques Descriptives 21

A. Benchekroun - Statistiques Descriptives 22

A. Benchekroun - Statistiques Descriptives 23

A. Benchekroun - Statistiques Descriptives 24

8 Effectif (Nombre de véhicules) 20(A)

A. Benchekroun - Statistiques Descriptives 25

A. Benchekroun - Statistiques Descriptives 26

A. Benchekroun - Statistiques Descriptives 27

A. Benchekroun - Statistiques Descriptives 28

A. Benchekroun - Statistiques Descriptives 29

Nombre Nombre de Effectif Fréquence

Total 500 100,00%

A. Benchekroun - Statistiques Descriptives 30

On suppose que les modalités xi sont ordonnées:

A. Benchekroun - Statistiques Descriptives 31

A. Benchekroun - Statistiques Descriptives 32

A. Benchekroun - Statistiques Descriptives 33

A. Benchekroun - Statistiques Descriptives 34

A. Benchekroun - Statistiques Descriptives 35

A. Benchekroun - Statistiques Descriptives 36

La courbe en escalier est la représentation graphique du nombre N (x),

A. Benchekroun - Statistiques Descriptives 37

A. Benchekroun - Statistiques Descriptives 38

A. Benchekroun - Statistiques Descriptives 39

A. Benchekroun - Statistiques Descriptives 40

On précise que le centre de la dernière classe est égale à 65 000 DH

A. Benchekroun - Statistiques Descriptives 41

A. Benchekroun - Statistiques Descriptives 42

Effectif Corrigé 1000 x ni/ai