Vous êtes sur la page 1sur 50

CAPES

SÉRIE DOCUMENTS DE TRAVAIL


DT–CAPES N° 2005–22

STATISTIQUE.
(Première partie.)
Les distributions à un caractère.
Quelques applications à l'économie burkinabè.

Novembre 2005

Seglaro Abel SOME


seglaro.some@univ–ouaga.bf / seglaro@netcourrier.com
1595, Avenue Charles de Gaulle, 01 BP 1919 Ouagadougou 01 Burkina Faso
Tél. : 50 36 96 14/32 – Fax : 50 36 96 33 – courrier@capes.bf – www.capes.bf
2

AVERTISSEMENT

Le Document de Travail du Centre d'Analyse des Politiques Économiques et Sociales (CAPES) est
constitué des travaux de recherche (travaux semi–finis, drafts d'articles, communications
diverses…) des experts du Centre, qui les soumettent de la sorte au débat scientifique.

Les auteurs des travaux publiés dans la Série Document de Travail sont entièrement
responsables de leur contenu.

Le Document de Travail paraît chaque fois que des travaux sont reçus à la Direction du Centre.
3
TABLE DES MATIÈRES
AVERTISSEMENT..................................................................................................................................................................................... 2

LISTE DES TABLEAUX ............................................................................................................................................................................ 5

LISTE DES GRAPHIQUES ......................................................................................................................................................................6

INTRODUCTION GÉNÉRALE............................................................................................................................................................. 7
DÉFINITIONS ET NOTIONS DE BASE ............................................................................................................................................. 7

Population, univers statistique.............................................................................................................................................. 7


Individu, unité statistique....................................................................................................................................................... 7
Caractère, variable statistique................................................................................................................................................ 7
Caractère quantitatif ................................................................................................................................................................. 8
Caractère qualitatif .................................................................................................................................................................... 8
Modalité......................................................................................................................................................................................... 8
Variable statistique discrète ................................................................................................................................................... 8
Variable statistique continue.................................................................................................................................................. 8
Distribution statistique, série statistique........................................................................................................................... 8

CHAPITRE I ............................................................................................................................................................................................... 10
LA PRÉSENTATION DES DONNÉES STATISTIQUES............................................................................................................. 10

SECTION 1............................................................................................................................................................................................. 10
LES TABLEAUX STATISTIQUES ................................................................................................................................................. 10

1.1 DISTRIBUTIONS DE FRÉQUENCE DANS LE CAS D'UN CARACTÈRE QUALITATIF ............................ 10


1.2 DISTRIBUTIONS DE FRÉQUENCE DANS LE CAS D'UN CARACTÈRE QUANTITATIF ....................... 10
1.3 DISTRIBUTIONS DE FRÉQUENCES CUMULÉES.....................................................................................................12

SECTION 2 .............................................................................................................................................................................................13
REPRÉSENTATIONS GRAPHIQUES..........................................................................................................................................13

2.1 REPRÉSENTATIONS GRAPHIQUES POUR CARACTÈRES QUALITATIFS................................................ 14


2.2 REPRÉSENTATIONS GRAPHIQUES POUR CARACTÈRES QUANTITATIFS ............................................15

CHAPITRE II..............................................................................................................................................................................................20
LES PARAMÈTRES DE TENDANCE CENTRALE ET DE DISPERSION............................................................................20

SECTION 1.............................................................................................................................................................................................20
LES PARAMÈTRES DE TENDANCE CENTRALE OU PARAMÈTRES DE POSITION ..........................................20

1.1 LE MODE ....................................................................................................................................................................................20

1.2 LA MÉDIANE ............................................................................................................................................................................21

1.3 LA MÉDIALE..............................................................................................................................................................................21

1.4 LES QUANTILES.....................................................................................................................................................................22

1.5 LA MOYENNE..........................................................................................................................................................................23

1.5.1 LA MOYENNE ARITHMÉTIQUE ............................................................................................................................23


1.5.2 LA MOYENNE GÉOMÉTRIQUE .............................................................................................................................24
1.5.3 LA MOYENNE HARMONIQUE...............................................................................................................................25
1.5.4 LA MOYENNE QUADRATIQUE.............................................................................................................................25
1.5.5 LES PROPRIÉTÉS DE LA MOYENNE....................................................................................................................26

SECTION 2 ............................................................................................................................................................................................27
LES PARAMÈTRES DE DISPERSION ........................................................................................................................................27
4
2.1 L'ÉTENDUE...............................................................................................................................................................................27
2.2 AUTRES INTERVALLES.....................................................................................................................................................27
2.3 LA VARIANCE ........................................................................................................................................................................28
2.4 L'ÉCART–TYPE ......................................................................................................................................................................29
2.5 LE COEFFICIENT DE VARIATION................................................................................................................................29
2.6 CHANGEMENT DE VARIABLE.......................................................................................................................................30

CHAPITRE III.............................................................................................................................................................................................31
LES PARAMÈTRES DE CONCENTRATION ET DE FORME..................................................................................................31

SECTION 1..............................................................................................................................................................................................31
LES PARAMÈTRES DE CONCENTRATION............................................................................................................................31

1.1 ÉCART ENTRE MÉDIALE ET MÉDIANE.......................................................................................................................31


1.2 LA COURBE DE CONCENTRATION OU COURBE DE LORENZ.......................................................................31
1.3 L'INDICE DE CONCENTRATION OU INDICE DE GINI .......................................................................................32

SECTION 2 ............................................................................................................................................................................................33
LES PARAMÈTRES DE FORME ...................................................................................................................................................33

2.1 LES MOMENTS .......................................................................................................................................................................33

2.2 LA MESURE DE L'ASYMÉTRIE .......................................................................................................................................34

2.2.1 LE COEFFICIENT D'ASYMÉTRIE DE YULE ......................................................................................................35


2.2.2 LES COEFFICIENTS D'ASYMÉTRIE DE PEARSON .......................................................................................35
2.2.3 LE COEFFICIENT D'ASYMÉTRIE DE FISHER .................................................................................................36

2.3 LA MESURE DE L'APLATISSEMENT............................................................................................................................36

2.3.1 LE COEFFICIENT D'APLATISSEMENT DE PEARSON .................................................................................36


2.3.2 LE COEFFICIENT D'APLATISSEMENT DE FISHER......................................................................................37

CHAPITRE IV............................................................................................................................................................................................39
LES MÉLANGES DE POPULATIONS...............................................................................................................................................39

SECTION 1.............................................................................................................................................................................................39
LE TABLEAU DE MÉLANGE DE POPULATIONS.................................................................................................................39

1.1 LES EFFECTIFS D'UN MÉLANGE DE POPULATIONS ...........................................................................................39


1.2 LES FRÉQUENCES RELATIVES D'UN MÉLANGE DE POPULATIONS......................................................... 40

SECTION 2 ............................................................................................................................................................................................ 41
MOYENNES ET RELATIONS ENTRE MOYENNES............................................................................................................. 41

2.1 LA MOYENNE DE LA POPULATION–MÈRE............................................................................................................. 41


2.2 LA MOYENNE DES SOUS–POPULATIONS................................................................................................................ 41
2.3 RELATION ENTRE MOYENNES..................................................................................................................................... 41

SECTION 3 ............................................................................................................................................................................................42
VARIANCES ET RELATIONS ENTRE VARIANCES ...........................................................................................................42

3.1 LA VARIANCE DE LA POPULATION–MÈRE ............................................................................................................42


3.2 LA VARIANCE DES SOUS–POPULATIONS...............................................................................................................42
3.3 RELATION ENTRE VARIANCES....................................................................................................................................43

CONCLUSION ......................................................................................................................................................................................... 44
SUJETS D'EXAMEN POUR S'EXERCER........................................................................................................................................ 44

RÉFÉRENCES BIBLIOGRAPHIQUES..............................................................................................................................................50
5

LISTE DES TABLEAUX

Tableau 1 Répartition de la population du Burkina par sexe en 1996...................................................................................... 10

Tableau 2 Répartition des températures maximales (en degrés Celsius) enregistrées à Ouagadougou au mois de
novembre, entre 1960 et 1989 ................................................................................................................................................................. 11

Tableau 3 Répartition des provinces du Burkina selon le nombre d'habitants (en milliers) en 1996............................ 11

Tableau 4 Distributions de fréquences cumulées croissantes et décroissantes des températures maximales (en
degrés Celsius) enregistrées à Ouagadougou en novembre, entre 1960 et 1989....................................................................12

Tableau 5 Distributions de fréquences cumulées croissantes et décroissantes des provinces du Burkina selon le
nombre d'habitants (en milliers) en 1996...........................................................................................................................................13

Tableau 6 Répartition des salaires (en milliers de FCFA) dans une entreprise au Burkina ............................................22

Tableau 7 Multiplicateurs annuels du PIB du Burkina de 1987 à 1992 ....................................................................................24

Tableau 8 Valeurs de quelques productions industrielles au Burkina en 1990.....................................................................25

Tableau 9 Répartition des salaires (en milliers de FCFA) dans les établissements d'une entreprise au Burkina....39
6

LISTE DES GRAPHIQUES

Graphique 1 Tuyaux d'orgue de la répartition de la population du Burkina par sexe en 1996........................................ 14

Graphique 2 Secteurs circulaires de la répartition de la population du Burkina par sexe en 1996 ................................15

Graphique 3 Diagramme en bâtons de la répartition des températures maximales (en degrés Celsius) enregistrées
à Ouagadougou en novembre entre 1960 et 1989.............................................................................................................................15

Graphique 4 Fonctions en escalier de la répartition des températures maximales (en degrés Celsius) enregistrées
à Ouagadougou en novembre entre 1960 et 1989.............................................................................................................................16

Graphique 5 Histogramme de la répartition des provinces du Burkina selon le nombre d'habitants (en milliers) en
1996 .................................................................................................................................................................................................................17

Graphique 6 Courbes cumulatives de la répartition des provinces du Burkina selon le nombre d'habitants (en
milliers) en 1996 (variable continue)...................................................................................................................................................18

Graphique 7 Box–plot de la répartition des provinces du Burkina selon le nombre d'habitants (en milliers) en
1996 .................................................................................................................................................................................................................18

Graphique 8 Courbe de Lorenz des salaires d'une entreprise au Burkina (tableau 6).......................................................32

Graphique 9 Courbe de fréquences pour une distribution symétrique..................................................................................34

Graphique 10 Courbe de fréquences pour une distribution asymétrique à droite..............................................................34

Graphique 11 Courbe de fréquences pour une distribution asymétrique à gauche.............................................................35

Graphique 12 Courbes de fréquences de distributions fortement aplatie, moyennement aplatie et faiblement


aplatie............................................................................................................................................................................................................36
7
INTRODUCTION GÉNÉRALE
DÉFINITIONS ET NOTIONS DE BASE

La statistique peut être définie comme un ensemble de méthodes scientifiques utilisées dans la
collecte, l'organisation, la présentation, l'analyse de données numériques, afin de commenter ou
d'interpréter les faits auxquels ces données sont relatives1.

Il est souvent de coutume de distinguer la statistique descriptive qui concerne la collecte,


l'organisation et la présentation des données numériques, de l'inférence statistique qui traite de la
manière par laquelle on tire des conclusions générales à propos d'un phénomène, sur la base de faits
ou données observés.

Ce document porte principalement sur la statistique descriptive qui est une partie importante de la
statistique. Les tâches qui relèvent de la statistique descriptive constituent la première étape de
toute analyse statistique. En effet, l’analyse des données (chiffrées) accumulées par les
organisations (entreprises, administrations publiques, associations, etc.) serait fastidieuse si les
données n'étaient pas organisées et correctement présentées.

Le document s'efforcera également de faire une grande part aux commentaires : interprétations,
signification concrète des résultats, brèves analyses.

Une bonne maîtrise de la statistique commence par une connaissance claire et précise de certaines
autres définitions et concepts. Ce sont les notions de base dont l'assimilation parfaite permet de
collecter correctement les données, de les présenter de façon appropriée, de déterminer des
résultats significatifs et de procéder à des commentaires pertinents. Nous les étudions donc à ce
niveau avant de développer le reste du document.

Population, univers statistique

Une population, ou un univers statistique, est un ensemble fini d'éléments, comme par exemple les
infrastructures de santé au Burkina en 1993, les différents biens vendus par une épicerie au cours
d'une période donnée, la population burkinabè en 1996, etc. La population en statistique n'est donc
pas seulement un ensemble d'êtres humains (comme en démographie), mais peut être aussi un
ensemble d'objets concrets ou non, un flux, etc.

Individu, unité statistique

Un individu, ou une unité statistique, est un élément d'une population. Ainsi, un hôpital au Burkina en
1993, un bien vendu par une épicerie, un habitant du Burkina en 1996, sont des individus. Comme
ces objets ou être humain, un événement peut également être un individu.

Caractère, variable statistique

Le caractère, ou la variable statistique, est la propriété caractéristique d'un individu. Le coût de


construction ou la zone d'implantation géographique d'une infrastructure de santé au Burkina en
1993, le poids ou le prix d'un bien vendu par une épicerie, le sexe, l'âge ou la religion d'un habitant
du Burkina en 1996 sont des exemples de caractère. Comme le suggèrent ces exemples, un individu
peut être caractérisé par un ou plusieurs caractères.

Le caractère peut être de nature quantitative ou qualitative.

1
Les statistiques (au pluriel) ne sont que les données numériques elles–mêmes ou les résultats numériques issus de
l'application des méthodes de la statistique.
8

Caractère quantitatif

Un caractère est dit quantitatif s'il peut faire explicitement l'objet d'une mesure. Un coût de
construction, un poids, un prix ou un âge sont des caractères quantitatifs car mesurables.

Caractère qualitatif

Un caractère qui ne peut faire l'objet d'une mesure est dit qualitatif. Une zone d'implantation
géographique ou la religion d'une personne sont des caractères qualitatifs car non mesurables.

Modalité

La modalité est la valeur d'un caractère quantitatif ou l'état d'un caractère qualitatif. Si l'on
considère le caractère "coût de construction", ses modalités seront par exemple 10 000 000, 42 000
000, 150 000 000 F ; tandis qu'en s'intéressant au caractère "zone d'implantation géographique", on
aura comme modalités : Nord, Centre, Sud, Ouest, etc. On voit ici aussi que chacun des caractères
étudiés peut présenter deux ou plusieurs modalités.

Variable statistique discrète

Une variable statistique est dite discrète lorsque ses valeurs possibles sont des nombres isolés,
notamment des nombres entiers. Par exemple, le nombre d'enfants par ménage ou le nombre de
salariés par entreprise sont des variables statistiques discrètes.

Variable statistique continue

Une variable statistique est dite continue lorsque ses valeurs sont a priori en nombre infini et
quelconques dans un intervalle de valeurs. C'est ainsi que les modalités d'une variable statistique
continue peuvent être généralement présentées en classes de valeurs : [0, 25[ ; [25, 30[ ; [30, 35[...

Distribution statistique, série statistique

Une distribution statistique, ou une série statistique, est l'ensemble des modalités d'un caractère et des
effectifs des individus correspondants. Elle répartie la population suivant le caractère. Elle se
présente généralement sous la forme d'un tableau appelé tableau statistique ou distribution de P
selon x où P représente la population et x le caractère :

xi ni
x1 n1
x2 n2
M M
xk nk
Total n

xi représente les modalités de x qui sont classées de la plus petite à la plus grande, quand le
caractère est quantitatif ; ni, le nombre d'individus (ou l'effectif) qui présentent la modalité xi de x ;
k
et n, le nombre d'individus total de la population (ou l'effectif total) : n = ∑n i .
i =1

Le présent document de travail (DT–CAPES n° 2005–22) étudie ce genre de distributions à un


caractère. Les distributions à deux caractères font l'objet d'un autre document de travail (DT–
CAPES n° 2005–26).
9

Les distributions à un caractère proviennent de l'étude d'une population selon un seul caractère.
Par exemple, étudier l'âge des Burkinabè en 1996, les températures maximales enregistrées à
Ouagadougou au mois de novembre entre 1960 et 1989, ou le nombre d'habitants des provinces du
Burkina en 1996, revient à travailler sur des distributions à un caractère.

Ce travail portera notamment sur la présentation des données collectées ou sur le calcul de valeurs
particulières à partir de ces données. C'est ce que nous verrons à travers le chapitre I où nous
aurons les différentes formes de présentation possibles (les tableaux et les graphiques), les
chapitres II et III où il sera question des paramètres de population, et le chapitre IV où les mélanges
de populations seront abordés.
10
CHAPITRE I
LA PRÉSENTATION DES DONNÉES STATISTIQUES

Les données collectées sont habituellement organisées et présentées sous forme de tableaux et/ou
de graphiques desquels on tire des indications intéressantes sur la description des données.

SECTION 1
LES TABLEAUX STATISTIQUES

Nous avons vu en introduction générale qu'un tableau statistique est l'ensemble constitué par les
modalités, xi, et les effectifs, ni. Les effectifs, ni, sont également appelés "fréquences absolues" par
différence avec le rapport fi = n i , appelé "fréquence relative" ou "fréquence", et qui est la proportion
n
d'individus présentant la modalité xi. Les tableaux statistiques sont ainsi donc des "distributions de
fréquence" qui se présentent différemment selon la nature du caractère.

1.1 DISTRIBUTIONS DE FRÉQUENCE DANS LE CAS D'UN CARACTÈRE QUALITATIF

Lorsque le caractère étudié est qualitatif, xi va représenter les différents états du caractère, et ni ou
fi2, ses fréquences, comme on le voit avec le tableau 1.

Tableau 1 Répartition de la population du Burkina par sexe en 1996

Sexe (xi) Effectif (ni) Fréquence (fi) en %


Féminin 5 341 727 51,80
Masculin 4 970 882 48,20
Total 10 312 609 100
Source : Construit à partir de INSD, Recensement Général de la Population et de l'Habitation (du 10 au 20
décembre 1996). Population résidente des départements, communes, arrondissements et provinces. Résultats définitifs,
Décembre 1998, p. 1.

k k
On notera que ∑fi = ∑ n i = n = 1 (ou 100 %).
i =1 i =1 n n

Pour commenter ce tableau, nous dirons par exemple qu'il montre que les femmes étaient plus
nombreuses que les hommes au Burkina en 1996 (effectif des femmes supérieur à celui des
hommes).

Ce tableau respecte des règles importantes de présentation : il a un titre précis qui décrit
brièvement son contenu, et il mentionne sa source. De façon générale, tout tableau statistique doit
comporter un titre, mentionner sa source, et dans certains cas (caractères quantitatifs notamment),
l'unité utilisée (francs, dollars, g, kg, m, km, milliers, millions…) doit être précisée. De plus, les
modalités doivent être incompatibles (un individu ne peut correspondre à plus d'une modalité) et
exhaustives (elles doivent représenter tous les individus).

1.2 DISTRIBUTIONS DE FRÉQUENCE DANS LE CAS D'UN CARACTÈRE QUANTITATIF

En présence d'une variable statistique discrète, xi va représenter les valeurs du caractère, et ni ou


fi, ses fréquences, comme indiqué au tableau 2.

2
Nous disons bien ni ou fi : bien que notre distribution de fréquence (tableau 1 et suivants) comprenne les deux, une
distribution de fréquence peut se construire indifféremment avec les ni ou les fi uniquement.
11

Tableau 2 Répartition des températures maximales (en degrés Celsius) enregistrées à


Ouagadougou au mois de novembre, entre 1960 et 1989

Température (xi) Effectif (ni) Fréquence (fi) en %


34,7 1 3,45
35,0 1 3,45
35,1 3 10,34
35,2 2 6,90
35,3 1 3,45
35,5 1 3,45
35,6 5 17,24
35,7 1 3,45
35,8 1 3,45
35,9 1 3,45
36,0 1 3,45
36,1 3 10,34
36,2 1 3,45
36,3 2 6,90
36,4 1 3,45
36,7 3 10,34
36,8 1 3,45
Total 29 100
Source : INSD, Annuaire séries longues du Burkina Faso, 1re Edition, décembre 1996, p. 17.

Nous observons qu'il a fait le plus souvent 35,6° comme température maximale au mois de
novembre à Ouagadougou entre 1960 et 1989 (35,6° a le plus gros effectif de la série).

Pour des variables statistiques continues, ei va représenter les extrémités des classes de valeurs du
caractère, et ni ou fi, ses fréquences, à l'image de l'exemple fourni par le tableau 3.

Tableau 3 Répartition des provinces du Burkina selon le nombre d'habitants (en milliers) en
1996

Classe d'habitants (ei) Effectif (ni) Fréquence (fi) en %


[40, 100[ 5 11,11
[100, 150[ 8 17,78
[150, 200[ 10 22,22
[200, 250[ 10 22,22
[250, 300[ 5 11,11
[300, 500[ 5 11,11
[500, 1000[ 2 4,44
Total 45 100
Source : Construit à partir de INSD, Recensement Général de la Population et de l'Habitation (du 10 au 20
décembre 1996). Population résidente des départements, communes, arrondissements et provinces. Résultats définitifs,
Décembre 1998, p. iv.

Le tableau 3 nous apprend que les provinces du Burkina qui avaient un nombre d'habitants compris
entre 150 000 et 200 000, et entre 200 000 et 250 000, en 1996, étaient les plus nombreuses (les
modalités [150, 200[ et [200, 250[ ont le plus gros effectif).
12
1.3 DISTRIBUTIONS DE FRÉQUENCES CUMULÉES

Les distributions de fréquences cumulées sont dérivées des distributions de fréquence. Elles ne
peuvent se calculer que pour des variables quantitatives. Il y en a deux types : les distributions de
fréquences cumulées croissantes et les distributions de fréquences cumulées décroissantes.

Pour toute valeur d'une variable, les distributions de fréquences cumulées croissantes (ou
distributions de fréquences cumulées "moins de") donnent la fréquence totale (absolue ou relative)
de toutes les valeurs qui sont strictement inférieures à cette valeur ; et les distributions de
fréquences cumulées décroissantes (ou distributions de fréquences cumulées "plus de") donnent la
fréquence totale (absolue ou relative) de toutes les valeurs qui sont supérieures ou égales à cette
valeur.

Considérons un exemple de distributions de fréquences cumulées dans le cas d'une variable


statistique discrète :

Tableau 4 Distributions de fréquences cumulées croissantes et décroissantes des températures


maximales (en degrés Celsius) enregistrées à Ouagadougou en novembre, entre 1960 et 1989

Température (xi) Effectif (ni) Effectif cumulé croiss. (N(xi)↑) Effectif cumulé décroiss. (N(xi)↓)
34,7 1 0 29
35,0 1 1 28
35,1 3 2 27
35,2 2 5 24
35,3 1 7 22
35,5 1 8 21
35,6 5 9 20
35,7 1 14 15
35,8 1 15 14
35,9 1 16 13
36,0 1 17 12
36,1 3 18 11
36,2 1 21 8
36,3 2 22 7
36,4 1 24 5
36,7 3 25 4
36,8 1 28 1
Total 29 29 0
Source : Tableau 2.

N(xi) représente les effectifs cumulés : N(xi)↑ pour les effectifs cumulés croissants et N(xi)↓ pour
les effectifs cumulés décroissants. La fonction N est appelée fonction cumulative ou fonction de
répartition et associe à tout xi de x, la fréquence cumulée N(xi). Concrètement, N(xi)↑ est l'effectif
i −1
des individus dont la valeur du caractère est strictement inférieure à xi : N(xi)↑ = ∑ ni ; N(xi)↓
i =1

étant l'effectif des individus dont la valeur du caractère est supérieure ou égale à xi : N(xi)↓ = n –
N(xi)↑.

En étudiant le tableau 4, et conformément à ces définitions, nous pouvons interpréter les effectifs
cumulés croissants suivants par exemple : N(34,7)↑ ; N(35)↑ ; N(35,8)↑; N(36,8)↑. En effet, le
premier signifie concrètement qu'aucune température maximale inférieure à 34,7° n'a été observée à
13
Ouagadougou entre 1960 et 1989, puisque N(34,7)↑ = 0. Le second signifie qu'une seule température
maximale inférieure à 35° a été enregistrée. Le troisième signifie que quinze températures
maximales inférieures à 35,8° ont été observées et le quatrième que vingt–huit inférieures à 36,8°
l'ont été. Et en considérant les fréquences cumulées décroissantes, nous disons par exemple que
toutes les températures maximales observées au mois de novembre à Ouagadougou entre 1960 et
1989 sont supérieures à 34,7° puisque N(34,7)↓ = 29.

On aurait pu calculer également les fréquences relatives cumulées, notées F(xi), avec F représentant
la fonction cumulative, et où F(xi)↑ est la proportion des individus dont la valeur du caractère est
strictement inférieure à xi, et F(xi)↓, celle des individus dont la valeur du caractère est supérieure
i− 1
ou égale à xi : F(xi)↑ = ∑ fi et F(xi)↓ = n – F(xi)↑.
i= 1

Considérons un cas où la variable statistique est continue ; dans ce cas, nous noterons les
fréquences cumulées par F(ei)↑ et F(ei)↓ (les définitions restant les mêmes). On peut également
utiliser les effectifs cumulés N(ei)↑ et N(ei)↓.

Tableau 5 Distributions de fréquences cumulées croissantes et décroissantes des provinces du


Burkina selon le nombre d'habitants (en milliers) en 1996

Classe d'habitants (ei) Fréquence (fi) en % F(ei)↑ en % F(ei)↓ en %


[40, 100[ 11,11 0 100
[100, 150[ 17,78 11,11 88,89
[150, 200[ 22,22 28,89 71,11
[200, 250[ 22,22 51,11 48,89
[250, 300[ 11,11 73,33 26,67
[300, 500[ 11,11 84,44 15,56
[500, 1000[ 4,44 95,55 4,45
Total 100 100 0
Source : Tableau 3.

Interprétons F(40)↑, F(100)↑, F(1000)↑, et F(40)↓. F(40)↑ signifie qu'aucune province du Burkina
n'avait un nombre d'habitants inférieur à 40 000 habitants en 1996 puisque F(40)↑ = 0. F(100)↑
signifie que 11,11 % des provinces avaient un nombre d'habitants inférieur à 100 000 habitants.
F(1000)↑ signifie que toutes les provinces avaient un nombre d'habitants inférieur à 1000000
d'habitants. Enfin F(40)↓ signifie que toutes les provinces avaient un nombre d'habitants supérieur
ou égal à 40 000 habitants.

A travers ces deux exemples (tableaux 4 et 5), on voit que N(−∞)↑=F(−∞)↑=0 ; N(+∞)↑=n ; F(+∞)↑=1
; N(−∞)↓=n ; F(−∞)↓=1 et N(+∞)↓=F(+∞)↓=0 .

SECTION 2
REPRÉSENTATIONS GRAPHIQUES

Les représentations graphiques sont très utiles comme moyens de description. Elles ont souvent un
plus grand impact visuel qu'un tableau et peuvent aider à une meilleure compréhension des
données concernées.

Il existe plusieurs sortes de représentations graphiques. Cela dépend de la nature du caractère


étudié.
14
2.1 REPRÉSENTATIONS GRAPHIQUES POUR CARACTÈRES QUALITATIFS

Pour les variables qualitatives, les représentations possibles et courantes sont des tuyaux d'orgue
ou des secteurs circulaires.

Les tuyaux d'orgue sont des rectangles isolés correspondant à chaque modalité, dont la base est
constante et identique pour chaque modalité, et la hauteur proportionnelle à la fréquence de la
modalité. Les modalités sont marquées en abscisses et les fréquences en ordonnées (on peut utiliser
les effectifs ou plus simplement les fréquences, comme dans l'exemple donné au graphique 1).

Graphique 1 Tuyaux d'orgue de la répartition de la population du Burkina par sexe en 1996

Fréquence (fi) en
%
55
50
45
40
35
30
25
20
15
10
5
0
Sexe (xi)
Féminin Masculin

Source : Tableau 1.

Dans ce type de graphique, la hauteur des tuyaux d'orgue renseigne sur le poids de chaque
modalité. Ainsi, pour le graphique représenté, le tuyau d'orgue de la population féminine étant plus
haut que celui de la population masculine, nous dirons que la population féminine était plus
nombreuse que la population masculine au Burkina en 1996.

On remarquera avec cette illustration qu'un graphique doit avoir un titre, des axes clairement
gradués, une source, et éventuellement une légende.

Les secteurs circulaires sont des portions d'un cercle correspondant à chaque modalité, dont
l'angle θi est fonction de la fréquence de la modalité : θi = 360° × fi. Représentons la répartition de la
population du Burkina par sexe en 1996 sous forme de secteurs circulaires :
15
Graphique 2 Secteurs circulaires de la répartition de la population du Burkina par sexe en 1996

Masculin
48,20% Féminin
51,80%

Source : Tableau 1.

La surface des secteurs indique le poids de chaque modalité. θ1 = 186,48° (féminin) > θ2 = 173,52°
(masculin), cela signifie que les femmes étaient plus nombreuses que les hommes au Burkina en
1996.

2.2 REPRÉSENTATIONS GRAPHIQUES POUR CARACTÈRES QUANTITATIFS

Pour les variables quantitatives, on peut représenter soit un diagramme différentiel, soit un
diagramme intégral, soit un box–plot ou boîte à moustaches. Le diagramme différentiel est
toujours la représentation graphique d'une distribution de fréquence tandis que le diagramme
intégral est celle d'une distribution de fréquence cumulée.

Pour les variables statistiques discrètes, le diagramme différentiel prend le nom de diagramme en
bâtons et le diagramme intégral, celui de fonction en escalier. Pour les variables continues, le
diagramme différentiel est un histogramme et le diagramme intégral, une courbe cumulative.
Notons qu'une fonction en escalier peut être également appelée courbe cumulative.

Un diagramme en bâtons est un ensemble de barres verticales (bâtons) correspondant aux valeurs
de la variable et dont la hauteur est proportionnelle à la fréquence de la valeur considérée. Les
valeurs de la variable sont notées en abscisses et les fréquences (ou effectifs) en ordonnées. Le
graphique 3 nous en donne un exemple.

Graphique 3 Diagramme en bâtons de la répartition des températures maximales (en degrés


Celsius) enregistrées à Ouagadougou en novembre entre 1960 et 1989

E ffe c tif ( n i )
5
4
3

1
0 T e m p é r a tu r e ( x i )
3 4 ,6 3 4 ,8 35 3 5 ,2 3 5 ,4 3 5 ,6 3 5 ,8 36 3 6 ,2 3 6 ,4 3 6 ,6 3 6 ,8 37

Source : Tableau 2.
16

La hauteur d'un bâton indique le poids d'une valeur dans la population étudiée. On déduit par
conséquent du graphique représenté que la température maximale la plus fréquente au mois de
novembre à Ouagadougou entre 1960 et 1989 est 35,6° (cette température a le bâton le plus haut).

Le graphique 4 montre que la fonction en escalier est un graphique représentant un escalier dont
les paliers sont des barres horizontales correspondant à chaque valeur de la variable. Pour chaque
valeur xi, un palier est tracé entre elle et la valeur qui lui est inférieure, au niveau de la fréquence
cumulée (ou l'effectif cumulé) qui lui correspond. Le premier palier se situe au niveau de la
fréquence cumulée 0 et va de la première valeur de la série à − ∞ . Le dernier palier se situe au
niveau de la fréquence cumulée 1 ou n et va de la dernière valeur à + ∞ . Les valeurs sont portées en
abscisses et les fréquences cumulées (ou les effectifs cumulés) en ordonnées.

Graphique 4 Fonctions en escalier de la répartition des températures maximales (en degrés


Celsius) enregistrées à Ouagadougou en novembre entre 1960 et 1989

Effectifs cumulés
croissants N(xi)
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
Température (xi)
34,7 34,9 35,1 35,3 35,5 35,7 35,9 36,1 36,3 36,5 36,7

Source : Tableau 4.

En considérant chaque valeur xi et le palier qui lui correspond, on peut déterminer l'effectif total ou
la proportion des individus de la population concernés par les valeurs inférieures à xi. Par exemple,
le premier palier signifie ici qu'il n'a jamais fait moins de 34,7° comme température maximale au
mois de novembre à Ouagadougou entre 1960 et 1989, puisque ce palier qui correspond à 34,7° se
situe au niveau de l'effectif cumulé 0. De même, nous dirons qu'il a fait quinze fois moins de 35,8°
comme température maximale au mois de novembre à Ouagadougou entre 1960 et 1989, etc.

L'histogramme est une série de rectangles qui se touchent, dont la base correspond à l'amplitude
d'une classe de valeurs (notées en abscisses) et la hauteur à la fréquence ou l'effectif de la classe (en
ordonnées) lorsque les classes ont la même amplitude. Lorsque les classes ont des amplitudes
différentes, à la place des fréquences ou des effectifs, on utilise les fréquences corrigées ou les
effectifs corrigés ou encore la densité.

L'amplitude d'une classe est notée ai : ai = ei+1 – ei ; c'est la taille de la classe. La fréquence corrigée est
notée fic = afii a ic où aic est l'amplitude commune (l'amplitude dominante) ou la plus petite amplitude
(quand il n'y a pas d'amplitude commune). L'histogramme peut également être tracé avec les
effectifs corrigés nic = na ii a ic , les densités de fréquences di = afii , ou celles des effectifs di = na ii .

Dessinons l'histogramme de la répartition des provinces du Burkina selon le nombre d'habitants en


17
1996. Nous allons utiliser les fréquences corrigées. Ici, aic = 50.

Graphique 5 Histogramme de la répartition des provinces du Burkina selon le nombre


d'habitants (en milliers) en 1996

Fréquence corrigée
(fic) en %
25

20

15

10

0 Classe d'habitants (ei)


0 100 200 300 400 500 600 700 800 900 1000

Source : Tableau 3 avec calcul des fréquences corrigées.

La hauteur des rectangles détermine le poids des classes de valeur. Nous pouvons donc dire que les
provinces qui ont un nombre d'habitants compris entre 150 000 et 200 000 et entre 200 000 et 250
000 sont les plus fréquentes (classes ayant les rectangles les plus hauts de l'histogramme).

Remarque : Parfois, les extrémités de la première et/ou de la dernière classe ne sont pas précisées.
Dans ces cas, on peut les préciser soit en tenant compte des valeurs possibles que la variable peut
prendre, soit en appliquant à ces classes l'amplitude commune, soit en leur appliquant l'amplitude
de la classe qui les suit (pour la première classe) ou qui les précède (pour la dernière classe).

Une courbe cumulative est une courbe régulière passant par les points (ei, F(ei)) où les ei sont les
extrémités de classe en abscisses et les (F(ei)), les fréquences cumulées en ordonnées.

Les deux courbes représentées au graphique 6 sont les courbes des fréquences cumulées croissantes
et décroissantes (il n'est pas nécessaire de tracer les deux courbes). Elles se coupent quand F(ei) =
50 %.
18
Graphique 6 Courbes cumulatives de la répartition des provinces du Burkina selon le nombre
d'habitants (en milliers) en 1996 (variable continue)

Fréquences cumulées
F(ei) en %
100
90
80
70
60
50
40
30
20
10
0 Classe d'habitants (ei)
0 100 200 300 400 500 600 700 800 900 1000

Source : Tableau 5.

Il est également possible d'utiliser les effectifs cumulées, N(ei), pour construire une courbe
cumulative.

On peut déduire du graphique 6 qu'une moitié des provinces du Burkina avait un nombre
d'habitants inférieur à environ 200 000 habitants en 1996, puisque F(200) ≈ 50 %.

La box–plot ou boîte à moustaches est la représentation graphique d'un rectangle sur un axe
horizontal ou vertical. Sa construction passe par les étapes suivantes : tracer l'axe et le graduer de la
valeur minimale de la variable étudiée à sa valeur maximale ; tracer un rectangle de largeur
arbitraire qui s'allonge du premier quartile au troisième quartile ; tracer une ligne à l'intérieur du
rectangle, au niveau de la médiane3 ; tracer une ligne qui part de la valeur minimale jusqu'au milieu
du côté du rectangle correspondant au premier quartile ; enfin, tracer une autre ligne qui part du
milieu du côté du rectangle correspondant au troisième quartile jusqu'à la valeur maximale.

Dessinons le box–plot de la répartition des provinces du Burkina selon le nombre d'habitants. Les
quartiles ont préalablement été calculés et nous avons Q1 = 139,06, Me = 197,50 et Q3 = 257,52.

Graphique 7 Box–plot de la répartition des provinces du Burkina selon le nombre d'habitants


(en milliers) en 1996

Q1 Me Q3
40 100 160 220 280 340 400 460 520 580 640 700 760 820 880 940 1000

3
La médiane, Me, les premier et troisième quartiles, Q1 et Q2, sont des valeurs particulières de la variable. Ils sont définis
au chapitre II.
19

Le box–plot permet de comparer facilement plusieurs distributions statistiques selon les valeurs
particulières qui le caractérisent (valeur minimale, premier quartile, médiane, troisième quartile,
valeur maximale), et d'illustrer leur dispersion en mettant en évidence l'intervalle interquartile et
l'étendue4 de chacune d'elles.

Ainsi le box–plot que nous venons de dessiner indique une faible dispersion de la répartition
étudiée, puisqu'il est relativement petit.

Après avoir présenté les données statistiques (tableaux et graphiques), on est souvent amené à
déterminer des paramètres de population. Ce sont des modalités ou valeurs qui permettent de
caractériser une population. Déterminés ou calculés généralement à partir de l'ensemble des valeurs
observées, ils en résument plus ou moins bien sa structure. Ils peuvent fournir une mesure et une
description convenables des différences entre et à l'intérieur des populations étudiées. Ils sont de
quatre sortes : les paramètres de tendance centrale, de dispersion, de concentration, et de forme.
Nous allons les étudier à travers les chapitres II et III.

4
Nous développerons également ces notions au chapitre II.
20
CHAPITRE II
LES PARAMÈTRES DE TENDANCE CENTRALE ET DE DISPERSION

Si les tableaux et représentations graphiques fournissent des indications intéressantes sur la


description des données, il est toujours très utile de déterminer ou de calculer des paramètres de
population. Etudions les paramètres de tendance centrale et de dispersion (qui sont des
paramètres de population : voir conclusion du chapitre I).

SECTION 1
LES PARAMÈTRES DE TENDANCE CENTRALE OU PARAMÈTRES DE POSITION

Lorsque l'on veut déterminer une modalité représentative de la population étudiée, l'on calcule un
paramètre de tendance centrale, appelé aussi paramètre de position, car il met en évidence la
modalité qui apparaît le plus souvent ou celle qui est la plus proche de toutes les modalités. Les
plus courants sont le mode, la médiane, et la moyenne arithmétique. Selon les cas, certains sont
plus appropriés que d'autres.

1.1 LE MODE

Le mode, Mo, est la modalité la plus fréquente. Il est le seul paramètre que l'on puisse déterminer
lorsque la variable étudiée est qualitative. Il est aussi le paramètre le plus significatif dans les cas où
les individus sont très différents les uns des autres du point de vue du caractère étudié.

Graphiquement, le mode est la modalité qui correspond au sommet des tuyaux d'orgue ou au
secteur circulaire le plus grand (caractère qualitatif), la valeur qui correspond au sommet du
diagramme en bâtons (variable statistique discrète) ou la classe qui correspond au sommet de
l'histogramme (variable statistique continue).

En prenant le tableau 1 et les graphiques 1 et 2, Mo = Féminin puisque n1 est le plus grand effectif (⇔
f1 est la plus grande fréquence). Ce qui signifie qu'en 1996 au Burkina, les femmes étaient les plus
nombreuses.

En considérant le tableau 2 et le graphique 3, Mo = 35,6° puisque n5 est le plus grand effectif (⇔ f5


est la plus grande fréquence). Ce qui signifie que la température maximale la plus fréquente à
Ouagadougou en novembre entre 1960 et 1989 a été de 35,6°.

Lorsque la variable étudiée est continue, le mode correspond rigoureusement à une classe : la classe
modale. Il est néanmoins possible de calculer le centre de la classe modale pour déterminer une
valeur unique comme mode5. Par ailleurs, dans les cas où les amplitudes sont différentes, l'on doit
corriger les fréquences (calculer les fréquences corrigées ou les densités) pour déterminer le mode6.

Ainsi, pour la distribution des provinces du Burkina selon le nombre d'habitants en 1996, il y a deux
classes modales : [150, 200[ et [200, 250[ (voir graphique 5). Ce qui signifie que la majorité des
provinces du Burkina avaient un nombre d'habitants compris entre 150 000 et 200 000, et entre 200
000 et 250 000 en 1996.

On remarque ainsi que le mode n'est pas toujours un paramètre pertinent, notamment quand il y a
en a plusieurs (distributions bimodales (deux modes), plurimodales (plusieurs modes)) ou quand

5
Le centre d'une classe est notée ci : ci = e i + e i + 1 . C'est le milieu de la classe.
2
6
L'on notera que l'utilisation des fréquences corrigées ou des densités ne se fait que dans ces deux cas : construction de
l'histogramme ou détermination du mode.
21
la majorité qui le caractérise n'est pas très forte. Par plus, il dépend souvent du regroupement des
valeurs en classes.

1.2 LA MÉDIANE

La médiane, Me, se définie comme la valeur de la variable qui divise en deux parties égales les
valeurs observées rangées par ordre croissant ou décroissant. Elle est ainsi définie de sorte que 50 %
des valeurs lui soient inférieures et 50 % lui soient supérieures ou égales. Par conséquent,
mathématiquement, Me est telle que F(Me) = 50 % (⇔ N(Me) = n ).
2

Quand la variable étudiée est discrète, en considérant la distribution de fréquence cumulée


croissante, s'il existe un xi tel que F(xi) < 50 % < F(xi+1) (⇔ N(xi) < n < N(xi+1)), alors Me = xi. Sinon,
2
Me est un intervalle appelé intervalle médian : Me = [xi, xi+1[ tel que F(xi+1) = 50 % (⇔ N(xi+1) = n ).
2
Graphiquement, cela revient à trouver, en abscisse de la fonction en escalier, la valeur ou l'intervalle
qui correspond à 50 % (⇔ n ) en ordonnée.
2

Soit la distribution des fréquences cumulées des températures maximales enregistrées à


Ouagadougou au mois de novembre entre 1960 et 1989 (tableau 4). Nous voyons que n = 14,5 est
2
compris entre N(35,7) = 14 et N(35,8) = 15. Par conséquent, Me = 35,7°. Ce qui signifie qu'au mois de
novembre à Ouagadougou, entre 1960 et 1989, il a fait une moitié du temps moins de 35,7° et une
moitié du temps 35,7° ou plus de température maximale.

Quand la variable étudiée est continue, Me appartient à une classe appelée classe médiane, et est
déterminée par interpolation linéaire : Me ∈ [ei, ei+1[ (classe médiane) tel que F(ei) < 50 % < F(ei+1)
n −N(ei )
n 50−F(ei )
(⇔ N(ei) < < N(ei+1)). D'où Me = ei +(ei + 1 −ei) F(ei + 1)−F(ei ) (⇔ Me = e i +(ei + 1 −ei ) N(e2 ) N(e ) ).
2 i+1 − i

Graphiquement, en considérant la courbe cumulative, il suffit de projeter l'ordonnée 50 % (⇔ n )


2
sur l'axe des abscisses pour connaître la valeur de la médiane : la médiane est l'abscisse où se
coupent les courbes cumulatives croissante et décroissante.

Considérons la distribution des fréquences cumulées des provinces du Burkina selon le nombre
d'habitants en 1996 (tableau 5). Nous voyons que Me ∈ [150, 200[ puisque F(Me) = 50 % est
compris entre F(150) = 28,89 % et F(200) = 51,11 %. Alors, par interpolation linéaire, Me =
50 − 28,89
150 +(200− 150) = 197,5 milliers d'habitants. Cela signifie que 50 % des provinces du
51,11−28,89
Burkina avaient une population inférieure à 197 500 habitants et 50 % une population supérieure ou
égale à 197 500 habitants en 1996.

1.3 LA MÉDIALE

La médiale, Ml, divise en deux parties égales des quantités ou valeurs globales.

Elle se détermine comme la médiane, mais avec le calcul des fréquences des valeurs globales notées
fi' et de leurs fréquences cumulées notées F(ei)' ou F(xi)'.

i −1
Ainsi, quand la variable étudiée est discrète, f i' = kni xi , F(xi)' = ∑ fi ' , et Ml = xi si F(xi)' < 50 % <
i =1
∑ ni x i
i=1
F(xi+1)' ou Ml = [xi, xi+1[ si F(xi+1)' = 50 %.
22

i −1
Quand la variable étudiée est continue, fi' = kni ci , F(ei)' = ∑ fi ' , et Ml ∈ [ei, ei+1[ (classe médiale)
i =1
∑n i c i
i =1
50 − F(e i )'
tel que F(ei)' < 50 % < F(ei+1)'. D'où Ml = e i +(e i + 1 − e i ) .
F(e i + 1)'−F(e i )'

Calculons la médiale de la série donnée par le tableau 6.

Tableau 6 Répartition des salaires (en milliers de FCFA) dans une entreprise au Burkina

Salaires (ei) Effectif (ni)


[30, 100[ 10
[100, 200[ 5
[200, 500[ 2
Total 17
Source : Données fictives.

Pour ce faire, nous établissons le tableau de calculs suivant :

Salaires (ei) Effectif (ni) Masses salariales (nici) fi' en % F(ei)' en %


[30, 100[ 10 650 30,95 0
[100, 200[ 5 750 35,71 30,95
[200, 500[ 2 700 33,33 66,66
Total 17 2100 100 100

Après calculs, nous trouvons que le salaire médial Ml = 153 346 FCFA. Ce qui signifie que les salariés
dont le salaire est inférieur à 153 346 totalisent (ensemble) une moitié de la masse salariale totale de
l'entreprise, et les salariés dont le salaire est supérieur ou égal à 153 346 totalisent (ensemble)
l'autre moitié. La médiale sépare donc la masse salariale de l'entreprise en deux montants égaux.

Cette signification est différente de celle de la médiane qui indique qu'une moitié des salariés ont
un salaire inférieur à la médiane, et l'autre moitié, un salaire supérieur ou égal à la médiane : ici, Me =
89 504 FCFA.

Dans cet exemple, la médiale est supérieure à la médiane. Cette inégalité est une propriété générale :
Ml ≥ Me. En effet, pour que la masse salariale des salariés qui ont les plus petits salaires soit égale à
la masse salariale de ceux qui ont les salaires les plus élevés, il faut que l'effectif de la première
catégorie de salariés soit supérieur à celui de la seconde catégorie de salariés. Ce qui entraîne que la
valeur qui permet ce partage, la médiale, soit supérieure à la valeur qui permet le partage de l'effectif
total en deux parties égales, c'est–à–dire la médiane.

1.4 LES QUANTILES

Nous avons vu que la médiane est la valeur en dessous de laquelle 50 % des valeurs sont situées. De
façon générale, un quantile d'ordre α, que nous noterons xα, est une valeur en dessous de laquelle
un pourcentage α de valeurs sont situées. Par conséquent, F(xα) mesure la proportion α des
individus qui possèdent les valeurs xi inférieure à xα.

Mathématiquement, xα est tel que F(xα) = α (⇔ N(xα) = αn). Et, pour une série continue, quand on
α − F(e i )
a F(ei) < α < F(ei+1), cela implique que xα ∈ [ei, ei+1[ ; d'où xα = e i +(e i + 1 − e i ) (interpolation
F(e i + 1 )−F(e i )
23
linéaire). Pour une série discrète, on peut également déterminer les quantiles en utilisant le
processus appliqué à la détermination de la médiane.

Nous déduisons de cette définition que x0,5 = Me : le quantile d'ordre 0,5 est la médiane.

Les quantiles d'ordre 0,25, x0,25 ; d'ordre 0,5, x0,5 ; et d'ordre 0,75, x0,75 ; sont appelés quartiles et
divisent la population en quatre parties égales. Ils sont aussi notés Q1, Q2 et Q3. D'où F(Q1) = 25 %,
F(Q2) = 50 % et F(Q3) = 75 %.

Les quantiles d'ordre 0,1, x0,1 ; d'ordre 0,2, x0,2 ; … ; et d'ordre 0,9, x0,9 ; sont appelés déciles et
divisent la population en dix parties égales. Ils sont aussi notés D1, D2,…, et D9. D'où F(D1) = 10 %,
F(D2) = 20 %,…, et F(D9) = 90 %.

Les quantiles d'ordre 0,01, x0,01 ; d'ordre 0,02, x0,02 ; … ; et d'ordre 0,99, x0,99 ; sont appelés centiles et
divisent la population en cent parties égales. Ils sont aussi notés C1, C2,…, et C99. D'où F(C1) = 1 %,
F(C2) = 2 %,…, et F(C99) = 99 %.

Enfin, puisque F(x0,5) = F(Me) = F(Q2) = F(D5)= F(C50) = 50 %, alors x0,5 = Me = Q2 = D5 = C50, lorsque
la série concernée est continue. Dans les cas où la série est discrète, x0,5 est la valeur qui est
supérieure à la médiane ou la borne supérieure de l'intervalle médian.

1.5 LA MOYENNE

La moyenne est une valeur calculée à partir de toutes les valeurs observées. Elle est la valeur type,
représentative de toutes les valeurs. Lorsque ces valeurs ne sont pas très différentes les unes des
autres, elle fournit un très bon résumé des caractéristiques de la population étudiée. La moyenne la
plus couramment utilisée est la moyenne arithmétique. Mais dans certains cas, les moyennes
géométrique, harmonique ou quadratique seront plus appropriées.

1.5.1 LA MOYENNE ARITHMÉTIQUE

La moyenne arithmétique, x , est la somme de toutes les valeurs observées divisée par le nombre
total de ces valeurs :

k
∑ ni x i k
x= i=1
n
(⇔ x = ∑fixi )7
i =1

Cette définition suppose que la moyenne arithmétique ne peut se calculer que lorsque l'addition
des valeurs a une signification concrète.

Calculons le nombre moyen d'habitants ( x ) par province au Burkina en 1996 (tableau 3).

Pour cela nous établissons le tableau des calculs suivant :

7
Quand le caractère est continu, on utilise les centres de classe, ci, à la place des xi.
24

ei ni ci nici
[40, 100[ 5 70 350
[100, 150[ 8 125 1000
[150, 200[ 10 175 1750
[200, 250[ 10 225 2250
[250, 300[ 5 275 1375
[300, 500[ 5 400 2000
[500, 1000[ 2 750 1500
Total 45 – 10225

Nous appliquons la formule de la moyenne arithmétique et nous trouvons x = 10225 = 227,222


45
milliers d'habitants. Nous interprétons ce résultat en disant qu'en moyenne en 1996, chaque
province du Burkina comptait 227 222 habitants.

1.5.2 LA MOYENNE GÉOMÉTRIQUE

La moyenne géométrique, G, est la valeur moyenne de valeurs concernées par un phénomène


multiplicatif comme l'évolution d'un taux de croissance8 par exemple. Sa formule est :

k k
G = n ∏ xi n i (⇔ G = ∏ xi fi )
i =1 i =1

Considérons par exemple l'évolution du PIB du Burkina de 1987 à 1992. Nous avons calculé, au
tableau 7, ses multiplicateurs annuels (ou accroissements relatifs) que nous noterons par xi.

Tableau 7 Multiplicateurs annuels du PIB du Burkina de 1987 à 1992

Années Multiplicateurs annuels (xi)*


1987–1988 1,09
1988–1989 1,07
1989–1990 0,99
1990–1991 1,04
1991–1992 1,01
Source : Calculés à partir de INSD, Annuaire séries longues du Burkina Faso, 1re Edition, décembre 1996,
p. 178.
*PIB de l'année t divisé par PIB de l'année t–1.

Si l'on voulait calculer le multiplicateur annuel moyen, on utiliserait la moyenne géométrique. En le


notant G, on aurait G = 5 1,09×1,07×0,99×1,04×1,01 = 1,04. Ce qui veut dire que le PIB du Burkina a été
multiplié par 1,04 en moyenne chaque année entre 1987 et 1992. Autrement dit, le taux de
croissance annuel moyen de ce PIB a été de 4 % (1,04 – 1) sur la période étudiée.

Démontrons que ce multiplicateur annuel moyen est une moyenne géométrique. Soient P87, …, P92
les PIB de 1987 à 1992. Nous pouvons alors écrire que P92 = P91 × 1,01 = P90 × 1,04 × 1,01 =
P89 × 0,99 × 1,04 × 1,01 = P88 × 1,07 × 0,99 × 1,04 × 1,01 = P87 × 1,09 × 1,07 × 0,99 × 1,04 × 1,01. Si G est le

8
Le taux de croissance d'une variable V qui prend à un point de départ une valeur V0 et à un point d'arrivée une valeur
Vt, est égal au rapport Vt − V0 (⇔ Vt − 1 ). Il mesure l'évolution de V dans le temps en donnant sa variation relative. Le
V0 V0
rapport Vt est appelé multiplicateur ou facteur de croissance.
V0
25
multiplicateur annuel moyen, nous pouvons aussi écrire que P92 = P91 × G = P90 × G × G =
P89 × G × G × G = P88 × G × G × G × G = P87 × G × G × G × G × G = P87 × G5. Nous aurons par conséquent
l'égalité : P87 × 1,09 × 1,07 × 0,99 × 1,04 × 1,01 = P87 × G5 de laquelle nous déduisons que G =
5 1,09×1,07 ×0,99×1,04×1,01 . Ce qui est bien une moyenne géométrique.

1.5.3 LA MOYENNE HARMONIQUE

La moyenne harmonique, H, est l'inverse de la moyenne arithmétique des inverses des valeurs
observées :

H= n (⇔ H = 1 )
k k
∑ ni ∑ fi
i= 1 xi i= 1 xi

Cette moyenne est généralement utilisée pour calculer la valeur moyenne d'un ensemble de valeurs
dont l'unité est exprimée en fonction d'une autre unité (km/h, F/kg, F/actions, etc.).

Calculons la valeur moyenne par tonne des produits donnés par le tableau 8.

Tableau 8 Valeurs de quelques productions industrielles au Burkina en 1990

Produits Valeur (en FCFA/tonne) Valeur globale (en FCFA)


Huile de coton raffinée 380176 5281400000
Beurre de karité 87077 56600000
Farine 247043 5676300000
Concentrés de tomates 830769 453600000
Savons 320815 4639300000
Source : Calculées à partir de INSD, Annuaire séries longues du Burkina Faso, 1re Edition, décembre 1996,
p. 89, 90, 97, 98.

La valeur moyenne de ces cinq types de produits en FCFA/tonne peut se calculer en utilisant la
moyenne harmonique. En effet, cette valeur étant égale à la valeur globale totale des cinq produits
divisée par le volume total des cinq produits (en tonne), peut s'écrire H = k n si nous la notons H
∑ ni
i= 1 xi
et si nous posons xi, la valeur par tonne de chaque produit et ni, la valeur globale de chaque produit.
16107200000
Donc H = 5281400000 56600000 5676300000 = 306 652 FCFA/tonne. Ce
+ + + 453600000+ 4639300000
38017 87077 247043 830769 320815
qui signifie qu'en moyenne, un produit industriel parmi ces cinq types de produits valait 306 652
FCFA la tonne.

Il est également possible de calculer cette valeur moyenne en utilisant la moyenne arithmétique. Il
suffit pour cela de poser xi, la valeur par tonne de chaque produit et ni, la quantité en tonne de
k
∑ ni x i
i=1
chaque produit, pour obtenir qu'elle est égale à
n
.

1.5.4 LA MOYENNE QUADRATIQUE

La moyenne quadratique, Q, est la racine carrée de la moyenne arithmétique des carrés des valeurs
observées :
26
k 2 k
Q = ∑ ninx i (⇔ Q = ∑fixi 2 )
i=1 i =1

On l'utilise quand l'on désire que la moyenne soit positive, ou encore dans le calcul d'une moyenne
des écarts à une valeur centrale, afin de ne pas avoir à travailler avec des valeurs négatives.

(−3)2 + 02 + 52 + 82
Ainsi, pour les quatre températures –3° ; 0° ; 5° ; 8° ; Q = = 4,95°.
4

1.5.5 LES PROPRIÉTÉS DE LA MOYENNE

Propriété 1. La moyenne arithmétique est linéaire. En effet, pour deux séries statistiques (xi, ni)
et (yi, ni), si xi = ayi + b où a et b sont des réels, alors x = a y + b.

k k k k
∑ni x i ∑ ni(ay i + b) a ∑ ni y i + b ∑ni
Cette propriété se démontre facilement : x = i =1
n
= i =1
n
= i =1
n
i = 1 =ay + b .

Propriété 2. La moyenne arithmétique peut se calculer par changement de variable. En effet,


pour une variable de départ x, on peut poser que x = ay + b où a représente l'amplitude commune de
la série donnée par x (la plus petite amplitude quand il n'y a pas d'amplitude commune), b, le mode
ou la médiane, et y une nouvelle variable définie donc par y = x− b . On calcule ensuite la moyenne
a
de y, y , de laquelle on déduit celle de x, x , en appliquant la propriété de linéarité.

Cette opération a généralement pour but de simplifier les calculs.

On pourra s'exercer à (re)calculer le nombre moyen d'habitants par province au Burkina en 1996
par un changement de variable. (Indication : poser a = 50 (amplitude commune) et b = 197,5
(médiane).)

Propriété 3. La moyenne des différences à la moyenne est nulle. En effet, pour toute série
k
∑ ni(x i −x)
statistique (xi, ni), i =1 =0 .
n

k k k
∑ ni(x i −x) ∑ni x i ∑ni
La preuve en est la suivante : i =1 n = i =1
n
− x i = 1 = x − x =0 .
n

Propriété 4. La moyenne est la valeur la plus proche de toutes les observations. En raison de la
propriété 3, et parce qu'elle est la valeur qui minimise la moyenne des écarts à tout réel non nul a.

On pourra essayer de démontrer mathématiquement ce dernier argument en trouvant le minimum


k
∑ n i (x i − a)2
i =1
de la fonction .
n

Propriété 5. Si x = 1 , x et y étant deux variables statistiques, alors Gx = 1 et Hx = 1 , Gx étant la


y Gy y
moyenne géométrique de x, Gy, celle de y, Hx, la moyenne harmonique de x, et y , la moyenne
arithmétique de y.

L'on pourra démontrer facilement cette propriété.


27

Propriété 6. Pour toute série statistique (xi, ni), l'inégalité suivante est vérifiée : H < G < x < Q.

SECTION 2
LES PARAMÈTRES DE DISPERSION

La dispersion s'entend de la variabilité des individus d’une population, c’est–à–dire des différences
ou écarts existant entre les individus d'une population. Pour la mesurer, on peut utiliser l'étendue
ou les intervalles interquartile, interdécile ou intercentile, d’une part ; la variance, l'écart–type
ou le coefficient de variation, d’autre part.

Les premiers sont souvent difficiles à interpréter et ne donnent pas forcément une bonne mesure de
la dispersion, car ils ne prennent pas en compte toutes les valeurs. Les seconds prennent en compte
toutes les valeurs et donnent, par conséquent, une mesure plus juste de la dispersion.

Plus les écarts entre les valeurs seront grands, plus le paramètre de dispersion le sera et nous dirons
que la dispersion est forte. Dans les cas contraires, nous dirons qu'elle est faible. En cas de forte
dispersion, nous pourrons déduire que la moyenne de la population étudiée n'est pas significative
ou représentative de ladite population. Une moyenne est représentative de la population étudiée
lorsque les individus de cette population ne sont pas très différents les uns des autres (lorsque sa
dispersion est faible).

Les paramètres de dispersion permettent donc aussi d'apprécier la pertinence de la moyenne.

2.1 L'ÉTENDUE

L'étendue (w) d'une série statistique est la différence entre la plus grande valeur et la plus petite :

w = xk – x 1

Nous calculons immédiatement l'étendue de la série des provinces du Burkina selon le nombre
d'habitants en 1996 (tableau 2) : w = 1000 – 40 = 960 milliers d'habitants. Nous interprétons ce
résultat en disant qu'il y avait 960 000 habitants de différence entre la plus petite province du
Burkina et la plus grande en 1996, et, sur cette base, nous concluons que la dispersion du nombre
d'habitants par province au Burkina en 1996 était forte.

2.2 AUTRES INTERVALLES

L'intervalle interquartile est la différence entre le troisième et le premier quartiles :

IQ = Q3 – Q1

L'intervalle interquartile relatif est le rapport entre l'intervalle interquartile et la médiane, et


mesure la proportion dans laquelle la médiane est expliquée par l'intervalle interquartile :

IQR = (Q3 – Q1)/Q2

L'intervalle interdécile est la différence entre le neuvième et le premier déciles :

ID = D9 – D1

L'intervalle intercentile est la différence entre le quatre–vingt–dix neuvième et le premier centiles :


28
IC = C99 – C1

Ces intervalles mesurent l'écart entre les 25 % plus petites valeurs et les 25 % plus grandes pour IQ,
entre les 10 % plus petites valeurs et les 10 % plus grandes pour ID, et entre les 1 % plus petites
valeurs et les 1 % plus grandes pour IC.

Dans tous les cas, ils mesurent la dispersion autour de la médiane, et ils contiennent 50 % de la
population étudiée pour IQ, 80 % pour ID et 98 % pour IC.

En considérant la série des provinces du Burkina selon le nombre d'habitants en 1996, nous
trouvons :

o IQ = 257,52 – 139,06 = 118,46 ;


o ID = 400,09 – 94,01 = 306,08 ;
o IC = 887,64 – 45,40 = 842,24.

Ce qui signifie, respectivement, qu'il y avait :

o au moins 118 460 habitants d'écart entre les 25 % provinces les moins peuplées du Burkina en
1996 et les 25 % provinces les plus peuplées ;

o au moins 306 080 habitants d'écart entre les 10 % provinces les moins peuplées du Burkina en
1996 et les 10 % provinces les plus peuplées ;

o au moins 842 240 habitants d'écart entre les 1 % provinces les moins peuplées du Burkina en
1996 et les 1 % provinces les plus peuplées.

Ces écarts étant considérables, on peut conclure que la dispersion du nombre d'habitants par
province au Burkina en 1996 était forte.

2.3 LA VARIANCE

La variance, que nous noterons σ2 ou V(x), est la moyenne arithmétique du carré des écarts à la
moyenne :

k
∑ n i(x i − x)2 k
σ2 = i =1
(⇔ σ2 = ∑ fi(x i − x)2 )
n i =1

Nous déduisons de cette première formule de la variance une formule plus pratique pour les calculs
:

k 2
2
∑n i x i 2 2 k 2
σ = i =1
n
− x (⇔ σ = ∑fix i2 −x )
i =1

k k 2 k k 2k k 2 2 k 2
En effet, σ2 = ∑fi(x i − x) 2 = ∑ fi(xi2 −2xxi − x ) = ∑ fi xi2 −2x ∑fi xi −x ∑fi = ∑fi xi2 −2x + x = ∑fixi2 −x .
i =1 i =1 i= 1 i =1 i =1 i= 1 i =1

k
Nous avons par conséquent aussi : σ2 = Q2 – x 2 puisque Q = ∑fi xi2 .
i =1

Cette deuxième formule de la variance, connue sous le nom de relation ou théorème de König–
Huygens, permet d'éviter de propager tout le long du calcul de la variance, les erreurs d'arrondis
29
éventuelles qui découleraient du calcul de la moyenne. Parfois, il vaut mieux donc l'utiliser.

Etudions, à l'aide de la variance, la dispersion des provinces du Burkina selon le nombre d’habitants
en 1996.

Nous commençons pour cela par établir un tableau des calculs qui nous permettra de calculer la
variance de cette distribution. Ce tableau des calculs s’établit en complétant par une colonne des
nici2, le tableau des calculs qui a permis de calculer la moyenne arithmétique :

ei ni ci nici nici2
[40, 100[ 5 70 350 24500
[100, 150[ 8 125 1000 125000
[150, 200[ 10 175 1750 306250
[200, 250[ 10 225 2250 506250
[250, 300[ 5 275 1375 378125
[300, 500[ 5 400 2000 800000
[500, 1000[ 2 750 1500 1125000
Total 45 – 10225 3265125

Utilisant la seconde formule de la variance, nous obtenons σ2 = 3265125−( 10225)2 = 20928,40.


45 45

Comme l’indique ce résultat, la variance n'a pas d'unité. En réalité, elle devrait être mesurée dans
l'unité au carré de la variable. Ce qui n'aurait pas toujours de sens. Son interprétation est alors
difficile. C’est pour cette raison que nous préférerons utiliser l’écart–type, qui est mesuré dans
l'unité de la variable, pour pouvoir apprécier directement la dispersion d'une série.

2.4 L'ÉCART–TYPE

L'écart–type est la racine carrée de la variance. Il s’écrit donc σ et prend l'unité de la variable
étudiée. On l'appelle aussi écart quadratique moyen puisqu'il est la moyenne quadratique des
écarts à la moyenne.

Pour la répartition des provinces du Burkina selon le nombre d’habitants en 1996, σ = 20928,40 =
144,667 milliers d’habitants.

Considérant cette valeur élevée de l’écart–type, nous pouvons dire que la dispersion des provinces
du Burkina selon le nombre d’habitants en 1996 était forte.

Le coefficient de variation rend encore mieux compte de cette réalité.

2.5 LE COEFFICIENT DE VARIATION

Le coefficient de variation mesure la proportion de la moyenne expliquée par l'écart–type. Il est


donc égal à l'écart–type divisé par la moyenne :

σ
x

C'est donc un nombre sans dimension qui le rend approprié pour les comparaisons de dispersion
entre distributions différentes. Nous l’exprimons de préférence en pourcentage pour une
appréciation plus immédiate de la dispersion.
30

Par exemple, le coefficient de variation de la série des provinces du Burkina selon le nombre
d’habitants en 1996 étant de 63,67 % (= 144,667 ), nous confirmons que cette série est fortement
227,222
dispersée.

2.6 CHANGEMENT DE VARIABLE

Comme la moyenne arithmétique, la variance peut également se calculer par changement de


variable. En effet, si deux variables statistiques, x et y, sont liées par la relation x = ay + b (voir
supra), alors nous aurons les relations suivantes :

o σx2 = a2σy2 où σx2 et σy2 sont les variances respectives de x et de y ;

o σx = a σy où σx et σy sont les écart–types respectifs de x et de y ;

aσ y
o σx = .
x ay + b

Les seconde et troisième relations découlant de la première, nous nous contenterons de démontrer
la première :

k 2 k 2 2 k
σ x 2 = ∑ fi(x i − x) 2
= i∑= 1fi[(ay i + b)−(ay + b)] = a i∑= 1fi(y i − y) = a σ y .
2 2
i =1

A titre d’exercice, pour la série des provinces du Burkina selon le nombre d’habitants en 1996, l’on
pourra calculer la variance par changement de variable et vérifier les relations que nous venons
d’établir.
31
CHAPITRE III
LES PARAMÈTRES DE CONCENTRATION ET DE FORME

Nous étudions dans ce chapitre, les deux autres paramètres de population que sont les
paramètres de concentration et de forme (voir conclusion du chapitre I sur les paramètres de
population).

SECTION 1
LES PARAMÈTRES DE CONCENTRATION

Bien que la notion de concentration soit différente de celle de dispersion, les deux phénomènes
varient dans le même sens. A une grande dispersion des valeurs xi, correspond obligatoirement une
forte concentration. De plus, les paramètres de concentration que sont l'écart entre la médiale et
la médiane, la courbe de Lorenz et l'indice de Gini, s'interprètent comme les paramètres de
dispersion : le degré de concentration est positivement lié à leur valeur.

1.1 ÉCART ENTRE MÉDIALE ET MÉDIANE

La différence entre la médiale et la médiane, Ml – Me, donne une idée de la concentration d’une
distribution. Lorsque cette différence est grande par rapport à l'étendue, on dira que la
concentration est forte, et lorsqu'elle est petite, on dira que la concentration est faible. Cette
comparaison est vite obtenue en calculant le rapport Ml −Me (qui est forcément compris entre 0 et
w
1).

Dans les cas où la médiane est égale à la médiale (Ml – Me = 0), on dira que la concentration est
nulle. La distribution étudiée est alors qualifiée de distribution égalitaire : tous les xi sont égaux.

Pour la répartition des salaires d’une entreprise au Burkina (tableau 6), nous avons déjà trouvé que
Me = 89 504 et Ml = 153 346. Donc Ml −Me = 63842 = 13,58 %. Ce pourcentage étant faible, nous
w 470000
concluons que la concentration des salaires dans cette entreprise est faible.

1.2 LA COURBE DE CONCENTRATION OU COURBE DE LORENZ

La courbe de concentration appelée aussi courbe de Lorenz est la courbe régulière passant par les
points de coordonnées (F(ei)', F(ei)) (voir chapitre II, section 1, point 1.3, pour la définition de
F(ei)').

Ici, nous poserons que pi = F(ei) et qi = F(ei)'.

Traçons la courbe de concentration de la série des salaires d’une entreprise au Burkina (tableau 6).

Pour cela, nous dressons un tableau de calculs :

ei ni fi % pi % nici f i' % qi %
[30, 100[ 10 58,82 0 650 30,95 0
[100, 200[ 5 29,41 58,82 750 35,71 30,95
[200, 500[ 2 11,76 88,23 700 33,33 66,66
Total 17 100 100 2100 100 100
32
Graphique 8 Courbe de Lorenz des salaires d'une entreprise au Burkina (tableau 6)

pi en %
100
90
80
70
60
50
40
30
20
10
0 qi en %
0 10 20 30 40 50 60 70 80 90 100

Source : Calculs à partir du tableau 6.

Pour une série peu concentrée, la surface comprise entre la courbe de Lorenz et la première
bissectrice (droite d'équation pi = qi) est petite. Pour une série très concentrée, cette surface est
grande. Pour une concentration nulle, la courbe de Lorenz et la première bissectrice sont
confondues.

Dans notre exemple, l'aire entre la première bissectrice et cette courbe de concentration n’est pas
grande. Nous pouvons par conséquent affirmer que la concentration des salaires dans cette
entreprise n'est pas forte.

1.3 L'INDICE DE CONCENTRATION OU INDICE DE GINI

L'indice de Gini, noté i, est égal au double de l'aire comprise entre la courbe de concentration et la
première bissectrice. Il se calcule selon la formule suivante :

k
i = 1 – ∑ fi(qi + qi+1)
i=1

Il est compris entre 0 et 1 (0 et 100 %) : 0 ≤ i ≤ 1.

Calculons l'indice de Gini pour la répartition des salaires d'une entreprise au Burkina (tableau 6).

Nous complétons le tableau de calculs utilisé pour tracer la courbe de Lorenz en calculant les (qi +
qi+1) et fi(qi + qi+1) :

ei ni fi % pi % nici f i' % qi % (qi + qi+1) % fi(qi + qi+1) × 10–4


[30, 100[ 10 58,82 0 650 30,95 0 30,95 1820,48
[100, 200[ 5 29,41 58,82 750 35,71 30,95 97,61 2870,71
[200, 500[ 2 11,76 88,23 700 33,33 66,66 166,66 1959,92
Total 17 100 100 2100 100 100 – 6651,11

Donc i = 1 – 0,6651 = 33,49 %. Ce faible pourcentage relatif confirme que la concentration des salaires
n’est pas forte.
33

SECTION 2
LES PARAMÈTRES DE FORME

Pour caractériser la forme d'une distribution, c'est–à–dire pour préciser l'allure de la courbe des
fréquences relativement à son asymétrie et à son aplatissement, nous utiliserons des paramètres
calculés à partir de valeurs appelées moments, dont la moyenne arithmétique et la variance, par
exemple, sont des cas particuliers.

2.1 LES MOMENTS

Un moment est une moyenne des écarts par rapport à un réel "a" élevés à une puissance "r", r étant
un entier naturel.

Le moment d’ordre r par rapport à a est le nombre mr(a) :

k
∑ n i(x i −a)r k
mr(a) = i =1
(⇔ mr(a) = ∑ fi(x i −a)r )
n i =1

En posant a = 0, nous définissons le moment non centré d’ordre r, le nombre mr :

k r
∑n i x i k
mr = i =1
n
(⇔ mr = ∑fi xir )
i =1

En posant a = x , nous obtenons le moment centré d’ordre r, le nombre µr :

k
∑ n i(x i − x)r k
µr = i =1
(⇔ µr = ∑fi(x i − x) r )
n i =1

Remarques : m0 = 1 ; m1 = x ; m2 = Q2 ; µ0 = 1 ; µ1 = 0 ; µ2 = σ2 = m2 – m12.

Il existe des relations entre les moments centrés et les moments non centrés. Elles sont données par
les deux formules suivantes :

r −2
o µr = ∑ (– 1)αCrαm1αmr –α + (– 1)r –1(r – 1)m1r
α =0
r −2
o m r = ∑ Crαµr–αm1α + m1r.
α =0

L’on pourra démontrer ces égalités en utilisant le binôme de Newton.

En appliquant la première formule, nous trouvons par exemple :

µ3 = m3 – 3m1m2 + 2m13
µ4 = m4 – 4m3m1 + 6m2m12 – 3m14.

Pour calculer les moments centrés d’une variable x, notés µr(x), il est pratique de passer par les
quatre étapes suivantes :

1) Effectuer un changement de variable : y = x− b (voir supra).


a
34

2) Calculer les moments non centrés de la variable y, notés mr(y).

3) Calculer les moments centrés de la variable y, notés µr(y), à partir des relations entre moments
centrés et moments non centrés.

4) Déduire les moments centrés de la variable x, µr(x), à partir de la relation µr(x) = arµr(y)9.

2.2 LA MESURE DE L'ASYMÉTRIE

Une distribution statistique est symétrique si les observations, repérées par leurs fréquences sont
également dispersées de part et d'autre d'une valeur centrale. Si la distribution est unimodale, alors
x = M0 = Me, comme le montre le graphique 9.

Graphique 9 Courbe de fréquences pour une distribution symétrique

fi

x = M0 = Me xi

Une distribution non symétrique est dite asymétrique. Elle est asymétrique à droite quand M0 < Me
< x (voir graphique 10), et asymétrique à gauche quand x < Me < M0 (voir graphique 11).

Graphique 10 Courbe de fréquences pour une distribution asymétrique à droite

fi

M0 Me x xi

9
Cette relation vient de la généralisation de la relation entre variances : σx2 = a2σy2 (voir chapitre II).
35
Graphique 11 Courbe de fréquences pour une distribution asymétrique à gauche

fi

x Me M0 xi

Pour mesurer l'asymétrie, nous utiliserons un certain nombres de coefficients d'asymétrie qui sont
des nombres sans dimension, permettant les comparaisons. Ces coefficients sont généralement
valables que si la distribution contient un nombre assez élevé d'observations, et qu'elle ne présente
pas plusieurs modes.

2.2.1 LE COEFFICIENT D'ASYMÉTRIE DE YULE

Il est noté S1 et sa formule est donnée par :

S1 = (Q 3 −Me)−(Me −Q 1) = Q 1 +Q 3 −2Me avec – 1 < S1 < 1.


(Q 3 −Me)+(Me −Q 1) Q 3 −Q 1

Quand S1 = 0, la distribution concernée est dite symétrique. Sinon, elle asymétrique à droite
(étalement des observations vers la droite) : cas où 0 < S1 < 1, ou asymétrique à gauche (étalement des
observations vers la gauche) : cas où – 1 < S1 < 0.

2.2.2 LES COEFFICIENTS D'ASYMÉTRIE DE PEARSON

Le premier est noté S2 :

S2 = 3(x−Me) avec – 1 < S2 < 1.


σ

S2 s’interprète comme S1, et n'est valable que pour des distributions faiblement asymétriques.

Pour une distribution unimodale, S2 = x−σM0 .

Dans ce cas, nous énonçons la relation suivante appelée relation empirique de Pearson :

( x – M0) = 3( x – Me)

Le second coefficient d'asymétrie de Pearson est noté β1 :

µ32 µ32
β1 = (⇔ β 1 = ) avec β 1 ≥ 0.
µ 23 σ6

Quand β1 = 0, la distribution concernée est symétrique. Dans le cas contraire, elle est faiblement
36
asymétrique (β1 petit) ou fortement asymétrique (β1 grand).

Le sens de l'asymétrie est donné par le signe de µ3. En effet quand µ3 > 0, la distribution est
asymétrique à droite, et quand µ3 < 0, elle est asymétrique à gauche. Pour µ3 = 0, la distribution est
symétrique puisque β1 = 0 quand µ3 = 0. Par conséquent, le troisième moment centré est également
un coefficient d'asymétrie. Il ne permet cependant pas les comparaisons.

2.2.3 LE COEFFICIENT D'ASYMÉTRIE DE FISHER

Il est noté γ1 :

µ3 µ3
γ1 = (⇔ γ1 = , ou encore γ1 = ± β 1 )
µ23 σ3

Quand γ1 = 0, la distribution concernée est symétrique. Autrement, elle est asymétrique à droite (γ1 >
0), ou asymétrique à gauche (γ1 < 0). En pratique, on admettra que si γ1 ∈ ]– 0,5 ; 0,5[, la distribution
est symétrique.

2.3 LA MESURE DE L'APLATISSEMENT

On considère qu'une courbe des fréquences est plus ou moins aplatie, par référence à la courbe des
fréquences (courbe de densité) de la loi normale (loi de Laplace–Gauss). Ainsi, une distribution est
dite aplatie si une forte variation de la variable entraîne une faible variation de la fréquence relative,
et inversement (voir graphique 12).

Graphique 12 Courbes de fréquences de distributions fortement aplatie, moyennement aplatie


et faiblement aplatie

fi fi fi

xi xi xi
Courbe fortement aplatie Courbe moyennement aplatie Courbe faiblement aplatie
(ou platicurtique) (ou normale) (ou leptocurtique)

L'aplatissement va alors se mesurer par des coefficients d'aplatissement qui ont les mêmes
propriétés que les coefficients d'asymétrie.

2.3.1 LE COEFFICIENT D'APLATISSEMENT DE PEARSON

Le coefficient d'aplatissement de Pearson est noté β2 :

µ4 µ4
β2 = (⇔ β 2 = )
µ22 σ4

Quand β2 = 3, la distribution concernée est normale, quand β2 < 3, elle est fortement aplatie, et
37
quand β2 > 3, elle est faiblement aplatie.

2.3.2 LE COEFFICIENT D'APLATISSEMENT DE FISHER

Le coefficient d'aplatissement de Fisher est noté γ2 :

µ4 µ4
γ2 = −3 (⇔ γ2 = −3 , ou encore γ 2 = β 2 – 3)
µ22 σ4

Dans la mesure où γ2 est exprimé en fonction de β2, son interprétation est immédiate à partir de
celle de β2. En effet, quand γ2 = 0, la distribution concernée est normale, quand γ2 < 0, elle est
fortement aplatie, et quand γ2 > 0, elle est faiblement aplatie.

Calculons les moments non centrés et centrés nécessaires pour étudier la forme de la série des
provinces du Burkina selon le nombre d'habitants en 1996.

Nous avons déjà trouvé que x = 227,222 ; Q1 = 139,06 ; Me = 197,5 ; Q3 = 257,52 ; σ2 = 20928,40.
Calculons donc µ3(x) et µ4(x). Pour ce faire, nous appliquons la méthode de calcul des moments
centrés présentée plus haut. A la suite du changement de variable (voir chapitre II), nous
établissons le tableau des calculs suivant :

ei xi(ci) yi = x i −50
197,5
ni niyi niyi2 niyi3 niyi4
[40, 100[ 70 –2,55 5 –12,75 32,51 –82,9 211,4
[100, 150[ 125 –1,45 8 –11,6 16,82 –24,39 35,37
[150, 200[ 175 –0,45 10 –4,5 2,03 –0,91 0,41
[200, 250[ 225 0,55 10 5,5 3,03 1,67 0,92
[250, 300[ 275 1,55 5 7,75 12,01 18,62 28,86
[300, 500[ 400 4,05 5 20,25 82,01 332,14 1345,17
[500, 1000[ 750 11,05 2 22,1 244,21 2698,52 29818,65
Total – 45 26,75 392,62 2942,75 31440,78

Nous tirons du tableau les moments centrés suivants de la variable y : m1(y) = 26,75 ; m2(y) = 392,62
45 45
; m3(y) = 2942,75 ; m4(y) = 31440,78 .
45 45

A partir de là, nous calculons les moments centrés suivants de la variable y : µ3(y) = 2942,75 –
45
3 26,75 392,62 + 2( 26,75 )3 = 50,26 ; µ4(y) = 31440,78
– 4 2942,75 26,75 + 6 392,62 ( 26,75 2
) –
45 45 45 45 45 45 45 45
26,75 4
3( ) = 561,31.
45

Nous en déduisons enfin que µ3(x) = (50)3 × 50,26 = 6282500 et µ4(x) = (50)4 × 561,31 = 3508187500.

Nous aurons donc comme coefficients d'asymétrie et d'aplatissement :

S1 = 139,06+257,52 −2×197,5 = 0,01.


257,52 −139,06

S2 = 3(227,222 −197,5) = 0,62.


144,667
38

(6282500)2
β1 = = 4,31.
(20928,40)3

γ1 = 2,08.

β2 = 35081875002 = 8,01.
(20928,40)

γ2 = 5,01.

Remarque : Pour le calcul de β1, γ1, β2 et γ2, on aurait pu utiliser les moments centrés de y et obtenir
les mêmes résultats, car le changement de variable n'affecte pas ces coefficients. En effet, puisque
µ32(x) a 6 µ32(y) µ32(y) (50,26)
2
µ 4(x) a 4 µ 4(y) µ (y)
µr(x) = arµr(y), β1 = = = = = 4,31 et β 2 = = = 42 = 561,31
µ 2 (x)
3 a µ2 (y)
6 3 µ 2 ( y)
3 (8,37)3 µ2 (x) a µ2 (y)
2 4 2 µ2 (y) (8,37)2
= 8,01. En pratique donc, il est plus simple d'utiliser les moments centrés de la nouvelle variable (y)
pour le calcul de ces coefficients.

Commentons les résultats obtenus.

S1 > 0, cela entraîne que la distribution étudiée est asymétrique à droite. S2 > 0 et γ1 > 0, confirment ce
résultat. Mais nous voyons que S1 n'est pas très fiable : il est très proche de 0 indiquant ainsi que la
distribution est presque symétrique. En réalité, le coefficient d'asymétrie de Yule (S1) et le premier
coefficient d'asymétrie de Pearson (S2) sont des mesures empiriques et n’ont donc pas la même
fiabilité que le deuxième coefficient d'asymétrie de Pearson (β1) ou que le coefficient d'asymétrie de
Fisher (γ1).

Enfin, puisque β2 est supérieur à 3 (⇔ γ2 > 0), nous dirons que la distribution étudiée est faiblement
aplatie.
39
CHAPITRE IV
LES MÉLANGES DE POPULATIONS

Une population pour laquelle on peut identifier des sous–populations qui seront étudiées selon un
même caractère constitue un mélange de populations. Par exemple, pour une entreprise constituée
de plusieurs établissements, on peut étudier la population des salariés de toute l'entreprise selon le
salaire mensuel, mais également la population de salariés de chaque établissement selon le salaire
mensuel.

L'étude séparée de ces différentes populations (salariés de toute l'entreprise ou salariés de chaque
établissement) revient à étudier des distributions statistiques à un caractère. L'on pourra donc
utiliser tous les outils présentés aux chapitres I, II et III (tableaux, représentations graphiques,
paramètres de population).

L'intérêt de ce chapitre est néanmoins d'étudier les relations existant entre ces différentes
populations. C'est ce que nous ferons par la présentation de ce que l'on appelle tableau de mélange
de populations, par le calcul des moyennes et variances, et par l'établissement des relations
pouvant exister entre elles.

SECTION 1
LE TABLEAU DE MÉLANGE DE POPULATIONS

Dans un mélange de populations, la population globale est appelée population–mère et noté P (par
exemple, l'ensemble des salariés d'une entreprise), et les autres populations sont appelées sous–
populations et notées Ph (h = 1, ..., m) (par exemple, les ensembles de salariés de chaque
établissement d'une entreprise).

Ainsi, un tableau de mélange de populations est un tableau à double entrée présentant en colonnes
les différentes sous–populations et en lignes, les différentes modalités du caractère étudié.

Le tableau 9 est un exemple de tableau de mélange de populations.

Tableau 9 Répartition des salaires (en milliers de FCFA) dans les établissements d'une
entreprise au Burkina

Salaires Effectifs établissement 1 Effectifs établissement 2 Total (effectif entreprise)


[30, 100[ 3 7 10
[100, 200[ 2 3 5
[200, 500[ 2 0 2
Total 7 10 17
Source : Données fictives.

1.1 LES EFFECTIFS D'UN MÉLANGE DE POPULATIONS

Les effectifs des sous–populations sont notés nh.

Le nombre de salariés de l'établissement 1 est alors n1 = 7, et celui de l'établissement 2, n2 = 10.

L'effectif de la population–mère, appelé aussi effectif du mélange P, est noté n.

m
Par conséquent, n = ∑ n h .
h=1
40

Le nombre de salariés total de l'entreprise est donc n = n1 + n2 = 7 + 10 = 17.

Le nombre d'individus de la sous–population Ph qui présentent la modalité xi d'une variable x


est noté nih.

Dans notre exemple, n12 est le nombre de salariés de l'établissement 2 qui ont un salaire compris
entre 30 000 et 100 000 FCFA : n12 = 7.

Le nombre total d'individus qui présentent la modalité xi est noté ni.

m
D'où ni. = ∑ n ih .
h=1

Ainsi, n1. est le nombre de salariés de l'entreprise qui ont un salaire compris entre 30 000 et 100 000
FCFA : n1. = n11 + n12 = 3 + 7 = 10.

k
Enfin, pour un mélange de populations, les relations suivantes sont vérifiées : n = ∑n i. et nh =
i =1
k
∑ n ih . L'on pourra le vérifier avec le tableau 9.
i =1

1.2 LES FRÉQUENCES RELATIVES D'UN MÉLANGE DE POPULATIONS

La fréquence de la sous–population Ph, encore appelée proportion du mélange, est notée ph : ph


nh
= .
n

Pour le tableau 9, les proportions du mélange sont p1 = 7 = 41,18 % et p2 = 10 = 58,82 %.


17 17
Concrètement, p1 est la proportion des salariés de l'établissement 1 dans l'entreprise, et p2, celle des
salariés de l'établissement 2.

n ih
La fréquence dans la sous–population Ph de la modalité xi est notée fih : fih = .
nh

n 12
Dans notre exemple, f12 = = 7 = 70 %. Dans l'établissement 2, c'est la proportion des salariés qui
n2 10
ont un salaire compris entre 30 000 et 100 000 FCFA.

La fréquence dans la population P de la modalité xi est notée fi : fi = n i. .


n

n 1.
Dans l'exemple, f1 = = 10 = 58,82 %. C'est la proportion des salariés de l'entreprise qui ont un
n 17
salaire compris entre 30 000 et 100 000 FCFA.

m k k
Enfin les relations suivantes entre fréquences peuvent être établies : ∑ ph = 1 ; ∑ fih = 1 ; = ∑fi
h=1 i =1 i =1
m
= 1 ; et fi = ∑ ph fih .
h =1

Les trois premières égalités sont évidentes. En effet, la somme des fréquences d'une distribution est
41
m m n k k n n k
égale à l'unité. En vérifiant, on obtient bien que ∑ ph = ∑ h = n = 1 ; ∑ fih = ∑ ih = h = 1 et ∑fi =
h=1 h=1 n n i =1 i =1 n nh i =1
h
k n i.
∑ = n = 1.
i =1 n n

n
m m n n m n
La démonstration de la quatrième égalité est la suivante : ∑ ph fih = ∑ h ih = ∑ ih = i. = fi.
h =1 h=1 n n h=1 n n
h

SECTION 2
MOYENNES ET RELATIONS ENTRE MOYENNES

Nous donnons la formule de la moyenne arithmétique pour la population–mère et pour les sous–
populations. Nous verrons également les relations existant entre elles.

2.1 LA MOYENNE DE LA POPULATION–MÈRE

k
∑ni.x i k
Elle est notée x : x = i=1
n
(⇔ x = ∑fixi ).
i =1

Pour le mélange de populations donné par le tableau 9, x = 10 × 65 + 5 × 150 + 2 × 350 = 123,53 milliers
17
de FCFA. x est le salaire moyen dans cette entreprise.

2.2 LA MOYENNE DES SOUS–POPULATIONS

k
∑ n ih x i k
i =1
La moyenne de la sous–population Ph est notée x h : x h = (⇔ x h = ∑ fih x i ).
nh i =1

Calculons pour notre exemple x 1 et x2 :

x 1 = 3 × 65 + 2 × 150 + 2 × 350 = 170,71 milliers de FCFA.


7

x2 = 7 × 65 + 3 × 150 + 0 × 350 = 90,5 milliers de FCFA.


10

Concrètement, x 1 est le salaire moyen dans l'établissement 1 et x2 le salaire moyen dans


l'établissement 2.

Pour compléter le commentaire de ces moyennes, nous pouvons les comparer en disant qu'en
moyenne, les salaires dans l'établissement 1 sont plus élevés que les salaires dans l'établissement 2.

2.3 RELATION ENTRE MOYENNES

La moyenne de la population–mère est égale à la moyenne des moyennes des sous–populations,


m
∑ nh x h m
pondérée par les proportions du mélange : x = h=1
(⇔ x = ∑ ph x h ).
n h=1

k k m m k m
Démontrons cette relation : x = ∑fi x i = ∑ ∑ p h fih x i = ∑ p h ∑ fih x i = ∑ ph x h .
i =1 i =1h = 1 h=1 i=1 h=1
42

Pour notre exemple, x = n 1 x 1 + n2 x2 = 7×170,71+ 10×90,5 = 123,53 milliers de FCFA. Nous avons ainsi
n 17
calculé le salaire moyen dans l'entreprise en fonction des salaires moyens des établissements.

SECTION 3
VARIANCES ET RELATIONS ENTRE VARIANCES

Comme pour les moyennes, nous donnerons les formules des différentes variances et la relation qui
existe entre elles.

3.1 LA VARIANCE DE LA POPULATION–MÈRE

k
∑ n i.(x i − x)2 k
La variance de la population–mère est notée σ 2 ou V(X) : σ 2 = i =1
(⇔ σ 2 = ∑ fi (x i − x)2 ).
n i =1

k
∑ n i.x 2i 2
Bien entendu la relation de König–Huygens peut s'appliquer également ici : σ 2 = i =1
−x (⇔ σ 2
n
k 2
= ∑fi x 2i − x ).
i =1

Ainsi, la variance de la série des salaires de l'entreprise étudiée au tableau 9 est :

10 × 65 2 + 5 × 150 2 + 2 × 350 2
σ2 = – (123,53)2 = 8255,04.
17

3.2 LA VARIANCE DES SOUS–POPULATIONS

k
∑ n ih(x i − x h )2 k
i =1
La variance de la sous–population Ph est σ h2 : σ h2 = (⇔ σ h2 = ∑ fih(x i − x h )2 ).
nh i =1

k
∑ n ih x 2i 2 k 2
i =1
Et en appliquant le théorème de König, σ h2 = − x h (⇔ σ h2 = ∑ fih x 2i − x h ).
nh i =1

La variance de la série des salaires de l'établissement 1 (voir tableau 9) est :

3 × 65 2 + 2 × 150 2 + 2 × 350 2
σ 12 = – (170,71)2 = 14097,38.
7

La variance de la série des salaires de l'établissement 2 (voir tableau 9) est :

7 × 65 2 + 3 × 150 2 + 0 × 350 2
σ 22 =
10
– (90,50)2 = 1517,25.

Nous pouvons dire ici que la dispersion des salaires est plus forte dans l'établissement 1 que dans
σ1 σ2
l'établissement 2, puisque = 69,56 % > = 43,04 %.
x1 x2
43
3.3 RELATION ENTRE VARIANCES

La variance d'une population–mère est égale à la moyenne des variances des sous–populations
m m
∑ n hσ h2 ∑ n h(x h − x)2
augmentée de la variance des moyennes des sous–populations : σ 2 = h=1
+ h=1
(⇔
n n
m m
σ2 = ∑ p hσ h2 + ∑ p h(x h − x)2 ).
h=1 h=1

m
∑ n hσ h2 m
La moyenne des variances, h=1
(⇔ ∑ p hσ h2 ), est appelée variance intra populations. C'est la
n h=1
variance que l'on obtiendrait si toutes les sous–populations avaient la même moyenne (la variance
des moyennes serait alors nulle).

m
∑ n h(x h − x)2 m
La variance des moyennes, h=1
(⇔ ∑ p h(x h − x)2 ), est appelée variance inter populations.
n h=1
C'est la variance que l'on obtiendrait si toutes les sous–populations étaient homogènes, c'est–à–
dire si chaque valeur de chaque sous–population était égale à sa moyenne (la moyenne des
variances serait alors nulle). En appliquant le théorème de König, la variance inter populations est
m 2
∑ nhxh 2 m 2 2
aussi égale à h=1
−x (⇔ ∑ p h x h − x ).
n h=1

Démontrons la relation entre variances.

k k m m k m k
σ2 = ∑ fi (x i − x)2 = ∑ ∑ p h fih(x i − x)2 = ∑ p h ∑ fih(x i − x)2 = ∑ p h ∑ fih[(x i − x h )+(x h − x)]2 =
i =1 i =1h = 1 h=1 i=1 h=1 i =1
m k m m
∑ p h[ ∑ fih (x i − x h )2 +(x h − x)2 ] (théorème de König) = ∑ p hσ h2 + ∑ p h(x h − x)2 .
h=1 i=1 h=1 h=1

On peut donc décomposer une dispersion globale, en calculant la part imputable aux dispersions
internes (intra populations) et celle imputable à la dispersion des moyennes (inter populations).

Calculons la variance de la série des salaires de l'entreprise étudiée au tableau 9 à partir des
variances intra populations et inter populations.

7 ×(170,71)2 + 10×(90,5)2
σ2 = 7×14097,38+ 10×1517,25 + – (123,53)2 = 6697,3 + 1557,74 = 8255,04.
17 17

Dans cet exemple, la variance intra populations mesure la dispersion dans chaque établissement
(c'est la variance intra établissements), et la variance inter populations mesure la dispersion entre
les établissements quant au salaire moyen (c'est la variance inter établissements). D'où nous
constatons que la dispersion dans chaque établissement est plus forte que celle entre les
m m 2
∑ n hσ h2 ∑ nhxh 2
h=1 h=1
établissements : = 6697,3 > −x = 1557,74. Nous concluons que la dispersion des
n n
salaires s'explique ici plus par une dispersion interne à chaque établissement, que par une
dispersion des salaires moyens entre les établissements.
44
CONCLUSION
SUJETS D'EXAMEN POUR S'EXERCER

Nous proposons ici cinq sujets d'examen concernant les distributions à un caractère que nous
avons composés pour les étudiants de première année de sciences économiques et de gestion de
l'Université de Ouagadougou, pour les premières sessions de 1998 à 2002.

Ils doivent être traités en deux heures, sans document. Seule une calculatrice est autorisée.

SUJET DU 31 JANVIER 1998

Exercice n° 1

On considère les quatre séries de notes obtenues au Baccalauréat, résumées dans le graphique "boîtes
à moustaches" ou "box plots" ci dessous. Les quatre groupes sont : A "candidats au Bac série A", C
"candidats au Bac série C", D "candidats au Bac série D", G2 "candidats au Bac série G2". Au bas du
graphique, figurent des résumés statistiques pour chaque groupe.

Série Effectif Moyenne Ecart type Minimum 1er quartile Médiane 3e quartile Maximum
A 18 13,05 0,77 11,57 12,68 12,94 13,31 15,01
C 16 13,59 1,13 11,09 12,79 13,68 14,60 15,61
D 53 12,77 1,41 8,71 11,91 12,91 13,76 15,75
G2 10 13,48 0,93 12,09 12,84 13,40 14,24 15,13

1) Rappeler la formule de l'écart type, du moment non centré d'ordre 3 et du coefficient


d'aplatissement de Pearson en fonction de x1, ..., xn, qui sont les valeurs d'une série statistique, dans le
cas de pondérations égales à 1/n. (3/20)

2) a) Parmi ces quatre groupes, quelle est la série de notes la plus dispersée ? (On utilisera l'étendue,
l'intervalle interquartile, et un troisième paramètre de dispersion de l'on choisira.) (2/20)

b) Quel est le meilleur groupe ? Justifier votre réponse en considérant au moins deux paramètres de
position. (1/20)

c) En considérant la différence entre les valeurs de la médiane et de la moyenne, préciser la série qui
est la plus symétrique. (1/20)
45
3) Calculer la note moyenne x et la variance V(X) de tous les n élèves (n = 97). On précise que x est
une moyenne pondérée et que la formule de la variance V(X) est :
V(X) = Σ(nk k2)/n + Σ(nk(xk x)2)/n ; où nk = effectif du groupe k ; xk = note moyenne du groupe k et
k = écart type du groupe k. (2/20)

4) On s'intéresse au groupe C. Les notes de ce groupe sont également réparties entre les quatre classes
: [11,00 ; 12,79[ ; [12,79 ; 13,68[ ; [13,68 ; 14,60[ ; [14,60 ; 16,00[.

a) Calculer la valeur du moment non centré d'ordre 2 du groupe. (1/20)

b) Quelle est la proportion d'étudiants du groupe qui ont une note inférieure à 12,79 ? Qui ont une
note supérieure à 13,68 ? (1/20)

c) Calculer les fréquences fk de chacune des quatre classes, puis tracer l'histogramme. (1/20)

Exercice n° 2

1) On donne x1 et x2, les ratios prix du mil sur prix du riz pour les années 1 et 2, respectivement. Quel
type de moyenne doit on utiliser pour calculer le ratio moyen sur les 2 années ? Justifier par le calcul.
(1/20)

2) Une personne voyage de Ouagadougou à Kaya à une vitesse de 120 km/h, et de Kaya à
Ouagadougou à une vitesse de 110 km/h. Quel type de moyenne doit on utiliser pour trouver la
vitesse moyenne sur le trajet total ? Justifier par le calcul. (1/20)

Exercice n° 3

Soit la variable X représentant la suite des n premiers nombres entiers (les modalités de X sont x1 = 1,
x2 = 2, ..., xn = n).

1) Déterminer la moyenne arithmétique x. (On donne 1 + 2 + ... + n = n(n + 1)/2). (1/20)

2) Déterminer la variance V(X). (On donne 12 + 22 + ... + n2 = n(n + 1)(2n + 1)/6). (1/20)

3) On effectue le changement de variable suivant en posant X' = 2X 1. La nouvelle variable X'


représente donc la suite des n premiers nombres impairs.

a) Déterminer la moyenne arithmétique x' de cette suite. (1/20)


b) Déterminer sa variance V(X'). (1/20)

4) On effectue un autre changement de variable en posant X'' = a + (X 1)r. La nouvelle variable X''
représente ainsi la suite de n nombres en progression arithmétique avec comme premier terme: a, et
comme raison : r.

a) Déterminer la moyenne arithmétique x'' de cette suite. (1/20)


b) Déterminer sa variance V(X''). (1/20)
46
SUJET DU 17 FEVRIER 1999

Exercice 1

On donne le tableau suivant, extrait du classement des pays selon l'indicateur du développement
humain (IDH) en 1995.

Rang Pays IDH


1 Canada 0,960
2 France 0,946
3 Norvège 0,943
4 Etats Unis 0,943
5 Islande 0,942
170 Burundi 0,241
171 Mali 0,236
172 Burkina Faso 0,219
173 Niger 0,207
174 Sierra Leone 0,185
Source : PNUD, Rapport mondial sur le développement humain 1998, Economica, 1998.

1) En considérant les deuxième et troisième colonnes, quelle variable peut on imaginer ? (1pt)
2) L'IDH moyen pour ces 10 pays a il du sens ? (2 pts)
3) La distribution est elle égalitaire ? (2 pts)
4) Est elle symétrique ? (1 pt)

Exercice 2

Voici la répartition des pays selon l'indicateur du développement humain (IDH) en 1995.

[0,185 ; 0,500[44
[0,500 ; 0,800[66
[0,800 ; 0,960[64
Source : PNUD, Rapport mondial sur le développement humain 1998, Economica, 1998.

Représenter graphiquement cette répartition. (2 pts)

Exercice 3

On donne l'évolution du PIB par habitant (en dollars) pour le Burkina Faso, de 1960 à 1995:

173 (1960) 198 (1970) 232 (1980) 253 (1990) 258 (1995)
Source : PNUD, Rapport mondial sur le développement humain 1998, Economica, 1998

Quel a été l'accroissement moyen par période du PIB par habitant ? (2 pts)

Exercice 4

On ajoute une valeur à une série statistique de k valeurs.

1) Cela modifie il le diagramme en bâtons ? Comment ? (2 pts)


47
2) Dans quel(s) cas la moyenne n'est elle pas modifiée ? Démontrer. (2 pts)
3) Donner une définition de la fonction N(x) représentant les effectifs cumulés d'une variable X,
sachant que la fonction F(x) représentant les fréquences cumulées de ladite variable mesure la
proportion des individus qui ont la valeur du caractère X inférieure à x. (1 pt)

Exercice 5

Dans une classe de 33 étudiants, tous étudient au moins l'une des langues suivantes : anglais,
allemand, espagnol ; 24 étudient au moins l'allemand et 8 au moins l'espagnol ; 15 étudient au moins
l'allemand et l'anglais, et 4 étudient au moins l'anglais et l'espagnol ; enfin, tous ceux qui étudient
l'espagnol étudient au moins une autre langue et aucun n'étudie les 3 langues.

1) Donner les effectifs des divers groupes d'étudiants en indiquant pour chaque groupe toutes les
langues étudiées. (3 pts)

2) Déterminer la fréquence des étudiants qui étudient au moins l'anglais puis la fréquence de ceux
qui n'étudient que l'allemand. (2 pts)

SUJET DU 23 FEVRIER 2000

Problème

La répartition des exploitations agricoles françaises selon la taille en 1988 est donnée par le graphique
suivant* :

% de l'en sem ble N om bre


40 38 SAU
35 34
30
30
25 24
25
20
16
15 13
11
10
5 5 4
0
M oins 10 à 35 à 50 à 100 ha
de 1 0 m oin s m oins moin s et plus
ha de 35 de 5 0 de 100
ha ha ha

On pose X la taille et on effectue le changement de variable suivant : Y = (X 5)/10. On obtient alors


les moments non centrés d'ordre 1, 2, 3 et 4 de Y qui sont respectivement égaux à 2,4 ; 14,72 ; 121,33
et 1166,51.

1) Calculer la taille moyenne d'une exploitation.

*
INSEE, Tableaux de l'économie française 1992 1993, p. 113.
N.B. : SAU = Superficie agricole utilisée.
48
2) Calculer la variance de la répartition et en déduire sa moyenne quadratique.
3) Etudier l'asymétrie de la répartition en utilisant le deuxième coefficient de Pearson.
4) Etudier l'aplatissement de la répartition en utilisant le coefficient de Pearson.
5) Construire le diagramme intégral de la répartition.
6) En déduire une valeur approximative de la médiane.
7) Calculer la proportion des exploitations qui ont une taille inférieure à 45 ha.
8) A quel quantile correspond 45 ha ?
9) Comme l'indique le graphique supra, 72 % des exploitations ont une taille inférieure à 35 ha
tandis que les exploitations qui ont une taille supérieure à 35 ha totalisent 70 % des superficies. Que
peut on dire (a priori) de la concentration de la répartition ?
10) Vérifier par un graphique approprié.

2 points par question (correctement) traitée.

SUJET DU 26 MAI 2001

I) Le prix d'un bien A est de 1,35 les 5 grammes ; celui d'un bien B, de 0,76 les 2 grammes ; celui
d'un bien C, de 2,79 les 3 grammes ; celui d'un bien D, de 0,72 les 4 grammes ; celui d'un bien E,
de 2,61 les 3 grammes ; celui d'un bien F, de 1,62 les 2 grammes ; celui d'un bien G, de 1,32 les 4
grammes ; celui d'un bien H, de 1,05 les 5 grammes ; celui d'un bien I, de 0,78 les 3 grammes ; et
celui d'un bien J, de 1,45 les 5 grammes.

1) Calculer le prix moyen, PM1, pour un consommateur qui achète 1 gramme de chaque bien.

2) Calculer le prix moyen, PM2, si ce consommateur achète ensuite pour 0,54 du bien A ; 1,14
du bien B ; 0,93 du bien C ; 0,90 du bien D ; 1,74 du bien E ; 1,62 du bien F ; 0,99 du bien G ; 0,21
du bien H ; 1,04 du bien I ; et 0,58 du bien J.

3) Le consommateur effectue enfin des achats pour un prix moyen PM3 de 0,437. Calculer le
taux d'accroissement moyen, TAM, du prix moyen d'un groupe d'achats à l'autre.

II) Paramètres sur le chiffre d'affaires (CA) d'une entreprise au cours d'une année :

Mois janvier et février mars à mai juin à septembre octobre à décembre


CA mensuel moyen 97 161 100 90
Ecart–type 15 5 8 11

4) Quel est le chiffre d'affaires mensuel moyen le plus significatif ?

5) Le chiffre d'affaires mensuel moyen sur l'ensemble de l'année est–il significatif ?

III) Les modalités d'une série discrète de revenus par habitant de 20 pays sont données sous
forme de quantiles : x0 = 150, x0,15 = 225, x0,5 = 275, x0,65 = 400 et x0,85 = 500. On rappelle la
r −2
formule des moments non centrés en fonction des moments centrés : mr =∑C r µr −α m1α +m1r .
α

α =0

6) En déduire les expressions des moments non centrés d'ordres 2 et 3 : m2 et m3.

7) Calculer alors les moments centrés d'ordres 2 et 3 de la série des revenus par habitant de ces
pays, µ2 et µ 3, sachant que m1 = 297,5 ; m2 = 101937,5 et m3 = 39162500.

8) Apprécier l'asymétrie de cette série.


49

9) Dessiner la courbe cumulative relative à cette série.

10) En déduire et commenter l'intervalle médian.

(A 2 points par question correctement traitée. Les questions ne sont pas forcément liées.)

SUJET DU 2 MARS 2002

I/ Soit la distribution suivante des salaires dans une entreprise :

Salaires xi moins de 1,5 de 1,5 à 2,5 de 2,5 à 3,5 de 3,5 à 4,5 plus de 4,5
Effectif ni 4 3 4 2 2

1) Indiquer la population étudiée, le caractère ainsi que sa nature. (1 point)


2) Evaluer graphiquement le mode. (1 point)
3) Evaluer graphiquement les quartiles. (2 points)
4) Pour calculer le salaire moyen dans cette entreprise, quel type de moyenne devra–
t–on utiliser ? Expliquer. (2 points)
5) Cette moyenne sera–t–elle significative ? Expliquer. (2 points)

II/ Pour une série de revenus dans un pays donné, on a calculé les moments non
centrés et centrés suivants : m1 = 1,2 ; m2 = 2,16 ; m3 = 4,644 ; m4 = 10,224 ; µ2 =
0,72 ; µ3 = 0,144 ; µ4 = 1,238.

6) Commenter la moyenne (arithmétique) de cette série. (1 point)


7) Caractériser sa dispersion. (2 points)
8) Apprécier son asymétrie. (2 points)
9) Apprécier son aplatissement. (2 points)
10) Comment peut–on mesurer la concentration des revenus dans ce pays ? Quand
sera–t–elle forte, quand sera–t–elle faible ? (2 points)

III/ Dans une entreprise, le salaire moyen des femmes est de 15 et celui des hommes
de 10. L'écart–type pour la distribution des salaires des femmes est de 10, et celui
pour celles des hommes de 8. L'effectif des hommes est le double de celui des
femmes.

11) Quel est le salaire moyen dans l'entreprise ? (1 point)


12) Calculer la variance dans l'entreprise. (2 points)
50

RÉFÉRENCES BIBLIOGRAPHIQUES

1) BARTHE R., La statistique descriptive en 10 leçons. Méthode progressive "ABCD", Economica, 1989

2) CALOT G., Cours de statistique descriptive, Dunod, 1981

3) CHAUVAT G., REAU J.P., Statistiques descriptives. TD. Exercices et corrigés, Armand Colin, 1996

4) GIARD V., Statistique appliquée à la gestion, 5ème édition, Economica, 1987

5) GOUNGOUNGA C., Statistique et calcul des probabilités. Cours et exercices corrigés, 1996

6) LECOUTRE J.P., Statistique descriptive. Exercices corrigés avec rappels de cours, Masson, 1990

7) MASIERI W., Statistique et calcul des probabilités, 6e édition, Sirey, 1988

8) MASIERI W., Statistique et calcul des probabilités. Travaux pratiques. Enoncés et solutions, 6e édition,
Sirey, 1994

9) MAURICE–BAUMONT C., Statistiques et probabilités en mathématiques. B.T.S. 1ère et 2ème années,


Ellipses, 1990

10) PY B., Statistique descriptive. Nouvelle méthode pour bien comprendre et réussir, 4e édition, Economica,
1996

11) PY B., Exercices corrigés de statistique descriptive. Problèmes, exercices et QCM, 2e édition, Economica,
1994

12) WONNACOTT T.H., WONNACOTT R.J., Statistique. Economie Gestion Sciences Médecine (avec
exercices d'application), 4ème édition, Economica, 1991