Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUE.
(Première partie.)
Les distributions à un caractère.
Quelques applications à l'économie burkinabè.
Novembre 2005
AVERTISSEMENT
Le Document de Travail du Centre d'Analyse des Politiques Économiques et Sociales (CAPES) est
constitué des travaux de recherche (travaux semi–finis, drafts d'articles, communications
diverses…) des experts du Centre, qui les soumettent de la sorte au débat scientifique.
Les auteurs des travaux publiés dans la Série Document de Travail sont entièrement
responsables de leur contenu.
Le Document de Travail paraît chaque fois que des travaux sont reçus à la Direction du Centre.
3
TABLE DES MATIÈRES
AVERTISSEMENT..................................................................................................................................................................................... 2
INTRODUCTION GÉNÉRALE............................................................................................................................................................. 7
DÉFINITIONS ET NOTIONS DE BASE ............................................................................................................................................. 7
CHAPITRE I ............................................................................................................................................................................................... 10
LA PRÉSENTATION DES DONNÉES STATISTIQUES............................................................................................................. 10
SECTION 1............................................................................................................................................................................................. 10
LES TABLEAUX STATISTIQUES ................................................................................................................................................. 10
SECTION 2 .............................................................................................................................................................................................13
REPRÉSENTATIONS GRAPHIQUES..........................................................................................................................................13
CHAPITRE II..............................................................................................................................................................................................20
LES PARAMÈTRES DE TENDANCE CENTRALE ET DE DISPERSION............................................................................20
SECTION 1.............................................................................................................................................................................................20
LES PARAMÈTRES DE TENDANCE CENTRALE OU PARAMÈTRES DE POSITION ..........................................20
1.3 LA MÉDIALE..............................................................................................................................................................................21
1.5 LA MOYENNE..........................................................................................................................................................................23
SECTION 2 ............................................................................................................................................................................................27
LES PARAMÈTRES DE DISPERSION ........................................................................................................................................27
4
2.1 L'ÉTENDUE...............................................................................................................................................................................27
2.2 AUTRES INTERVALLES.....................................................................................................................................................27
2.3 LA VARIANCE ........................................................................................................................................................................28
2.4 L'ÉCART–TYPE ......................................................................................................................................................................29
2.5 LE COEFFICIENT DE VARIATION................................................................................................................................29
2.6 CHANGEMENT DE VARIABLE.......................................................................................................................................30
CHAPITRE III.............................................................................................................................................................................................31
LES PARAMÈTRES DE CONCENTRATION ET DE FORME..................................................................................................31
SECTION 1..............................................................................................................................................................................................31
LES PARAMÈTRES DE CONCENTRATION............................................................................................................................31
SECTION 2 ............................................................................................................................................................................................33
LES PARAMÈTRES DE FORME ...................................................................................................................................................33
CHAPITRE IV............................................................................................................................................................................................39
LES MÉLANGES DE POPULATIONS...............................................................................................................................................39
SECTION 1.............................................................................................................................................................................................39
LE TABLEAU DE MÉLANGE DE POPULATIONS.................................................................................................................39
SECTION 2 ............................................................................................................................................................................................ 41
MOYENNES ET RELATIONS ENTRE MOYENNES............................................................................................................. 41
SECTION 3 ............................................................................................................................................................................................42
VARIANCES ET RELATIONS ENTRE VARIANCES ...........................................................................................................42
CONCLUSION ......................................................................................................................................................................................... 44
SUJETS D'EXAMEN POUR S'EXERCER........................................................................................................................................ 44
RÉFÉRENCES BIBLIOGRAPHIQUES..............................................................................................................................................50
5
Tableau 2 Répartition des températures maximales (en degrés Celsius) enregistrées à Ouagadougou au mois de
novembre, entre 1960 et 1989 ................................................................................................................................................................. 11
Tableau 3 Répartition des provinces du Burkina selon le nombre d'habitants (en milliers) en 1996............................ 11
Tableau 4 Distributions de fréquences cumulées croissantes et décroissantes des températures maximales (en
degrés Celsius) enregistrées à Ouagadougou en novembre, entre 1960 et 1989....................................................................12
Tableau 5 Distributions de fréquences cumulées croissantes et décroissantes des provinces du Burkina selon le
nombre d'habitants (en milliers) en 1996...........................................................................................................................................13
Tableau 6 Répartition des salaires (en milliers de FCFA) dans une entreprise au Burkina ............................................22
Tableau 9 Répartition des salaires (en milliers de FCFA) dans les établissements d'une entreprise au Burkina....39
6
Graphique 2 Secteurs circulaires de la répartition de la population du Burkina par sexe en 1996 ................................15
Graphique 3 Diagramme en bâtons de la répartition des températures maximales (en degrés Celsius) enregistrées
à Ouagadougou en novembre entre 1960 et 1989.............................................................................................................................15
Graphique 4 Fonctions en escalier de la répartition des températures maximales (en degrés Celsius) enregistrées
à Ouagadougou en novembre entre 1960 et 1989.............................................................................................................................16
Graphique 5 Histogramme de la répartition des provinces du Burkina selon le nombre d'habitants (en milliers) en
1996 .................................................................................................................................................................................................................17
Graphique 6 Courbes cumulatives de la répartition des provinces du Burkina selon le nombre d'habitants (en
milliers) en 1996 (variable continue)...................................................................................................................................................18
Graphique 7 Box–plot de la répartition des provinces du Burkina selon le nombre d'habitants (en milliers) en
1996 .................................................................................................................................................................................................................18
Graphique 8 Courbe de Lorenz des salaires d'une entreprise au Burkina (tableau 6).......................................................32
La statistique peut être définie comme un ensemble de méthodes scientifiques utilisées dans la
collecte, l'organisation, la présentation, l'analyse de données numériques, afin de commenter ou
d'interpréter les faits auxquels ces données sont relatives1.
Ce document porte principalement sur la statistique descriptive qui est une partie importante de la
statistique. Les tâches qui relèvent de la statistique descriptive constituent la première étape de
toute analyse statistique. En effet, l’analyse des données (chiffrées) accumulées par les
organisations (entreprises, administrations publiques, associations, etc.) serait fastidieuse si les
données n'étaient pas organisées et correctement présentées.
Le document s'efforcera également de faire une grande part aux commentaires : interprétations,
signification concrète des résultats, brèves analyses.
Une bonne maîtrise de la statistique commence par une connaissance claire et précise de certaines
autres définitions et concepts. Ce sont les notions de base dont l'assimilation parfaite permet de
collecter correctement les données, de les présenter de façon appropriée, de déterminer des
résultats significatifs et de procéder à des commentaires pertinents. Nous les étudions donc à ce
niveau avant de développer le reste du document.
Une population, ou un univers statistique, est un ensemble fini d'éléments, comme par exemple les
infrastructures de santé au Burkina en 1993, les différents biens vendus par une épicerie au cours
d'une période donnée, la population burkinabè en 1996, etc. La population en statistique n'est donc
pas seulement un ensemble d'êtres humains (comme en démographie), mais peut être aussi un
ensemble d'objets concrets ou non, un flux, etc.
Un individu, ou une unité statistique, est un élément d'une population. Ainsi, un hôpital au Burkina en
1993, un bien vendu par une épicerie, un habitant du Burkina en 1996, sont des individus. Comme
ces objets ou être humain, un événement peut également être un individu.
1
Les statistiques (au pluriel) ne sont que les données numériques elles–mêmes ou les résultats numériques issus de
l'application des méthodes de la statistique.
8
Caractère quantitatif
Un caractère est dit quantitatif s'il peut faire explicitement l'objet d'une mesure. Un coût de
construction, un poids, un prix ou un âge sont des caractères quantitatifs car mesurables.
Caractère qualitatif
Un caractère qui ne peut faire l'objet d'une mesure est dit qualitatif. Une zone d'implantation
géographique ou la religion d'une personne sont des caractères qualitatifs car non mesurables.
Modalité
La modalité est la valeur d'un caractère quantitatif ou l'état d'un caractère qualitatif. Si l'on
considère le caractère "coût de construction", ses modalités seront par exemple 10 000 000, 42 000
000, 150 000 000 F ; tandis qu'en s'intéressant au caractère "zone d'implantation géographique", on
aura comme modalités : Nord, Centre, Sud, Ouest, etc. On voit ici aussi que chacun des caractères
étudiés peut présenter deux ou plusieurs modalités.
Une variable statistique est dite discrète lorsque ses valeurs possibles sont des nombres isolés,
notamment des nombres entiers. Par exemple, le nombre d'enfants par ménage ou le nombre de
salariés par entreprise sont des variables statistiques discrètes.
Une variable statistique est dite continue lorsque ses valeurs sont a priori en nombre infini et
quelconques dans un intervalle de valeurs. C'est ainsi que les modalités d'une variable statistique
continue peuvent être généralement présentées en classes de valeurs : [0, 25[ ; [25, 30[ ; [30, 35[...
Une distribution statistique, ou une série statistique, est l'ensemble des modalités d'un caractère et des
effectifs des individus correspondants. Elle répartie la population suivant le caractère. Elle se
présente généralement sous la forme d'un tableau appelé tableau statistique ou distribution de P
selon x où P représente la population et x le caractère :
xi ni
x1 n1
x2 n2
M M
xk nk
Total n
xi représente les modalités de x qui sont classées de la plus petite à la plus grande, quand le
caractère est quantitatif ; ni, le nombre d'individus (ou l'effectif) qui présentent la modalité xi de x ;
k
et n, le nombre d'individus total de la population (ou l'effectif total) : n = ∑n i .
i =1
Les distributions à un caractère proviennent de l'étude d'une population selon un seul caractère.
Par exemple, étudier l'âge des Burkinabè en 1996, les températures maximales enregistrées à
Ouagadougou au mois de novembre entre 1960 et 1989, ou le nombre d'habitants des provinces du
Burkina en 1996, revient à travailler sur des distributions à un caractère.
Ce travail portera notamment sur la présentation des données collectées ou sur le calcul de valeurs
particulières à partir de ces données. C'est ce que nous verrons à travers le chapitre I où nous
aurons les différentes formes de présentation possibles (les tableaux et les graphiques), les
chapitres II et III où il sera question des paramètres de population, et le chapitre IV où les mélanges
de populations seront abordés.
10
CHAPITRE I
LA PRÉSENTATION DES DONNÉES STATISTIQUES
Les données collectées sont habituellement organisées et présentées sous forme de tableaux et/ou
de graphiques desquels on tire des indications intéressantes sur la description des données.
SECTION 1
LES TABLEAUX STATISTIQUES
Nous avons vu en introduction générale qu'un tableau statistique est l'ensemble constitué par les
modalités, xi, et les effectifs, ni. Les effectifs, ni, sont également appelés "fréquences absolues" par
différence avec le rapport fi = n i , appelé "fréquence relative" ou "fréquence", et qui est la proportion
n
d'individus présentant la modalité xi. Les tableaux statistiques sont ainsi donc des "distributions de
fréquence" qui se présentent différemment selon la nature du caractère.
Lorsque le caractère étudié est qualitatif, xi va représenter les différents états du caractère, et ni ou
fi2, ses fréquences, comme on le voit avec le tableau 1.
k k
On notera que ∑fi = ∑ n i = n = 1 (ou 100 %).
i =1 i =1 n n
Pour commenter ce tableau, nous dirons par exemple qu'il montre que les femmes étaient plus
nombreuses que les hommes au Burkina en 1996 (effectif des femmes supérieur à celui des
hommes).
Ce tableau respecte des règles importantes de présentation : il a un titre précis qui décrit
brièvement son contenu, et il mentionne sa source. De façon générale, tout tableau statistique doit
comporter un titre, mentionner sa source, et dans certains cas (caractères quantitatifs notamment),
l'unité utilisée (francs, dollars, g, kg, m, km, milliers, millions…) doit être précisée. De plus, les
modalités doivent être incompatibles (un individu ne peut correspondre à plus d'une modalité) et
exhaustives (elles doivent représenter tous les individus).
2
Nous disons bien ni ou fi : bien que notre distribution de fréquence (tableau 1 et suivants) comprenne les deux, une
distribution de fréquence peut se construire indifféremment avec les ni ou les fi uniquement.
11
Nous observons qu'il a fait le plus souvent 35,6° comme température maximale au mois de
novembre à Ouagadougou entre 1960 et 1989 (35,6° a le plus gros effectif de la série).
Pour des variables statistiques continues, ei va représenter les extrémités des classes de valeurs du
caractère, et ni ou fi, ses fréquences, à l'image de l'exemple fourni par le tableau 3.
Tableau 3 Répartition des provinces du Burkina selon le nombre d'habitants (en milliers) en
1996
Le tableau 3 nous apprend que les provinces du Burkina qui avaient un nombre d'habitants compris
entre 150 000 et 200 000, et entre 200 000 et 250 000, en 1996, étaient les plus nombreuses (les
modalités [150, 200[ et [200, 250[ ont le plus gros effectif).
12
1.3 DISTRIBUTIONS DE FRÉQUENCES CUMULÉES
Les distributions de fréquences cumulées sont dérivées des distributions de fréquence. Elles ne
peuvent se calculer que pour des variables quantitatives. Il y en a deux types : les distributions de
fréquences cumulées croissantes et les distributions de fréquences cumulées décroissantes.
Pour toute valeur d'une variable, les distributions de fréquences cumulées croissantes (ou
distributions de fréquences cumulées "moins de") donnent la fréquence totale (absolue ou relative)
de toutes les valeurs qui sont strictement inférieures à cette valeur ; et les distributions de
fréquences cumulées décroissantes (ou distributions de fréquences cumulées "plus de") donnent la
fréquence totale (absolue ou relative) de toutes les valeurs qui sont supérieures ou égales à cette
valeur.
Température (xi) Effectif (ni) Effectif cumulé croiss. (N(xi)↑) Effectif cumulé décroiss. (N(xi)↓)
34,7 1 0 29
35,0 1 1 28
35,1 3 2 27
35,2 2 5 24
35,3 1 7 22
35,5 1 8 21
35,6 5 9 20
35,7 1 14 15
35,8 1 15 14
35,9 1 16 13
36,0 1 17 12
36,1 3 18 11
36,2 1 21 8
36,3 2 22 7
36,4 1 24 5
36,7 3 25 4
36,8 1 28 1
Total 29 29 0
Source : Tableau 2.
N(xi) représente les effectifs cumulés : N(xi)↑ pour les effectifs cumulés croissants et N(xi)↓ pour
les effectifs cumulés décroissants. La fonction N est appelée fonction cumulative ou fonction de
répartition et associe à tout xi de x, la fréquence cumulée N(xi). Concrètement, N(xi)↑ est l'effectif
i −1
des individus dont la valeur du caractère est strictement inférieure à xi : N(xi)↑ = ∑ ni ; N(xi)↓
i =1
étant l'effectif des individus dont la valeur du caractère est supérieure ou égale à xi : N(xi)↓ = n –
N(xi)↑.
En étudiant le tableau 4, et conformément à ces définitions, nous pouvons interpréter les effectifs
cumulés croissants suivants par exemple : N(34,7)↑ ; N(35)↑ ; N(35,8)↑; N(36,8)↑. En effet, le
premier signifie concrètement qu'aucune température maximale inférieure à 34,7° n'a été observée à
13
Ouagadougou entre 1960 et 1989, puisque N(34,7)↑ = 0. Le second signifie qu'une seule température
maximale inférieure à 35° a été enregistrée. Le troisième signifie que quinze températures
maximales inférieures à 35,8° ont été observées et le quatrième que vingt–huit inférieures à 36,8°
l'ont été. Et en considérant les fréquences cumulées décroissantes, nous disons par exemple que
toutes les températures maximales observées au mois de novembre à Ouagadougou entre 1960 et
1989 sont supérieures à 34,7° puisque N(34,7)↓ = 29.
On aurait pu calculer également les fréquences relatives cumulées, notées F(xi), avec F représentant
la fonction cumulative, et où F(xi)↑ est la proportion des individus dont la valeur du caractère est
strictement inférieure à xi, et F(xi)↓, celle des individus dont la valeur du caractère est supérieure
i− 1
ou égale à xi : F(xi)↑ = ∑ fi et F(xi)↓ = n – F(xi)↑.
i= 1
Considérons un cas où la variable statistique est continue ; dans ce cas, nous noterons les
fréquences cumulées par F(ei)↑ et F(ei)↓ (les définitions restant les mêmes). On peut également
utiliser les effectifs cumulés N(ei)↑ et N(ei)↓.
Interprétons F(40)↑, F(100)↑, F(1000)↑, et F(40)↓. F(40)↑ signifie qu'aucune province du Burkina
n'avait un nombre d'habitants inférieur à 40 000 habitants en 1996 puisque F(40)↑ = 0. F(100)↑
signifie que 11,11 % des provinces avaient un nombre d'habitants inférieur à 100 000 habitants.
F(1000)↑ signifie que toutes les provinces avaient un nombre d'habitants inférieur à 1000000
d'habitants. Enfin F(40)↓ signifie que toutes les provinces avaient un nombre d'habitants supérieur
ou égal à 40 000 habitants.
A travers ces deux exemples (tableaux 4 et 5), on voit que N(−∞)↑=F(−∞)↑=0 ; N(+∞)↑=n ; F(+∞)↑=1
; N(−∞)↓=n ; F(−∞)↓=1 et N(+∞)↓=F(+∞)↓=0 .
SECTION 2
REPRÉSENTATIONS GRAPHIQUES
Les représentations graphiques sont très utiles comme moyens de description. Elles ont souvent un
plus grand impact visuel qu'un tableau et peuvent aider à une meilleure compréhension des
données concernées.
Pour les variables qualitatives, les représentations possibles et courantes sont des tuyaux d'orgue
ou des secteurs circulaires.
Les tuyaux d'orgue sont des rectangles isolés correspondant à chaque modalité, dont la base est
constante et identique pour chaque modalité, et la hauteur proportionnelle à la fréquence de la
modalité. Les modalités sont marquées en abscisses et les fréquences en ordonnées (on peut utiliser
les effectifs ou plus simplement les fréquences, comme dans l'exemple donné au graphique 1).
Fréquence (fi) en
%
55
50
45
40
35
30
25
20
15
10
5
0
Sexe (xi)
Féminin Masculin
Source : Tableau 1.
Dans ce type de graphique, la hauteur des tuyaux d'orgue renseigne sur le poids de chaque
modalité. Ainsi, pour le graphique représenté, le tuyau d'orgue de la population féminine étant plus
haut que celui de la population masculine, nous dirons que la population féminine était plus
nombreuse que la population masculine au Burkina en 1996.
On remarquera avec cette illustration qu'un graphique doit avoir un titre, des axes clairement
gradués, une source, et éventuellement une légende.
Les secteurs circulaires sont des portions d'un cercle correspondant à chaque modalité, dont
l'angle θi est fonction de la fréquence de la modalité : θi = 360° × fi. Représentons la répartition de la
population du Burkina par sexe en 1996 sous forme de secteurs circulaires :
15
Graphique 2 Secteurs circulaires de la répartition de la population du Burkina par sexe en 1996
Masculin
48,20% Féminin
51,80%
Source : Tableau 1.
La surface des secteurs indique le poids de chaque modalité. θ1 = 186,48° (féminin) > θ2 = 173,52°
(masculin), cela signifie que les femmes étaient plus nombreuses que les hommes au Burkina en
1996.
Pour les variables quantitatives, on peut représenter soit un diagramme différentiel, soit un
diagramme intégral, soit un box–plot ou boîte à moustaches. Le diagramme différentiel est
toujours la représentation graphique d'une distribution de fréquence tandis que le diagramme
intégral est celle d'une distribution de fréquence cumulée.
Pour les variables statistiques discrètes, le diagramme différentiel prend le nom de diagramme en
bâtons et le diagramme intégral, celui de fonction en escalier. Pour les variables continues, le
diagramme différentiel est un histogramme et le diagramme intégral, une courbe cumulative.
Notons qu'une fonction en escalier peut être également appelée courbe cumulative.
Un diagramme en bâtons est un ensemble de barres verticales (bâtons) correspondant aux valeurs
de la variable et dont la hauteur est proportionnelle à la fréquence de la valeur considérée. Les
valeurs de la variable sont notées en abscisses et les fréquences (ou effectifs) en ordonnées. Le
graphique 3 nous en donne un exemple.
E ffe c tif ( n i )
5
4
3
1
0 T e m p é r a tu r e ( x i )
3 4 ,6 3 4 ,8 35 3 5 ,2 3 5 ,4 3 5 ,6 3 5 ,8 36 3 6 ,2 3 6 ,4 3 6 ,6 3 6 ,8 37
Source : Tableau 2.
16
La hauteur d'un bâton indique le poids d'une valeur dans la population étudiée. On déduit par
conséquent du graphique représenté que la température maximale la plus fréquente au mois de
novembre à Ouagadougou entre 1960 et 1989 est 35,6° (cette température a le bâton le plus haut).
Le graphique 4 montre que la fonction en escalier est un graphique représentant un escalier dont
les paliers sont des barres horizontales correspondant à chaque valeur de la variable. Pour chaque
valeur xi, un palier est tracé entre elle et la valeur qui lui est inférieure, au niveau de la fréquence
cumulée (ou l'effectif cumulé) qui lui correspond. Le premier palier se situe au niveau de la
fréquence cumulée 0 et va de la première valeur de la série à − ∞ . Le dernier palier se situe au
niveau de la fréquence cumulée 1 ou n et va de la dernière valeur à + ∞ . Les valeurs sont portées en
abscisses et les fréquences cumulées (ou les effectifs cumulés) en ordonnées.
Effectifs cumulés
croissants N(xi)
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
Température (xi)
34,7 34,9 35,1 35,3 35,5 35,7 35,9 36,1 36,3 36,5 36,7
Source : Tableau 4.
En considérant chaque valeur xi et le palier qui lui correspond, on peut déterminer l'effectif total ou
la proportion des individus de la population concernés par les valeurs inférieures à xi. Par exemple,
le premier palier signifie ici qu'il n'a jamais fait moins de 34,7° comme température maximale au
mois de novembre à Ouagadougou entre 1960 et 1989, puisque ce palier qui correspond à 34,7° se
situe au niveau de l'effectif cumulé 0. De même, nous dirons qu'il a fait quinze fois moins de 35,8°
comme température maximale au mois de novembre à Ouagadougou entre 1960 et 1989, etc.
L'histogramme est une série de rectangles qui se touchent, dont la base correspond à l'amplitude
d'une classe de valeurs (notées en abscisses) et la hauteur à la fréquence ou l'effectif de la classe (en
ordonnées) lorsque les classes ont la même amplitude. Lorsque les classes ont des amplitudes
différentes, à la place des fréquences ou des effectifs, on utilise les fréquences corrigées ou les
effectifs corrigés ou encore la densité.
L'amplitude d'une classe est notée ai : ai = ei+1 – ei ; c'est la taille de la classe. La fréquence corrigée est
notée fic = afii a ic où aic est l'amplitude commune (l'amplitude dominante) ou la plus petite amplitude
(quand il n'y a pas d'amplitude commune). L'histogramme peut également être tracé avec les
effectifs corrigés nic = na ii a ic , les densités de fréquences di = afii , ou celles des effectifs di = na ii .
Fréquence corrigée
(fic) en %
25
20
15
10
La hauteur des rectangles détermine le poids des classes de valeur. Nous pouvons donc dire que les
provinces qui ont un nombre d'habitants compris entre 150 000 et 200 000 et entre 200 000 et 250
000 sont les plus fréquentes (classes ayant les rectangles les plus hauts de l'histogramme).
Remarque : Parfois, les extrémités de la première et/ou de la dernière classe ne sont pas précisées.
Dans ces cas, on peut les préciser soit en tenant compte des valeurs possibles que la variable peut
prendre, soit en appliquant à ces classes l'amplitude commune, soit en leur appliquant l'amplitude
de la classe qui les suit (pour la première classe) ou qui les précède (pour la dernière classe).
Une courbe cumulative est une courbe régulière passant par les points (ei, F(ei)) où les ei sont les
extrémités de classe en abscisses et les (F(ei)), les fréquences cumulées en ordonnées.
Les deux courbes représentées au graphique 6 sont les courbes des fréquences cumulées croissantes
et décroissantes (il n'est pas nécessaire de tracer les deux courbes). Elles se coupent quand F(ei) =
50 %.
18
Graphique 6 Courbes cumulatives de la répartition des provinces du Burkina selon le nombre
d'habitants (en milliers) en 1996 (variable continue)
Fréquences cumulées
F(ei) en %
100
90
80
70
60
50
40
30
20
10
0 Classe d'habitants (ei)
0 100 200 300 400 500 600 700 800 900 1000
Source : Tableau 5.
Il est également possible d'utiliser les effectifs cumulées, N(ei), pour construire une courbe
cumulative.
On peut déduire du graphique 6 qu'une moitié des provinces du Burkina avait un nombre
d'habitants inférieur à environ 200 000 habitants en 1996, puisque F(200) ≈ 50 %.
La box–plot ou boîte à moustaches est la représentation graphique d'un rectangle sur un axe
horizontal ou vertical. Sa construction passe par les étapes suivantes : tracer l'axe et le graduer de la
valeur minimale de la variable étudiée à sa valeur maximale ; tracer un rectangle de largeur
arbitraire qui s'allonge du premier quartile au troisième quartile ; tracer une ligne à l'intérieur du
rectangle, au niveau de la médiane3 ; tracer une ligne qui part de la valeur minimale jusqu'au milieu
du côté du rectangle correspondant au premier quartile ; enfin, tracer une autre ligne qui part du
milieu du côté du rectangle correspondant au troisième quartile jusqu'à la valeur maximale.
Dessinons le box–plot de la répartition des provinces du Burkina selon le nombre d'habitants. Les
quartiles ont préalablement été calculés et nous avons Q1 = 139,06, Me = 197,50 et Q3 = 257,52.
Q1 Me Q3
40 100 160 220 280 340 400 460 520 580 640 700 760 820 880 940 1000
3
La médiane, Me, les premier et troisième quartiles, Q1 et Q2, sont des valeurs particulières de la variable. Ils sont définis
au chapitre II.
19
Le box–plot permet de comparer facilement plusieurs distributions statistiques selon les valeurs
particulières qui le caractérisent (valeur minimale, premier quartile, médiane, troisième quartile,
valeur maximale), et d'illustrer leur dispersion en mettant en évidence l'intervalle interquartile et
l'étendue4 de chacune d'elles.
Ainsi le box–plot que nous venons de dessiner indique une faible dispersion de la répartition
étudiée, puisqu'il est relativement petit.
Après avoir présenté les données statistiques (tableaux et graphiques), on est souvent amené à
déterminer des paramètres de population. Ce sont des modalités ou valeurs qui permettent de
caractériser une population. Déterminés ou calculés généralement à partir de l'ensemble des valeurs
observées, ils en résument plus ou moins bien sa structure. Ils peuvent fournir une mesure et une
description convenables des différences entre et à l'intérieur des populations étudiées. Ils sont de
quatre sortes : les paramètres de tendance centrale, de dispersion, de concentration, et de forme.
Nous allons les étudier à travers les chapitres II et III.
4
Nous développerons également ces notions au chapitre II.
20
CHAPITRE II
LES PARAMÈTRES DE TENDANCE CENTRALE ET DE DISPERSION
SECTION 1
LES PARAMÈTRES DE TENDANCE CENTRALE OU PARAMÈTRES DE POSITION
Lorsque l'on veut déterminer une modalité représentative de la population étudiée, l'on calcule un
paramètre de tendance centrale, appelé aussi paramètre de position, car il met en évidence la
modalité qui apparaît le plus souvent ou celle qui est la plus proche de toutes les modalités. Les
plus courants sont le mode, la médiane, et la moyenne arithmétique. Selon les cas, certains sont
plus appropriés que d'autres.
1.1 LE MODE
Le mode, Mo, est la modalité la plus fréquente. Il est le seul paramètre que l'on puisse déterminer
lorsque la variable étudiée est qualitative. Il est aussi le paramètre le plus significatif dans les cas où
les individus sont très différents les uns des autres du point de vue du caractère étudié.
Graphiquement, le mode est la modalité qui correspond au sommet des tuyaux d'orgue ou au
secteur circulaire le plus grand (caractère qualitatif), la valeur qui correspond au sommet du
diagramme en bâtons (variable statistique discrète) ou la classe qui correspond au sommet de
l'histogramme (variable statistique continue).
En prenant le tableau 1 et les graphiques 1 et 2, Mo = Féminin puisque n1 est le plus grand effectif (⇔
f1 est la plus grande fréquence). Ce qui signifie qu'en 1996 au Burkina, les femmes étaient les plus
nombreuses.
Lorsque la variable étudiée est continue, le mode correspond rigoureusement à une classe : la classe
modale. Il est néanmoins possible de calculer le centre de la classe modale pour déterminer une
valeur unique comme mode5. Par ailleurs, dans les cas où les amplitudes sont différentes, l'on doit
corriger les fréquences (calculer les fréquences corrigées ou les densités) pour déterminer le mode6.
Ainsi, pour la distribution des provinces du Burkina selon le nombre d'habitants en 1996, il y a deux
classes modales : [150, 200[ et [200, 250[ (voir graphique 5). Ce qui signifie que la majorité des
provinces du Burkina avaient un nombre d'habitants compris entre 150 000 et 200 000, et entre 200
000 et 250 000 en 1996.
On remarque ainsi que le mode n'est pas toujours un paramètre pertinent, notamment quand il y a
en a plusieurs (distributions bimodales (deux modes), plurimodales (plusieurs modes)) ou quand
5
Le centre d'une classe est notée ci : ci = e i + e i + 1 . C'est le milieu de la classe.
2
6
L'on notera que l'utilisation des fréquences corrigées ou des densités ne se fait que dans ces deux cas : construction de
l'histogramme ou détermination du mode.
21
la majorité qui le caractérise n'est pas très forte. Par plus, il dépend souvent du regroupement des
valeurs en classes.
1.2 LA MÉDIANE
La médiane, Me, se définie comme la valeur de la variable qui divise en deux parties égales les
valeurs observées rangées par ordre croissant ou décroissant. Elle est ainsi définie de sorte que 50 %
des valeurs lui soient inférieures et 50 % lui soient supérieures ou égales. Par conséquent,
mathématiquement, Me est telle que F(Me) = 50 % (⇔ N(Me) = n ).
2
Quand la variable étudiée est continue, Me appartient à une classe appelée classe médiane, et est
déterminée par interpolation linéaire : Me ∈ [ei, ei+1[ (classe médiane) tel que F(ei) < 50 % < F(ei+1)
n −N(ei )
n 50−F(ei )
(⇔ N(ei) < < N(ei+1)). D'où Me = ei +(ei + 1 −ei) F(ei + 1)−F(ei ) (⇔ Me = e i +(ei + 1 −ei ) N(e2 ) N(e ) ).
2 i+1 − i
Considérons la distribution des fréquences cumulées des provinces du Burkina selon le nombre
d'habitants en 1996 (tableau 5). Nous voyons que Me ∈ [150, 200[ puisque F(Me) = 50 % est
compris entre F(150) = 28,89 % et F(200) = 51,11 %. Alors, par interpolation linéaire, Me =
50 − 28,89
150 +(200− 150) = 197,5 milliers d'habitants. Cela signifie que 50 % des provinces du
51,11−28,89
Burkina avaient une population inférieure à 197 500 habitants et 50 % une population supérieure ou
égale à 197 500 habitants en 1996.
1.3 LA MÉDIALE
La médiale, Ml, divise en deux parties égales des quantités ou valeurs globales.
Elle se détermine comme la médiane, mais avec le calcul des fréquences des valeurs globales notées
fi' et de leurs fréquences cumulées notées F(ei)' ou F(xi)'.
i −1
Ainsi, quand la variable étudiée est discrète, f i' = kni xi , F(xi)' = ∑ fi ' , et Ml = xi si F(xi)' < 50 % <
i =1
∑ ni x i
i=1
F(xi+1)' ou Ml = [xi, xi+1[ si F(xi+1)' = 50 %.
22
i −1
Quand la variable étudiée est continue, fi' = kni ci , F(ei)' = ∑ fi ' , et Ml ∈ [ei, ei+1[ (classe médiale)
i =1
∑n i c i
i =1
50 − F(e i )'
tel que F(ei)' < 50 % < F(ei+1)'. D'où Ml = e i +(e i + 1 − e i ) .
F(e i + 1)'−F(e i )'
Tableau 6 Répartition des salaires (en milliers de FCFA) dans une entreprise au Burkina
Après calculs, nous trouvons que le salaire médial Ml = 153 346 FCFA. Ce qui signifie que les salariés
dont le salaire est inférieur à 153 346 totalisent (ensemble) une moitié de la masse salariale totale de
l'entreprise, et les salariés dont le salaire est supérieur ou égal à 153 346 totalisent (ensemble)
l'autre moitié. La médiale sépare donc la masse salariale de l'entreprise en deux montants égaux.
Cette signification est différente de celle de la médiane qui indique qu'une moitié des salariés ont
un salaire inférieur à la médiane, et l'autre moitié, un salaire supérieur ou égal à la médiane : ici, Me =
89 504 FCFA.
Dans cet exemple, la médiale est supérieure à la médiane. Cette inégalité est une propriété générale :
Ml ≥ Me. En effet, pour que la masse salariale des salariés qui ont les plus petits salaires soit égale à
la masse salariale de ceux qui ont les salaires les plus élevés, il faut que l'effectif de la première
catégorie de salariés soit supérieur à celui de la seconde catégorie de salariés. Ce qui entraîne que la
valeur qui permet ce partage, la médiale, soit supérieure à la valeur qui permet le partage de l'effectif
total en deux parties égales, c'est–à–dire la médiane.
Nous avons vu que la médiane est la valeur en dessous de laquelle 50 % des valeurs sont situées. De
façon générale, un quantile d'ordre α, que nous noterons xα, est une valeur en dessous de laquelle
un pourcentage α de valeurs sont situées. Par conséquent, F(xα) mesure la proportion α des
individus qui possèdent les valeurs xi inférieure à xα.
Mathématiquement, xα est tel que F(xα) = α (⇔ N(xα) = αn). Et, pour une série continue, quand on
α − F(e i )
a F(ei) < α < F(ei+1), cela implique que xα ∈ [ei, ei+1[ ; d'où xα = e i +(e i + 1 − e i ) (interpolation
F(e i + 1 )−F(e i )
23
linéaire). Pour une série discrète, on peut également déterminer les quantiles en utilisant le
processus appliqué à la détermination de la médiane.
Nous déduisons de cette définition que x0,5 = Me : le quantile d'ordre 0,5 est la médiane.
Les quantiles d'ordre 0,25, x0,25 ; d'ordre 0,5, x0,5 ; et d'ordre 0,75, x0,75 ; sont appelés quartiles et
divisent la population en quatre parties égales. Ils sont aussi notés Q1, Q2 et Q3. D'où F(Q1) = 25 %,
F(Q2) = 50 % et F(Q3) = 75 %.
Les quantiles d'ordre 0,1, x0,1 ; d'ordre 0,2, x0,2 ; … ; et d'ordre 0,9, x0,9 ; sont appelés déciles et
divisent la population en dix parties égales. Ils sont aussi notés D1, D2,…, et D9. D'où F(D1) = 10 %,
F(D2) = 20 %,…, et F(D9) = 90 %.
Les quantiles d'ordre 0,01, x0,01 ; d'ordre 0,02, x0,02 ; … ; et d'ordre 0,99, x0,99 ; sont appelés centiles et
divisent la population en cent parties égales. Ils sont aussi notés C1, C2,…, et C99. D'où F(C1) = 1 %,
F(C2) = 2 %,…, et F(C99) = 99 %.
Enfin, puisque F(x0,5) = F(Me) = F(Q2) = F(D5)= F(C50) = 50 %, alors x0,5 = Me = Q2 = D5 = C50, lorsque
la série concernée est continue. Dans les cas où la série est discrète, x0,5 est la valeur qui est
supérieure à la médiane ou la borne supérieure de l'intervalle médian.
1.5 LA MOYENNE
La moyenne est une valeur calculée à partir de toutes les valeurs observées. Elle est la valeur type,
représentative de toutes les valeurs. Lorsque ces valeurs ne sont pas très différentes les unes des
autres, elle fournit un très bon résumé des caractéristiques de la population étudiée. La moyenne la
plus couramment utilisée est la moyenne arithmétique. Mais dans certains cas, les moyennes
géométrique, harmonique ou quadratique seront plus appropriées.
La moyenne arithmétique, x , est la somme de toutes les valeurs observées divisée par le nombre
total de ces valeurs :
k
∑ ni x i k
x= i=1
n
(⇔ x = ∑fixi )7
i =1
Cette définition suppose que la moyenne arithmétique ne peut se calculer que lorsque l'addition
des valeurs a une signification concrète.
Calculons le nombre moyen d'habitants ( x ) par province au Burkina en 1996 (tableau 3).
7
Quand le caractère est continu, on utilise les centres de classe, ci, à la place des xi.
24
ei ni ci nici
[40, 100[ 5 70 350
[100, 150[ 8 125 1000
[150, 200[ 10 175 1750
[200, 250[ 10 225 2250
[250, 300[ 5 275 1375
[300, 500[ 5 400 2000
[500, 1000[ 2 750 1500
Total 45 – 10225
k k
G = n ∏ xi n i (⇔ G = ∏ xi fi )
i =1 i =1
Considérons par exemple l'évolution du PIB du Burkina de 1987 à 1992. Nous avons calculé, au
tableau 7, ses multiplicateurs annuels (ou accroissements relatifs) que nous noterons par xi.
Démontrons que ce multiplicateur annuel moyen est une moyenne géométrique. Soient P87, …, P92
les PIB de 1987 à 1992. Nous pouvons alors écrire que P92 = P91 × 1,01 = P90 × 1,04 × 1,01 =
P89 × 0,99 × 1,04 × 1,01 = P88 × 1,07 × 0,99 × 1,04 × 1,01 = P87 × 1,09 × 1,07 × 0,99 × 1,04 × 1,01. Si G est le
8
Le taux de croissance d'une variable V qui prend à un point de départ une valeur V0 et à un point d'arrivée une valeur
Vt, est égal au rapport Vt − V0 (⇔ Vt − 1 ). Il mesure l'évolution de V dans le temps en donnant sa variation relative. Le
V0 V0
rapport Vt est appelé multiplicateur ou facteur de croissance.
V0
25
multiplicateur annuel moyen, nous pouvons aussi écrire que P92 = P91 × G = P90 × G × G =
P89 × G × G × G = P88 × G × G × G × G = P87 × G × G × G × G × G = P87 × G5. Nous aurons par conséquent
l'égalité : P87 × 1,09 × 1,07 × 0,99 × 1,04 × 1,01 = P87 × G5 de laquelle nous déduisons que G =
5 1,09×1,07 ×0,99×1,04×1,01 . Ce qui est bien une moyenne géométrique.
La moyenne harmonique, H, est l'inverse de la moyenne arithmétique des inverses des valeurs
observées :
H= n (⇔ H = 1 )
k k
∑ ni ∑ fi
i= 1 xi i= 1 xi
Cette moyenne est généralement utilisée pour calculer la valeur moyenne d'un ensemble de valeurs
dont l'unité est exprimée en fonction d'une autre unité (km/h, F/kg, F/actions, etc.).
Calculons la valeur moyenne par tonne des produits donnés par le tableau 8.
La valeur moyenne de ces cinq types de produits en FCFA/tonne peut se calculer en utilisant la
moyenne harmonique. En effet, cette valeur étant égale à la valeur globale totale des cinq produits
divisée par le volume total des cinq produits (en tonne), peut s'écrire H = k n si nous la notons H
∑ ni
i= 1 xi
et si nous posons xi, la valeur par tonne de chaque produit et ni, la valeur globale de chaque produit.
16107200000
Donc H = 5281400000 56600000 5676300000 = 306 652 FCFA/tonne. Ce
+ + + 453600000+ 4639300000
38017 87077 247043 830769 320815
qui signifie qu'en moyenne, un produit industriel parmi ces cinq types de produits valait 306 652
FCFA la tonne.
Il est également possible de calculer cette valeur moyenne en utilisant la moyenne arithmétique. Il
suffit pour cela de poser xi, la valeur par tonne de chaque produit et ni, la quantité en tonne de
k
∑ ni x i
i=1
chaque produit, pour obtenir qu'elle est égale à
n
.
La moyenne quadratique, Q, est la racine carrée de la moyenne arithmétique des carrés des valeurs
observées :
26
k 2 k
Q = ∑ ninx i (⇔ Q = ∑fixi 2 )
i=1 i =1
On l'utilise quand l'on désire que la moyenne soit positive, ou encore dans le calcul d'une moyenne
des écarts à une valeur centrale, afin de ne pas avoir à travailler avec des valeurs négatives.
(−3)2 + 02 + 52 + 82
Ainsi, pour les quatre températures –3° ; 0° ; 5° ; 8° ; Q = = 4,95°.
4
Propriété 1. La moyenne arithmétique est linéaire. En effet, pour deux séries statistiques (xi, ni)
et (yi, ni), si xi = ayi + b où a et b sont des réels, alors x = a y + b.
k k k k
∑ni x i ∑ ni(ay i + b) a ∑ ni y i + b ∑ni
Cette propriété se démontre facilement : x = i =1
n
= i =1
n
= i =1
n
i = 1 =ay + b .
On pourra s'exercer à (re)calculer le nombre moyen d'habitants par province au Burkina en 1996
par un changement de variable. (Indication : poser a = 50 (amplitude commune) et b = 197,5
(médiane).)
Propriété 3. La moyenne des différences à la moyenne est nulle. En effet, pour toute série
k
∑ ni(x i −x)
statistique (xi, ni), i =1 =0 .
n
k k k
∑ ni(x i −x) ∑ni x i ∑ni
La preuve en est la suivante : i =1 n = i =1
n
− x i = 1 = x − x =0 .
n
Propriété 4. La moyenne est la valeur la plus proche de toutes les observations. En raison de la
propriété 3, et parce qu'elle est la valeur qui minimise la moyenne des écarts à tout réel non nul a.
Propriété 6. Pour toute série statistique (xi, ni), l'inégalité suivante est vérifiée : H < G < x < Q.
SECTION 2
LES PARAMÈTRES DE DISPERSION
La dispersion s'entend de la variabilité des individus d’une population, c’est–à–dire des différences
ou écarts existant entre les individus d'une population. Pour la mesurer, on peut utiliser l'étendue
ou les intervalles interquartile, interdécile ou intercentile, d’une part ; la variance, l'écart–type
ou le coefficient de variation, d’autre part.
Les premiers sont souvent difficiles à interpréter et ne donnent pas forcément une bonne mesure de
la dispersion, car ils ne prennent pas en compte toutes les valeurs. Les seconds prennent en compte
toutes les valeurs et donnent, par conséquent, une mesure plus juste de la dispersion.
Plus les écarts entre les valeurs seront grands, plus le paramètre de dispersion le sera et nous dirons
que la dispersion est forte. Dans les cas contraires, nous dirons qu'elle est faible. En cas de forte
dispersion, nous pourrons déduire que la moyenne de la population étudiée n'est pas significative
ou représentative de ladite population. Une moyenne est représentative de la population étudiée
lorsque les individus de cette population ne sont pas très différents les uns des autres (lorsque sa
dispersion est faible).
2.1 L'ÉTENDUE
L'étendue (w) d'une série statistique est la différence entre la plus grande valeur et la plus petite :
w = xk – x 1
Nous calculons immédiatement l'étendue de la série des provinces du Burkina selon le nombre
d'habitants en 1996 (tableau 2) : w = 1000 – 40 = 960 milliers d'habitants. Nous interprétons ce
résultat en disant qu'il y avait 960 000 habitants de différence entre la plus petite province du
Burkina et la plus grande en 1996, et, sur cette base, nous concluons que la dispersion du nombre
d'habitants par province au Burkina en 1996 était forte.
IQ = Q3 – Q1
ID = D9 – D1
Ces intervalles mesurent l'écart entre les 25 % plus petites valeurs et les 25 % plus grandes pour IQ,
entre les 10 % plus petites valeurs et les 10 % plus grandes pour ID, et entre les 1 % plus petites
valeurs et les 1 % plus grandes pour IC.
Dans tous les cas, ils mesurent la dispersion autour de la médiane, et ils contiennent 50 % de la
population étudiée pour IQ, 80 % pour ID et 98 % pour IC.
En considérant la série des provinces du Burkina selon le nombre d'habitants en 1996, nous
trouvons :
o au moins 118 460 habitants d'écart entre les 25 % provinces les moins peuplées du Burkina en
1996 et les 25 % provinces les plus peuplées ;
o au moins 306 080 habitants d'écart entre les 10 % provinces les moins peuplées du Burkina en
1996 et les 10 % provinces les plus peuplées ;
o au moins 842 240 habitants d'écart entre les 1 % provinces les moins peuplées du Burkina en
1996 et les 1 % provinces les plus peuplées.
Ces écarts étant considérables, on peut conclure que la dispersion du nombre d'habitants par
province au Burkina en 1996 était forte.
2.3 LA VARIANCE
La variance, que nous noterons σ2 ou V(x), est la moyenne arithmétique du carré des écarts à la
moyenne :
k
∑ n i(x i − x)2 k
σ2 = i =1
(⇔ σ2 = ∑ fi(x i − x)2 )
n i =1
Nous déduisons de cette première formule de la variance une formule plus pratique pour les calculs
:
k 2
2
∑n i x i 2 2 k 2
σ = i =1
n
− x (⇔ σ = ∑fix i2 −x )
i =1
k k 2 k k 2k k 2 2 k 2
En effet, σ2 = ∑fi(x i − x) 2 = ∑ fi(xi2 −2xxi − x ) = ∑ fi xi2 −2x ∑fi xi −x ∑fi = ∑fi xi2 −2x + x = ∑fixi2 −x .
i =1 i =1 i= 1 i =1 i =1 i= 1 i =1
k
Nous avons par conséquent aussi : σ2 = Q2 – x 2 puisque Q = ∑fi xi2 .
i =1
Cette deuxième formule de la variance, connue sous le nom de relation ou théorème de König–
Huygens, permet d'éviter de propager tout le long du calcul de la variance, les erreurs d'arrondis
29
éventuelles qui découleraient du calcul de la moyenne. Parfois, il vaut mieux donc l'utiliser.
Etudions, à l'aide de la variance, la dispersion des provinces du Burkina selon le nombre d’habitants
en 1996.
Nous commençons pour cela par établir un tableau des calculs qui nous permettra de calculer la
variance de cette distribution. Ce tableau des calculs s’établit en complétant par une colonne des
nici2, le tableau des calculs qui a permis de calculer la moyenne arithmétique :
ei ni ci nici nici2
[40, 100[ 5 70 350 24500
[100, 150[ 8 125 1000 125000
[150, 200[ 10 175 1750 306250
[200, 250[ 10 225 2250 506250
[250, 300[ 5 275 1375 378125
[300, 500[ 5 400 2000 800000
[500, 1000[ 2 750 1500 1125000
Total 45 – 10225 3265125
Comme l’indique ce résultat, la variance n'a pas d'unité. En réalité, elle devrait être mesurée dans
l'unité au carré de la variable. Ce qui n'aurait pas toujours de sens. Son interprétation est alors
difficile. C’est pour cette raison que nous préférerons utiliser l’écart–type, qui est mesuré dans
l'unité de la variable, pour pouvoir apprécier directement la dispersion d'une série.
2.4 L'ÉCART–TYPE
L'écart–type est la racine carrée de la variance. Il s’écrit donc σ et prend l'unité de la variable
étudiée. On l'appelle aussi écart quadratique moyen puisqu'il est la moyenne quadratique des
écarts à la moyenne.
Pour la répartition des provinces du Burkina selon le nombre d’habitants en 1996, σ = 20928,40 =
144,667 milliers d’habitants.
Considérant cette valeur élevée de l’écart–type, nous pouvons dire que la dispersion des provinces
du Burkina selon le nombre d’habitants en 1996 était forte.
σ
x
C'est donc un nombre sans dimension qui le rend approprié pour les comparaisons de dispersion
entre distributions différentes. Nous l’exprimons de préférence en pourcentage pour une
appréciation plus immédiate de la dispersion.
30
Par exemple, le coefficient de variation de la série des provinces du Burkina selon le nombre
d’habitants en 1996 étant de 63,67 % (= 144,667 ), nous confirmons que cette série est fortement
227,222
dispersée.
aσ y
o σx = .
x ay + b
Les seconde et troisième relations découlant de la première, nous nous contenterons de démontrer
la première :
k 2 k 2 2 k
σ x 2 = ∑ fi(x i − x) 2
= i∑= 1fi[(ay i + b)−(ay + b)] = a i∑= 1fi(y i − y) = a σ y .
2 2
i =1
A titre d’exercice, pour la série des provinces du Burkina selon le nombre d’habitants en 1996, l’on
pourra calculer la variance par changement de variable et vérifier les relations que nous venons
d’établir.
31
CHAPITRE III
LES PARAMÈTRES DE CONCENTRATION ET DE FORME
Nous étudions dans ce chapitre, les deux autres paramètres de population que sont les
paramètres de concentration et de forme (voir conclusion du chapitre I sur les paramètres de
population).
SECTION 1
LES PARAMÈTRES DE CONCENTRATION
Bien que la notion de concentration soit différente de celle de dispersion, les deux phénomènes
varient dans le même sens. A une grande dispersion des valeurs xi, correspond obligatoirement une
forte concentration. De plus, les paramètres de concentration que sont l'écart entre la médiale et
la médiane, la courbe de Lorenz et l'indice de Gini, s'interprètent comme les paramètres de
dispersion : le degré de concentration est positivement lié à leur valeur.
La différence entre la médiale et la médiane, Ml – Me, donne une idée de la concentration d’une
distribution. Lorsque cette différence est grande par rapport à l'étendue, on dira que la
concentration est forte, et lorsqu'elle est petite, on dira que la concentration est faible. Cette
comparaison est vite obtenue en calculant le rapport Ml −Me (qui est forcément compris entre 0 et
w
1).
Dans les cas où la médiane est égale à la médiale (Ml – Me = 0), on dira que la concentration est
nulle. La distribution étudiée est alors qualifiée de distribution égalitaire : tous les xi sont égaux.
Pour la répartition des salaires d’une entreprise au Burkina (tableau 6), nous avons déjà trouvé que
Me = 89 504 et Ml = 153 346. Donc Ml −Me = 63842 = 13,58 %. Ce pourcentage étant faible, nous
w 470000
concluons que la concentration des salaires dans cette entreprise est faible.
La courbe de concentration appelée aussi courbe de Lorenz est la courbe régulière passant par les
points de coordonnées (F(ei)', F(ei)) (voir chapitre II, section 1, point 1.3, pour la définition de
F(ei)').
Traçons la courbe de concentration de la série des salaires d’une entreprise au Burkina (tableau 6).
ei ni fi % pi % nici f i' % qi %
[30, 100[ 10 58,82 0 650 30,95 0
[100, 200[ 5 29,41 58,82 750 35,71 30,95
[200, 500[ 2 11,76 88,23 700 33,33 66,66
Total 17 100 100 2100 100 100
32
Graphique 8 Courbe de Lorenz des salaires d'une entreprise au Burkina (tableau 6)
pi en %
100
90
80
70
60
50
40
30
20
10
0 qi en %
0 10 20 30 40 50 60 70 80 90 100
Pour une série peu concentrée, la surface comprise entre la courbe de Lorenz et la première
bissectrice (droite d'équation pi = qi) est petite. Pour une série très concentrée, cette surface est
grande. Pour une concentration nulle, la courbe de Lorenz et la première bissectrice sont
confondues.
Dans notre exemple, l'aire entre la première bissectrice et cette courbe de concentration n’est pas
grande. Nous pouvons par conséquent affirmer que la concentration des salaires dans cette
entreprise n'est pas forte.
L'indice de Gini, noté i, est égal au double de l'aire comprise entre la courbe de concentration et la
première bissectrice. Il se calcule selon la formule suivante :
k
i = 1 – ∑ fi(qi + qi+1)
i=1
Calculons l'indice de Gini pour la répartition des salaires d'une entreprise au Burkina (tableau 6).
Nous complétons le tableau de calculs utilisé pour tracer la courbe de Lorenz en calculant les (qi +
qi+1) et fi(qi + qi+1) :
Donc i = 1 – 0,6651 = 33,49 %. Ce faible pourcentage relatif confirme que la concentration des salaires
n’est pas forte.
33
SECTION 2
LES PARAMÈTRES DE FORME
Pour caractériser la forme d'une distribution, c'est–à–dire pour préciser l'allure de la courbe des
fréquences relativement à son asymétrie et à son aplatissement, nous utiliserons des paramètres
calculés à partir de valeurs appelées moments, dont la moyenne arithmétique et la variance, par
exemple, sont des cas particuliers.
Un moment est une moyenne des écarts par rapport à un réel "a" élevés à une puissance "r", r étant
un entier naturel.
k
∑ n i(x i −a)r k
mr(a) = i =1
(⇔ mr(a) = ∑ fi(x i −a)r )
n i =1
k r
∑n i x i k
mr = i =1
n
(⇔ mr = ∑fi xir )
i =1
k
∑ n i(x i − x)r k
µr = i =1
(⇔ µr = ∑fi(x i − x) r )
n i =1
Remarques : m0 = 1 ; m1 = x ; m2 = Q2 ; µ0 = 1 ; µ1 = 0 ; µ2 = σ2 = m2 – m12.
Il existe des relations entre les moments centrés et les moments non centrés. Elles sont données par
les deux formules suivantes :
r −2
o µr = ∑ (– 1)αCrαm1αmr –α + (– 1)r –1(r – 1)m1r
α =0
r −2
o m r = ∑ Crαµr–αm1α + m1r.
α =0
µ3 = m3 – 3m1m2 + 2m13
µ4 = m4 – 4m3m1 + 6m2m12 – 3m14.
Pour calculer les moments centrés d’une variable x, notés µr(x), il est pratique de passer par les
quatre étapes suivantes :
3) Calculer les moments centrés de la variable y, notés µr(y), à partir des relations entre moments
centrés et moments non centrés.
4) Déduire les moments centrés de la variable x, µr(x), à partir de la relation µr(x) = arµr(y)9.
Une distribution statistique est symétrique si les observations, repérées par leurs fréquences sont
également dispersées de part et d'autre d'une valeur centrale. Si la distribution est unimodale, alors
x = M0 = Me, comme le montre le graphique 9.
fi
x = M0 = Me xi
Une distribution non symétrique est dite asymétrique. Elle est asymétrique à droite quand M0 < Me
< x (voir graphique 10), et asymétrique à gauche quand x < Me < M0 (voir graphique 11).
fi
M0 Me x xi
9
Cette relation vient de la généralisation de la relation entre variances : σx2 = a2σy2 (voir chapitre II).
35
Graphique 11 Courbe de fréquences pour une distribution asymétrique à gauche
fi
x Me M0 xi
Pour mesurer l'asymétrie, nous utiliserons un certain nombres de coefficients d'asymétrie qui sont
des nombres sans dimension, permettant les comparaisons. Ces coefficients sont généralement
valables que si la distribution contient un nombre assez élevé d'observations, et qu'elle ne présente
pas plusieurs modes.
Quand S1 = 0, la distribution concernée est dite symétrique. Sinon, elle asymétrique à droite
(étalement des observations vers la droite) : cas où 0 < S1 < 1, ou asymétrique à gauche (étalement des
observations vers la gauche) : cas où – 1 < S1 < 0.
S2 s’interprète comme S1, et n'est valable que pour des distributions faiblement asymétriques.
Dans ce cas, nous énonçons la relation suivante appelée relation empirique de Pearson :
( x – M0) = 3( x – Me)
µ32 µ32
β1 = (⇔ β 1 = ) avec β 1 ≥ 0.
µ 23 σ6
Quand β1 = 0, la distribution concernée est symétrique. Dans le cas contraire, elle est faiblement
36
asymétrique (β1 petit) ou fortement asymétrique (β1 grand).
Le sens de l'asymétrie est donné par le signe de µ3. En effet quand µ3 > 0, la distribution est
asymétrique à droite, et quand µ3 < 0, elle est asymétrique à gauche. Pour µ3 = 0, la distribution est
symétrique puisque β1 = 0 quand µ3 = 0. Par conséquent, le troisième moment centré est également
un coefficient d'asymétrie. Il ne permet cependant pas les comparaisons.
Il est noté γ1 :
µ3 µ3
γ1 = (⇔ γ1 = , ou encore γ1 = ± β 1 )
µ23 σ3
Quand γ1 = 0, la distribution concernée est symétrique. Autrement, elle est asymétrique à droite (γ1 >
0), ou asymétrique à gauche (γ1 < 0). En pratique, on admettra que si γ1 ∈ ]– 0,5 ; 0,5[, la distribution
est symétrique.
On considère qu'une courbe des fréquences est plus ou moins aplatie, par référence à la courbe des
fréquences (courbe de densité) de la loi normale (loi de Laplace–Gauss). Ainsi, une distribution est
dite aplatie si une forte variation de la variable entraîne une faible variation de la fréquence relative,
et inversement (voir graphique 12).
fi fi fi
xi xi xi
Courbe fortement aplatie Courbe moyennement aplatie Courbe faiblement aplatie
(ou platicurtique) (ou normale) (ou leptocurtique)
L'aplatissement va alors se mesurer par des coefficients d'aplatissement qui ont les mêmes
propriétés que les coefficients d'asymétrie.
µ4 µ4
β2 = (⇔ β 2 = )
µ22 σ4
Quand β2 = 3, la distribution concernée est normale, quand β2 < 3, elle est fortement aplatie, et
37
quand β2 > 3, elle est faiblement aplatie.
µ4 µ4
γ2 = −3 (⇔ γ2 = −3 , ou encore γ 2 = β 2 – 3)
µ22 σ4
Dans la mesure où γ2 est exprimé en fonction de β2, son interprétation est immédiate à partir de
celle de β2. En effet, quand γ2 = 0, la distribution concernée est normale, quand γ2 < 0, elle est
fortement aplatie, et quand γ2 > 0, elle est faiblement aplatie.
Calculons les moments non centrés et centrés nécessaires pour étudier la forme de la série des
provinces du Burkina selon le nombre d'habitants en 1996.
Nous avons déjà trouvé que x = 227,222 ; Q1 = 139,06 ; Me = 197,5 ; Q3 = 257,52 ; σ2 = 20928,40.
Calculons donc µ3(x) et µ4(x). Pour ce faire, nous appliquons la méthode de calcul des moments
centrés présentée plus haut. A la suite du changement de variable (voir chapitre II), nous
établissons le tableau des calculs suivant :
ei xi(ci) yi = x i −50
197,5
ni niyi niyi2 niyi3 niyi4
[40, 100[ 70 –2,55 5 –12,75 32,51 –82,9 211,4
[100, 150[ 125 –1,45 8 –11,6 16,82 –24,39 35,37
[150, 200[ 175 –0,45 10 –4,5 2,03 –0,91 0,41
[200, 250[ 225 0,55 10 5,5 3,03 1,67 0,92
[250, 300[ 275 1,55 5 7,75 12,01 18,62 28,86
[300, 500[ 400 4,05 5 20,25 82,01 332,14 1345,17
[500, 1000[ 750 11,05 2 22,1 244,21 2698,52 29818,65
Total – 45 26,75 392,62 2942,75 31440,78
Nous tirons du tableau les moments centrés suivants de la variable y : m1(y) = 26,75 ; m2(y) = 392,62
45 45
; m3(y) = 2942,75 ; m4(y) = 31440,78 .
45 45
A partir de là, nous calculons les moments centrés suivants de la variable y : µ3(y) = 2942,75 –
45
3 26,75 392,62 + 2( 26,75 )3 = 50,26 ; µ4(y) = 31440,78
– 4 2942,75 26,75 + 6 392,62 ( 26,75 2
) –
45 45 45 45 45 45 45 45
26,75 4
3( ) = 561,31.
45
Nous en déduisons enfin que µ3(x) = (50)3 × 50,26 = 6282500 et µ4(x) = (50)4 × 561,31 = 3508187500.
(6282500)2
β1 = = 4,31.
(20928,40)3
γ1 = 2,08.
β2 = 35081875002 = 8,01.
(20928,40)
γ2 = 5,01.
Remarque : Pour le calcul de β1, γ1, β2 et γ2, on aurait pu utiliser les moments centrés de y et obtenir
les mêmes résultats, car le changement de variable n'affecte pas ces coefficients. En effet, puisque
µ32(x) a 6 µ32(y) µ32(y) (50,26)
2
µ 4(x) a 4 µ 4(y) µ (y)
µr(x) = arµr(y), β1 = = = = = 4,31 et β 2 = = = 42 = 561,31
µ 2 (x)
3 a µ2 (y)
6 3 µ 2 ( y)
3 (8,37)3 µ2 (x) a µ2 (y)
2 4 2 µ2 (y) (8,37)2
= 8,01. En pratique donc, il est plus simple d'utiliser les moments centrés de la nouvelle variable (y)
pour le calcul de ces coefficients.
S1 > 0, cela entraîne que la distribution étudiée est asymétrique à droite. S2 > 0 et γ1 > 0, confirment ce
résultat. Mais nous voyons que S1 n'est pas très fiable : il est très proche de 0 indiquant ainsi que la
distribution est presque symétrique. En réalité, le coefficient d'asymétrie de Yule (S1) et le premier
coefficient d'asymétrie de Pearson (S2) sont des mesures empiriques et n’ont donc pas la même
fiabilité que le deuxième coefficient d'asymétrie de Pearson (β1) ou que le coefficient d'asymétrie de
Fisher (γ1).
Enfin, puisque β2 est supérieur à 3 (⇔ γ2 > 0), nous dirons que la distribution étudiée est faiblement
aplatie.
39
CHAPITRE IV
LES MÉLANGES DE POPULATIONS
Une population pour laquelle on peut identifier des sous–populations qui seront étudiées selon un
même caractère constitue un mélange de populations. Par exemple, pour une entreprise constituée
de plusieurs établissements, on peut étudier la population des salariés de toute l'entreprise selon le
salaire mensuel, mais également la population de salariés de chaque établissement selon le salaire
mensuel.
L'étude séparée de ces différentes populations (salariés de toute l'entreprise ou salariés de chaque
établissement) revient à étudier des distributions statistiques à un caractère. L'on pourra donc
utiliser tous les outils présentés aux chapitres I, II et III (tableaux, représentations graphiques,
paramètres de population).
L'intérêt de ce chapitre est néanmoins d'étudier les relations existant entre ces différentes
populations. C'est ce que nous ferons par la présentation de ce que l'on appelle tableau de mélange
de populations, par le calcul des moyennes et variances, et par l'établissement des relations
pouvant exister entre elles.
SECTION 1
LE TABLEAU DE MÉLANGE DE POPULATIONS
Dans un mélange de populations, la population globale est appelée population–mère et noté P (par
exemple, l'ensemble des salariés d'une entreprise), et les autres populations sont appelées sous–
populations et notées Ph (h = 1, ..., m) (par exemple, les ensembles de salariés de chaque
établissement d'une entreprise).
Ainsi, un tableau de mélange de populations est un tableau à double entrée présentant en colonnes
les différentes sous–populations et en lignes, les différentes modalités du caractère étudié.
Tableau 9 Répartition des salaires (en milliers de FCFA) dans les établissements d'une
entreprise au Burkina
m
Par conséquent, n = ∑ n h .
h=1
40
Dans notre exemple, n12 est le nombre de salariés de l'établissement 2 qui ont un salaire compris
entre 30 000 et 100 000 FCFA : n12 = 7.
m
D'où ni. = ∑ n ih .
h=1
Ainsi, n1. est le nombre de salariés de l'entreprise qui ont un salaire compris entre 30 000 et 100 000
FCFA : n1. = n11 + n12 = 3 + 7 = 10.
k
Enfin, pour un mélange de populations, les relations suivantes sont vérifiées : n = ∑n i. et nh =
i =1
k
∑ n ih . L'on pourra le vérifier avec le tableau 9.
i =1
n ih
La fréquence dans la sous–population Ph de la modalité xi est notée fih : fih = .
nh
n 12
Dans notre exemple, f12 = = 7 = 70 %. Dans l'établissement 2, c'est la proportion des salariés qui
n2 10
ont un salaire compris entre 30 000 et 100 000 FCFA.
n 1.
Dans l'exemple, f1 = = 10 = 58,82 %. C'est la proportion des salariés de l'entreprise qui ont un
n 17
salaire compris entre 30 000 et 100 000 FCFA.
m k k
Enfin les relations suivantes entre fréquences peuvent être établies : ∑ ph = 1 ; ∑ fih = 1 ; = ∑fi
h=1 i =1 i =1
m
= 1 ; et fi = ∑ ph fih .
h =1
Les trois premières égalités sont évidentes. En effet, la somme des fréquences d'une distribution est
41
m m n k k n n k
égale à l'unité. En vérifiant, on obtient bien que ∑ ph = ∑ h = n = 1 ; ∑ fih = ∑ ih = h = 1 et ∑fi =
h=1 h=1 n n i =1 i =1 n nh i =1
h
k n i.
∑ = n = 1.
i =1 n n
n
m m n n m n
La démonstration de la quatrième égalité est la suivante : ∑ ph fih = ∑ h ih = ∑ ih = i. = fi.
h =1 h=1 n n h=1 n n
h
SECTION 2
MOYENNES ET RELATIONS ENTRE MOYENNES
Nous donnons la formule de la moyenne arithmétique pour la population–mère et pour les sous–
populations. Nous verrons également les relations existant entre elles.
k
∑ni.x i k
Elle est notée x : x = i=1
n
(⇔ x = ∑fixi ).
i =1
Pour le mélange de populations donné par le tableau 9, x = 10 × 65 + 5 × 150 + 2 × 350 = 123,53 milliers
17
de FCFA. x est le salaire moyen dans cette entreprise.
k
∑ n ih x i k
i =1
La moyenne de la sous–population Ph est notée x h : x h = (⇔ x h = ∑ fih x i ).
nh i =1
Pour compléter le commentaire de ces moyennes, nous pouvons les comparer en disant qu'en
moyenne, les salaires dans l'établissement 1 sont plus élevés que les salaires dans l'établissement 2.
k k m m k m
Démontrons cette relation : x = ∑fi x i = ∑ ∑ p h fih x i = ∑ p h ∑ fih x i = ∑ ph x h .
i =1 i =1h = 1 h=1 i=1 h=1
42
Pour notre exemple, x = n 1 x 1 + n2 x2 = 7×170,71+ 10×90,5 = 123,53 milliers de FCFA. Nous avons ainsi
n 17
calculé le salaire moyen dans l'entreprise en fonction des salaires moyens des établissements.
SECTION 3
VARIANCES ET RELATIONS ENTRE VARIANCES
Comme pour les moyennes, nous donnerons les formules des différentes variances et la relation qui
existe entre elles.
k
∑ n i.(x i − x)2 k
La variance de la population–mère est notée σ 2 ou V(X) : σ 2 = i =1
(⇔ σ 2 = ∑ fi (x i − x)2 ).
n i =1
k
∑ n i.x 2i 2
Bien entendu la relation de König–Huygens peut s'appliquer également ici : σ 2 = i =1
−x (⇔ σ 2
n
k 2
= ∑fi x 2i − x ).
i =1
10 × 65 2 + 5 × 150 2 + 2 × 350 2
σ2 = – (123,53)2 = 8255,04.
17
k
∑ n ih(x i − x h )2 k
i =1
La variance de la sous–population Ph est σ h2 : σ h2 = (⇔ σ h2 = ∑ fih(x i − x h )2 ).
nh i =1
k
∑ n ih x 2i 2 k 2
i =1
Et en appliquant le théorème de König, σ h2 = − x h (⇔ σ h2 = ∑ fih x 2i − x h ).
nh i =1
3 × 65 2 + 2 × 150 2 + 2 × 350 2
σ 12 = – (170,71)2 = 14097,38.
7
7 × 65 2 + 3 × 150 2 + 0 × 350 2
σ 22 =
10
– (90,50)2 = 1517,25.
Nous pouvons dire ici que la dispersion des salaires est plus forte dans l'établissement 1 que dans
σ1 σ2
l'établissement 2, puisque = 69,56 % > = 43,04 %.
x1 x2
43
3.3 RELATION ENTRE VARIANCES
La variance d'une population–mère est égale à la moyenne des variances des sous–populations
m m
∑ n hσ h2 ∑ n h(x h − x)2
augmentée de la variance des moyennes des sous–populations : σ 2 = h=1
+ h=1
(⇔
n n
m m
σ2 = ∑ p hσ h2 + ∑ p h(x h − x)2 ).
h=1 h=1
m
∑ n hσ h2 m
La moyenne des variances, h=1
(⇔ ∑ p hσ h2 ), est appelée variance intra populations. C'est la
n h=1
variance que l'on obtiendrait si toutes les sous–populations avaient la même moyenne (la variance
des moyennes serait alors nulle).
m
∑ n h(x h − x)2 m
La variance des moyennes, h=1
(⇔ ∑ p h(x h − x)2 ), est appelée variance inter populations.
n h=1
C'est la variance que l'on obtiendrait si toutes les sous–populations étaient homogènes, c'est–à–
dire si chaque valeur de chaque sous–population était égale à sa moyenne (la moyenne des
variances serait alors nulle). En appliquant le théorème de König, la variance inter populations est
m 2
∑ nhxh 2 m 2 2
aussi égale à h=1
−x (⇔ ∑ p h x h − x ).
n h=1
k k m m k m k
σ2 = ∑ fi (x i − x)2 = ∑ ∑ p h fih(x i − x)2 = ∑ p h ∑ fih(x i − x)2 = ∑ p h ∑ fih[(x i − x h )+(x h − x)]2 =
i =1 i =1h = 1 h=1 i=1 h=1 i =1
m k m m
∑ p h[ ∑ fih (x i − x h )2 +(x h − x)2 ] (théorème de König) = ∑ p hσ h2 + ∑ p h(x h − x)2 .
h=1 i=1 h=1 h=1
On peut donc décomposer une dispersion globale, en calculant la part imputable aux dispersions
internes (intra populations) et celle imputable à la dispersion des moyennes (inter populations).
Calculons la variance de la série des salaires de l'entreprise étudiée au tableau 9 à partir des
variances intra populations et inter populations.
7 ×(170,71)2 + 10×(90,5)2
σ2 = 7×14097,38+ 10×1517,25 + – (123,53)2 = 6697,3 + 1557,74 = 8255,04.
17 17
Dans cet exemple, la variance intra populations mesure la dispersion dans chaque établissement
(c'est la variance intra établissements), et la variance inter populations mesure la dispersion entre
les établissements quant au salaire moyen (c'est la variance inter établissements). D'où nous
constatons que la dispersion dans chaque établissement est plus forte que celle entre les
m m 2
∑ n hσ h2 ∑ nhxh 2
h=1 h=1
établissements : = 6697,3 > −x = 1557,74. Nous concluons que la dispersion des
n n
salaires s'explique ici plus par une dispersion interne à chaque établissement, que par une
dispersion des salaires moyens entre les établissements.
44
CONCLUSION
SUJETS D'EXAMEN POUR S'EXERCER
Nous proposons ici cinq sujets d'examen concernant les distributions à un caractère que nous
avons composés pour les étudiants de première année de sciences économiques et de gestion de
l'Université de Ouagadougou, pour les premières sessions de 1998 à 2002.
Ils doivent être traités en deux heures, sans document. Seule une calculatrice est autorisée.
Exercice n° 1
On considère les quatre séries de notes obtenues au Baccalauréat, résumées dans le graphique "boîtes
à moustaches" ou "box plots" ci dessous. Les quatre groupes sont : A "candidats au Bac série A", C
"candidats au Bac série C", D "candidats au Bac série D", G2 "candidats au Bac série G2". Au bas du
graphique, figurent des résumés statistiques pour chaque groupe.
Série Effectif Moyenne Ecart type Minimum 1er quartile Médiane 3e quartile Maximum
A 18 13,05 0,77 11,57 12,68 12,94 13,31 15,01
C 16 13,59 1,13 11,09 12,79 13,68 14,60 15,61
D 53 12,77 1,41 8,71 11,91 12,91 13,76 15,75
G2 10 13,48 0,93 12,09 12,84 13,40 14,24 15,13
2) a) Parmi ces quatre groupes, quelle est la série de notes la plus dispersée ? (On utilisera l'étendue,
l'intervalle interquartile, et un troisième paramètre de dispersion de l'on choisira.) (2/20)
b) Quel est le meilleur groupe ? Justifier votre réponse en considérant au moins deux paramètres de
position. (1/20)
c) En considérant la différence entre les valeurs de la médiane et de la moyenne, préciser la série qui
est la plus symétrique. (1/20)
45
3) Calculer la note moyenne x et la variance V(X) de tous les n élèves (n = 97). On précise que x est
une moyenne pondérée et que la formule de la variance V(X) est :
V(X) = Σ(nk k2)/n + Σ(nk(xk x)2)/n ; où nk = effectif du groupe k ; xk = note moyenne du groupe k et
k = écart type du groupe k. (2/20)
4) On s'intéresse au groupe C. Les notes de ce groupe sont également réparties entre les quatre classes
: [11,00 ; 12,79[ ; [12,79 ; 13,68[ ; [13,68 ; 14,60[ ; [14,60 ; 16,00[.
b) Quelle est la proportion d'étudiants du groupe qui ont une note inférieure à 12,79 ? Qui ont une
note supérieure à 13,68 ? (1/20)
c) Calculer les fréquences fk de chacune des quatre classes, puis tracer l'histogramme. (1/20)
Exercice n° 2
1) On donne x1 et x2, les ratios prix du mil sur prix du riz pour les années 1 et 2, respectivement. Quel
type de moyenne doit on utiliser pour calculer le ratio moyen sur les 2 années ? Justifier par le calcul.
(1/20)
2) Une personne voyage de Ouagadougou à Kaya à une vitesse de 120 km/h, et de Kaya à
Ouagadougou à une vitesse de 110 km/h. Quel type de moyenne doit on utiliser pour trouver la
vitesse moyenne sur le trajet total ? Justifier par le calcul. (1/20)
Exercice n° 3
Soit la variable X représentant la suite des n premiers nombres entiers (les modalités de X sont x1 = 1,
x2 = 2, ..., xn = n).
2) Déterminer la variance V(X). (On donne 12 + 22 + ... + n2 = n(n + 1)(2n + 1)/6). (1/20)
4) On effectue un autre changement de variable en posant X'' = a + (X 1)r. La nouvelle variable X''
représente ainsi la suite de n nombres en progression arithmétique avec comme premier terme: a, et
comme raison : r.
Exercice 1
On donne le tableau suivant, extrait du classement des pays selon l'indicateur du développement
humain (IDH) en 1995.
1) En considérant les deuxième et troisième colonnes, quelle variable peut on imaginer ? (1pt)
2) L'IDH moyen pour ces 10 pays a il du sens ? (2 pts)
3) La distribution est elle égalitaire ? (2 pts)
4) Est elle symétrique ? (1 pt)
Exercice 2
Voici la répartition des pays selon l'indicateur du développement humain (IDH) en 1995.
[0,185 ; 0,500[44
[0,500 ; 0,800[66
[0,800 ; 0,960[64
Source : PNUD, Rapport mondial sur le développement humain 1998, Economica, 1998.
Exercice 3
On donne l'évolution du PIB par habitant (en dollars) pour le Burkina Faso, de 1960 à 1995:
173 (1960) 198 (1970) 232 (1980) 253 (1990) 258 (1995)
Source : PNUD, Rapport mondial sur le développement humain 1998, Economica, 1998
Quel a été l'accroissement moyen par période du PIB par habitant ? (2 pts)
Exercice 4
Exercice 5
Dans une classe de 33 étudiants, tous étudient au moins l'une des langues suivantes : anglais,
allemand, espagnol ; 24 étudient au moins l'allemand et 8 au moins l'espagnol ; 15 étudient au moins
l'allemand et l'anglais, et 4 étudient au moins l'anglais et l'espagnol ; enfin, tous ceux qui étudient
l'espagnol étudient au moins une autre langue et aucun n'étudie les 3 langues.
1) Donner les effectifs des divers groupes d'étudiants en indiquant pour chaque groupe toutes les
langues étudiées. (3 pts)
2) Déterminer la fréquence des étudiants qui étudient au moins l'anglais puis la fréquence de ceux
qui n'étudient que l'allemand. (2 pts)
Problème
La répartition des exploitations agricoles françaises selon la taille en 1988 est donnée par le graphique
suivant* :
*
INSEE, Tableaux de l'économie française 1992 1993, p. 113.
N.B. : SAU = Superficie agricole utilisée.
48
2) Calculer la variance de la répartition et en déduire sa moyenne quadratique.
3) Etudier l'asymétrie de la répartition en utilisant le deuxième coefficient de Pearson.
4) Etudier l'aplatissement de la répartition en utilisant le coefficient de Pearson.
5) Construire le diagramme intégral de la répartition.
6) En déduire une valeur approximative de la médiane.
7) Calculer la proportion des exploitations qui ont une taille inférieure à 45 ha.
8) A quel quantile correspond 45 ha ?
9) Comme l'indique le graphique supra, 72 % des exploitations ont une taille inférieure à 35 ha
tandis que les exploitations qui ont une taille supérieure à 35 ha totalisent 70 % des superficies. Que
peut on dire (a priori) de la concentration de la répartition ?
10) Vérifier par un graphique approprié.
I) Le prix d'un bien A est de 1,35 les 5 grammes ; celui d'un bien B, de 0,76 les 2 grammes ; celui
d'un bien C, de 2,79 les 3 grammes ; celui d'un bien D, de 0,72 les 4 grammes ; celui d'un bien E,
de 2,61 les 3 grammes ; celui d'un bien F, de 1,62 les 2 grammes ; celui d'un bien G, de 1,32 les 4
grammes ; celui d'un bien H, de 1,05 les 5 grammes ; celui d'un bien I, de 0,78 les 3 grammes ; et
celui d'un bien J, de 1,45 les 5 grammes.
1) Calculer le prix moyen, PM1, pour un consommateur qui achète 1 gramme de chaque bien.
2) Calculer le prix moyen, PM2, si ce consommateur achète ensuite pour 0,54 du bien A ; 1,14
du bien B ; 0,93 du bien C ; 0,90 du bien D ; 1,74 du bien E ; 1,62 du bien F ; 0,99 du bien G ; 0,21
du bien H ; 1,04 du bien I ; et 0,58 du bien J.
3) Le consommateur effectue enfin des achats pour un prix moyen PM3 de 0,437. Calculer le
taux d'accroissement moyen, TAM, du prix moyen d'un groupe d'achats à l'autre.
II) Paramètres sur le chiffre d'affaires (CA) d'une entreprise au cours d'une année :
III) Les modalités d'une série discrète de revenus par habitant de 20 pays sont données sous
forme de quantiles : x0 = 150, x0,15 = 225, x0,5 = 275, x0,65 = 400 et x0,85 = 500. On rappelle la
r −2
formule des moments non centrés en fonction des moments centrés : mr =∑C r µr −α m1α +m1r .
α
α =0
7) Calculer alors les moments centrés d'ordres 2 et 3 de la série des revenus par habitant de ces
pays, µ2 et µ 3, sachant que m1 = 297,5 ; m2 = 101937,5 et m3 = 39162500.
(A 2 points par question correctement traitée. Les questions ne sont pas forcément liées.)
Salaires xi moins de 1,5 de 1,5 à 2,5 de 2,5 à 3,5 de 3,5 à 4,5 plus de 4,5
Effectif ni 4 3 4 2 2
II/ Pour une série de revenus dans un pays donné, on a calculé les moments non
centrés et centrés suivants : m1 = 1,2 ; m2 = 2,16 ; m3 = 4,644 ; m4 = 10,224 ; µ2 =
0,72 ; µ3 = 0,144 ; µ4 = 1,238.
III/ Dans une entreprise, le salaire moyen des femmes est de 15 et celui des hommes
de 10. L'écart–type pour la distribution des salaires des femmes est de 10, et celui
pour celles des hommes de 8. L'effectif des hommes est le double de celui des
femmes.
RÉFÉRENCES BIBLIOGRAPHIQUES
1) BARTHE R., La statistique descriptive en 10 leçons. Méthode progressive "ABCD", Economica, 1989
3) CHAUVAT G., REAU J.P., Statistiques descriptives. TD. Exercices et corrigés, Armand Colin, 1996
5) GOUNGOUNGA C., Statistique et calcul des probabilités. Cours et exercices corrigés, 1996
6) LECOUTRE J.P., Statistique descriptive. Exercices corrigés avec rappels de cours, Masson, 1990
8) MASIERI W., Statistique et calcul des probabilités. Travaux pratiques. Enoncés et solutions, 6e édition,
Sirey, 1994
10) PY B., Statistique descriptive. Nouvelle méthode pour bien comprendre et réussir, 4e édition, Economica,
1996
11) PY B., Exercices corrigés de statistique descriptive. Problèmes, exercices et QCM, 2e édition, Economica,
1994
12) WONNACOTT T.H., WONNACOTT R.J., Statistique. Economie Gestion Sciences Médecine (avec
exercices d'application), 4ème édition, Economica, 1991