Vous êtes sur la page 1sur 135

UNIVERSITÉ DU BURUNDI

INSTITUT DE STATISTIQUE APPLIQUÉE

CAMPUS NYAMUGERERA

NOTES DE COURS DE STATISTIQUE


DESCRIPTIVE

Titulaire :Msc Ir Mathieu MVUYEKURE

A/A :2021-2022
Statistique Descriptive Page 2 Msc Ir Mathieu MVUYEKURE
Table des matières

1 STATISTIQUE À UNE DIMENSION 7


1.1 Historique de la statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
´
1.1.1 Etymologie et définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Histoire de la notion de statistiques . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Généralités sur la statistique descriptive . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Typologie des variables statistique ou caractères . . . . . . . . . . . . . . . 12
1.3 Tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1 Notion d’effectifs, d’effectifs cumulés et de fréquence absolue . . . . . . . . 14
1.3.2 Fréquence partielle - Fréquence cumulée . . . . . . . . . . . . . . . . . . . . 15
1.3.3 Remarques terminales sur les tableaux statistiques . . . . . . . . . . . . . . 16
1.4 Les séries statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Série simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Série à valeurs isolées(Série pondérée) . . . . . . . . . . . . . . . . . . . . . 17
1.4.3 Série à valeurs classées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.4 Centre et amplitude de classe . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.5 Nombre de classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Représentation d’une série statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.1 Les caractères qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.2 Les caractères quantitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6 Paramètres de position ou caractéristique de tendance centrale . . . . . . . . . . . . 30
1.6.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.2 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.6.3 Généralisation de la médiane . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.6.4 La moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.6.5 Propriétés de la moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . 39
1.6.6 L’analyse de SHIFT AND SHARE et l’effet de structure : Une lecture de la
moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.7 Généralisation de la notion de moyenne . . . . . . . . . . . . . . . . . . . . . . . . 43
1.7.1 Moyenne géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3
TABLE DES MATIÈRES

1.7.2 Moyenne harmonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44


1.7.3 La moyenne quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.7.4 Moyenne d’ordre ”r” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.8 Les Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
´
1.8.1 Etendue ou intervalle de variation . . . . . . . . . . . . . . . . . . . . . . . 48
´
1.8.2 Etendue interquartile et l’intervalle interquartile . . . . . . . . . . . . . . . 48
´
1.8.3 Ecart interdécile et intervalle interdécile . . . . . . . . . . . . . . . . . . . . 48
1.8.4 Intervalle interdécile relatif . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.8.5 ´
Ecart inter-centile et intervalle inter-centile . . . . . . . . . . . . . . . . . . 49
1.8.6 ´
Ecart absolu moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.8.7 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.8.8 ´
Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.8.9 Propriété de l’écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.8.10 Coefficient de variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.8.11 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1.9 Paramètres de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1.9.1 La mesure de l’asymétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.9.2 La mesure d’aplatissement (kurtosis) . . . . . . . . . . . . . . . . . . . . . . 59
1.10 Paramètres de concentration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.10.1 Détermination de la concentration par le calcul . . . . . . . . . . . . . . . . 60
1.10.2 Détermination de la concentration par le graphe . . . . . . . . . . . . . . . 62
1.11 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2 STATISTIQUE À DEUX DIMENSIONS 69


2.1 Représentation des séries statistiques à deux variables . . . . . . . . . . . . . . . . . 69
2.1.1 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.1.2 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.2 Description numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.2.1 Caractéristique des séries marginales . . . . . . . . . . . . . . . . . . . . . . 74
2.2.2 Série conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.2.3 Relation entre les caractéristiques marginales et conditionnelles . . . . . . . 76
2.2.4 Les moments et la covariance . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.2.5 Notion de courbe de régression . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.3 ´
Etude de la liaison entre deux variables :Ajustement linéaire et Corrélation . . . . . 81
2.3.1 Indépendance et liaison fonctionnelle . . . . . . . . . . . . . . . . . . . . . . 81
2.3.2 Ajustement linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.3.3 Droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.3.4 Coefficient de corrélation linéaire ou coefficient de corrélation de Pearson . 87

Statistique Descriptive Page 4 Msc Ir Mathieu MVUYEKURE


TABLE DES MATIÈRES

2.3.5 Notion de corrélation non linéaire : Rapport de corrélation, variance ex-


pliquée et variance résiduelle . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

3 LES SÉRIES CHRONOLOGIQUES 95


3.1 Présentation et analyse théorique des séries chronologiques . . . . . . . . . . . . . 95
3.1.1 Les principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.1.2 La décomposition du mouvement brut et les modèles théoriques d’analyse . 95
3.1.3 Méthode analytique d’étude des chroniques et ajustement . . . . . . . . . . 100
3.2 Les méthodes empiriques de décomposition des séries chronologiques et la covariance 106
3.2.1 Les procédés de décomposition . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.2.2 Notion de covariation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

4 THÉORIE DES INDICES 119


4.1 Définition et propriétés des indices . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.1.1 Mise en évidence de la notion d’indice . . . . . . . . . . . . . . . . . . . . . 119
4.1.2 Les indices élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1.3 Les indices synthétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.2 Difficultés de construction et d’utilisation des indices
synthétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.2.1 Choix des critères de construction . . . . . . . . . . . . . . . . . . . . . . . 128
4.2.2 Difficultés d’utilisation des indices synthétiques . . . . . . . . . . . . . . . . 130
4.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

Statistique Descriptive Page 5 Msc Ir Mathieu MVUYEKURE


TABLE DES MATIÈRES

Statistique Descriptive Page 6 Msc Ir Mathieu MVUYEKURE


Chapitre 1

STATISTIQUE À UNE DIMENSION

1.1 Historique de la statistique


1.1.1 Étymologie et définition
´ (1672).
Le terme statistique est un emprunt moderne (1771) au latin statisticus  relatif à l’Etat
´
Ce terme a d’abord désigné l’étude méthodique des faits sociaux qui définissent un Etat par des
nombres : dénombrement, inventaires chiffrés, recensements,· · ·
Puis à la fin du 18ème siècle, le terme prend un sens plus moderne en Angleterre (dès 1792) chez sir
J. Sinclair (statistics) ;
En 1830, le terme statistique désigne l’ensemble des techniques d’interprétation mathématique
appliquées à des phénomènes.
En 1862, le terme statistique désigne un ensemble de données numériques concernant une
même catégorie de faits.
Actuellement, le mot statistique désigne à la fois un ensemble de données d’observation et l’activité
qui consiste dans leur recueil, leur traitement et leur interprétation.
Le traitement de ces données bénéficie des moyens offerts par les ordinateurs et utilise des théorèmes
d’algèbre linéaire, de probabilité · · ·
Il convient de souligner au moins la distinction entre les deux définitions suivantes qui sont évidemment
liées :
1. Statistique : activité qui consiste à réunir des données, concernant en particulier la connais-
´
sance de la situation des Etats ou des sociétés humaines (c’est le  budget des choses  de
Napoléon) ;
2. Statistique : méthode de traitement et d’interprétation des observations, de passage de celles-
ci aux lois des phénomènes et aux modèles théoriques susceptibles de les représenter (c’est
l’ inférence statistique  des statisticiens classiques, qu’on a eu quelque raison d’assimiler à
l’induction formalisée).

1.1.2 Histoire de la notion de statistiques


La notion de comptage

La science statistique semble exister dès la naissance des premières structures sociales. D’ailleurs, les
premiers textes écrits retrouvés étaient des recensements du bétail, des informations sur son cours

7
1.1. HISTORIQUE DE LA STATISTIQUE

et des contrats divers.


Les plus anciennes traces de comptage datent des premières civilisation du Paléolithique (30 000
ans environ av. J.C.). Les hommes, qui durent apprendre à conserver les nombres, avaient à leur
disposition deux supports privilégiés, les os et le bois. Pour mémoriser combien il y avait d’éléments
dans un ensemble de choses (bêtes, hommes ou objets), les hommes du Paléolithique faisaient une
marque (souvent une entaille) sur le support choisi. Ainsi, des ”os numériques” de près de 30 000 ans
ont été retrouvé.
Pour assurer cette fonction de mémorisation de la quantité, l’homme, hormis l’os, le bois ou la pierre,
a aussi utilisé son propre corps (doigts, orteils, bras, jambes, articulations..).

Les recensements

En Chine et en Egypte On a aussi des traces de recensements en Chine au 23e siècle av. J.C. ou en
´
Egypte au 17e siècle av. J.C..
A Rome
Cicéron (106 av. J.-C. et mort en 43 av. J.-C.) insistait sur l’importance des statistiques (avant le mot) :
”Il est nécessaire au sénateur d’avoir une notion complète de l’Etat ; et cela s’étend loin : savoir
l’effectif de l’armée, la puissance financière, les alliés, amis et tributaires que possède l’Etat ; […]
connaı̂tre les précédents traditionnels des décisions à prendre, l’exemple des ancêtres… Vous voyez
enfin tout ce que cela comporte en général de savoir, d’application, de mémoire, et sur quoi un
sénateur ne saurait en aucune manière se trouver pris au dépourvu.”
Le recensement romain permettait à la fois, de connaı̂tre les ressources en hommes mobilisables
et en biens, et de classer les citoyens afin de répartir charges et avantages. Le recensement était
également une démonstration de puissance, permettant de proclamer publiquement l’ampleur de la
domination romaine.
Selon Tacite, l’empereur Auguste aurait été le premier à faire un bilan des richesses de l’empire ro-
main (soldats, navires, ressources privées et publiques). Au IIIe siècle apparaissent à Rome des tables
d’estimation des rentes viagères. A partir du XIIIe siècle, les données deviennent plus nombreuses.
Les commerçants de Venise amassent des données sur le commerce extérieur, évaluent les risques
maritimes. En Hollande, on étudie les rentes viagères. Au XVIe siècle la tenue des registres des nais-
sances est rendue obligatoire en France, par François Ier, puis, sous Henri III, ceux des mariages et
naissances.
En Europe
Ce système de recueil de données se poursuit jusqu’au 17e siècle. En Europe, le rôle ”statisticien” est
´
souvent tenu par des guildes marchandes, puis par les intendants de l’Etat.
Les premières estimations de population
John Graunt Natural and Political Observations Made upon the Bills of Mortality a estimé la po-
pulation de Londres en 1662 en s’aidant des registres paroissiaux. Il savait qu’il y avait environ 13
000 enterrements par an à Londres et que trois personnes pour onze familles mouraient par an. Il
a estimé à partir des registres paroissiaux que la taille moyenne de la famille était de 8 et a calculé
que la population de Londres était d’environ 384 000. Le mathématicien Laplace (1802), utilise une
méthode similaire pour estimer la population française.
A la suite des travaux fondateurs de Graunt (1620-1674) sur les bulletins de décès et les naissances
(il découvre ainsi la proportion plus grande de naissances masculines : 107 pour 100 naissances
féminines), l’économiste William Petty (1623-1687) systématise et théorise les études démographiques
sur les naissances, décès, nombres de personnes par famille…

Statistique Descriptive Page 8 Msc Ir Mathieu MVUYEKURE


1.2. GÉNÉRALITÉS SUR LA STATISTIQUE DESCRIPTIVE

Tables de mortalité
En 1696, l’astronome anglais Edmond Halley (1662 -1742), en se basant sur cinq ans d’état civil de
la ville de Breslau (Pologne), établit une table de mortalité, préfigurant les travaux d’actuariat. En
Hollande, le calcul des probabilités est appliqué à l’espérance de vie humaine (Christian et Louis
Huygens en 1669) et à l’estimation du prix d’achat d’une rente, à l’aide de tables de mortalité (Jan
De Witt en 1671).
Actuellement, on distingue généralement les statistiques (au pluriel) de la statistique (au singulier)
Les statistiques concernent l’étude méthodique des faits sociaux qui définissent un Etat, par des
procédés numériques (dénombrements, inventaires, recensements,…)
Le second sens n’apparaı̂t que vers 1830. C’est celui qui est abordé dans ce cours. Nous définirons la
statistique comme un ensemble de techniques d’interprétation mathématique appliquées
à des phénomènes (ex : faits sociaux) pour lesquels une étude exhaustive de tous les facteurs est
impossible à cause de leur grand nombre ou de leur complexité.
On peut encore scinder la statistique en deux grands domaines :
la statistique descriptive, qui s’intéresse à la collecte et à la mise en forme des données et à la
détermination d’un certain nombre de grandeurs caractéristiques de la population.
l’inférence statistique, dont le but est de tirer des conclusions sur la population à partir de l’étude
d’un échantillon

1.2 Généralités sur la statistique descriptive


Définition 1.1. La statistique descriptive est l’étude de la collecte de données, leur analyse, leur
traitement, l’interprétation des résultats et leur présentation afin de rendre les données compréhensibles
par tous. C’est à la fois une science, une méthode et un ensemble de techniques.

L’analyse des données est utilisée pour décrire les phénomènes étudiés, faire des prévisions et prendre
des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la compréhension et la
gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les
champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières universitaires,
de l’économie à la biologie en passant par la psychologie et bien sûr les sciences de l’ingénieur. La
statistique consiste à :
- Recueillir des données.
- Présenter et résumer ces données.
- Tirer des conclusions sur la population étudiée et d’aider à la prise de décision.
- En présence de données dépendant du temps, on essaie de faire de la prévision.

1.2.1 Vocabulaire
Les statistiques consistent en diverses méthodes de classement des données tels que les tableaux,
les histogrammes et les graphiques, permettant d’organiser un grand nombre de données. Les sta-
tistiques se sont développées dans la deuxième moitié du XIX e siècle dans le domaine des sciences
humaines (sociologie, économie, anthropologie,· · · ). Elles se sont dotées d’un vocabulaire particu-
lier.

Statistique Descriptive Page 9 Msc Ir Mathieu MVUYEKURE


1.2. GÉNÉRALITÉS SUR LA STATISTIQUE DESCRIPTIVE

Figure 1.1 – Vocabulaire.

Épreuve statistique

Les statistiques descriptives visent à étudier les caractéristiques d’un ensemble d’observations comme
les mesures obtenues lors d’une expérience. L’expérience est l’étape préliminaire à toute étude statis-
tique. Il s’agit de prendre ”contact” avec les observations. De manière générale, la méthode statistique
est basée sur le concept suivant.

Définition 1.2. L’épreuve statistique est une expérience que l’on provoque.

Exemple 1.1. La durée de vie des lampes


Imaginons le cas suivant : un fabricant d’ampoules électriques ayant le choix entre 4 types de filaments
se propose d’étudier l’influence de la nature du filament sur la durée de vie des ampoules fabriquées.
Pour ce faire, il va fabriquer 4 échantillons d’ampoules identiques, sauf en ce qui concerne le filament,
faire brûler les ampoules jusqu’à extinction, puis comparer les résultats obtenus.

Population

En statistique, on travaille sur des populations. Ce terme vient du fait que la démographie, étude
des populations humaines, a occupé une place centrale aux débuts de la statistique, notamment au
travers des recensements de population. Mais, en statistique, le terme de population s’applique à
tout objet statistique étudié, qu’il s’agisse d’étudiants (d’une université ou d’un pays), de ménages
ou de n’importe quel autre ensemble sur lequel on fait des observations statistiques. On définit la
notion de population.

Définition 1.3. On appelle population l’ensemble sur lequel porte une étude statistique. Cet ensemble
est noté Ω.

Exemple 1.2. L’ensemble des étudiants de la première année à l’ISTA dans tous les départements.

Exemple 1.3. Si l’on s’intéresse maintenant a la circulation automobile dans une ville, la population
est alors constituée de l’ensemble des véhicules susceptibles de circuler dans cette ville à une date donnée.
Dans ce cas Ω = ensemble des véhicules

Statistique Descriptive Page 10 Msc Ir Mathieu MVUYEKURE


1.2. GÉNÉRALITÉS SUR LA STATISTIQUE DESCRIPTIVE

Individu ou Unité statistique

Une population est composée d’individus. Les individus qui composent une population statistique
sont aussi appelés unités statistiques.

Définition 1.4. On appelle individu ou unité statistique tout élément de la population.

Exemple 1.4. – Dans l’exemple ci -haut donné ,un individu est tout étudiant de la première année à
l’ISTA dans tous les départements.
–Si on étudie une production annuelle d’une usine de boites de boisson en métal(canettes) ; la population
est l’ensemble des boites produites durant l’année et une boite constitue un individu.

Échantillon

Définition 1.5. Un échantillon est un sous-ensemble de la population considérée.


Le nombre d’individus dans l’échantillon est la taille de l’échantillon.

Exemple 1.5. Pour faire une étude sur la taille moyenne des étudiants de l’UB, on peut faire l’étude
dans deux classes par Institut ou Faculté.

Remarque 1.1. Un échantillon peut être représentatif c-a-d que chaque élément dans la population
doit être représenter dans l’échantillon.
Ainsi,l’échantillonne aléatoire est le meilleur moyen d’y parvenir.
De cela, un échantillon aléatoire est un échantillon tiré au hasard dans lequel tous les individus ont
la même chance de se retrouver.

Exemple 1.6. Dans le cas d’une étude sur la taille des enfants de 12ans, les résultats sont faux si l’on
choisi uniquement un échantillon composé uniquement de filles. On peut prendre soit 5filles de 12ans et
5 garçons de 12ans.

Caractère ou variable statistique

Définition 1.6. Un caractère ou variable statistique est un phénomène étudié sur une population
donnée.

Exemple 1.7. –Le chiffre d’affaires d’une entreprise.


–Le revenu du ménage.
–L’âge de la personne.
–La catégorie socio-professionnelle d’une personne.

Les différentes valeurs que peut prendre une variable statistique, sont appelées modalités.

Exemple 1.8. –Les modalités de la variable mention scolaire sont : très bon , bon,. . .
–Les modalités de la variable rendement sont : Faibles, Moyen, Élevé.

Il est particulièrement de comprendre que :


1. Les différentes modularités d’un caractère doivent être incompatibles, exhaustives et sans
ambiguı̈té
– incompatibles, de manière à ce qu’un individu ne puisse appartenir à plus d’une modularité à la
fois (un individu ne peut pas être marié ou célibataire ).

Statistique Descriptive Page 11 Msc Ir Mathieu MVUYEKURE


1.2. GÉNÉRALITÉS SUR LA STATISTIQUE DESCRIPTIVE

–exhaustives, afin de prévoir toutes les situations possibles, sans exception


– sans ambiguı̈té, pour n’est pas faire d’erreur de classement.
2. Les modularités d’un caractère sont hiérarchisées selon le degré de finesse de l’information
disponible ou recherchée.
N.B. L’ensemble des différentes valeurs que peut prendre une variable statistique ou modalités est
appelé domaine de la variable.
Exemple 1.9. Les modalités de la variable sexe sont masculin (codé M) et féminin(codé F)
Le domaine de la variable est (M,F).

1.2.2 Typologie des variables statistique ou caractères


Nous distinguons deux catégories de variables : les variables qualitatives et les variables quantita-
tives.

Figure 1.2 – Types de variables.

Variable quantitative

Définition 1.7. Une variable statistique est dite quantitative lorsque les modalités sont mesurables.
Exemple 1.10. –Points obtenus par les étudiants à l’Examen d’Analyse Mathématiques.
–Le nombre d’enfants par ménage.

Une variable quantitative peut être :


–Discrète(ou discontinue) c-à-d qu’il ; ne prend que des valeurs isolées.
Exemple 1.11. –Le nombre d’enfants par ménages ne peut être que 0, 1,2,3,· · · Il ne peut prendre
jamais une valeur strictement comprise entre 0 et 1, 1 et 2, 2 et 3,· · · .
–Le nombre de points obtenus a l’examen ou les notations sont entières sans possibilités de valeurs
décimales intermédiaires.

–Continue :Les variables quantitatives sont continues si elles peuvent prendre toute valeur dans
un intervalle.

Statistique Descriptive Page 12 Msc Ir Mathieu MVUYEKURE


1.2. GÉNÉRALITÉS SUR LA STATISTIQUE DESCRIPTIVE

Exemple 1.12. –La taille d’un enfant


–La distance entre la maison et l’école

Variable qualitative

Définition 1.8. Une variable statistique est dite qualitative lorsque les modalités ne sont pas mesurables(c-
à-d qui ne fait objet d’une mesure).

Exemple 1.13. La couleur d’un cheval.

Une variable qualitative peut être :


–Nominale : La variable est dite qualitative nominale lorsque ses modalités ne peuvent être classées
de façon naturelle.

Exemple 1.14. –La variable couleur des yeux.


–La variable sexe

–Ordinale :La variable est dite qualitative ordinale lorsque ses modalités peuvent être classée dans
un ordre naturel.

Exemple 1.15. La variable mention au BAC (satisfaction, distinction, grande distinction)

EXERCICES D’APPLICATIONS

1. Parmi les variables suivantes, spécifier celles qui sont discontinues et celles qui sont continues.
a) Taille des enfants qui entrent en première primaire.
b) Durée du déplacement de l’école à la maison.
c) Résultats obtenu à l’examen de statistique
d) Nombre de litres contenus dans un Fût.
e) Nombre de pays d’Afrique
f) Vitesse d’une automobile en km/h

2. Douze étudiants ont participé à la course de 100m, voici pour chacun d’eux le temps obtenu
en seconde :15s 15s 16s 18s 17s 15s 16s 16s 19s 18s 16s 17s .

1o S’agit -elle d’une étude sur la population ou sur l’échantillon de la population ?


2o Quelle est la variable ?
3o Cette variable est -elle quantitative ou qualitative ?
4o La variable est -elle discrète ?continue ?nominale ou ordinale ?

3. Parmi les assertions suivantes , préciser celles qui sont vraies et celles qui sont fausses.

a) On appelle variable , une caractéristique que l’on étudie.


b) La tâche de la statistique descriptive est de représenter les données sous forme de tableaux
, de graphiques et d’indicateurs statistiques.
c) La tâche de la statistique descriptive est de recueillir les données.
d) En statistique on classe les variables selon différents types.
e) Les valeurs des variables sont aussi appelées modalités.

Statistique Descriptive Page 13 Msc Ir Mathieu MVUYEKURE


1.3. TABLEAUX STATISTIQUES

f) Pour une variable qualitative , chaque individu statistique ne peut avoir qu’une seule mo-
dalité.
g) Pour faire des traitements statistiques, il arrive qu’on transforme une variable quantitative
en variable qualitative.
h) La variable quantitative poids d’une automobile peut être reclassée en compacte ,intermédiaire
et grosse.
i) En pratique, lorsqu’une variable quantitative discrète prend un grand nombre de valeurs
distinctes , on la traite comme continue.
j) Le lieu de résidence des étudiants représente la variable qualitative ordinale.

1.3 Tableaux statistiques


1.3.1 Notion d’effectifs, d’effectifs cumulés et de fréquence absolue
Effectif partiel (fréquence absolue)

A chaque modalités de la variable x , on peut correspondre un ou plusieurs individus dans la popu-


lation de taille n.

Figure 1.3 – Le nombre d’individus qui prennent la valeur xi .

ni : le nombre d’individus qui ont le même xi


Définition 1.9. On appelle alors l’effectif partiel de la modalité xi , le nombre ni .
Il est aussi appelé fréquence absolue

De cela, l’effectif total est le nombre d’individus appartenant a la population.


Donc, le nombre d’éléments d’une population est l’effectif N .
Exemple 1.16. Une enquête réalisée dans un village porte sur le nombre d’enfants à charge par famille.
On note xi le nombre d’enfants et les résulats sont donnés par le tableau suivant :

xi 0 1 2 3 4 5 6 Total
ni (effectifs) 18 32 66 41 32 9 2 200

Dans cette exemple , 32 est le nombre de familles qui ont 4 enfants.

Statistique Descriptive Page 14 Msc Ir Mathieu MVUYEKURE


1.3. TABLEAUX STATISTIQUES

Effectifs cumulés

Définition 1.10. L’effectif cumulé de la variable x est la somme des effectifs de toutes les variables
inférieures ou égales à x. Il est noté Ni . Avec

Ni = n1 + n2 + · · · + ni

Remarque 1.2. L’effectif cumulé peut être croissant ou décroissant :

Exemple 1.17. Reprenons l’exemple précédent :

xi 0 1 2 3 4 5 6 Total
ni 18 32 66 41 32 9 2 200
Ni C 18 50 116 157 189 198 200

(Sous forme croissante)

xi 0 1 2 3 4 5 6 Total
ni 18 32 66 41 32 9 2 200
Ni D 200 182 150 84 43 11 2

(Sous forme décroissante)

Interprétation : Ni est le nombre d’individus dont la valeur du caractère est inférieur ou égale à
xi . De ce fait, l’effectif total est donné par
n
X
N= ni
i=1

Dans notre exemple précédent, nous avons N = 200.

1.3.2 Fréquence partielle - Fréquence cumulée


Fréquence partielle (Fréquence relative)

Définition 1.11. On appelle fréquence partielle le rapport entre l’effectif partiel d’une variable et l’ef-
fectif total.

ni
Donc , la fréquence relative ou partielle est le nombre fi tel que fi = N

Exemple 1.18. Reprenons l’exemple ci-haut donné :

xi 0 1 2 3 4 5 6 Total
ni (effectifs) 18 32 66 41 32 9 2 200
fi 0,09 0,16 0,33 0,205 0,16 0,045 0,01 1

Dans cet exemple , il ya 33% de familles dont le nombre d’enfants est égale à 2.

Statistique Descriptive Page 15 Msc Ir Mathieu MVUYEKURE


1.3. TABLEAUX STATISTIQUES

Proposition 1.1. Soit fi défini comme précédemment. Alors,


n
X
fi = 1
i=1

Démonstration. Rappelons que


n
X
N= ni
i=1

Ce qui implique que


n n n
X X ni 1 X
fi = = ni = 1
i=1 i=1
N N i=1

Fréquence cumulée

Définition 1.12. La fréquence cumulée de la variable x est la somme des fréquences de toutes les
variables inférieures ou égales à x. Il est noté Fi . Avec

F i = f1 + f2 + · · · + fi

Exemple 1.19. Reprenons encore l’exemple ci-haut donné :

xi 0 1 2 3 4 5 6 Total
ni (effectifs) 18 32 66 41 32 9 2 200
fi 0,09 0,16 0,33 0,205 0,16 0,045 0,01 1
Fi 0,09 0,25 0,58 0,785 0,945 0,99 1

1.3.3 Remarques terminales sur les tableaux statistiques

Un tableau doit fournir des renseignements clairs, précis, facilement compréhensibles, sans avoir re-
cours au texte qui l’accompagne généralement. Retenons ici quatre règles primordiales de présentation :
1. Le titre : il doit nécessairement figurer de façon complète, en indiquant le phénomène étudié,
la façon dont il est étudié, le lieu, la date, le champ de l’enquête, le critère du classement.
2. Les intitulés des lignes et des colonnes : il faut comprendre aisément s’il s’agit de nombres
ou de pourcentages, de fréquences ou de taux, etc… Là encore, les valeurs doivent corres-
pondre sans ambiguı̈té aux variables définies.
3. L’unité utilisée : elle doit être précisée de façon claire…afin qu’on ne puisse confondre des
milliards de francs avec des millions, des mètres avec des mètres carrés, des taux de chômage
avec des pourcentages de chômeurs rapportés au total.
4. La source : quand on cite une statistique, il faut en connaitre la source c’est à dire le nom
de l’organisation ou de la personne qui a élaborée cette statistique. On dira par exemple :
 source ISTEEBU, comptes de la nation,2008 .

Statistique Descriptive Page 16 Msc Ir Mathieu MVUYEKURE


1.4. LES SÉRIES STATISTIQUES

1.4 Les séries statistiques

1.4.1 Série simple


On a observé sur n individus d’une population un caractère quantitatif x dont on note les valeurs
observées : x1 , . . . , xn .

Définition 1.13. (x1 , . . . , xn ) est appelée série statistique simple.

1.4.2 Série à valeurs isolées(Série pondérée)


Les séries statistiques simples à valeurs isolées sont utilisés pour les caractères quantitatifs dis-
crets.On regroupe les valeurs égales de la série.On note l’effectif de chaque valeur isolée et on range
par l’ordre croissant.

Valeurs isolées (xi ) x1 x2 x3 ... xi . . . xr


Effectifs (ni ) n1 n2 n3 ... ni . . . nr
r
X
Proposition 1.2. La somme des effectifs est égale à N . Donc, ni = N
i=1

Exemple 1.20. 25 étudiants font chacun 10 lancés francs au bascket-ball ;voici pour chacun d’eux ,le
nombre de paniers réussis :
5 3 4 2 4 5 6 3 4 5 7 6 4 2 5 7 5 2 4 6 6 9 5 2 5.

xi 2 3 4 5 6 7 8 9
ni 4 2 5 7 4 2 0 1

1.4.3 Série à valeurs classées


Les séries à valeurs classées sont utilisées pour les caractères quantitatifs continus.On regroupe les
éléments de la série dans des intervalles semi-ouverts[zi , zi+1 [ appelés classes.On note l’effectif et
on considère s classes :

Classes [zo , z1 [ [z1 , z2 [ . . . [zi−1 , zi [ . . . [zs−1 , zs [


Effectifs (ni ) n1 n2 ... ni ... ns

Exemple 1.21. 96 candidats ont participé à un test de connaissances, on retient les nombres de réponses
exactes xi (caractère) :

Classes ni
[14, 18[ 6
[18, 22[ 11
[22, 28[ 18
[28, 32[ 22
[32, 36[ 16
[36, 40[ 11
[40, 44[ 8
[44, 48[ 4

Statistique Descriptive Page 17 Msc Ir Mathieu MVUYEKURE


1.4. LES SÉRIES STATISTIQUES

1.4.4 Centre et amplitude de classe

Définition 1.14. Une classe est un caractère continu .


Il est défini avec une borne inférieure et une borne supérieure.

Exemple 1.22. 1. [Lk , Lk+1 [ avec :


–Lk :Borne inférieure
–Lk+1 :Borne supérieure
2. [2, 4[

Dans un tableau statistique les classes se suivent, c- à -d que toutes les valeurs doivent être prises
en compte une seule fois.

Exemple 1.23. 1. [2.4[ puis [4, 6[ c’est un enchainement de classe correct car dans la premiere
classe le 4 est exclu, mais pas dans la seconde.
2. [2, 4] puis [4, 6[ n’est pas possible car le 4 est utilisé dans les 2 classes.

Définition 1.15. L’écart entre la borne supérieure et la borne inférieure est appelé amplitude et est
noté ai .
ai = Lk+1 − Lk

Exemple 1.24. Dans la classe [4, 6[ l’amplitude de classe est est ai =6-4=2

Définition 1.16. Le centre de classe est le milieu d’une classe :


Lk + Lk+1
xk =
2

Exemple 1.25. –Si la classe est [2, 4[ alors son centre de classe est xk = 2+4 2
= 3.
– Si le centre de classe est [4, 16[ alors son centre de classe est xk = 4+16
2
= 10.

Figure 1.4 – Classe de valeurs.

Remarque 1.3. On supposera dans tous les cas étudiés que la distribution à l’intérieur des classes est
uniforme (voir Figure 1.4). Cette hypothèse permet de justifier le fait qu’on choisisse le centre des classes
comme représentant.

Statistique Descriptive Page 18 Msc Ir Mathieu MVUYEKURE


1.4. LES SÉRIES STATISTIQUES

Figure 1.5 – Une représentation de la distribution des valeurs à l’intérieur d’une classe.

1.4.5 Nombre de classes


En combien de classes partageons-nous les valeurs ? la réponse n’est pas unique. Soit N l’effectif
total. Nous pouvons considérer dans ce cours trois réponses à titre d’exemple.
√ √ √
1. Une réponse : N , [ N ] (partie entière) ou [ N ] + 1. Donc, le nombre de classes

k' N

Exemple 1.26. Considérons 30 valeurs entre 56.5 cm et 97.8 cm. Dans ce cas, k = 30 et on
prend k = 6.
2. Une réponse : la formule de Sturge

k = 1 + 3.3 log10 (N ).

3. Une réponse : la formule de Yule √


4
k = 2.5 N

Remarque 1.4. De ce fait, on peut avoir plusieurs tableaux statistiques selon le nombre de classes.

Exemple 1.27. Si on prend N = 30, alors le nombre de classes est donné, par exemple, par
1. soit la formule de Sturge
k = 1 + 3.3 log10 (30) ' 6,
2. soit la formule de Yule √
4
k = 2.5 30 ' 6.
Nous mentionnons que les deux formules sont presque pareils si N  200.

Définition 1.17. On appelle étendu d’une série statistique la différence entre la plus grande valeur et
la plus petite valeur de la variable statistique, donnée par la quantité

e = xmax − xmin

Dans ce cas, on peut définir le pas (ou amplitude) par


e xmax − xmin
ai := =
nombre de classe k
Statistique Descriptive Page 19 Msc Ir Mathieu MVUYEKURE
1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

1.5 Représentation d’une série statistique


Les graphiques sont souvent utiles pour synthétiser de façon visuelle l’information contenue dans
les tableaux statistiques. Ils permettent de faire passer une information de manière moins rebutante
à la lecture que les tableaux. Cette lecture est plus directe mais moins précise.

1.5.1 Les caractères qualitatifs


Deux modes de présentation prédominent dans ce cas : Les diagrammes à secteurs circulaire ou
diagramme circulaire et les graphiques en tuyaux d’orgue mais d’autres présentations sont pos-
sibles.

Diagramme circulaire.

Pour représenter les résultats d’une enquête, dans le cas d’une variable statistique qualitative (par
exemple, pour représenter les résultats d’un sondage), on utilise le plus souvent un diagramme cir-
culaire.
Celui-ci se présente sous la forme d’un disque divisé en autant de secteurs que de variables représentées ;
l’aire de chaque secteur est proportionnelle à l’effectif ou à la fréquence relative de la variable cor-
respondante.
1o Dans un diagramme circulaire on partage un disque en secteurs dont la mesure de l’angle au
centre est proportionnelle à l’effectif de la valeur correspondante du caractère( n ).
2o Le diagramme à secteurs circulaires est utilisé pour représenter graphiquement un caractère
qualitatif ou quantitatif .
Remarque 1.5. Les mesures des angles au centre des secteurs sont proportionnelles aux effectifs cor-
respondants.
Un angle de 360°correspond à l’effectifs total :N
A un effectif partiel ”ni ” correspond un angle de :
360°
α = ni × en degrés
N
Une fréquence de 100% correspond à un angle de 360°pour un diagramme circulaire et à 180°pour un
diagramme semi circulaire.
Pour obtenir le pourcentage d’un secteur angulaire on procède de la manière suivante :
Sachez qu’un secteur angulaire de 1°,représente un pourcentage de 360
100

Pour un angle de α°,le secteur angulaire de α° représentera en % de 360


100
×α

N.B La somme des pourcentages est égale à 100%.


Exemple 1.28. Voici la repartion ,en pourcentage ,de la population française, par catégories sociopro-
fessionnelles pour l’année 1999
Categories % Angles en degres Debut du secteur Fin du secteur
Agriculteurs 2 7,2 0 7,2
Artisans 3 10,8 7,2 18
Cadres 5 18 18 36
Intermédiaires 9 32,4 36 68,4
Emploiyés 13 46,8 68,4 115,2
Ouvriers 12 43,2 115,2 158,4
Retraités 18 64,8 158,4 223,2
Inactifs 38 136,8 223,2 360

Statistique Descriptive Page 20 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

Employés

Intermédiaires
Ouvriers 13%
9%
12%
Cadres
5%
Artisans
3%
2% Agriculteurs

18%
Retraités

38%

Inactifs

Tuyaux d’orgues

C’est un diagramme dans lequel on représente les valeurs d’une distribution d’une variable sta-
tistique qualitative. Les graphiques en tuyaux d’orgue font apparaı̂tre des rectangles de base
constante, dont les hauteurs sont proportionnelles aux effectifs ou aux fréquences. On ordonne
généralement les valeurs des effectifs de la plus grande à la plus faible en partant de l’origine des
axes. Ce graphique représente la meme réalité que diagramme à secteurs circulaires précédent.

Individus Effectifs
Ouvriers 100
Exemple 1.29. Employés 50
Cadres 40
Cadres supérieurs 10

Statistique Descriptive Page 21 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

Figure 1.6 – Tuyaux d’orgues.

1.5.2 Les caractères quantitatifs


A. Variables statistiques discrètes
1. Diagramme en barres ou Diagramme à bâtons
C’est un diagramme dans lequel on représente les valeurs d’une distribution d’une variable sta-
tistique quantitative discrète à l’aide de segments verticaux ou horizontaux. On construit un dia-
gramme en barres avec :
–Sur l’axe horizontale, on met les valeurs du caractère étudié (xi ).
–Sur l’axe vertical,les effectifs.
Pour l’illustration, nous prenons l’exemple précédent de départ (nombre d’enfants par famille). Nous
rappelons le tableau statistique associe.

Nombre d’enfants xi Ménages ni fi


0 50 0,28
1 60 0,33
5 40 0,22
Exemple 1.30.
3 20 0,11
4 5 0,03
5 5 0,03
Total 180 1

Statistique Descriptive Page 22 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

Sa représentation est la suivante :

Figure 1.7 – Diagramme à bâtons.

Le diagramme aurait le même profil si l’on avait choisi de porter en ordonnées non plus les fréquences
relatives mais les effectifs.

2. La courbe cumulative et fonction de répartition


Il s’agit de représenter les fréquences cumulées ou les effectifs cumulés. La courbe obtenue à partir
des valeurs du tableau est une courbe en escaliers dont les paliers sont horizontaux appelé la courbe
cumulative des fréquences.
Dans le cas des fréquences cumulées ascendantes, elle représente la proportion des individus pour
lesquels la valeur de la variable est strictement inférieur à xi .
La fonction étant définie pour toute valeur de x, on emploiera indifféremment les termes de fonction
cumulative ou fonction de répartition (notation : Fi ou F (x) pour les fréquences relatives et Ni
ou N (x) pour les effectifs).

Remarque 1.6. Les fréquences cumulées sont représentées au moyen de la fonction de répartition .
Cette fonction, satisfait,pour i ∈ {1, · · · , n},
L’égalité ,Fx (xi ) = Fi
La courbe de Fx passe par les points (x1 , F1 ), (x2 , F2 ), · · · et (xn , Fn ).

Proposition 1.3. La fonction de répartition satisfait, pour i ∈ 1, · · · , n,


1. l’égalité, Fx (xi) = Fi ,


 0 si x < x1 ,
F1 si x1 ≤ x < x2

2. l’expression, Fx (x) =

 Fi si xi ≤ x < xi+1
1 si x ≥ xn

Exemple 1.31. Reprenons l’exemple précédent : Il vient :

Statistique Descriptive Page 23 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

xi ni fi N (x) F (x)
0 50 0,28 50 0,28
1 60 0,33 110 0,61
5 40 0,22 150 0,83
3 20 0,11 170 0,94
4 5 0,03 175 0,97
5 5 0,03 180 1

Figure 1.8 – Représentation d’une variable quantitative discrète par la courbe cumulative.

Chaque palier de la courbe est ouvert à gauche et fermé à droite (sauf le dernier) 61% des ménages
ont  moins de  deux enfants.

B. Variables statistiques continues


1. Histogramme
Un histogramme est une représentation graphique d’une série statistique de variable quantitative
continue.
Il est constitué d’une succession de rectangles accolés dont les aires sont proportionnelles aux effec-
tifs de chaque classe. Sur l’axe des abscisses sont reportées les bornes des classes de la série.
L’histogramme sert à représenter uniquement les séries à caractère quantitatif continu .( effectifs ou
fréquences)
C’est à dire que lorsque les valeurs prises par le caractère sont regroupées en classes : on porte en
abscisse les limites des classes.
En ordonnée on peut représenter :
–Les effectifs (ni ) : effectif d’une classe est représenté par un rectangle dont l’aire est proportion-
nelle à l’effectif de la classe . ( les rectangles sont accolés  )
–Les fréquences :de chaque classe .

Statistique Descriptive Page 24 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

a) Les amplitudes sont égales

Exemple 1.32. Une compagnie de taxis s’intéresse au kilométrage effectué par ses véhicules. A cet effet,
elle a relevé la statistique ci-dessous pour une matinée de travail.

Trajets en kilomètres [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[ [60, 70[
Nombres de taxis 9 13 22 10 7 4

xi ni fi (%)
[10, 20[ 9 13,85%
[20, 30[ 13 20,00%
[30, 40[ 22 33,85%
[40, 50[ 10 15,38%
[50, 60[ 7 10,77%
[60, 70[ 4 6,15%
Total 65 100%

Figure 1.9 – Histogramme des fréquences ou des effectifs.

b) Les amplitudes sont inégales


Reprenons le même exemple que précédemment, mais en modifiant les données de façon à regrouper
les deux dernières classes en une seule, on obtient :

Statistique Descriptive Page 25 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

xi ni fi (%) ai hi
[10, 20[ 9 13,85% 10 13,85
[20, 30[ 13 20,00% 10 20,00
[30, 40[ 22 33,85% 10 33,85
[40, 50[ 10 15,38% 10 15,38
[50, 70[ 11 16,92% 20 8,46
Total 65 100%

La colonne ai permet de visualiser les différences d’amplitudes et de repérer l’amplitude unité qui
est généralement la plus petite amplitude de la colonne. Ici, l’amplitude unité est égale àa 10 (parfois
on repère le PGCD des amplitudes).
La colonne hi est construite de la manière suivante : on reporte les valeurs de fi ou de ni corres-
pondant aux amplitudes unités (Ici on a reporté les valeurs de fi pour obtenir un histogramme en
fréquences relatives) ; l’on divise fi ou ni par le rapport des amplitudes quand elles ne sont pas égales
à l’amplitude unité.
20
Ici l’amplitude de la derniere classe est 20, donc on a divisee fi par 10
= 2.
16, 92
Donc = 8, 46
2

Cette colonne hi nous donne les hauteurs des rectangles à tracer sur l’histogramme :

La ligne en pointillés représente ce qu’aurait donné l’histogramme si l’on n’avait pas repéré les
différences d’amplitudes.

Statistique Descriptive Page 26 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

La surface totale de l’histogramme n’est pas modifiée par le groupement des classes, il ya compen-
sation des aires comme le montre le schéma ci-dessous :

Les pointillés correspondent à l’histogramme à classes égales ; les traits pleins à l’histogramme à
classes inégales. Les deux surfaces hachurées sont égales.
2. Polygone et courbe de fréquences
Parfois l’histogramme ne donne pas une image directe du phénomène à étudier. Pour obtenir une
représentation moins lourde à visualiser, on peut tracer :
1. Le polygone des fréquences qui joint les milieux des sommets des rectangles des classes
d’amplitudes égales.

Statistique Descriptive Page 27 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

Pour tracer : on ajoute deux fausses classes aux extrémités. Il y a toujours conservation des
aires : En fréquences relatives, la surface sous le polygone est toujours égale à 1.
2. La courbe des fréquences est un ajustement graphique du polygone des fréquences. On
conçoit que si l’amplitude de classe devient de plus en plus petite jusqu’à tendre zéro, le
polygone des fréquences peut tendre vers une courbe continue. Ceci est particulièrement
important en calcul des probabilités et en statistique mathématique, où l’on cherche à ajus-
ter la distribution observée à une loi de probabilité connue. Ainsi la courbe des fréquences
représente une estimation de la loi de probabilité qu’est censée suivre le phénomène.

On peut dire, par exemple, que la formule de l’histogramme représenté ci-dessus suggère une
loi normale ou loi de Gauss-Laplace (parfois appelée vulgairement courbe en cloche).
L’ajustement purement visuel (1) qui nous intéresse ici, reste donc très subjectif : En effet,
il est toujours difficile d’optimiser de façon uniquement graphique les deux conditions de
continuité et de compensations des aires que doit remplir la courbe des fréquences vis-à-vis
de l’histogramme donné.
2. Courbes cumulatives et Fonction de répartition

Définition 1.18. La fonction Fx : R −→ [0, 1] définie par Fx (x) représente le pourcentage des indivi-
dus tel que la valeur de leur caractère est inférieure ou égale à x. Elle est donnée par

 0 si x < a0 ,
f1

(x − a0 ) si a0 ≤ x < a1

Fx (x) = h
fi+1
F + h (x − ai ) si ai ≤ x < ai+1
 i


1 si x ≥ an

et elle s’appelle la fonction de répartition de X.

Les explications de cette formulation de la fonction de répartition sont données dans cette remarque.

Remarque 1.7. Nous calculons Fx (x) par extrapolation (voir Figure 1.10).
Nous avons déjà F (Li ) = Fi . De plus,

F (Li+1 ) − F (Li ) F (x) − F (Li )


tan(α) = =
Li+1 − Li x − Li

Statistique Descriptive Page 28 Msc Ir Mathieu MVUYEKURE


1.5. REPRÉSENTATION D’UNE SÉRIE STATISTIQUE

Ce qui implique la formule de la fonction de répartition

fi+1
F (x) = (x − Li ) + Fi
h

Figure 1.10 – Le calcul de Fx (x) par extrapolation.

Dans le cas discret on a vu que l’on obtenait une courbe en escalier. Dans le cas continu, qui nous
intéresse ici, on obtiendra une courbe monotone non décroissante (fréquences cumules ascendantes).
Sur les données de l’exercice précédent, la courbe cumulative est la suivante :

Sur cette représentation 67,70% des taxis font moins de 40km par jour.

Statistique Descriptive Page 29 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

Comme dans le cas discret, la courbe cumulative est la représentation graphique de la fonction de
répartition, qui traduit la proportion des individus de la population dont la variable statistique est
inférieure à x (fréquences cumulées ascendantes).

F (−∞) = 0 ; F (+∞) = 1

EXERCICES

1. On a relevé les moyennes des notes de 30 élèves d’une classe d’un établissement scolaire.Les
résultats sont regroupés dans le tableau ci-dessous :
Moyenne Effectifs
[7, 9[ 7
[9, 11[ 9
[11, 13[ 3
[13, 15[ 6
[15, 17[ 5
a. Quel est le caractère étudié ?Est-il qualitatif ou quantitatif ?Pourquoi a-t-on effectué un
regroupement en classes.
´
b. Etablir un tableau comprenant les classes,centre de chaque classe,les fréquences relatives
,les fréquences cumulées relatives ascendantes et les amplitudes.
c. Construire l’histogramme de cette série statistique.
2. Au cours d’un examen coté sur 20points,40 candidats ont obtenu les résultats suivants :
15 1 6 13 15 18 10 18 11 14 14 5 6 9 15
12 17 7 2 17 1 9 8 18 5 15 13 6 8 10
16 11 9 11 13 12 6 14 9 10.

1o Regrouper ces données en série statistique d’amplitude 5.


2o Construire l’histogramme et la polygone des fréquences cumulées croissants de cette série
statistique.
3. Voici le tableau des pourcentages obtenu pour la variable  Mode de logement  :
xi Cité U Studio Résidence Maison Autre Total
% 4.8 16.5 38.6 28.6 11.6 100
Sachant que la taille de l’échantillon N = 189 ,retrouver les effectifs pour chaque
modalité.

1.6 Paramètres de position ou caractéristique de tendance cen-


trale
Les indicateurs statistiques de tendance centrale (dits aussi de position) considérés fréquemment
sont la moyenne, la médiane et le mode.

1.6.1 Le mode
Cas d’une série simple

Définition 1.19. Le mode noté M0 d’une série statistique simple est la valeur de la variable qui
apparaı̂t plusieurs fois dans la série.

Statistique Descriptive Page 30 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

N.B Le mode n’est pas toujours unique.


Exemple 1.33. Soit la série statistique suivante{15,20,35,18,22,1000,18}.
Donc,18 est la valeur de la variable qui se répète plusieurs fois.Donc,

M0 = 18

Cas d’une variable quantitative discrète et continue

Définition 1.20. Le mode d’une variable statistique est la valeur qui a le plus grand effectif partiel (ou
la plus grande fréquence partielle)

Cas d’une variable quantitative discrète

Exemple 1.34. Le tableau suivant donne la répartition du nombre de personne par ménage en France
en 1999.

xi 1 2 3 4 5 6 7 8 9 ou plus
ni 8000 8100 4500 3500 1500 500 300 200 300

8100 est l’effectif le plus élevé.Donc,M0 = 2

Cas d’une variable quantitative continue

Définition 1.21. Soit x une variable quantitative continue ; on appelle classe modale la classe du ca-
ractère qui possède le plus grand effectif.
Remarque 1.8. Il n’est pas praticable de dire que le mode est le centre de la classe modale ; on cherche
donc une valeur dans la classe modale qui présente le mieux le mode.
Ainsi, lorsque les classes ont même amplitude et que les deux classes adjacentes à la classe modale ont
même densité alors le mode sera le centre de la classe modale.

Supposons alors que les classes ont même amplitude et que les deux classes adjacentes à la classe
modale n’ont pas la même densité ;alors le mode est obtenu à partir de l’expression suivante :
∆1
M0 = li + ai
∆1 + ∆2
Avec : –li :Limite inférieure de la classe modale
–∆1 : La différence entre l’effectif de la classe modale et l’effectif de la classe précédente.
–∆2 : La différence entre l’effectif de la classe modale et l’effectif de la classe suivante.
–ai : L ’amplitude de la série statistique.
Exemple 1.35. Calculer le mode de la série statistique suivante :

Classes ni di (densité)
[50, 60[ 20 2
[60, 70[ 60 6
[70, 80[ 50 5
[80, 90[ 40 4
[90, 100[ 30 3

Statistique Descriptive Page 31 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

Figure 1.11 – Représentation ou détermination graphique du mode (cas continu).

Donc,60 est l’effectif le plus eleve.Donc, [60, 70[ est la classe modale.
Donc :

(60 − 20)
M0 = 60 + × 10
(60 − 20) + (60 − 50)
40
= 60 + × 10
50
= 68

Remarque 1.9. Il peut y arriver que les classes n’ont pas la même amplitude.
Dans ce cas, on calcule le mode à partir de l’expression suivante :

∆01
M0 = li + × ai
∆01 + ∆02

Avec : –li :Limite inférieure de la classe modale


–∆01 :La différence entre la densité de la classe modale et la densité de la classe précéndente
–∆02 :La différence entre la densité de la classe modale et la densité de la classe suivante
–ai : L’amplitude de la classe modale.
La densité de la classe est donnée par
ni
hi =
ai /a
Avec ni l’effectif partiel et ai l’amplitude de la classe, et a est l’amplitude base.

Exemple 1.36. Calculer le mode de la série statistique suivante :

Statistique Descriptive Page 32 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

Classes ni di (densité)
[50, 60[ 20 2
[60, 70[ 60 6
[70, 75[ 50 10
[75, 90[ 40 2,67
[90, 100[ 30 3

(10 − 6)
M0 = 70 + ×5
(10 − 6) + (10 − 2, 67)
4
= 70 + ×5
4 + 7, 33
= 71, 76

1.6.2 La médiane
Définition 1.22. La médiane d’une série statistique ,notée Me , est le nombre qui partage la série
statistique ordonnée en deux parties de même effectif.

Cas d’une série simple

–Si la série possède un nombre impair de termes (n = 2p + 1) alors la médiane est la (p + 1) donnée.
Exemple 1.37. Soit la série statistique suivante : {17,18,16,14,15,14,19,14,17}
Nous rangeons d’abord la serie par ordre croissant :{14,14,14,15,16,17,17,18,19}.
Donc, la médiane est le terme du milieu.D’où, Me = 16

–Si la série statistique possède un nombre pair de termes (n = 2p) alors la médiane est égale à la
somme de 2termes du milieu divisé par 2.
Exemple 1.38. Soit la série statistique suivante :{13,14,15,16,17,18,19,20}
16 + 17
Me = = 16, 5
2

Cas d’une variable quantitative discrète

REGLE :On repère la valeur 0,5 dans fi cumulée ou la valeur n2 dans ni cumulé ;la valeur du caractère
correspondant à ces variables sera alors la médiane.
Définition 1.23. On appelle la médiane la valeur Me de la variable statistique X qui vérifie la relation
suivante :
Fx (Me− ) < 0.5 ≤ Fx (Me+ ) = Fx (M e).
Exemple 1.39. Le tableau suivant indique la répartition du nombre d’enfant par ménage :

Nbre d’enfants : xi Nbre de ménage : ni fi Ni cumulé Fi cumulée


0 20 0,1 20 0,1
1 65 0,325 85 0,425
2 70 0,35 155 0,775
3 30 0,15 185 0,925
4 10 0,05 195 0,975
5 5 0,025 200 1,000
Total 200 = n 1,000

Statistique Descriptive Page 33 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

Déterminons alors la médiane.

Donc, n2 = 200
2
= 100
Ainsi,on fait alors le repérage dans le tableau ;0,5 se trouve dans 0,775 et 100 se trouve dans 155.
Donc,Me = 2.
Ou bien en utilisant la formule

Fx (Me− ) < 0.5 ≤ Fx (Me+ ) = Fx (M e).

On a :
Fx (0, 425.) < 0.5 ≤ Fx (0, 775) = Fx (M e).
D’où Me = 2
Interprétation :il ya autant des ménages qui possèdent au moins 2 enfants que des ménages qui
possèdent plus de 2 enfants.

Cas d’une variable quantitative continue

Pour une série à variable continue , le calcul de la médiane ne distingue pas la différence des ampli-
tudes.
S’agissant alors de la détermination de la classe médiane ;on repère le nombre 0,5 dans Fi cumulée
et sur la même ligne la classe correspondante sera la classe médiane.
On peut aussi déterminer la classe médiane en calculant d’abord n2 puis on fait le repérage de la
valeur obtenue dans la colonne des ni cumulé et sur la même ligne la classe correspondante sera la
classe médiane.

Définition 1.24. La médiane est la valeur Me telle que F (Me ) = 0, 5. Cette valeur est unique.

Pour déterminer la médiane par la méthode d’interpolation linéaire, on utilise l’expression suivante :

0, 5 − Fi−1
Me = Li + ai
fi

Avec : —Li :Borne inférieure de la classe médiane


—ai :Amplitude de la classe médiane
—Fi−1 :Fréquence cumulée avant la classe médiane
—fi :Fréquence de la classe médiane

Exemple 1.40. Le tableau suivant donne la répartition des ouvriers de l’entreprise selon le salaire
mensuel en France :

Classes Effectif :ni Fréquence :fi fi cumulée ni cumulé


[1000, 1100[ 26 0,186 0,186 26
[1100, 1200[ 33 0,235 0,421 59
[1200, 1300[ 64 0,458 0,879 123
[1300, 1400[ 7 0,050 0,929 130
[1400, 1500[ 10 0.071 1,00 140
Total 140 1,00

Déterminons alors la médiane.

Statistique Descriptive Page 34 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

Donc, n2 = 140
2
= 70 Donc , la classe médianeest [1200, 1300[.
0, 5 − 0, 421
Me = 1200 + 100 = 1207, 5
0, 458
Pour déterminer la médiane, il y a autre méthode, il s’agit de la Méthode graphique à partir de la
formule
F (Li+1 ) − F (Li ) 0, 5 − F (Li )
tan(α) = =
Li+1 − Li Me − Li
Plus précisément, dans la figure 1.13, nous mettons F (x) = 0, 5 et x = Me .

Figure 1.12 – Le calcul de la médiane par méthode graphique.

1.6.3 Généralisation de la médiane


Les quantiles

Définition 1.25. Le mot quantile désigne l’une des classes de valeurs d’une variable qui divise les
membres d’un lot ou d’un échantillon en sous groupes de valeurs égales de valeur adjacentes ou d’une
distribution de probabilité en distributions de probabilité égale.

Les quantiles sont des caractéristiques de position comme la médiane.


Parmi les quantiles on distingue :

Les quartiles

Définition 1.26. On appelle  les quartiles  les 3 valeurs de la variable qui partagent l’effectif rangé
par ordre croissant ,en quatre sous-ensemble égaux.

N.B Il faut souligner que les quartiles sont au nombre de 3 (Q1 ,Q2 et Q3 )
Définition 1.27. On appelle première quartile la plus petite valeur de la série , notée Q1 , telle qu’au
moins 25% des valeurs de la série soient inférieures ou égales à Q1 .

Statistique Descriptive Page 35 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

Définition 1.28. On appelle deuxième quartile la plus petite valeur de la série ,notée Q2 , telle qu’au
moins 50% des valeurs de la série soient inférieures ou égales à Q2 .

N.B La médiane coı̈ncide avec le deuxième quartile.


Définition 1.29. On appelle troisième quartile la plus petite valeur de la série, notée Q3 , telle qu’au
moins 75% des valeurs de la série soient inférieures ou égales à Q3 .
Remarque 1.10. Les calculs de détermination des quartiles sont analogues à ceux de la médiane.
Remarque 1.11. Pour le cas d’une série simple, elle est question de ranger d’abord la série par ordre
croissant avant la détermination des quartiles.
Exemple 1.41. Soit la série suivante :{0,5,8,10,11,14,15,20}
Déterminons la première et la troisième quartiles.
—Rang de Q1 est 0, 25 × 8 = 2 ou ( 14 × 8 = 2) car n = 8.
Donc, Q1 est la deuxième valeur de la série.
D’ où, Q1 = 5.
—Rang de Q3 est 0, 75 × 8 = 6 ou ( 43 × 8 = 6).Donc, Q3 est la sixième valeur de la série.
D’où, Q3 = 14
Remarque 1.12. Dans le cas où l’effectif total de la série n’ est pas divisible par 4 ; on arrondi par excès
au moment du calcul des quartiles.
Exemple 1.42. Calculer les quartiles de la série suivante :{5,5,8,10,11,11,14,15,17}

Rang de Q1 = 41 × 9 = 2, 25 ' 3.Q1 est la troisième valeur de la série.


D’où, Q1 = 8.
Rang de Q3 est 43 × 9 = 6, 25 ' 7. Q3 est la septième de la sèrie . Doù, Q3 = 14.
Exemple 1.43. Le tableau suivant indique la masse des tablettes de chocolats exprimée en gramme :

Masses : xi 92 95 97 98 100 102 103


Effectifs :ni 11 10 2 5 21 13 8
Ni 11 21 23 28 49 62 70

Calculons les quartiles.


Rang de Q1 est 70
4
= 17, 5 ' 18
Donc, Q1 = 95

Interprétation :Environ 25% des tablettes de chocolats pèsent 95g ou moins.


Rang de Q3 est 43 × 70 = 52, 5 ' 53
Donc ,Q3 = 102

Interprétation :Environ 75% des tablettes de chocolats pèsent 102g ou moins.


Exemple 1.44. Calculer les quartiles de la série suivante :

Classes ni Ni cumulé fi (en%) Fi cumulée


]1000, 1500] 6 6 9,23 9,23
]1500, 2000] 12 18 18,46 27,69
]2000, 2500] 25 43 38,46 66,15
]2500, 3000] 17 60 26,16 92,31
]3000, 3500] 5 65 7,69 100
Total 65 100

Statistique Descriptive Page 36 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

0,25−0,0923
Q1 = 1500 + 0,1846
× 500 = 1927, 14
0,75−0,6615
Q3 = 2500 + 0,2616
× 500 = 2669, 15

Figure 1.13 – Les quartiles.

Les déciles

Définition 1.30. Un décile est chacune des neufs valeurs qui divisent une distribution statistique or-
donnée en dix groupes d’effectifs égaux.

• Un deuxième des valeurses est supérieure au premier décile D1 .


• Un dixième des valeurs sont supérieures au neuvième décile D9
N.B pour déterminer les déciles d’une série statistique ,il faut d’abord ranger les valeurs par ordre
croissant.

Exemple 1.45. Calculer la série suivante : {1,3,3,3,5,5,6,7,7,8,8,8,9,9,10,10,10,10,11,11,12,12,13,13,13,13,14,15,16,19}


(N=30)
• Rang de D1 est 10
30
=3
D1 =3
• Rang de D9 est 9×30
10
= 27
D9 =14

Remarque 1.13. Les calcules des déciles sont analogues à ceux des quartiles.

N.B D5 = Me = Q2

Les centiles ou percentiles

En statistique descriptive, un centile, ou percentile, est chacune des 99 valeurs du caractère qui
divisent les données triées en 100 parties égales, de sorte que chaque partie représente 1/100 de
l’échantillon de population.
Ils se notent C1 , C2 , · · · , C99 ou P1, · · · , P99

Remarque 1.14. P50 n’est que la médiane ou la deuxième quartile.

N.B Le calcul des percentiles sont semblables à ceux des quartiles.

Statistique Descriptive Page 37 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

1.6.4 La moyenne arithmétique


Cas d’une série simple

Définition 1.31. On appelle moyenne arithmétique simple d’une série statistique le rapport de la
somme des valeurs observées par le nombre d’observation n.

On a donc : n
1 X
x̄ = xi
N i=1

Exemple 1.46. Calculer la moyenne de la série suivante {3,5,7,9,10,11,12,18}


x̄ = 18 (3 + 5 + 7 + 9 + 10 + 11 + 12 + 18) = 9, 375

Cas d’une variable discrète ou continue

Pour une distribution statistique d’une variable discrète ou continue ; la moyenne arithmétique est
donnée par :
n
1 X
x̄ = ni xi
N i=1
P
Avec, N = ni
Exemple 1.47. Dans une interrogation côtée sur 20points, voici 50 notes attribuées en français :

xi 5 6 7 8 9 10 11 12 13 14 15 16 Total
ni 2 4 4 6 6 7 6 5 4 3 2 1 50
n i xi 10 24 28 48 54 70 66 60 52 42 30 16 500
n
X 1
Donc,x̄ = 1
N
ni xi = × 500 = 10.
i=1
50

Exemple 1.48. Calculer la moyenne de la série statistique suivante :

Classes xi ni ni xi
]149, 5; 154, 5] 152 29 4408
]154, 5; 159, 5] 157 51 8007
]159, 5; 164, 5] 162 102 16524
]164, 5; 169, 5] 167 192 32064
]169, 5; 174, 5] 172 160 27520
]174, 5; 179, 5] 177 73 12921
]179, 5; 184, 5] 182 32 5824
]184, 5; 189, 5] 187 18 3366
Total 657 11063
n
X 1
Donc,x̄ = 1
N
ni xi = × 11063 = 168, 38
i=1
657

Remarque 1.15. Pour une variable discrète ou continue ,la moyenne arithmétique est aussi donnée
par la formule suivante :
Xn
x̄ = f i xi
i=1

Statistique Descriptive Page 38 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

1.6.5 Propriétés de la moyenne arithmétique


Deux propriétés fondamentales sont à connaı̂tre. Ces deux propriétés concernent les écarts à la
moyenne arithmétique qu’il nous faut avant tout définir :

Définition 1.32. On appelle écarts à la moyenne arithmétique la valeur :

(xi − x)

Il y a autant d’écarts que d’observations ni , par modalité, donc l’ensemble des écarts (ou tous les écarts)
est la valeur :
ni (xi − x)
La somme de tous les écarts est donc :
k
X
ni (xi − x)
i=1

La première propriété : La somme des écarts à la moyenne arithmétique est nulle :


k
X
ni (xi − x) = 0
i=1

La deuxième propriété : La somme des écarts à la moyenne arithmétique est minimale :


k
X
ni (xi − a)2
i=1

est minimale pour a = x. a étant une valeur quelconque.

1.6.6 L’analyse de SHIFT AND SHARE et l’effet de structure : Une lecture


de la moyenne
A. Le principe
L’analyse de SHIFT AND SHARE est une application de la moyenne arithmétique, utilisée pour
comparer plusieurs moyennes pondérées quand les coefficients de pondération sont très différents
les uns des autres.
En effet, pour comparer deux phénomènes on est parfois tenté de comparer leurs moyennes… or, il
faut prendre garde, car les pondérations peuvent introduire une erreur de jugement.
Cette erreur de jugement viendrait du fait que l’on aurait omis de faire ressortir un éventuel effet de
structure tenant aux pondérations.
Soit un phénomène quelconque X. Si au temps t = 0, on calcule la moyenne de ce phénomène on
aura :
1 X
x0 = ni0 xi0
n0
Si trois ans plus tard, on recalcule cette moyenne, on aura :

1 X
x3 = ni3 xi3
n3

Statistique Descriptive Page 39 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

et si on s’aperçoit que cette dernière moyenne est deux fois supérieure à la première :
x3 = 2x0
faut-il conclure que le phénomène étudié par les xi a connu une formidable croissance ?
Pas forcement, ce ne sont peut être que les pondérations (ni /n) qui ont changé, faisant ainsi doubler
la valeur de la moyenne.
Il aurait eu alors un effet de structure cachant l’effet réel d’évolution du phénomène, lui- même
repéré par les xit .
La méthode consiste à repérer, dans l’analyse du phénomène, l’effet de structure (tenant aux pondérations)
d’une part, et l’effet résiduel (dû aux variations du phénomène) d’autre part. Ce repérage s’effectue
en faisant varier séparément les pondérations (ni /n) et les valeurs observées (xi ).

La logique du shift and share


Un effet de structure provient du fait que l’on compare des moyennes possédant des pondérations
différentes pour des phénomènes appréhendés par des caractères pouvant prendre des modalités
très différentes.
Par exemple : Un effet de structure apparaı̂t fréquemment quand on compare les salaires par sexe :
Traditionnellement, les hommes sont parfois à qualifications égales mieux payés que les femmes.
Dès lors, une entreprise employant beaucoup plus d’hommes que de femmes pourra dégager un
salaire moyen plus élevé qu’une entreprise employant beaucoup plus de femmes que d’hommes.
Mais peut-on, à la simple lecture des salaires moyens, dire que la première entreprise donne de
meilleurs salaires aux employés que la deuxième ? Pas forcement : il faudra séparer l’effet de structure
de l’effet résiduel : pour cela, on pourra :
- Soit calculer ce que seraient les salaires moyens si les deux entreprises rémunéraient les hommes
et les femmes de la même manière.
- Soit calculer ce que seraient les salaires moyens si les deux entreprises employaient le même
nombre d’hommes et de femmes.
Selon que l’on voudra faire ressortir en effet de structure de salaires ou d’effectifs, on emploiera l’une
ou l’autre des deux solutions.
On comparera donc un salaire fictif, calculé en fixant l’une des composantes et en faisant varier
l’autre, que l’on comparera au salaire réel donné par l’observation. La différence ou le rapport
entre les deux, mesurera l’effet de structure, c’est à dire la part dans laquelle le fait d’employer plus
d’hommes que de femmes, revient à gonfler le salaire moyen.

Quelques domaines d’application du shift and share


La méthode est largement utilisée en économie spatiale où les espaces (régions, villes,etc…) présentent
des structures différentes. Elle est souvent appliquée également en démographie et dans les analyses
économiques de l’emploi par sexe et par qualification.
Dans les analyses dynamiques de moyennes, le shift est appelé Tendance et le Share conserve son
appellation d’effet de structure.

B. Exemple
Soient :
• Deux regions R1 et R2
• Trois secteurs économiques
S1 (Par exemple : Agriculture)

Statistique Descriptive Page 40 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

S2 (Par exemple : Industrie + BTP)


S3 (Par exemple : Services et commerces)
• Un phénomène : La productivité du travail mesurée par le rapport : Valeur ajoutée (VA) sur nombre
d’emplois (E).
Admettons que la productivite du travail est :
VA
E
Ce ratio VEA va être différent d’un secteur à un autre, par nature (effet, les combinaisons capital-
travail sont différentes).
Supposons que l’on observe (d’après des statistiques officielles), qu’en moyenne :
VA VA
E
dans R1 > E
dans R2
Peut-on dire, sans chercher plus loin, que la productivité dans R1 est supérieure à la productivité
dans R2 ? Oui en première analyse.
Mais : La réalité peut être exactement le contraire, si on est en présence de spécialisations
sectorielles (c’est à dire : beaucoup d’emplois dans le même secteur d’une région), et d’écarts de
productivités très différentes d’un secteur à un autre (VA très différentes par exemples).
Les données chiffrées (très simplifiées ici) sont :

S1 S2 S3 P Total
P
E VA E VA E VA E VA
R1 500 40 6000 1300 500 45 7000 1385
R2 1500 170 1000 380 1000 120 3500 670
R1 + R2 2000 210 7000 1680 1500 165 10500 2055

(VA : en millions d’euros)


On voit une forte spécialisation de R1 dans S2 (6000 emplois). Les productivités du travail (V A en
millions d’euros et E en milliers), en général, dans R1 et R2 sont de 105 pour S1 , de 240 pour S2 et de
110 pour S3 . Elles sont par nature très différentes (l’agriculture et le tertiaire sont moins productifs
que l’industrie).
On tire du tableau des données celui des productivités régionales (V A/E)

( VEA × 1000) Productivité de S1 Productivité de S2 Productivité de S3 Productivité globale


R1 80 217 90 198
R2 113 380 120 191
Ensemble 105 240 110 196

On voit bien sur le tableau des productivités ce qu’on annonçait au début :


La productivité globale dans R1 (198) est supérieure à celle dans R2 (191) or : Dans chaque
secteur c’est l’inverse ! Les productivités dans R1 sont toutes inférieures à celles dans R2 .
On en est donc à affirmer une chose et son contraire ! où est la vérité ? Les deux affirmations contra-
dictoires sont vraies, mais il faut préciser : c’est l’effet de structure qui a joué
Il y a en effet une forte spécialisation de R1 dans S2 (6000 emplois). Ceci relève peut être de l’historique
de la région : c’est un phénomène régional, spatial.
De plus, ce secteur S2 ,connaı̂t en général de très forts taux de productivité et dégage une très forte

Statistique Descriptive Page 41 Msc Ir Mathieu MVUYEKURE


1.6. PARAMÈTRES DE POSITION OU CARACTÉRISTIQUE DE TENDANCE CENTRALE

valeur ajoutée. Ceci relève d’un phénomène économique général (mondial peut être…  naturel  du
moins)
Pour interpréter correctement le phénomène résultant, il faut calculer une productivité moyenne
qui tienne compte de cet effet de structure, c’est à dire :

Règle du shift and share :

On calcule les V A qu’auraient dû réaliser chaque région dans chaque secteur, si les productivités
moyennes des secteurs avaient été les mêmes dans chaque région.

Dès lors, à la place des V A observées (VA précédentes), on va raisonner sur des V A calculées, ou
 fictives  ou  potentielles  : Elles seront calculées en multipliant les emplois par des productivités

(V A/E)  homogènes  ou  identiques  pour les deux régions.


On a le choix ici, et l’on peut prendre soit les valeurs de productivités de R1 , soit celles de R2 , soit
la moyenne des deux, ce que nous ferons dans la suite de cet exemple.
On choisit :
V A/E = 105 pour S1 dans R1 et R2
V A/E = 240 pour S1 dans R1 et R2
V A/E = 110 pour S1 dans R1 et R2

Le nouveau tableau des valeurs ajoutees  fictives  devient :

S1 S2 S3 P Total
P
E V A(f ) E V A(f ) E V A(f ) E V A(f )
R1 - 52,5 - 1440 - 55 - 1547,5
R2 - 157,5 - 240 - 110 - 507,5
Ensemble - 210 - 1680 - 165 - 2055

Les emplois sont les mêmes (on les réécrit pas ici). La dernière ligne du tableau est inchangéée par
rapport au tableau des données. Mais on voit nettement les différences de valeur ajoutée entre les
régions. Ces valeurs ajoutées sont dûes au seul fait de la structure, c’est à dire indépendamment des
spécialisations et des différences de productivité : c’est le share effect ou effet de structure. Il faut
comparer aux valeurs observées dans les données.

V A(fictives) V A(observées) Différence Ecart en %


R1 1547,5 1385 -162,5 -10,5%
R2 507,5 670 +162,5 +32%
Ensemble 2055 2055 0

Les différences ou les écarts sont imputés aux différences inter-régionales de productivités : c’est
l’effet résiduel (appelé shift effect surtout pour des comparaisons en dynamique), et, en définitive :
R1 présente un niveau de productivité inférieur de 10,5% à la moyenne
R2 présente un niveau de productivité supérieur de 32% à la moyenne

Forces et faiblesses du shift and share


Intérêt économique : Relativiser les phénomènes. Expliquer une réalité masquée. Décomposer
l’évolution d’une variable suivant plusieurs composantes.

Statistique Descriptive Page 42 Msc Ir Mathieu MVUYEKURE


1.7. GÉNÉRALISATION DE LA NOTION DE MOYENNE

Intérêt statistique : C ’est une réinterprétation de la moyenne. C’est une critique des résultats
moyens. Cependant : la réalité brute reste ce qu’elle est : les moyennes sur les données ne sont pas
fausses ; seule l’interprétation demande l’utilisation de la méthode.
Critiques : L’évaluation du share dépend de la pertinence et du nombre de rubriques utilisées dans
le tableau statistique. Le découpage en rubriques doit être pertinent et homogène (il ne faut pas par
exemple, qu’il y ait à l’intérieur de chaque rubrique… des effets de structure).
Exercice sur le shift and share
Décomposer les salaires moyens (S) par sexe (toutes catégories confondues) pour faire apparaı̂tre
un effet de structure.

HOMMES FEMMES ENSEMBLE


Catégories Salaire Effectif Salaire Effectif Salaire Effectif
Cadres 1800 100 1600 30 1754 130
Employés 1500 50 1300 60 1391 110
Ouvriers 1200 50 1150 40 1178 90
Ensemble 1575 200 1323 130 1476 330

L’écart de salaire est donc de 1575e-132 3e=252e entre les hommes et les femmes. Choisissons
une méthode (parmi toutes les possibilités) : quel serait le salaire moyen (fictif) des hommes (toutes
catégories) s’il y avait autant d’hommes que de femmes par catégories ?
Il vient :
1 X
S f ictif (H) = S iH × ni (H + F )
n(H + F ) i

ni
Catégories ni (H + F ) S iH (observées) n
(H + F ) × S iH
Cadres 130 1800 709
Employés 110 1500 500
Ouvriers 90 1200 327
Ensemble 330 1575 1536

Effet de structure sur l’ensemble est : 1575e-1536e=39e.


On obtient donc un salaire fictif de 1536einférieur au salaire observé de 1575e. Et l’on peut dire :
L’écart de salaire moyen (Hommes-Femmes) de 252es’explique donc par : un effet de structure (il y
a plus d’hommes que de femmes) correspondant à un écart de salaire de 39eet un effet résiduel de
213e(les hommes sont mieux payés que les femmes).

1.7 Généralisation de la notion de moyenne

1.7.1 Moyenne géométrique


Définition 1.33. On appelle moyenne géométrique de n valeurs positives xi la racine ne du produit de
ces valeurs.

La moyenne géométrique est un instrument permettant de calculer des taux moyens notamment des
taux moyens annuels.Son utilisation n’a un sens que si les valeurs ont un caractère multiplicative.
Notation : G

Statistique Descriptive Page 43 Msc Ir Mathieu MVUYEKURE


1.7. GÉNÉRALISATION DE LA NOTION DE MOYENNE

Cas d’une série simple

Soit une série statistique{x1 ,x2 ,· · · ,xn }, la moyenne géométrique de cette série est donnée par l’ex-
pression suivante :

G = n x1 × x2 × x3 · · · × xn
1
= (x1 × x2 × x3 · · · × xn ) n
v
u n
uY
n
= t xi
i=1

Le calcul peut également se faire avec les logarithmes.


On a donc que :
n
1 X
log G = log xi
N i=1

Cas d’une variable quantitative discrète

La moyenne géométrique pour une distribution statistique d’une variable discrète se résous de la
manière suivante :
1
G = (xn1 1 × xn2 2 · · · × xnnn ) n

Où n est la somme des ni .


La moyenne géométrique peut être aussi calculée à partir des fréquences relatives.
Ainsi donc, on a :
G = (xf11 × xf22 · · · × xfnn )

Cas d’une variable quantitative continue

La moyenne géométrique pour une distribution statistique d’une variable continue est donnée par
l,expression suivante :
1
G = (xn1 1 × xn2 2 · · · × xnnn ) n

Où n est la somme des ni .


La moyenne géométrique peut être aussi calculée à partir des fréquences relatives.
Ainsi donc, on a :
G = (xf11 × xf22 · · · × xfnn )

1.7.2 Moyenne harmonique

Définition 1.34. La moyenne harmonique est définie comme étant l’inverse de la moyenne arithmétique
de l’inverse des termes.

La moyenne harmonique notée H est donc utilisée lorsqu’on veut déterminer un rapport moyen,
dans un domaine où il existe des liens de proportionnalité inverses.

Statistique Descriptive Page 44 Msc Ir Mathieu MVUYEKURE


1.7. GÉNÉRALISATION DE LA NOTION DE MOYENNE

Cas d’une série simple

La moyenne harmonique de la série statistique {x1 , x2 , x3 , · · · , xn } est donnée par l’expression sui-
vante :
N
H= n  
X 1

i=1
xi

Cas d’une variable quantitative discrète

La moyenne harmonique pour une distribution statistique d’une variable discrète se résous de la
manière suivante :
N
H= n  
X ni

i=1
xi

Où N est la somme des ni .


La même moyenne peut être déterminée en utilisant les fréquences relatives :

1
H= n  
X fi
i=1
xi

Cas d’une variable statistique continue

La moyenne harmonique pour une distribution statistique d’une variable continue est donnée par
l’expression suivante :
N
H= n  
X ni

i=1
xi

Où n est la somme des ni .


La moyenne géométrique peut être aussi calculée à partir des fréquences relatives.
Ainsi donc, on a :
1
H= n   (1.1)
X fi

i=1
xi

1.7.3 La moyenne quadratique

Définition 1.35. La moyenne quadratique est la racine carrée de la somme des carrés divisé par la
quantité de données.

Statistique Descriptive Page 45 Msc Ir Mathieu MVUYEKURE


1.7. GÉNÉRALISATION DE LA NOTION DE MOYENNE

Cas d’une série simple

Pour une série statistique {x1 , x2 , x3 , · · · , xn } ;la moyenne quadratique est donnée par :
 n  12
X
2
 xi 
 i=1 
Q=
 N 

 

Cas d’une variable statistique discrète

La moyenne quadratique pour une distribution statistique d’une variable discrète est donnée par
l’expression suivante :
 n  12
X
 ni x2i 
 i=1 
Q=  N 

 

Où N est la somme des ni .


La moyenne quadratique peut être aussi calculée à partir des fréquences relatives.
Ainsi donc, on a :
n
! 12
X
Q= fi x2i
i=1

Cas d’une variable quantitative continue

La moyenne quadratique pour une distribution statistique d’une variable continue est donnée par la
formule suivante :
 n  12
X
2
 n i xi 
 i=1 
Q=  N 

 

Où N est la somme des ni .


La moyenne quadratique peut être aussi calculée à partir des fréquences relatives.
Donc,
n
! 12
X
Q= fi x2i
i=1

Conclusion 1.1. Soient Q,x̄, G et H les moyennes des différentes distributions statistiques.Alors on a
les inégalités : Q ≥ x̄ ≥ G ≥ H

1.7.4 Moyenne d’ordre ”r”


La moyenne d’ordre r(r 6= 0)de la série statistique positive (xi )i=1,··· ,n est le nombre dont la puis-
sance r est la moyenne arithmétique des puissances r des xi .

Statistique Descriptive Page 46 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

Si Mr est ce nombre, il est défini par :


"n
# r1
1 X r
Mr = x pour r 6= 0
N i=1 i

Lorsque la série est pondérée, on a :


"n
# r1
1 X
Mr = ni xri pour r 6= 0
N i=1
P
En effet, si on retient une pondération quelconque αi ≥ 0, i αi = 1,la définition de la moyenne
pondérée devient :
" n
# r1
1 X
Mr = αi xri
N i=1

Avec : n
X
•N = ni
i=1
• les xi sont les centres des classes si nous sommes en présence d’une distribution statistique d’une
variable continue.

Si r = 1 , on obtient la moyenne arithmétique,


Pour r = 2 , on parle de la moyenne quadratique,
Pour r = −1, on parle de la moyenne harmonique.
La moyenne d’ordre 0 est obtenue par passage à la limite avec la définition précédente.
On peut prouver que :
Yn
M0 = lim xαi i .
r→0,r6=0
i=1

La moyenne d’ordre 0 est appelée moyenne géométrique.


Ainsi, la moyenne harmonique est toujours plus petite que la moyenne géométrique ,elle-même plus
petite que la la moyenne arithmétique qui est enfin majoré par la moyenne quadratique.
Ce résultat se traduit par :M−1 ≤ M0 ≤ M1 ≤ M2

Remarque 1.16. Pour les courbes uni-modales ,modérément asymétrique, il existe une relation empi-
rique entre la moyenne arithmétique x̄, la médiane Me et le mode M0 :

x̄ − M0 = 3(x̄ − Me )

Pour une courbe symétrique, x̄ = Me = M0 .

1.8 Les Paramètres de dispersion

Définition 1.36. On appelle dispersion statistique, la tendance qu’ont les valeurs de la distribution
d’un caractère à s’étaler de part et d’autre d’une valeur centrale et /ou à s’éloigner les unes des autres.

Statistique Descriptive Page 47 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

1.8.1 Étendue ou intervalle de variation


L ’étendue ou intervalle de variation est égale à la différence entre la plus grande et la plus petite
valeur de la distribution.
I.V = xmax − xmin
Exemple 1.49. {3,3,6,7,8,9,20,23,26}
I.V = 26 − 3 = 23
xi 0 1 2 3 4 5 6 Total
Exemple 1.50. I.V = 66 − 2 = 64
ni 18 32 66 41 32 9 2 200

Pour une série statistique à variable continue ,l’intervalle de variation est égale à la différence entre
la borne superieure et la borne inférieure de la classe.

1.8.2 Étendue interquartile et l’intervalle interquartile


Ces mesures permettent de mesurer la dispersion d’une série statistique en éliminant l’influence des
valeurs extrêmes.
L’intervalle interquartile notée [Q1 , Q3 ] contient 50% des observations.Par formule,l’étendue inter-
quartile est donnée par l’expression suivante :
E.I.Q = Q3 − Q1
Lorsqu’on s’intéresse à la comparaison des série statistiques ayant des unités de mesure différentes,il
est conseillé de ne pas utiliser la valeur absolue de l’écart interquartile mais sa valeur relative sui-
vante :
Q3 − Q1
× 100
Q2

Intervalle semi-interquartile ou déviation quartile

L’intervalle semi-interquartile d’un ensemble de données est donnée par :


Q3 − Q1
Intervalle semi-interquartile =
2

Intervalle interquartile relatif

L’intervalle interquartile relatif ou écart interquartile relatif est donnée par la formule
suivante :
Q3 − Q1
Intervalle interquartile relatif =
Q2

1.8.3 Écart interdécile et intervalle interdécile


L’écart interdécile d’une distribution statistique est la différence entre le neuvième décile et le pre-
mier décile . L’intervalle interdécile est :[d1 , d9 ].Il contient 80% des observations.
Quant à l’écart interdécile ,il est donnée par l’expression suivante :
Intervalle interdecile = d9 − d1
Donc, plus l’écart interdécile est proche de l’écart interquartile ,plus la concentration est forte.

Statistique Descriptive Page 48 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

1.8.4 Intervalle interdécile relatif

L’intervalle interdécile relatif est donnée par la formule suivante :

d9 − d1
Intervalle interdecile relatif =
d5

De deux distributions, la plus concentrée est celle dont l’intervalle interdécile est le plus petit.Inversement,la
plus dispersée est celle dont l’intervalle interdécile le plus grand.
Pour comparer deux distributions n’ayant pas la même unité de mesure , on préfère recourir à l’écart
interdécile relatif suivante :
d9 − d1
× 100
d5

1.8.5 Écart inter-centile et intervalle inter-centile

L’intervalle inter-centile [c1 , c99 ] contient 98% des observations.


Son écart inter-centile est donnée par :

Intervalle inter-centille = c99 − c1

Intervalle inter-centile relatif

L’intervalle inter-centile relatif est donnée par l’expression suivante :

c99 − c1
Intervalle inter-centile relatif =
c50

Il faut aussi souligner que Q2 = d5 = c50 = Me

1.8.6 Écart absolu moyen

L’écart moyen par rapport à la moyenne est la moyenne arithmétique des écarts absolus par rapport
à la moyenne.

Cas d’une série simple

L’écart absolu moyen par rapport à la moyenne arithmétique est donnée par la formule suivante :
n
1 X
ex̄ = |xi − x̄|
N i=1

L’écart absolu moyen par rapport à la médiane est défini par :


n
1 X
eMe = |xi − Me |
N i=1

C’est la moyenne des écarts à la médiane.

Statistique Descriptive Page 49 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

Cas d’une variable discrète

L’écart absolu moyen par rapport à la moyenne arithmétique pour une distribution à variable discrète
est donnée par l’expression suivante :
n
1 X
ex̄ = ni |xi − x̄|
N i=1
Par rapport à la médiane, l’écart absolu moyen appelé aussi écart médian absolu est donnée par :
n
1 X
eMe = ni |xi − Me |
N i=1

Cas d’une variable continue

Pour une distribution à variable continue , l’écart absolu moyen par rapport à la moyenne arithmétique
est donnée par :
n
1 X
ex̄ = ni |xi − x̄|
N i=1
Pour une distribution à variable continue , l’écart absolu moyen par rapport à la médiane appelé
aussi écart médian absolu est :
n
1X
eMe = ni |xi − Me |
n i=1
où les xi sont les centres des classes.
Remarque 1.17. Plus l’écart est grand, plus la distribution est dispersée ; et plus l’écart est petit ,plus
la dispersion est concentrée autour de la moyenne.Notons que l’écart absolu moyen peut être calculé par
rapport au mode.

1.8.7 Variance
La variance est la moyenne arithmétique des carrées des écarts par rapport à la moyenne.

Cas d’une série simple

Par formule, la variance d’une série statistique simple est donnée par l’expression suivante :
n
1 X
V(x) = (xi − x̄)2
N i=1

Cas d’une variable discrète et continue

Pour une série statistique à variable discrète et pour une série statistique à variable
continue , la variance est donnée par la formule suivante :
n
1 X
V(x) = ni (xi − x̄)2
N i=1
Où les xi sont les modalités pour la variable discrète mais aussi les xi sont les centres de classe pour
une variable continue et ni est la fréquence absolue.

Statistique Descriptive Page 50 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

Théorème 1.1. Théorème de König ou théorème de Huygens :La moyenne des carrés des écarts des
xi à une valeur quelconque a est egale à la variance de x augmentée du carré de l’expression (x − a).
C’est à dire :
1 X 1 X
ni (xi − a)2 = ni (xi − x)2 + (x − a)2
N N

Démonstration. Il suffit d’ajouter et retrancher la même expression x sous le carré du premier membre,
on a :
1 X 1 X
ni (xi − a)2 = ni (xi − x + x − a)2
N N
1 X
= ni [(xi − x) + (x − a)]2
N
On développe le deuxième membre

1 X 1 X 2 X 1 X
ni (xi − a)2 = ni (xi − x)2 + ni (xi − x)(x − a) + ni (x − a)2
N N N N
1 X 2 X 1 X
= ni (xi − x)2 + (x − a) ni (xi − x) + (x − a)2 ni
N N | {z } N | {z }
=0 =N
1 X
= ni (xi − x)2 + (x − a)2
N
Il reste en définitive :
1 X 1 X
ni (xi − a)2 = ni (xi − x)2 +(x − a)2
N N
| {z }
V (x)

1 X 1 X
ni (xi − a)2 = V (x) + (x − a)2 ou V (x) = ni (xi − a)2 − (x − a)2
N N

1.8.8 Écart-type

L’écart -type est défini comme étant la racine carrée de la variance. On a donc que :
p
σx = V(x) ou σx2 = V (x)

1.8.9 Propriété de l’écart-type

L’écart-type satisfait bien à l’ensemble des conditions de Yule, bien que son calcul soit assez long et
qu’il soit plus sensible aux fluctuations d’échantillonnage que la moyenne.
C’est la meilleure caractéristique de dispersion et la plus utilisée dans la plupart des cas. Son principal
avantage est de pouvoir se prêter, tout comme la moyenne arithmétique, aux calculs algébriques.
Ce dernier avantage induit les deux propriétés algébriques suivantes, qui servent fréquemment en
statistique descriptive :

Statistique Descriptive Page 51 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

Première propriété algébrique

Enoncé : Le carré de l’écart-type est égal à la moyenne des carrés moins le carré de la moyenne.
1 X
σ2 = ni x2i − x2 = V (x)
N
Il s’agit en fait de la formule développée de la variance qui nous a permis de traiter le calcul de V (x)
plus rapidement que par la formule de de définition.

Démonstration. Le carré de l’écart-type σ 2 = V (x) est la moyenne des carrés moins le carré de la
moyenne (c’est une application du theoreme de König ou théorème de Huygens).
n
2 1 X
σ = V(x) = ni (xi − x̄)2
N i=1
n
1 X
= ni (x2i − 2x̄xi + (x̄)2 )
N i=1
n n n
1 X 2 1 X 1 X
= ni xi − 2x̄ ni xi + ni (x̄)2
N i=1 N i=1 N i=1
| {z }
=x̄
n n
1 X 2 2 1 2
X
= ni xi − 2(x̄) + × x̄ ni
N i=1 N i=1
| {z }
=N
n
1 X 1
= ni x2i − 2(x̄)2 + × x̄2 × N
N i=1
N
n
1 X
= ni x2i − 2(x̄)2 + x̄2
N i=1
n
1 X
= ni x2i − (x̄)2
N i=1

Le même calcul peut se faire avec les fréquences relatives fi

Démonstration.
k
X
2
σ = V(x) = fi (xi − x̄)2
i=1
Xk
= fi (x2i − 2x̄xi + (x̄)2 )
i=1
Xk k
X k
X
= fi x2i − 2x̄ 2
fi xi +(x̄) fi
i=1
|i=1{z } |i=1
{z }
=x̄ =1
k
X
= fi x2i − 2(x̄)2 + (x̄)2
i=1
Xk
= fi x2i − (x̄)2
i=1

Statistique Descriptive Page 52 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

Remarque 1.18. Dans l’utilisation de la propriété précédente, il faut veiller à remplacer x̄ par sa valeur
approchée la plus précise possible.

Deuxième propriété algébrique : La variance intra et inter-population

Une population statistique P donnée peut être composée de plusieurs sous populations. Dans le
domaine de l’économie par exemple, une entreprise peut être constituée de plusieurs établissements
P1 , P2 , · · · , Pk . Dans la même manière, on peut étudier un phénomène global P comme le revenu
ou l’emploi selon diverses catégories socio-professionnelles : cadres P1 , profession intermédiaire
P2 , employé P3 , etc. Chaque catégorie comprenant elle-même suffisamment d’éléments pour qu’on
puisse définir la moyenne et y mesurer la dispersion.
Cette propriété algébrique de l’écart (associé au propriété de la moyenne arithmétique) permet de
calculer la variance globale de la distribution (population P ) lorsque l’on connaı̂t les variances des
différentes sous populations.
Pour simplifier l’écriture, mais en sachant que les conclusions ci-après peuvent se généraliser, considérons
qu’une population P de moyenne x et d’effectifs (n1 + n2 = n) est composée de deux sous-
populations : P1 de moyenne x1 et d’effectifs n1 ; P2 de moyenne x2 et d’effectifs n2 .
La moyenne de la population totale est la moyenne pondérée des moyennes des sous-
populations :
1
x = (N1 · x1 + N2 · x2 )
N

La variance de la population totale est égale à la moyenne des variances des différentes
sous-populations augmentée de la variance des moyennes des différentes sous-populations :
1 1
V (x) = [N1 · V (x1 ) + N2 · V (x2 )] + [N1 (x1 − x)2 + N2 (x2 − x)2 ]
|N {z } |N {z }
M oyenne des variances V (xi ) V ariance des moyennes V (xi )
| {z } | {z }
V ariance intrapopulation V ariance interpopulation

Démonstration. La variance de la sous-population P1 est :


k
1 X
V (x1 ) = n1i (xi − x1 )2
N1 i=1

La variance de la sous-population P2 est :


k
1 X
V (x2 ) = n2i (xi − x2 )2
N2 i=1

En appliquant le théorème de König en choisissant comme valeur de a = x,pour la sous-population


P1 on a :
k k
1 X 2 1 X
n1i (xi − x) = n1i (xi − x1 )2 + (x1 − x)2
N1 i=1 N1 i=1
k k
1 X 1 X
n1i (xi − x1 )2 = n1i (xi − x)2 − (x1 − x)2
N1 i=1 N1 i=1

Statistique Descriptive Page 53 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

D’où :
k
1 X
V (x1 ) = n1i (xi − x)2 − (x1 − x)2
N1 i=1
Pour la sous-population P2 , on a :
k k
1 X 2 1 X
n2i (xi − x) = n2i (xi − x2 )2 + (x2 − x)2
N2 i=1 N2 i=1
k k
1 X 2 1 X
n2i (xi − x2 ) = n2i (xi − x)2 − (x2 − x)2
N2 i=1 N2 i=1

D’où :
k
1 X
V (x2 ) = n2i (xi − x)2 − (x2 − x)2
N2 i=1
La variance totale est :
k
1 X
V (x) = (n1i + n2i )(xi − x)2
N i=1
k k
1 X 2 1 X
= n1i (xi − x) + n2i (xi − x)2
N i=1 N i=1

Multiplions et divisons par N1 (premier membre) et N2 (deuxième membre) :


k k
N1 1 X N2 1 X
V (x) = × n1i (xi − x)2 + × n2i (xi − x)2
N N1 i=1 N N2 i=1

Nous connaissons dans chaque membre de V (x) une partie des expressions de V (x1 ) et V (x2 )
développées précédemment.
N1   N2 
V (x1 ) + (x1 − x)2 + V (x2 ) + (x2 − x)2

=⇒ V (x) =
N N
1
En mettant N
en facteur, on a :
1 1 
N1 (x1 − x)2 + N2 (x2 − x)2

V (x) = [N1 V (x1 ) + N2 V (x2 )] +
N N

La variance intrapopulation V (xi ) est la variance que l’on obtiendrait si toutes les sous-populations
avaient la même moyenne (qui serait donc égale à la moyenne globale). Ce serait alors la mesure de
la dispersion globale (le deuxième terme de la formule générale serait nul).
La variance interpopulation V (xi ) est la variance que l’on obtiendrait si toutes les sous-populations
étaient homogènes, c’est à dire si chaque variable de chaque sous-population était égale à sa moyenne ;
il n’y aurait aucune dispersion intrapopulation et le premier terme serait nul.
On voit donc que l’on peut décomposer une dispersion globale, en calculant la part imputable aux
dispersions internes (intra) et celle imputable à la dispersion des moyennes (inter).
Exemple 1.51. Une Entreprise E est composée de deux établissements A et B. Le tableau suivant
donne les effectifs na et nb et les salaires S exprimés en 102 euros par catégorie et par entreprise. Par
quoi peut-on expliquer la dispersion globale des salaires ?

Statistique Descriptive Page 54 Msc Ir Mathieu MVUYEKURE


1.8. LES PARAMÈTRES DE DISPERSION

Etabissement A Etabissement B Etabissement E


na S nb S n S
Ouvriers 30 10 100 8 130 8,46
Employés 20 18 10 16 30 17,33
Cadres 10 80 5 70 15 76,67
Ensemble 60 S 1 = 24.3 115 S 2 = 11, 4 175 S = 15, 8

La variance globale (Entreprise E) des salaires est :


1
V (S) = (30 × 102 + 20 × 182 + 10 × 802 + 100 × 82 + 10 × 162 + 5 × 702 ) − 15, 82
175
V (S) = 361, 4

La variance interétablissement V (S i ) est la variance des salaires moyens :


1 1X 2 2
V (S i ) = [na (S 1 − S)2 + nb (S 2 − S)2 ] = ni S i − S
n n i
1
V (S i ) = [60 × 24, 32 + 115 × 11, 42 ] − 15, 82 = 38, 2
175

La variance intraétablissement V (Si ) est la moyenne des variances des salaires pondérée par les
effectifs : Calculons les variances des salaires de A et de B :
Pour A : V (SA ) = 1
60
(30 × 102 + 20 × 182 + 10 × 802 ) − 24, 32 = 634, 18
Pour B : V (SB ) = 1
115
(100 × 82 + 10 × 162 + 5 × 702 ) − 11, 42 = 161, 0
Donc : V (Si ) = 1
175
(60 × 634, 18 + 115 × 161, 0) = 323, 2
En définitive : V (S) = 38, 2 + 323, 2 = 361, 4

1.8.10 Coefficient de variation


Le coefficient de variation ou coefficient de dispersion est le rapport de l’écart -type à la moyenne
arithmétique :
σx
CV =

C’est un nombre sans dimension, indépendant des unités choisies.Il permet de composer des séries
exprimées dans des unités différentes.

Remarque 1.19. Le paramètre σx mesure la distance moyenne entre x̄ et les valeurs de X (voir Figure
1.14). Il sert à mesurer la dispersion d’une série statistique autour de sa moyenne.
- Plus il est petit, plus les caractères sont concentrés autour de la moyenne (on dit que la série est ho-
mogène).
- Plus il est grand, plus les caractères sont dispersés autour de la moyenne (on dit que la série est
hétérogène).

Statistique Descriptive Page 55 Msc Ir Mathieu MVUYEKURE


1.9. PARAMÈTRES DE FORME

Figure 1.14 – La dispersion d’une série statistique autour de sa moyenne.

1.8.11 Moments

Définition 1.37. On appelle moment à l’origine d’ordre r ∈ N le paramètre


n
1 X r
m0r = x
N i=1 i

Définition 1.38. On appelle moment centré d’ordre r ∈ N le paramètre


n
1 X
mr = (xi − x)r
N i=1

Les moments généralisent la plupart des paramètres. On a en particulier

m01 = x
m1 = 0
n
0 1 X 2
m2 = x = V (x) + x2
N i=1 i
m2 = V (x)

Les moments d’ordres supérieurs (r = 3, 4) sont utilisés pour mesurer l’asymétrie et l’aplatissement.

1.9 Paramètres de forme

Les paramètres de forme permettent de préciser l’allure de la courbe de fréquences sans avoir besoin
de la tracer. Nous repérons généralement des mesures de la forme d’une série : Celle de l’asymétrie
a pour objet de nous renseigner sur la façon régulière ou non dont les observations se repartissent
de part et d’autre d’une valeur centrale. Celle de l’aplatissement a pour objet de faire apparaı̂tre si
une faible variation de la variable entraı̂ne ou non une très forte variations des fréquences relatives.

Statistique Descriptive Page 56 Msc Ir Mathieu MVUYEKURE


1.9. PARAMÈTRES DE FORME

1.9.1 La mesure de l’asymétrie


Une distribution statistique est dite symétrique si les observations repérées par leurs fréquences sont
dispersées de part et d’autre des valeurs centrales.
On choisit généralement les trois valeurs centrales suivantes pour repérer la symétrie : Le mode, la
médiane et la moyenne arithmétique.
Dans une distribution symétrique les trois caractéristiques de position (le mode, la médiane et la
moyenne arithmétique) sont égaux. C’est-à-dire : x = Me = Mo .
Une courbe non symétrique (asymétrique) est dite oblique. L’obliquité se repère du côté de la
décroissance la plus forte de la courbe des fréquences.
Dans le cas où x < Me < Mo , la courbe est oblique à droite et étalée vers la gauche comme l’indique
la figure suivante :

Dans le cas où x > Me > Mo , la courbe est oblique à gauche et étalée vers la droite comme l’indique
la figure suivante :

Dans le cas où x = Me = Mo , la courbe est symétrique comme l’indique la figure suivante :

Pour déterminer la symétrie dégagée dans le paragraphe précédent, on utilise un certain nombre
de coefficient c’est à dire de valeurs sans dimension permettant les comparaisons. Ces coefficients
sont généralement valable que si la distribution contient un nombre assez élevé d’observation et ne
présente plusieurs modes.

Statistique Descriptive Page 57 Msc Ir Mathieu MVUYEKURE


1.9. PARAMÈTRES DE FORME

Coefficient d’asymétrie de Fisher (skewness)

Le moment centré d’ordre trois est défini par


n
1 X
m3 = (xi − x)3
N i=1

Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie se mesure au moyen du coef-
ficient d’asymétrie de Fisher
m3
g1 = 3
σx
Où σx3 est le cube de l’écart-type.

Si g1 = 0, la courbe est symétrique.


g1 > 0, la courbe est oblique à gauche
g1 < 0, la courbe est oblique à droite

Coefficient d’asymétrie de Yule

Le coefficient d’asymétrie de Yule est basé sur les positions des 3 quartiles (1er quartile, médiane et
troisième quartile), et est normalisé par la distance interquartile :
(Q3 − Me ) − (Me − Q1 ) Q3 + Q1 − 2Me
AY = =
(Q3 − Me ) + (Me − Q1 ) Q3 − Q1

Si AY = 0, la courbe est symétrique.


AY > 0, la courbe est oblique à gauche
AY < 0, la courbe est oblique à droite

Coefficients d’asymétrie de Pearson

Le premier coefficient d’asymétrie de Pearson est basé sur une comparaison de la moyenne et du
mode, et est standardisé par l’écart-type :
x − Mo
AP =
σx

Si AP = 0, la courbe est symétrique.


AP > 0, la courbe est oblique à gauche
AP < 0, la courbe est oblique à droite
Remarque 1.20. Ce coefficient n’est valable que pour des distributions faiblement asymétrique.

Le deuxième coefficient d’asymétrie de Pearson (β1 ) est plus elaboré : il s’appuie sur le calcul des
moments centré d’ordre impair. Le est donc beaucoup fastidieux, mais le résultat obtenu est plus
intéressant, surtout pour des séries possédant un grand nombre d’observations.
Il s’écrit :
m23
β1 =
m32
C’est donc le rapport du moment centré d’ordre 3 élevé au carré sur le cube de la variance.

Statistique Descriptive Page 58 Msc Ir Mathieu MVUYEKURE


1.9. PARAMÈTRES DE FORME

Si β1 = 0, la courbe est symétrique.


Si β1 > 0, la courbe est oblique à droite ou à gauche.

Le sens de l’asymétrie est donné par AP défini précédemment ou par le signe de µ3 .


Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la distribution est symétrique,
négatifs si la distribution est allongée à gauche (left asymmetry), et positifs si la distribution est al-
longée à droite (right asymmetry).

Remarque 1.21. Certaines variables sont toujours très asymétriques à droite, comme les revenus, les
tailles des entreprises, ou des communes. Une méthode simple pour rendre une variable symétrique
consiste alors à prendre le logarithme de cette variable.

1.9.2 La mesure d’aplatissement (kurtosis)


Définition 1.39. On considère une courbe de fréquence plus ou moins aplatie par références à la courbe
des fréquences (ou densité) de la loi normale (ou loi de Gauss LAPLACE).

1 1 xi −x
f (x) = √ e− 2 ( σ )
σ 2π
Ainsi une distribution est dite aplatie si une forte variation de la variable entraı̂ne une faible variation
de la fréquence relative et inversement.

La logique est de comparer si la distribution est plus ou moins aplatie par rapport à une courbe de
Gauss LAPLACE de même moyenne et même écart type.

Le coefficient de Pearson

L’aplatissement est mesuré par le coefficient d’aplatissement de Pearson


m4
β2 =
σx4

Le coefficient de Fisher

L’aplatissement est mesuré par le coefficient d’aplatissement de Fisher


m4
g2 = β2 − 3 = −3
σx4

où m4 est le moment centré d’ordre 4, et σx4 est le carré de la variance.


• Une courbe est dite mésokurtique si g2 ≈ 0.
• Une courbe est dite leptokurtique si g2 > 0. Elle est plus pointue et possède des queues plus
longues.
• Une courbe est dite platykurtique si g2 < 0. Elle est plus arrondie et possède des queues plus
courtes.
Dans la Figure suivante, on présente un exemple de deux distributions de même moyenne et de même
variance. La distribution plus pointue est leptokurtique, l’autre est mésokurtique. La distribution
leptokurtique a une queue plus épaisse.

Statistique Descriptive Page 59 Msc Ir Mathieu MVUYEKURE


1.10. PARAMÈTRES DE CONCENTRATION

Figure 1.15 – Distributions mésokurtique et leptokurtique.

1.10 Paramètres de concentration


La mesure de la concentration revient à celle de la conséquence de la dispersion. Très importante
en économie (concentration des salaires, des revenus, de la taille des entreprise…) elle concerne des
variables continues ne pouvant prendre des valeurs positives.
Il existe deux méthodes de détermination de la concentration :
- par le calcul ;
- par les graphes.

1.10.1 Détermination de la concentration par le calcul


La démarche est la suivante :
1. On calcule la médiane (M e) de la série.
2. On calcule la médiale (M l) que nous définissons plus bas.
3. On mesure l’écart (4M ) entre la médiale et la médiane.
4. On compare cet écart (4M ) à l’intervalle de variation de la série.
1. Détermination de la médiane
Nous savons effectuer ce calcul, qui passe par la résolution d’une interpolation (ou extrapolation)
linéaire.
2. La médiale
La médiale est une médiane que l’on calcule non plus sur les effectifs ni de la série {ni , xi } mais sur
le produit ni · xi (xi étant le centre de classe ).

Définition 1.40. La médiale est la valeur du caractère xi qui partage donc la série {ni · xi , xi } en deux
sous-ensembles égaux. C’est une caractéristique de valeur centrale.

Si par exemple, les effectifs ni sont des effectifs correspondant à des classes de salaires (centre de
classe : xi ), le produit ni xi sera la masse salariale.
Le produit ni xi représente, non plus seulement l’effectif, mais l’importance de la totalité du caractère
possédé par les individus.
La médiale de la distribution des salaires est donc la valeur du salaire qui partage la masse salariale
en deux sous ensembles égaux : Dès lors,le salaire médial est tel que les salariés qui se situent en
deçà, gagnent autant que les salariés qui se situent au-delà.

Statistique Descriptive Page 60 Msc Ir Mathieu MVUYEKURE


1.10. PARAMÈTRES DE CONCENTRATION

Le calcul de la médial ne présente aucune difficulté supplémentaire par rapport à celui de la médiane ;
une fois que l’on a déterminé la classe médiale.
Pour calcule la médiale, on utilise la colonne des fréquences relatives cumulées des ni xi :
0, 5 − α
Ml = Li + ai
β−α
Avec :
- Li la borne inférieure (borne gauche) de la classe médiale ;
- ai l’amplitude de la classe médiale ;
- α la fréquence relative cumulée des ni xi de la classe qui précède la classe médiale ;
- β la fréquence relative cumulée des ni xi de la classe médiale.
Mais aussi on peut utiliser la formule de l’interpolation linéaire
Li+1 − Li M l − Li
=
β−α 0, 5 − α
Où Li+1 la borne supérieure (borne droite) de la classe médiale.
Exemple 1.52. Déterminer la médiale de la série suivante :
Classes [10 ;20[ [20 ;30[ [30 ;40[ [40 ;50[ [50 ;60[
ni 5 7 12 10 6
Il faut former la colonne des ni xi et celle des frequences cumulées des ni xi
Classes Centre de classe xi ni ni xi Pninxiixi
P ni xi
P
ni xi
[10 ;20[ 15 5 75 0,052 0,052
[20 ;30[ 25 7 175 0,121 0,173
[30 ;40[ 35 12 420 0,290 0,463
[40 ;50[ 45 10 450 0,310 0,773
[50 ;60[ 55 6 330 0,227 1
Total 40 1450 1
La classe médiale est [40 ;50[
Par l’interpolation linéaire, on a :
50 − 40 M l − 40
=
0, 773 − 0, 463 0, 5 − 0, 463
=⇒ M l = 41, 19
3. L’écart médial-médiane
La médiale est supérieure à la médiane, L’écart médial-médiane est
4M = M l − Me
4. Comparaison de 4M à l’intervalle de variation
L’intervalle de variation est la différence entre la plus grande et la plus petite valeur du caractère.
En règle générale :
• Si 4M est grand par rapport à l’intervalle de variation, la concentration est forte (dans l’exemple
des salaires, cela signifierait que l’inégalité entre les salaires est forte).
• Si 4M est petit par rapport à l’intervalle de variation, la concentration est faible (dans l’exemple
des salaires, cela signifierait qu’il n’y a pas de grandes disparités salariales entre les classes de salaire).
• Si 4M est nul, la médiane est égale à la médiale ; on se trouve dans une situation d’égalité parfaite
ou d’équirépartition, si les classes sont biens choisies (dans l’exemple des salaires, tous les salariés
toucheraient le même salaire).

Statistique Descriptive Page 61 Msc Ir Mathieu MVUYEKURE


1.10. PARAMÈTRES DE CONCENTRATION

1.10.2 Détermination de la concentration par le graphe


Cette analyse a été développée par l’Italien Carrado Gini au cours de ses travaux sur les disparités
de revenus et a abouti à la construction d’une courbe dite de concentration et à la détermination
d’un ratio : l’indice de Gini.
A. La courbe de concentration
Elle se construit sur un repère orthonormé à partir de fréquences cumulées relatives :
Les valeurs de la fréquence cumulée relative de la série {ni , xi } sont donc celles de F (x) (fonction
de répartition). Elles varient de 0 à 1. On les porte en abscisse.
Les valeurs de la fréquence cumulée relative de la série {ni · xi , xi } qui nous a permis de calculer la
médiale varient également de 0à 1. On les porte en ordonnées.
Fréquences cumulées correspondants aux effectifs (ni )
i i
X X ni
F (x) = fh =
h=1 1
n

Fréquences cumulées de la totalité du phénomène (ni · xi )


i
X nx
F (nx) = Pi i
1 i n i xi

On obtient donc le carré ABCD de la figure suivante, qui porte généralement le nom de  carré de
Gini .
On construit la courbe de concentration (appelée aussi courbe de Lorenz), point par point : chaque
point de la courbe a pour abscisse une valeur de F (x) et pour ordonner la valeur de la fréquence
cumulée relative de la totalité du phénomène (ni xi ) correspondante.

Dans le schéma ci-dessus, F (x) = 0, 7 pour F (nx) = 0, 34 ; donc ; si l’on reprenait l’exemple des
salaires, on pourrait dire que 70% des salaires se partagent 34%de la masse salariale. La bissectrice
AC correspond à la ligne d’équirépartition parfaite, par construction. C’est la ligne de concentration
nulle.
Donc,Plus la courbe de concentration s’écarte de la bissectrice, plus la concentration est
forte.

Statistique Descriptive Page 62 Msc Ir Mathieu MVUYEKURE


1.10. PARAMÈTRES DE CONCENTRATION

L’indice de Gini
C’est un ratio qui permet des comparaisons. Il est égal au rapport de deux surfaces : au numérateur,
on porte la surface comprise entre la bissectrice et la courbe de concentration. Cette surface prend
le nom de surface de concentration. Au dénominateur, on porte la surface du triangle ABC.
L’indice de Gini (IG ) est égal à :
aire de concentration
IG =
aire du triangle ABC

IG = 2 × aire de concentration
En effet :
L’aire du triangle ABC est de (1 × 1)/2 = 0, 5 ; et diviser par 0,5, revient à multiplier par 2.
IG varie de 0 à 1 (d’une concentration nulle à une concentration maximale). Le problème est de
mesurer les aires sans avoir recours au calcul intégral. Plusieurs méthodes graphiques sont pos-
sibles. La plus simple consiste à compter les carreaux sur le graphique que l’on aura soigneusement
construit sur papier millimétré. Cependant la présentation graphique a essentiellement pour objectif
de transmettre un message visuel. Elle n’est que la visualisation de la concentration mesurée par le
calcul.
Néamoins, si l’on tient absolument à calculer une valeur numérique de IG , on peut se servir (entre
autres méthodes d’approximations) de celle donnée par la méthode des trapèzes
On peut concevoir qu’il existe autant de trapèzes que de classes, comme le montre la figure ci-
dessous :

Donc βi est la valeur de F (nx) de la ligne i du tableau βi−1 est la valeur précédente. (βi−1 = 0 pour
la valeur i = 1).
En règle général :
i
X nx
βi = Pi i
h=1 i ni xi

Rappelons que la surface d’un trapèze est donnée par :


(b + B)h
S=
2
Statistique Descriptive Page 63 Msc Ir Mathieu MVUYEKURE
1.10. PARAMÈTRES DE CONCENTRATION

Dès lors, l’aire de concentration est égale à l’aire du triangle ABC moins la somme des trapèzes,
soit :
1 X (b + B)h 1 1X
Aire de concentration = − = − [βi−1 + βi ].[F (xt ) − F (xi−1 )]
2 2 2 2
1 1X
= − (βi−1 + βi )fi
2 2
Et,
IG = 2 × aire de concentration
X
=⇒ IG = 1 − (βi−1 + βi )fi
Il suffit de disposer les calculs comme suit :

βi−1 βi βi−1 + βi (βi−1 + βi )fi


0

Statistique Descriptive Page 64 Msc Ir Mathieu MVUYEKURE


1.11. EXERCICES

1.11 Exercices
1. Soient xi les salaires en euros repartis dans les classes du tableau ci-dessous, concernant une
entreprise High Tech, ni les effectifs correspondants en nombre de salariés et F (x) la fonc-
tion de répartition de la distribution.
xi ni F (x)
[800, 1200[ ? 0,04
[1200, 1700[ ? 0,14
[1700, 2100[ ? 0,44
[2100, 2500[ ? 0,96
[2500, 3300[ ? 1
N =?
P 2 P
(a) Sachant que V (X) = 147961, que fi xi = 4420450 et que ni xi = 310050, calculer
les effectifs ni de chaque classe et l’effectif N .
(b) La distribution est-elle symétrique ? Pourquoi ? Dans quel sens est-elle oblique ?
(c) Calculer l’indice de Gini par la methode des trapèzes et jugez la concentration des salaires
de cette entreprise ?
(d) Démontrez que
n n
X fx nx
Pi i =
X
Pi i
i=1
f i xi i=1
ni xi
et commentez.
2. La répartition du nombre de familles ni ayant un enfant étudiant en première année á l’uni-
versité, en fonctions des dépenses annuelles xi qu’elles font pour que le dit étudiant réussisse
brillamment son année universitaire, est donnée par le tableau ci-contre :
Dépenses en euros xi Effectif ni
[400, 600[ 5
[600, 800[ 60
[800, 1000[ 15
[1000, 1200[ 95
[1200, 1400[ 30
[1400, 1800[ 5
(a) Construire l’histogramme de la distribution.
(b) Calculez la médiane de la distribution.
(c) Calculez le troisième quartile et expliquez sa signification.
(d) Démontrez clairement, en vous servant du graphe de correspondance entre histogramme
et courbe cumulative, que le troisième quartile partage l’histogramme en deux surfaces
inégales dont vous donnerez les valeurs représentatives en nombre de familles.
(e) De quel côté cette série est-elle oblique ? Pourquoi ?
(f) Calculez l’étendue de la série, et la valeur 4M = M l − M e. Au vu de ces résultats, jugez
la concentration.
(g) Calculez la variance et le coefficient de variation.
3. Le laboratoire pharmaceutique  Machin  a enquete 92 visiteurs médicaux sur le nombre de
kilomètres qu’ils effectuaient par jour pour représenter les produits  Machin  . Les résultats
sont ceux du tableau ci-dessous. Certaines données ont disparu.

Statistique Descriptive Page 65 Msc Ir Mathieu MVUYEKURE


1.11. EXERCICES

Trajets en km Nombres de visiteurs


[10, 20[ 9
[20, 40[ 26
[40, ?[ 19
[?, 80[ 24
[80, 100[ ?
(a) Retrouvez les valeurs manquantes, sachant que le trajet moyen est égal à 49, 89km
(b) Répondez à la même question que précédemment, sachant que le trajet médian est égal
45, 79km.
(c) Construisez l’histogramme, déterminez graphiquement le mode et tracez le polygone des
fréquences.
(d) Calculez le troisième quartile et l’intervalle interquartile.
(e) Construisez les courbes des fréquences cumulées ascendantes et descendantes et vérifiez
graphiquement la valeur de la médiane.
(f) Calculez les coefficients d’asymétrie de Pearson et Fisher et interprétez les résultats.
(g) Calculez les coefficients d’aplatissement de Pearson et Fisher et interprétez les résultats.
4. Vous êtes directeur(trice) d’une entreprise de taxis dans deux villes A et B, et vous analyses
grâce au tableau ci-dessous la distribution des km (en milliers) parcourus par les taxis avant
leurs remplacement. Des taches d’encre (•) empêchent de lire toutes les données :
Ville A Ville B
3 3
(x1i )km en 10 n1i Nombre de taxis (x2i )km en 10 n2i Nombre de taxis
[2, 4[ 1 [4, 6[ 7
[6, 8[ 11 [8, 9[ 8
[9, 10[ • [10, 12[ •
[12, 16[ 19 [16, 20[ 16
[20, 40[ 8 [40, 80[ 3
Vous possédez 100 taxis, et des calculs antérieurs vous avaient permis de déceler que le trajet
médian était de 11467km et que le nombre moyen de km parcourus etait de 14360km (Tout
cela pour l’ensemble des deux villes A etB).
(a) Trouvez les valeurs effacées par les taches d’encre.
(b) La distribution est-elle symétrique ?
(c) Calculez la concentration par la méthode 4M = M l − M e, sur l’ensemble des deux villes
A et B. (On ne demande pas le calcul de l’indice de Gini).
(d) Question de cours : Démontrez que pour N sous-populations,  la variance de la popula-
tion totale est égale à la moyenne des variances, augmentée de la variance des moyennes
des N sous-populations .
(e) Appliquez la relation démontrée ci-dessus aux dispersions de km parcourus par les taxis
en A et en B. Commentez les résultats.
5. L’évolution des salaires moyens par sexe de l’entreprise  Machin entre deux périodes de
temps, 2000(t0 ) et 2006(t1 ), est présentée dans le tableau suivant :
2000(t0 ) 2006(t1 )
Effectif Salaire moyen Effectif Salaire moyen
Masculin (H) 45 1200 41 1275
Féminin (F) 55 1000 59 1050
H +F 100 ? 100 ?

Statistique Descriptive Page 66 Msc Ir Mathieu MVUYEKURE


1.11. EXERCICES

(a) Calculez les valeurs manquantes et les taux d’accroissement des salaires moyens par sexe et
pour l’ensemble H + F . Comment peut-on expliquer cette évolution des salaires moyens ?
(b) Appliquer l’analyse Shift and Share aux taux d’évolution, pour mettre en relief un effet de
structure.
6. Démontrez que la variance V (x) est égale à la moyenne des carrés des écarts à une valeur
quelconque  a , diminuée du carré de (x − a)2 .

Statistique Descriptive Page 67 Msc Ir Mathieu MVUYEKURE


1.11. EXERCICES

Statistique Descriptive Page 68 Msc Ir Mathieu MVUYEKURE


Chapitre 2

STATISTIQUE À DEUX DIMENSIONS

Dans le chapitre précédent, nous avons présenté les méthodes qui permettent de résumer et représenter
les informations relatives à une variable. Un même individu peut être étudié à l’aide de plusieurs ca-
ractères (ou variables). Par exemple, les salariés en regardant leur ancienneté et leur niveau d’étude,
la croissance d’un enfant en regardant son poids et sa taille. Dans la suite, nous introduisons l’étude
globale des relations entre deux variables (en nous limitant au cas de deux variables).Le couple
(X, Y ) est appelé le couple de la variable statistique.
Exemple 2.1. - On observe simultanément sur un échantillon de 200 foyers, le nombre d’enfants X et
le nombre de chambre Y .
- On observe sur un échantillon de 20 foyers, le revenu mensuel X en FBU et les dépenses mensuelles Y .
- Au près des étudiants pris au hasard parmi un Département de génie statistique, on observe les notes
d’algèbre linéaire X et de statistique Y .
- Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité X et le volume
des ventes Y qu’elle réalise.

2.1 Représentation des séries statistiques à deux variables


Les séries statistiques à deux variables peuvent être présentées de deux façons.
Présentation 1
A chaque individu ωi , on associé (xi , yi ), c’est à dire,

ωi −→ (xi , yi )

ωi ω1 ω2 ··· ωn
Variable X X(ω1 ) X(ω2 ) · · · X(ωn )
Variable Y Y (ω1 ) Y (ω2 ) · · · Y (ωn )

Cette représentation on la notera présentation 1. Nous allons utiliser toujours les notations sui-
vantes :
xi = X(ωi ) et yi = Y (ωi )
Exemple 2.2. Soit Ω l’ensemble de 8 étudiants. Nous avons le tableau suivant

ωi ω1 ω2 ω3 ω4 ω5 ω6 ω7 ω8
X(ω) 8 2 6 6 11 10 7 2
Y (ω) 9 10 11 7 14 16 12 5

69
2.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

avec X représente le nombre d’heures passées à préparer l’examen de statistique par étudiant et Y
représente la note sur 20 obtenue à l’examen par l’étudiant.

Lors de cette représentation, nous pouvons traduire le tableau associe dans une figure appelée le
nuage de points ou diagramme de dispersion (voir Figure 2.1). Cette représentation est obtenue
en mettant dans un repère cartésien chaque couple d’observation (xi , yj ) par un point.

Figure 2.1 – Représentation sous forme de nuage de points.

Présentation 2
Soit la variable statistique Z donnée par le couple (X, Y ). Soient x1 , · · · , xk et y1 , · · · , yl les valeurs
prises respectivement par X et Y . Dans ce cas, nous définissons les valeurs de Z comme suite, pour
i allant de 1 à k et pour j allant de 1 à l,

zij = (xi , yj )

Statistique Descriptive Page 70 Msc Ir Mathieu MVUYEKURE


2.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

La variable statistique Z prend k × l valeurs. Lors de cette étude, nous avons le tableau à double
entrée (ou tableau de contingence) suivant (discrète ou continue)

Cette représentation on la notera présentation 2. A chaque couple (xi , yi ), on a nij est l’effectif qui
représente le nombre d’individus qui prennent en même temps la valeur xi et yi , c’est à dire,

nij = Card{w ∈ Ω : Z(w) = zij }.

Figure 2.2 – Le nombre d’individus qui prennent en même temps la valeur xi et yi .

Nous notons par fij la fréquence du coulpe (xi , yi ). Cette fréquence est donnée par
nij
fij =
N
Avec N l’effectif total et
l X
X k
N = nij
j=1 i=1
k X
X l
= nij
i=1 j=1

Statistique Descriptive Page 71 Msc Ir Mathieu MVUYEKURE


2.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

Le calcul ou le développement de cette double série est donné par

Remarque 2.1. Nous avons la propriété suivante,


k X
X l
fij = 1
i=1 j=1

2.1.1 Lois marginales


Sur la marge du tableau de contingence, on peut extraire les données seulement par rapport à X et
seulement par rapport à Y (voir le tableau de contingence établi auparavant).
1. Effectifs et fréquences marginale par rapport à Y : nous avons, pour j = 1, · · · , l,
k
X
n•j = nij
i=1

et
k
n•j X
f•j = = fij
N i=1

2. Effectifs et fréquences marginale par rapport à X : nous avons, pour i = 1, · · · , k,


l
X
ni• = nij
j=1

et
l
ni• X
fi• = = fij
N j=1

Remarque 2.2. Nous avons les propriétés suivantes


k
X l
X
ni• = n•j = N
i=1 j=1

et
k
X l
X
fi• = f•j = 1
i=1 j=1

Statistique Descriptive Page 72 Msc Ir Mathieu MVUYEKURE


2.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

2.1.2 Exercice
Nous considérons 10 salariés qui sont observés à l’aide de deux variables âge et salaire. Les infor-
mations brutes (pas encore traitées ou façonnées) sont données dans le tableau suivant,

1. Déterminer le tableau de contingence (X : âge, Y : salaire). Pour l’âge et pour le salaire, former
respectivement des classes de pas de 10 ans et de 1000 Da.
2. Calculer f21 , f12 , f45 , f33 .
3. Déterminer les effectifs marginaux de X et de Y . Tracer le nuages de points.
4. Déterminer le tableau statistique des deux séries marginales X et Y .
Correction

e 52 − 15
Nombre de classe = = = 3, 7 ' 4 classes
aâge 10
pour l’âge et
e 10750 − 6000
Nombre de classe = = = 4, 75 ' 5 classes
aSal 1000
pour le salaire.
En utilisant les hypothèses, nous considérons les classes suivantes,
[15, 25[, [25, 35[, [35, 45[, [45, 55[,
pour l’âge et
[6, 7[, [7, 8[, [8, 9[, [9, 10[, [10, 11[,
pour le salaire (×1000). De plus, nous avons
Cette série statistique est représentée par le tableau suivant,

Ages\Salaires [6, 7[ [7, 8[ [8, 9[ [9, 10[ [10, 11[ ni• fi•
[15, 25[ 1 1 0 0 0 2 0,2
[25, 35[ 0 1 0 1 0 2 0,2
[35, 45[ 0 0 2 0 1 3 0,3
[45, 55[ 0 0 1 2 0 3 0,3
n•j 1 2 3 3 1 10 1
f•j 0,1 0,2 0,3 0,3 0,1 1

De ce fait, nous avons

Le nuage de points est tracé, à partir des données brutes, dans la figure suivante.
Enfin, les deux tableaux statistiques de X et de Y sont donnés, respectivement, par

Statistique Descriptive Page 73 Msc Ir Mathieu MVUYEKURE


2.2. DESCRIPTION NUMÉRIQUE

2.2 Description numérique

2.2.1 Caractéristique des séries marginales

Dans le cas d’une variable statistique à deux dimensions X et Y , les moyennes marginales sont
données respectivement par

k k
1 X X
x̄ = ni• xi = fi• xi (moyenne marginale de X)
N i=1 i=1

Statistique Descriptive Page 74 Msc Ir Mathieu MVUYEKURE


2.2. DESCRIPTION NUMÉRIQUE

et
l l
1 X X
ȳ = n•j yj = f•j yj (moyenne marginale de Y)
N j=1 j=1

Remarque 2.3. Dans le cas continu, xi et yj représentent respectivement le centre des classes de X et
Y , c’est à dire,
Li+1 + Li Lj+1 + Lj
xi = et yi =
2 2
Exemple 2.3. Nous calculons x̄ et ȳ pour l’exercice traité précédemment. Nous avons la moyenne d’âge
1
x̄ = (40 + 60 + 120 + 150) = 37 ans.
10
et la moyenne du salaire
1
ȳ = (6.5 + 15 + 25.5 + 28.5 + 10.5) × 100 = 8600 Da.
10
Nous définissions maintenant la variance marginale de X et la variance marginale de Y comme suit,
k k
2 1 X 2
X
V ar(X) = x2 − (x̄) ; avec x2 = ni• xi = fi• x2i ,
N i=1 i=1
et
l l
1 X X
V ar(Y ) = y 2 − (ȳ)2 ; avec y 2 = n•j yj2 = f•j yj2 .
N j=1 j=1
Les écarts-type de X et de Y sont donnés, respectivement, par
p p
σX = V ar(X) et σY = V ar(Y )

2.2.2 Série conditionnelle


La notion de série conditionnelle est essentielle pour comprendre l’analyse de la régression. Un ta-
bleau de contingence se compose en autant de séries conditionnelles suivant chaque ligne et chaque
colonnes.

Série conditionnelle par rapport à X

Elle est notée par X/yj (ou Xj ) et on dit que c’est la série conditionnelle de X sachant que Y = yj .
Nous calculons dans ce cas la fréquence conditionnelle fi/j (fi sachant j), pour i = 1, · · · , k, par
nij fij
fi/j = =
n•j f•j
Nous avons aussi la moyenne conditionnelle xj , c’est à dire la moyenne des valeurs de X sous la
condition yj , elle est définie par
k k
X 1 X
xj = fi/j xi = nij xi
i=1
n•j i=1
Pour l’écart-type conditionnel, nous avons
q
σXj = V ar(Xj )
Avec
k
X
V ar(Xj ) = fi/j (xi − xj )2 = x2j − (xj )2
i=1

Statistique Descriptive Page 75 Msc Ir Mathieu MVUYEKURE


2.2. DESCRIPTION NUMÉRIQUE

Série conditionnelle par rapport à Y

Elle est notée par Y /xi (ou Yi ) et on dit que c’est la série conditionnelle de Y sachant que X = xi .
Nous calculons dans ce cas la fréquence conditionnelle fj/i (fj sachant i), pour j = 1, · · · , l, par

nij fij
fj/i = =
ni• fi•

Nous avons aussi la moyenne conditionnelle y i , c’est à dire la moyenne des valeurs de Y sous la
condition xi , elle est définie par
l l
X 1 X
yi = fj/i yj = nij yj
j=1
ni• j=1

Pour l’écart-type conditionnel, nous avons


p
σYi = V ar(Yi )

Avec
l
X
V ar(Yi ) = fj/i (yj − y i )2 = yi2 − (y i )2
j=1

2.2.3 Relation entre les caractéristiques marginales et conditionnelles

Relation entre les moyennes

La moyenne marginale est égale à la moyenne des moyennes conditionnelles pondérée par les ef-
fectifs marginaux.
1 X
x= n•j xj
N j

Et
1 X
y= ni• y i
N j

Relations entre les variances

La variance marginale est égale à la moyenne des variances conditionnelles, augmentée de la va-
riance des moyennes conditionnelles.

1 X 1 X
V (X) = n•j (xj − x)2 + n•j V ar(Xj )
N j N j
| {z } | {z }
Variance des xj (moyennes conditionnelles) Moyenne des V ar(Xj ) (variances conditionnelles)

Démonstration. Par définition,


1 XX
V (X) = nij (xi − x)2
N i j

Statistique Descriptive Page 76 Msc Ir Mathieu MVUYEKURE


2.2. DESCRIPTION NUMÉRIQUE

Ajoutons et retranchons la même valeur xj dans le terme entre parenthèses :


1 XX
V (X) = nij (xi − xj + xj − x)2 pt
N i j
1 XX
= nij [(xi − xj ) + (xj − x)]2
N i j
1 XX 2 XX 1 XX
= nij (xi − xj )2 + nij (xi − xj )(xj − x) + nij (xj − x)2
N i j N i j N i j
| {z } | {z } | {z }
A B C

L’expression A est :
1 XX
A= nij (xi − xj )2
N i j
Or,
1 X
V (Xj ) = nij (xi − xj )2
n•j i
Donc,
1 X
A= n•j V (Xj )
N j

L’expression B est :
2 XX
B = nij (xi − xj )(xj − x)
N i j
2 X X
= (xj − x) nij (xi − xj )
N j i
!
2 X X X
= (xj − x) nij xi − nij xj
N j i i
| {z }
n•j xj −n•j xj =0

Donc,
B=0
L’expression C est :
1 XX
C = nij (xj − x)2
N i j
1 X X
= (xj − x)2 nij
N j
| i {z }
n•j

Donc,
1 X
C= n•j (xj − x)2
N j

Comme V (X) = A + B + C, on trouve le résultat demandé :


1 X 1 X
V (X) = n•j (xj − x)2 + n•j V (Xj )
N j N j

Statistique Descriptive Page 77 Msc Ir Mathieu MVUYEKURE


2.2. DESCRIPTION NUMÉRIQUE

De même :
1 X 1 X
V (Y ) = ni• (y i − y)2 + ni• V ar(Yi )
N i N i

2.2.4 Les moments et la covariance


Les moments des séries à deux caractères

Moments simples d’ordre r et s


1 XX
mr,s = nij xri yjs
N i j

On voit donc que :


• m1,0 = x et que m0,1 = y
• m2,0 et m0,2 servent pour le calcul des variances par la formule développée.
Moments centrés d’ordre r et s
Ils sont centrés sur les moyennes marginales x et y.
1 XX
µr,s = nij (xi − x)r (yj − y)s
N i j

Le moment centré d’ordre 1 et 1, µ1,1 est une caractéristique fondamentale dans l’étude des séries à
deux variables, la covariance.

Notion de covariance

La covariance est un paramètre qui donne la variabilité de X par rapport à Y (voir Figure 4.3). Nous
notons par Cov(X, Y ) la covariance entre les variables X et Y .

Figure 2.3 – La covariance et la variabilité.

Statistique Descriptive Page 78 Msc Ir Mathieu MVUYEKURE


2.2. DESCRIPTION NUMÉRIQUE

Définition 2.1. On appelle covariance de deux variables statistiques X et Y notee Cov(X, Y ) le


moment centré d’ordre 1 et 1 :
k l
1 XX
Cov(X, Y ) = nij (xi − x)(yj − y) (2.1)
N i=1 j=1

Donc,
Cov(X, Y ) = µ1,1

En faisant le développement de (2.1), on obtient la formule suivante


k l
1 XX
Cov(X, Y ) = xy − x y = nij xi yj − x y
N i=1 j=1

En effet,
k l
1 XX
Cov(X, Y ) = nij (xi − x)(yj − y)
N i=1 j=1
k l
1 XX
= nij (xi yj − xi y − x yj + x y)
N i=1 j=1
k l k l k l k l
1 XX 1 XX 1 XX 1 XX
= nij xi yj − nij xi y − nij x yj + nij x y
N i=1 j=1 N i=1 j=1 N i=1 j=1 N i=1 j=1
| {z }
N
k X
l k X
l l X
k
1 X 1 X 1 X
= nij xi yj − y nij xi − x nij yj + x y
N i=1 j=1
N i=1 j=1
N j=1 i=1
| {z } | {z }
ni• n•j
k X
l k l
1 X 1 X 1 X
= nij xi yj − y ni• xi −x n•j yj +x y
N i=1 j=1
N i=1
N j=1
| {z } | {z }
x y
k l
1 XX
= nij xi yj − x y − x y + x y
N i=1 j=1
k l
1 XX
= nij xi yj − x y
N i=1 j=1

D’où
k l
1 XX
Cov(X, Y ) = nij xi yj − x y
N i=1 j=1

Remarque 2.4. Dans le cas où nous avons un tableau des données brutes représentation 1 (nous
n’avons pas d’effectifs), nous avons les formules suivantes
n n
1 X 1 X
x= xi et y = yi
N i=1 N i=1

Statistique Descriptive Page 79 Msc Ir Mathieu MVUYEKURE


2.2. DESCRIPTION NUMÉRIQUE

De plus, nous avons


n
1 X
xy = xi y i
N i=1
D’où
k l
1 XX
Cov(X, Y ) = (xi − x)(yj − y)
N i=1 j=1
n
1 X
= xi y i − x y
N i=1

Remarque 2.5. La covariance est une notion qui généralise la variance, En effet,

Cov(X, X) = V ar(X) et Cov(Y, Y ) = V ar(Y ).

Cela provient de la définition, c’est à dire,

Cov(X, X) = xx − x x = x2 − (x)2 = V ar(X).

Définition 2.2. On dit que deux variables statistiques X et Y sont indépendantes si et seulement si,
pour tout i et j,
fij = fi• × f•j .
Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux variables ne soient
pas indépendantes. De manière équivalente, pour tout i et j,

N × nij = ni• × n•j .

Dans ce cas, si X et Y sont indépendantes alors (réciproque est fausse) Cov(X, Y ) = 0.

Cette définition donne une interprétation intéressante d’indépendance ; elle signifie que dans ce
cas, les effectifs des modalités conjointes peuvent se calculer uniquement à partir des distributions
marginales, supposées  identiques  aux distributions de X et Y dans la population ; en d’autres
termes, si X et Y sont indépendantes, les observations séparées de X et de Y donnent la même
information qu’une observation conjointe.

2.2.5 Notion de courbe de régression


Les courbes de régression ont pour objet de résumer le nuage de points, c’est à dire de présenter sur
le plan, l’allure de la distribution à deux caractères.
On voit bien la difficulté induite par la représentation graphique de la distribution {xi , yj , nij } dans
l’espace à trois dimensions. Il faut trouver une méthode pratique pour résumer le nuage de points
dans le plan.
L’idée est la suivante : au lieu de faire correspondre à chaque xi , à la fois la valeur yj et la valeur
de l’effectif correspondant nij , on lui fait correspondre une valeur qui synthétise le couple (yj ; nij ).
Cette valeur est y i , moyenne conditionnelle de Y selon X = xi .
De même : on fait correspondre à chaque yj la valeur xj . On obtient donc deux courbes (ou plus
exactement deux lignes polygones) en joignant les points obtenus, qui résument la distribution.
Les deux courbes de régression, résument le nuage de points, sur le plan.

Statistique Descriptive Page 80 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

Figure 2.4 – Les courbes de régression.

On trace généralement ces deux courbes sur le même graphe : l’axe des abscisses correspondant à
la fois aux valeurs xi et xj ; celui des ordonnées aux valeurs yj et y i .
En définitive :

Les courbes de régression sont déterminées à partir des valeurs du tableau de contingence. Elles sont
au nombre de deux.
La première fait correspondre à chaque xi la moyenne conditionnelle de y(y i ). On l’appelle courbe
de régression de Y en X. On la note Cy/x .
La seconde fait correspondre à chaque yj la moyenne conditionnelle de x(xj ). On l’appelle courbe
de régression de X en Y . On la note Cx/y .
La somme des carrés des distances des points du nuage à ces courbes est minimale.

2.3 Étude de la liaison entre deux variables :Ajustement linéaire


et Corrélation

2.3.1 Indépendance et liaison fonctionnelle


Trois types de liaison peuvent être envisagés :
• La liaison nulle signifie qu’il n’y a aucune influence d’un caractère sur l’autre. Exemple : le revenu
d’un salarié et sa taille en cm (sauf peut être pour un joueur de basketball salarié dans ce sport).
• La liaison totale est appelée également La liaison fonctionnelle. Exemple : le périmètre d’un
cercle ne dépend que de son rayon : il y a liaison totale entre le périmètre et le rayon.
• La liaison relative est le cas général, les caractères sont dépendants l’un de l’autre dans une
certaine mesure. Exemple : la consommation et le revenu

L’indépendance totale ou La liaison nulle

Définition 2.3. Deux variables X et Y sont totalement indépendantes si les variations de l’une n’en-
traı̂nent pas de variation de l’autre. Ou bien Deux variables X et Y sont indépendantes si les fréquences
conditionnelles fi/j ne dépendent plus de j.

Statistique Descriptive Page 81 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

Consequences :
1. Dans le cas de l’indépendance, les fréquences conditionnelles sont égales aux fréquences
marginales.
fij = fi•
fij = f•j
Ce qui peut aussi s’écrire :
nij ni• ni• n•j
= ⇐⇒ nij =
n•j N N
.
Exemple 2.4. Soient deux modalités de la variable xi : Fort salaire (FS) et faible salaire (fs)
et deux modalités de la variable yj grande taille du salarié (G) et petite taille (P). Le tableau
ci-dessous donne les effectifs sur un échantillon de 24 salariés.
xi \yi G P ni•
FS 3 5 8
fs 6 10 16
n•j 9 15 24
Pour i = 1, on a :
3 5 n1• 8
f1/1 = = f1/2 = = =
9 15 N 24
Les fréquences conditionnelles sont égales aux fréquences marginales. D’où les deux variables
sont indépendantes.
2. Dans le cas de l’indépendance, les moyennes conditionnelles sont égales aux moyennes
marginales pour chaque variable.
x = xj
Et
y = yi
Donc : Toutes les moyennes conditionnelles de x sont égales entre elles. Il en est de même
pour y.
Quand deux variables sont totalement indépendantes, leurs courbes de régression
sont des droites perpendiculaires, parallèles aux axes. La liaison est nulle.

La liaison fonctionnelle ou la dépendance totale

Définition 2.4. Deux variables X et Y sont totalement dépendantes si à chaque valeur de X correspond
une valeur de Y unique et rigoureusement déterminée, et réciproquement.

Dans le cas de la liaison totale et réciproque, il n’y a qu’un seul chiffre (une seule observation ) par
ligne et par colonne.
Les moyennes conditionnelles sont égales aux valeurs marginales des variables.

xj = xi

Et
y i = yj
Dès lors, aucun point ne s’écarte de la courbe. Les courbes de régression sont confondues.

Statistique Descriptive Page 82 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

Exemple 2.5. Soit X la température à laquelle on soumet des barres d’un certain métal. L’allongement
Y est donné en micros (µ) sur le tableau ci-dessous.

X\Y 1µ 3µ 5µ ni•
20◦ 3 0 0 3
40◦ 0 3 0 3
90◦ 0 0 4 4
n•j 3 3 4 10

Liaison relative et premières notions de corrélation

Nous avons un tableau de contingence quelconque, pas de cas particulier de moyennes , et un graphe
faisant apparaı̂tre un nuage de points plus ou moins allongé.
Le nuage de points est résumé par deux courbes de régression (en lignes brisées), qui se croisent au
voisinage du centre de gravité.

Figure 2.5 – X est corrélé avec Y , Y est corrélé avec X

Statistique Descriptive Page 83 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

Cas particuliers

Tout comme la liaison fonctionnelle, la corrélation n’est pas réciproque.

Figure 2.6 – X est corrélé avec Y mais Y n’est pas corrélé avec X.

Figure 2.7 – Y est corrélé avec X mais X n’est pas corrélé avec Y .

Les courbes de régression sont toujours croissantes ou décroissantes, en même temps.

• On dit qu’il y a corrélation positive quand les variations se produisent dans le même sens (quand
X croı̂t, Y croı̂t).
• On dit qu’il y a corrélation négative quand les variations se produisent en sens contraire ( X
croı̂t quand Y décroı̂t).

• On dit que la corrélation est linéaire quand les deux courbes de régression qui résument le
nuage de points sont des droites non parallèles aux axes.

On comprend bien que la plus ou moins grande liaison qui peut exister entre les deux variables
dépendra de la plus ou moins grande manière qu’elles ont de se rapprocher dans le graphe : En
fait elle dépendra de l’angle qu’elles forment. Quand l’angle est à son maximum d’ouverture (90◦ )
les courbes de régression suggèrent l’indépendance. Quand l’angle est fermé au maximum (courbes
confondus), cela suggère la liaison fonctionnelle. Donc il est légitime de mesurer la corrélation en
mesurant cet angle. Cependant, les courbes de régression sont des lignes brisées (courbes polygo-
nales) et non pas des droites. Dès lors, pour mesurer cet angle, il faut transformer ces courbes en
droites : on va utiliser la méthode de l’ajustement linéaire.

Statistique Descriptive Page 84 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

2.3.2 Ajustement linéaire


Dans le cas où on peut mettre en évidence l’existence d’une relation linéaire significative entre
deux caractères quantitatifs continus X et Y (la silhouette du nuage de points est étirée dans une
direction), on peut chercher à formaliser la relation moyenne qui unit ces deux variables à l’aide
d’une équation de droite qui résume cette relation. Nous appelons cette démarche l’ajustement
linéaire.

2.3.3 Droite de régression


L’idée est de transformer un nuage de point en une droite. Celle-ci doit être la plus proche possible
de chacun des points. On cherchera donc à minimiser les écarts entre les points et la droite.

Figure 2.8 – La droite la plus proche possible de chacun des points.

Pour cela, on utilise la méthode des moindres carrées. Cette méthode vise à expliquer un nuage de
points par une droite qui lie Y à X, c’est à dire,

Y = aX + b,

telle que la distance entre le nuage de points et droite soit minimale. Cette distance matérialise
l’erreur, c’est à dire la différence entre le point réellement observé et le point prédit par la droite. Si
la droite passe au milieu des points, cette erreur sera alternativement positive et négative, la somme
des erreurs étant par définition nulle. Ainsi, la méthode des moindres carrés consiste à chercher la
valeur des paramètres a et b qui minimise la somme des erreurs élevées au carré.
On pose
n
X
e2i = U (a, b),
i=1

avec ei est l’erreur commise sur chaque observation, c’est à dire,

|ei | = |yi − yi∗ | = |yi − axi − b|

La méthode des moindres carrées consiste donc à minimiser la fonction U (la somme des erreurs
commises). Nous avons la condition de minimisation suivante,
∂U ∂U
= = 0,
∂a ∂b
avec n
X
U (a, b) = (yi − axi − b)2
i=1

Statistique Descriptive Page 85 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

∂U
En effet, l’equation ∂b
= 0 donne
n
!
∂ X
(yi − axi − b)2 = 0
∂b i=1
n
X
−2 (yi − axi − b) = 0
i=1
n
X
(yi − axi − b) = 0
i=1

En divisant les deux membres par N , on a :


n
1 X
(yi − axi − b) = 0
N i=1
n n n
1 X a X b X
yi − xi − = 0
N i=1 N i=1 N i=1
|{z}
N

Ce qui donne
y − ax − b = 0
b = y − ax
Or, ∂U
∂a
= 0, cela implique que
n
!
∂ X
(yi − axi − b)2 = 0
∂a i=1
X n
−2 xi (yi − axi − b) = 0
i=1
Xn
xi (yi − axi − b) = 0
i=1
n
X
(yi xi − axi xi − bxi ) = 0
i=1

En divisant les deux membres par N , on a :


n
1 X
(yi xi − axi xi − bxi ) = 0
N i=1
n n n
1 X a X 2 b X
y i xi − xi − xi = 0
N i=1 N i=1 N i=1
n n
1 X a X 2
y i xi − x − bx = 0
N i=1 N i=1 i
En remplaçant b par sa valeur, on obtient
n n
1 X a X 2
yi xi − x − (y − ax)x = 0
N i=1 N i=1 i
n n
1 X a X 2
yi xi − x − x y + a(x)2 = 0
N i=1 N i=1 i

Statistique Descriptive Page 86 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

Ce qui donne
n n
1 X 2 1 X
a( xi − (x)2 ) = y i xi − x y
N i=1 N i=1
aV ar(X) = Cov(X, Y )
Cov(X, Y )
a=
V ar(X)
Or,Y = aX + b et b = y − ax.
D’où
Cov(X, Y ) Cov(X, Y )
y= x+y− x
V ar(X) V ar(X)
Cov(X, Y )
y= (x − x) + y
V ar(X)
Telle est l’équation de régression linéaire de Y en X.
On procède de la même manière pour déterminer la droite de régression linéaire de X en Y , c’est à
dire
X = a0 Y + b 0
Cov(X, Y )
On obtient a0 = et b0 = x − a0 y .
V ar(Y )
D’où
Cov(X, Y )
x= (y − y) + x
V ar(Y )
Telle est l’équation de régression linéaire de X en Y.

2.3.4 Coefficient de corrélation linéaire ou coefficient de corrélation de


Pearson
Les coefficients de corrélation permettent de donner une mesure synthétique de l’intensité de la
relation entre deux caractères et de son sens lorsque cette relation est monotone. Le coefficient de
corrélation de Pearson permet d’analyser les relations linéaires (voir ci-dessous). Il existe d’autres
coefficients pour les relations non-linéaires et non-monotones.
Définition 2.5. La quantité
Cov(X, Y )
ρXY =
σX σY
s’appelle le coefficient de corrélation.
Proposition 2.1. Le coefficient ρXY est compris entre [−1, 1], ou encore
|ρXY | ≤ 1.
Remarque 2.6. Par définition, si ρXY = 0 , alors Cov(X, Y ) = 0.

Le coefficient ρXY mesure le degré de liaison linéaire entre X et Y (voir Figure 2.4 et). Nous avons
les deux caractéristiques suivantes (voir Figures 2.5 et 4.6) 1 :

-Plus le module de ρXY est proche de 1 plus X et Y sont liées linéairement.


- Plus le module de ρXY est proche de 0 plus il y a l’absence de liaison linéaire entre X et Y.

Statistique Descriptive Page 87 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

Figure 2.9 – A gauche, le coefficient de corrélation est proche de 1. A droite, le coefficient de


corrélation est proche de 0.

Figure 2.10 – Exemples de diagrammes de dispersion avec différentes valeurs de coefficient de


corrélation .

Figure 2.11 – La corrélation reflète la non-linéarité et la direction d’une relation linéaire mais pas
la pente de cette relation ni de nombreux aspects des relations non linéaires (en bas). La figure au
centre a une pente de 0, mais dans ce cas, le coefficient de corrélation est indéfini car la variance de
Y est nulle.

Remarque 2.7. Le coefficient de corrélation ρXY permet de justifier le fait de l’ajustement linéaire. On
adopte les critères numériques suivants (voir Figure 2.8),
-Si |ρXY | < 0, 7, alors l’ajustement linéaire est refusé (droite refusée).
- Si |ρXY | ≥ 0, 7, alors l’ajustement linéaire est accepté (droite acceptée).

Statistique Descriptive Page 88 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

Figure 2.12 – La zone d’acceptation ou de refus de l’ajustement linéaire.

2.3.5 Notion de corrélation non linéaire : Rapport de corrélation, variance


expliquée et variance résiduelle

A. Le principe
Lorsque la régression aboutit à deux droites, ou bien lorsque l’on ajuste deux droites au nuage de
points, on est en linéaire et on calcule ρ2 ou r2 .
Le coefficient de corrélation linéaire permet uniquement d’établir l’existence ou la non-existence de
relations éventuelles entre deux phénomènes : mais en aucun cas il ne permet d’établir les liens de
causalité entre les variables. On ne sait pas si X agit sur Y , ou Y agit sur X. Il ne résout donc pas
les problèmes mais il guide la recherche les voies d’interprétation.
Comme le calcul du coefficient de corrélation linéaire ne traduit pas toujours la réalité de la liaison :
il peut y avoir dans certains cas une liaison non linéaire (logarithmique, exponentielle, logistique,
etc.).
On va donc chercher un nombre sans dimension capable de nous renseigner sur l’intensité de la
liaison, non seulement à partir de droites, mais plus généralement, à partir des courbes de régression :
c’est le rapport de corrélation. Sa définition est fondée sur la propriété de décomposition de la
variance marginale.

B. Variance expliquée et variance résiduelle


On a déjà montré qu’il existait une relation entre les variances. La variance globale était égale à
la somme de la variance intrapopulation et de la variance interpopulation. Cette même propriété
algébrique de la variance nous a permis de montrer que la variance marginale est la somme de la
variance des moyennes conditionnelles et de la moyenne des variances conditionnelles.
Pour la variable X par exemple, on a la relation :
1 X 1 X
V (X) = n•j (xj − x)2 + n•j V ar(Xj )
N j N j
| {z } | {z }
Variance des moyennes conditionnelles Moyenne des variances conditionnelles

Ce qui peut s’écrire également :


V (X) = V (xj ) + V (Xj )
Examinons chaque terme :
• La variance marginale de X V (X), c’est la variance globale de la série à une dimension {xi , ni }.
Elle mesure la dispersion globale des données correspondant au caractère X.

Statistique Descriptive Page 89 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

• La Variance des moyennes conditionnelles V (xj ) traduit la dispersion des moyennes condi-
tionnelles entre elles. C’est la variance des moyennes des observations xi pour chaque yj . C’est
donc la variance que traduit la courbe de régression Cx/y . On l’appelle : Variance expliquée par la
régression.
• La moyenne des Variances conditionnelles V (Xj ) traduit la dispersion moyenne de toutes les
distributions conditionnelles de X, C’est à dire la dispersion moyenne des points du nuage autour
de la courbe de régression Cx/y . C’est donc la variance qui reste une fois opérée la régression. C’est
la dispersion que ne résume pas la courbe de régression. On l’appelle : Variance résiduelle (non
expliquée par la régression ).
En définitive :

V (X) = V (x ) + V (X )
| {z } | {z j} | {z j}
Variance marginale Variance expliquée Variance résiduelle

Dès lors, si la variance expliquée est forte, la régression résume bien le nuage de points, et
la liaison X 7−→ Y est forte et inversement.
Le calcul des variances expliquées donne en définitive une bonne indication sur la force (l’intensité
) de la liaison entre deux caractères.
Ce pendant, les variances, tout comme les moyennes sont mesurées dans la même unité que la
variable (au carré prés pour les variances ), ce qui rend difficiles les comparaisons. Il faut donc trouver
un nombre sans dimension : le rapport de corrélation.

C. Le rapport de corrélation
Définition 2.6. On appelle rapport de corrélation, noté η 2 , le rapport de la variance expliquée sur la
variance marginale.

Variance expliquée Variance résiduelle


η2 = =1−
Variance marginale Variance marginale

Il ya donc deux rapport de corrélation :

2
• De X en Y , noté ηX,Y :
2
P
2 V (xj ) j n•j (xj − x)
ηX,Y = = P 2
V (X) i ni• (xi − x)

2
• De Y en X, noté ηY,X :
2
P
2 V (y i ) j ni• (y i − y)
ηY,X = =P 2
V (Y ) j n•j (yj − y)

Par construction : 0 ≤ η 2 ≤ 1
Trois cas se présentent :
1er cas :
2
ηX,Y = 0, donc V (xj ) = 0,
et la régression de X en Y n’explique pas la liaison. Il n’y a aucune dispersion des xj qui sont toutes
égales entre elles. Donc xj = x, et la courbe de régression de X en Y est une droite parallèle à l’axe
OY. Il y a absence de corrélation entre X et Y .

Statistique Descriptive Page 90 Msc Ir Mathieu MVUYEKURE


2.3. ÉTUDE DE LA LIAISON ENTRE DEUX VARIABLES :AJUSTEMENT LINÉAIRE ET CORRÉLATION

2e cas :
2
ηX,Y = 1, donc V (xj ) = V (X),
et la régression de X en Y explique en totalité la liaison entre X et Y . Il y a donc liaison fonction-
2
nelle de X en Y . Si ηX,Y = 1 également, il y a double liaison fonctionnelle, ou liaison fonctionnelle
réciproque.
3e cas : Cas général
2 2
Plus ηX,Y se rapproche de 1, plus il y a liaison forte entre X et Y . Plus ηY,X se rapproche de 1, plus
il y a liaison forte entre Y et X.

D. Variance expliquée par une droite de régression et coefficient de détermination

De la même manière qu’une courbe de régression, par exemple Cy/x explique une partie de la
dispersion marginale, une droite de régression, par exemple la droite D explique une partie de la
variance marginale de y.

2 0r2 V (y) V (y) − (1 − r2 )V (y)


r = aa = =
V (y) V (y)

V (y) = (1 − r2 )V (y) + r2 V (y)


| {z } | {z } | {z }
Variance totale Variance résiduelle Variance expliquée par la droite D
r2 s’appelle coefficient de détermination linéaire. Si r2 = 0, la variance expliquée par la droite
D est nulle, il n’y a donc pas de liaison linéaire mais il faudra vérifier par calcul de η 2 s’il n’y a pas
de liaison non linéaire.
De même :
V (x) = (1 − r2 )V (x) + r2 V (x)

Le coefficient de détermination est symétrique ; il est donc aussi égal à la proportion de la variance
marginale de x qui est expliquée par la droite D0 .
N.B : r2 = ρ2XY

Statistique Descriptive Page 91 Msc Ir Mathieu MVUYEKURE


2.4. EXERCICES

2.4 Exercices
1. Soit deux variables X et Y dont on veut étudier la liaison et les données sont celles du tableau
de contingence ci-dessous :
X\Y [1 ;3[ [3 ;5[ [5 ;7[
[1 ;3[ 3 2 0
[3 ;5[ 0 0 5
[5 ;7[ 0 0 4
[7 ;9[ 0 0 2
[9 ;11[ 4 3 0
(a) En utilisant la méthode des moindres carrés, calculer les équations des deux droites d’ajus-
tements D et D0 .
(b) Demontrez que, dans le cas general, la pente de la droite D (d’ajustement de y en x) est
moins forte que celle de la droite D0 (d’ajustement de x en y).
(c) Calculer le coefficient de corrélation linéaire et commenter les résultats.
(d) Calculer les rapports de corrélation. Expliquer pourquoi dans ce cas précis, on demande
ce calcul puis commenter.
Pour faciliter les calculs, on donne deux résultats intermédiaire
1 X 1 X
n•j (xj − x)2 = 0, 37 et ni• (y i − y)2 = 2, 5
N N
2. 50 étudiants de l’Université du Burundi ont effectué le mercredi 16 septembre 2015 deux
contrôles l’un en Statistique descriptive dont les notes sont xi , l’autre en Mathématiques
générales dont les notes sont yj . On obtient la série statistique double donnée par le tableau
ci-dessous :
yj \xi 2 8 12 18
6 8 1 1 0
9 1 10 2 0
11 1 2 14 1
14 0 0 2 7
(a) Déterminer La variance marginale de X et la variance marginale de Y
(b) Déterminer la covariance du couple (X, Y ).
(c) Déterminer l’équation de la droite de régression de Y en X et l’équation de la droite de
régression de X en Y
(d) Déterminer le coefficient de corrélation linéaire
(e) Calculer les moyennes et les variances conditionnelles, pour en déduire les variances ex-
pliquées de x et y.
3. A l’oral d’un examen, chaque candidat est interrogé en une première langue où il obtient la
note X, puis en une seconde langue où il obtient alors la note Y . Les résultats obtenus par
les 101 candidats sont consignés dans le tableau suivant :
X\Y [0,4[ [4,8[ [8,12[ [12,16[ [16,20[
[0,4[ 2 5 3 0 0
[4,8[ 1 12 10 3 0
[8,12[ 0 3 28 12 1
[12,16[ 0 1 5 10 2
[16,20[ 0 0 0 1 2

Statistique Descriptive Page 92 Msc Ir Mathieu MVUYEKURE


2.4. EXERCICES

(a) Quelle est la nature de la liaison existant entre X et Y ?


(b) Calculer les moyennes conditionnelles de X et Y .
(c) Tracer point par point les courbes de régression Cx/y et Cy/x .
2 2
(d) Calculer les rapports de corrélation ηx/y et ηy/x et dire ce qu’ils représentent par rapport
aux courbes de régression Cx/y et Cy/x respectivement.
(e) On souhaite maintenant déterminer une mesure commune symétrique de la existant entre
X et Y . Quelle est cette caractéristique symétrique ? Calculez-la et commentez.
(f) Déterminer les équations des deux droites de régression D et D0 .
4. Soient deux variables X et Y dont on veut étudier la liaison. Les données sont celles du tableau
de contingence ci-dessous.
X\Y [1,3[ [3,5[
[1,2[ 0 6
[2,3[ 5 0
[3,4[ 1 0
[4,5[ 1 0
[5,6[ 4 0
[6,7[ 0 3
[7,8[ 0 2
(a) En utilisant la MMC, calculer les équations des deux droites d’ajustement D et D0 .
(b) Calculer le coefficient de corrélation linéaire ; commenter
(c) Calculer les variances expliquée et résiduelle. Commenter
2 2
(d) Calculer les rapports de corrélation ηx/y et ηy/x . Commenter les résultats.
5. De la même manière que l’on décompose la variance marginale de y en variance expliquée
par la courbe Cy/x et variance résiduelle autour de la courbe de régression Cx/y , il est possible
de déterminer quelle proportion de la variance marginale de y est expliquée par la droite D,
et quelle proportion n’est pas expliquée (résiduelle) par la liaison linéaire.
Démontrer à ce propos, et expliquez que :

V (y) = (1 − r2 )V (y) + r2 V (y)

Statistique Descriptive Page 93 Msc Ir Mathieu MVUYEKURE


2.4. EXERCICES

Statistique Descriptive Page 94 Msc Ir Mathieu MVUYEKURE


Chapitre 3

LES SÉRIES CHRONOLOGIQUES

L’étude des séries chronologiques est l’étude de l’évolution d’une variable statistique, repérée dans
le temps. Son but est triple : décrire l’évolution, permettre l’explication en guidant l’interprétation,
faciliter l’élaboration de prévisions conjoncturelles.

3.1 Présentation et analyse théorique des séries chronologiques

3.1.1 Les principes de base


Définition 3.1. On appelle série chronologique, ou chronique, ou série temporelle une suite d’observa-
tion chiffrées, ordonnées dans le temps.

Ces observation chiffrées seront par exemple : la production automobile, la consommation d’électricité,
la population active, le nombre de demande d’emploi non satisfaites, etc.
Le temps est repéré, le plus souvent, en années, trimestres, mois, ou jours.
On note habituellement la variable etudée par y que l’on porte en ordonnées sur les graphes rectan-
gulaires. Le temps est souvent repéré par la lettre t que l’on porte en abscisse.

Définition 3.2. Une serie chronologique est également une distribution à deux caractères, dont l’un est
le temps.

La variable y est donc liée fonctionnement à la variable temps ( à chaque date correspond une et une
seule valeur de y ), mais pas l’inverse ( une meme valeur de y peut correspondre p̀lusieurs dates )
On peut écrire :
• Temps t, qui prend les valeurs ti avec i allant de 1 à n.
• Variable y, qui prend les valeurs yt :
y = f (t)

3.1.2 La décomposition du mouvement brut et les modèles théoriques d’ana-


lyse
Il est nécessaire de bien repérer les grands caractères de l’évolution globale. Les éléments constitués
de l’évolution globale portent le nom de composantes.

95
3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

Les composantes d’une série chronologique

1. Le trend ( la tendance) : Composante observée sur une longue période ; c’est la courbe
(droite, ici) qui résume le phénomène ; c’est elle qui ajuste l’ensemble des points de la droite
brisée. Elle lisse la série.
2. Selon des périodes plus courtes (mais toujours de longue durée ) on remarque des fluctuations
autour du trend, de type sinusoı̈dal (de haut en bas), qui se répètent. Ce mouvement s’appelle
CYCLE. La période et l’amplitude du cycle peuvent être repérées, si le cycle existe.
Le cycle comprend quatre phases :
• Expansion
• Crise
• Récession
• Relance
Exemple :
• Cycle long de de type Kondratieff ≈ 50
• Cycle de type Juglar ≈ 9ans
3. La composante saisonnier ( la saisonnalité ) :Correspond à un phénomène qui se répète
à un intervalles de temps réguliers ( périodes ). En général, c’est un phénomène saisonnier
d’où le terme de variations saisonnières.
Le graphe présente des mouvements très courts de pics et de creux successif qui se répètent,
de période en période, à des dates précises. cette suite de pics et de creux de faible ampleur
s’appelle variations saisonnières.
Les variations saisonnières sont repérables, la plupart du temps, de mois en mois, ou de
trimestre en trimestre. Elles sont dues :
• au rythme des saisons (produits agricoles, tourisme, transports, sports · · · ) ;
• aux comportements (congés, traditions, coutumes, autorisations de l’Etat,· · · ) ;
• à d’autres facteurs économiques (matières premières spécifiques) ou sociaux ;
• à d’autres causes régulières.
4. La composante accidentelles ( phénomènes accidentelles ) : Ce sont des phénomènes
qui ne sont pas prévus normalement, en fait qui ne sont pas prévisibles. C’est à dire grèves,
conditions météorologiques exceptionnels, crash financier peuvent notamment intervenir.
On les appelle également : variations résiduelles. Elles correspondent à des fluctuations
irrégulières, en général de faible intensité mais de nature aléatoire. On parle aussi d’aléas.

Formalisation des composantes dans le cadre d’un modèle idéal

A. La tendance à long terme (le trend) et mouvement cyclique (ft )


Le trend et le cycle sont tous deux mouvements de longue durée : en général, bien supérieures à 6
années de calendrier.
Le trend schématise la tendance générale du phénomène. On peut procéder à un ajustement et
déterminer ainsi l’expression analytique du trend. Si la ligne brisée représentative de la chronique
suggère un ajustement linéaire, on obtient une forme analytique du trend y = at + b. D’autres
ajustements à des fonctions connues analytiquement sont possibles

Statistique Descriptive Page 96 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

L’ajustement à une exponentielle se ramène à celui d’une droite, en utilisant les logarithmes.
Le cycle, si il existe, fait apparaı̂tre un mouvement de larges oscillations autour du trend. Il est d’usage
actuellement de ne pas l’exprimer analytiquement, mais de confondre son évolution avec celle du
trend.
B. Le mouvement saisonnier St
Elles résultent d’événements réguliers, fluctuants, et de même nature, se répétant à l’identique de
période en période inférieure à une année.
Deux principes fondamentaux sont à la base de l’appréhension des variations saisonnières par le
modèle idéal.
1. Principe de la répétition
Dans le modèle de référence, on prend en compte une répétition rigoureusement identique : Si la
série est donnée en trimestre, on considère que :
S1 = S5 = S9 = · · · donc St = St+4
En mois, on considere que :
St = St+12
En général, si la periode est p :
St = St+p = St+2p = · · ·
2. Principe de la conservation des aires
On considère dans le modèle idéal que, sur l’année, les St doivent se compenser : les pointes sont
compensées par les creux. Donc : la surface délimité entre la ligne brisée et le trend, au dessus du
trend, doit parfaitement égale à celle au dessous du trend, comme le montre le shema.

Donc : par an l’influence des variations saisonnières est neutre.

Statistique Descriptive Page 97 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

C. Les variations accidentelles εt

Définition 3.3. Les variations accidentelles ou résiduelles sont des mouvements perturbateurs de courte
période, irréguliers et imprévisible, pour la plupart. Un principe est à la base de l’intégration de ces
variations dans le modèle idéal : On considère que, sur un petit nombre d’années, les εt se compensent.
Si n est le nombre d’années, on a :
X n
εt = 0
t=1

Décomposition du modèle idéal en deux sous-modèles théoriques d’analyse

Le modèle idéal exposé dans le paragraphe précédent est nécessaire mais insuffisant pour analyser
de façon théorique les séries chronologiques. On aboutit ainsi à scinder le modèle idéal en deux sous
modèles traditionnels :
- Modele additif
- Modele multiplicatif
A. Définitions des modèles additif et multiplicatif.

Définition 3.4. Dans un modèle de type additif, on considère que le phénomène étudié en fonction du
temps se décompose en éléments (les composantes) indépendants les uns des autres. Graphiquement,
les amplitudes des composantes saisonnières (St ) sont constantes par rapport à la tendance.

y t = f t + S t + εt

Ici, ft est linéaire : ft = at + b ; les inconnues sont les paramètres a et b du trend.

Définition 3.5. Dans un modèle de type multiplicatif, on considère que le phénomène étudié en
fonction du temps, se décompose en éléments (les composantes) dépendants les uns des autres : la
composante saisonnière, et éventuellement la composante accidentelle, sont proportionnelles au trend.
Graphiquement, les amplitudes des composantes saisonnières (St ) sont croissantes ou décroissantes.
Première forme de schéma multiplicatif :

yt = ft · St + εt

Deuxieme forme :
yt = ft · St · εt

Statistique Descriptive Page 98 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

Le choix du modele, additif ou multiplicatif, appartient à l’utilisateur des statistiques de données.


Selon l’allure générale de la courbe du phénomène à étudier (que l’on peut toujours esquisser sur
un petit diagramme), selon le contexte économique, selon la connaissance du phénomène que l’on
a éventuellement par ailleurs, on choisira l’un ou l’autre modèle théorique.
On peut remarquer que le modèle multiplicatif, dans sa deuxième forme, peut se ramener modèle
additif :
yt = ft · St · εt
log yt = log ft + log St + log εt

B. La conservation des aires dans les deux modèles.


Rappel : Le principe veut que l’influence variations saisonnières (St ) soit neutre sur l’année.
Considérons que les εt n’existent pas pour cette démonstration ; ou bien, ce qui revient au meme,
que nous les intégrons dans le trend :
1. Cas du modèle additif
On a :
yt = ft + St (εt = 0)

La somme des variations saisonnières est nulle sur l’année. Par trimestre :

S1 + S2 + S3 + S4 = 0

En général si p est la période de référence (mois ou trimestre) :


p
X
St = 0
t=1

De meme : la moyenne des variations saisonnières est nulle sur l’année.


12 p
1 X 1X
En mois : St = 0 ; en général : St = 0 ou S = 0
12 t=1 p t=1

2. Cas du modèle multiplicatif


On a :
yt = ft · St (avec εt intégrés dans le trend)

Statistique Descriptive Page 99 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

Pour neutraliser l’influence des variations saisonnières St , il faut que leur moyenne soit égale à
l’unité, donc :
p
1X
St = 1 ou S = 1
p t=1
On peut voir que les variations saisonnières augmentent ou diminuent dans la meme proportion.
Appelons s cette proportion, il vient :
S = (1 + s)
S = (1 + s) n’est autre que le multiplicateur, et s le taux de croissance moyen sur la période. On
peut donc conclure, pour rester en analogie avec le modèle additif :

s=0

3.1.3 Méthode analytique d’étude des chroniques et ajustement


Définition

Le modèle d’évolution étant choisi, il ne reste plus qu’à estimer, par calcul, les paramètres, pour
obtenir la décomposition d’un mouvement donné, en ces deux composantes : trend et variations
saisonnières. On admet encore ici que les εt sont intégrés dans le trend, ou bien n’existe pas.
Remarques fondamentales :
1. Cette méthode n’est applicable que dans le cas où la tendance générale du phénomène est
assimilable à une fonction simple connue. Nous resterons ici dans le cas où la chronique
suggère un ajustement linéaire.
2. Dans le cas où la chronique ne peut pas être ajustée par une fonction simple connue, ou
bien dans le cas où l’on ne désire pas appliquer la méthode analytique, la décomposition du
mouvement brut se fera par des empiriques.

Estimation des paramètres a et b du trend linéaire

A. Ajustement dans le cas du modèle additif


- La série s’écrit :
yt = ft + St (puisque on annule les εt )
- Le trend :
ft = at + b

- La série sera donc ajustée par l’expression :

yt = at + b + St

- Les données se présentent sous la forme d’un tableau de contingence réduit à deux colonnes ti et
yt . On sait calculer une droite d’ajustement par la méthode des moindres carrés.
Ici, y est fonction du temps et l’on ne déterminera que la droite D :
- Sa pente est :
1
P
i ti yi − ty
P
Cov(t, y) n ti yi − nty
a= ou : a = 2 ou : a = Pi 2
V (t) 1
P 2 2
n i ti − t i ti − nt

Statistique Descriptive Page 100 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

- Son ordonnée à l’origine est :


b = y − at

Remarque utile
La somme des n premiers nombres entiers est :
n n
X n(n + 1) 1X (n + 1)
ti = ⇐⇒ ti =
i=1
2 n i=1 2

Comme n
1X
t= ti
n i=1
D’òu
(n + 1)
t=
2
La somme des carrés des n premiers nombres entiers est :
n n
X n(n + 1)(2n + 1) 1 X 2 (n + 1)(2n + 1)
t2i = ⇐⇒ t =
i=1
6 n i=1 i 6

B. Ajustement dans le cas du modèle multiplicatif


La série s’écrit :
yt = ft · St (εt négligés)
Donc
log yt = log(ft · St ) = log ft + log St
Le calcul est donc ramené au calcul précédent.

Estimation des coefficients saisonniers (Sj )

A. Définition des coefficients saisonniers (Sj )


On sait que l’influence des variations saisonnières doit être neutre sur l’année et que les variations
saisonnières (St ) se répètent théoriquement à l’identique de période en période.
Dans toute série chronologique observée sur un cas réel, les variations saisonnières ne sont jamais
identiques. Donc, pour satisfaire aux exigences du modèle théorique, et pour pouvoir étudier la série
réelle, il faut estimer, à la place des St observées, des variations périodes identiques chaque année
(mois par mois, ou trimestre par trimestre) qu’on appelle coefficients saisonniers.
On les note Sj ; j varie comme suit :

j = 1 à 12 pour le mois (sur n années)
j = 1 à 4 pour les trimestres (sur n années)

Dans la série observée, on compte autant de variations saisonnières (St ) que de valeurs de j × n. Par
exemple : 16St différentes pour 4 ans, par trimestre ; ou 24St différentes pour une évolution de 2 ans
repérée mensuellement. Par contre, les coefficients saisonniers, identiques de période en période ne
seront qu’au nombre de 4, si on observe en trimestre, et 12 si on observe en mois. Sur n années, il
n’existe que j coefficients saisonniers.

Statistique Descriptive Page 101 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

B. Calcul des coefficients saisonniers Sj par la méthode pratique


Pour déterminer les coefficients saisonniers, on procède comme suit :
Dans le cas du modèle additif
1. On calcule l’écart saisonnier
S t = y t − ft
On obtient donc n × j valeurs de St , qu’on peut écrire Sij . (Ici, St = Sij ).
2. On calcule les coefficients saisonniers Sj :
n
1X
Sj = Sij où n le nombre d’annees
n i=1

Si la somme des Sj ne sont pas nulle, on passe à l’étape suivante.


3. On calcule la moyenne des coefficients saisonniers :
p
1X
Sj = Sj où p la période
p i=1

4. On calcule les coefficients saisonniers corrigés Sj0 :


Sj0 = Sj − S j
En fait, on calcule les coefficients saisonniers corrigés Sj0 pour satisfaire la condition que la
somme sur l’année des coefficients saisonniers devrait en toute logique être égale à zéro. C’est
à dire p
X
Sj0 = 0
i=1
Dans le cas du modèle multiplicatif
1. On calcule le rapport saisonnier
yt
St =
ft
On obtient donc n × j valeurs de St , qu’on peut écrire Sij . (Ici, St = Sij ).
2. On calcule les coefficients saisonniers Sj :
n
1X
Sj = Sij où n le nombre d’annees
n i=1

3. On calcule la moyenne des coefficients saisonniers :


p
1X
Sj = Sj où p la période
p i=1

Si la moyenne des Sj n’est pas égale à l’unité, on passe à l’étape suivante.


4. On calcule les coefficients saisonniers corrigés Sj0 :
Sj
Sj0 =
Sj
En fait, on calcule les coefficients saisonniers corrigés Sj0 pour satisfaire la condition que la
moyenne sur l’année des coefficients saisonniers devrait en toute logique être égale à l’unité.
C’est à dire p
1X 0
S =1
p i=1 j

Statistique Descriptive Page 102 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

B. Calcul des coefficients saisonniers Sj par la méthode analytique en modèle additif


Les paramètres a et b de la droite d’ajustement étant connus, si les n années sont divisées P en p
1
périodes (1, 2, · · · , j, · · · , p) avec p = 12 ou p = 4 trimestres, et si l’on appelle y •j = n i yij la
moyenne des p mois ou trimestres, on obtient après calcul : Les p valeurs des coefficients saisonniers
(p = 12ou4) sont :  
p+1
Sj = y •j − y − a j − j varie de 1 à p
2
On peut comme précédemment corriger ces Sj en Sj0 .

Établissement de la chronique ajustée (b


yt )

La série ajustée notée ybt est donnée par :


Dans le cas du modèle additif
ybt = ft + St0
Dans le cas du modèle multiplicatif
ybt = ft · St0

La série ajustée ybt représente l’évolution qu’aurait subi le phénomène, si le mouvement saisonnier
était parfaitement régulier d’année en année.
Lorsque l’ajustement est significatif, ce qui n’est pas toujours le cas pratique, la série ybt permet de
faire des prévisions conjoncturelles.
Exercice d’application
On donne la série chronologique suivante du phénomène y, qui suit un modèle de type additif.
Années Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
2004 2 0,5 3,5 1
2005 5 2 5 3,5
2006 6,5 4 7,5 5
1. Déterminer l’équation du trend linéaire.
2. Calculer les coefficients saisonniers Sj0 par la méthode pratique.
3. Calculer les coefficients saisonniers Sj0 par la méthode analytique.
4. Déterminer la valeur prévisionnelle de y au 3e trimestre 2007
Correction de l’exercice
ti yi 1 ti yi
1 2 2
2 0,5 1
3 3,5 10,5
4 1 4
5 5 25
6 2 12
1.
7 5 35
8 3,5 28
9 6,5 58,5
10 4 40
11 7,5 82,5
12 5 60
45,5 358,5

Statistique Descriptive Page 103 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

(n + 1)
t =
2
(13)
=
2
= 6, 5

n
X n(n + 1)(2n + 1)
t2i =
i=1
6
12 × 13 × 25
=
6
= 650
1X
y= yi
n
45, 5
y=
12
y = 3, 79
P
ti yi − nty 62, 88
a = Pi 2 = = 0, 44
2
i ti − nt 143

b = y − at = 0, 932
L’équation du trend est :
ft = at + b = 0, 44t + 0, 932

2. Il faut ajouter deux colonnes au tableau :


ti yi ft St = yt − ft
1 2 1,37 0,63
2 0,5 1,81 -1,31
3 3,5 2,25 1,25
4 1 2,69 -1,69
5 5 3,13 1,87
6 2 3,57 -1,57
7 5 4,01 0,99
8 3,5 4,45 -0,95
9 6,5 4,89 1,61
10 4 5,33 -1,33
11 7,5 5,77 1,73
12 5 6,21 -1,21
45,5
Tableau des coefficients saisonniers
Années Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
2004 0,63 -1,31 1,25 -1,69
2005 1,87 -1,57 0,99 -0,95
2006 1,61 -1,33 1,73 -1,21
Sj 1,37 -1,4 1,32 -1,28
0
Sj 1,3675 -1,4025 1,3175 -1,2825

Statistique Descriptive Page 104 Msc Ir Mathieu MVUYEKURE


3.1. PRÉSENTATION ET ANALYSE THÉORIQUE DES SÉRIES CHRONOLOGIQUES

Voilà comment on a trouvé les valeurs de Sj

1
S1 = (0, 63 + 1, 87 + 1, 61) = 1, 37
3
On fait de même pour S2 , S3 , S4
La somme de S1 + S2 + S3 + S4 = 1, 37 − 1, 4 + 1, 32 − 1, 28 = 0, 01
0, 01
Sj = = 0, 0025
4
Alors pour trouver les de Sj0 , on calcule :

Sj0 = Sj − S j

=⇒ S10 = S1 − S 1 = 1, 37 − 0, 0025 = 1, 3675


La somme de S10 + S20 + S30 + S40 = 1, 3675 − 1, 4025 + 1, 3175 − 1, 2825 = 0
3. Calcul des coefficients saisonniers par méthode analytique, on utilise la formule
 
p+1
Sj = y •j − y − a j −
2

Avec
1X
y •j = yij
n i
1
y •1 = (2 + 5 + 6, 5) = 4, 5
3
1
y •2 = (0, 5 + 2 + 4) = 2, 17
3
1
y •3 = (3, 5 + 5 + 7, 5) = 5, 33
3
1
y •4 = (1 + 3, 5 + 5) = 3, 17
3


 S1 = 4, 5 − 3, 79 − 0, 44(1 − 5/2) = 1, 37
S2 = 2, 17 − 3, 79 − 0, 44(2 − 5/2) = −1, 4

Sj =

 S3 = 5, 33 − 3, 79 − 0, 44(3 − 5/2) = 1, 32
S4 = 3, 17 − 3, 79 − 0, 44(4 − 5/2) = −1, 28

Pour déterminer les coefficients saisonniers corrigés Sj0 on fait comme précédemment.
4. La valeur prévisionnelle de y au 3e trimestre 2007 est :

ybt = (0, 44 × 15) + 0, 93 + 1, 3175 = 8, 8475

Statistique Descriptive Page 105 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE
3.2 Les méthodes empiriques de décomposition des séries chro-
nologiques et la covariance

3.2.1 Les procédés de décomposition


Détermination du trend et utilisation du procédé des moyennes mobiles

Procédé graphique des points médians pour la détermination du trend (ft )


Outre la méthode analytique, il existe des procédés, purement graphiques de détermination du trend.
Le procédé graphique des points médians, qui est le plus fréquemment utilisé en matière graphique.
Le procédé graphique consiste à relier les milieu des segments verticaux de projection des pics et
des creux les plus accusés des courbes enveloppes.

Méthode : On trace les courbes enveloppes (haute et basse) : elles joignent respectivement les
maxima (M ) et les minima (m) du mouvement brut. On projette verticalement les M et les m.
On relie les milieux des segments.

A. Le lissage simple et les moyennes échelonnées


Pour obtenir le trend, on lisse le mouvement brut, c’est à dire qu’on adoucit les pics et les creux, tout
en gardant l’allure générale du phénomène.
La technique des moyennes échelonnées consiste à remplacer un nombre impair de valeurs consécutives
(en général 3) par leur moyenne arithmétique.
C’est un procédé rapide, mais trop simplificateur. On l’utilise surtout pour avoir une idée approxima-
tive du trend avant de commencer l’étude. Deux, au moins, des observations extrêmes sont perdues.

B. La méthode des moyennes mobiles


Elle ressemble à la méthode précédente, mais a l’avantage d’être moins appauvrissante. C’est la
méthode empirique la plus couramment utilisée.

Statistique Descriptive Page 106 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE

1. Le principe On remplace un certain nombre de données consécutives (ici :3) par leur moyenne,

mais on décale ce calcul de période en période, en réutilisant toutes les données du calcul précédent
moins la première.

Exemple 3.1. Exemple de calcul de moyennes échelonnées et moyennes mobiles (d’ordre impair).
Le revenu national français (en francs constants) a évolue annuellement entre 1930 et 1939 de la manière
suivante :

Calculer les moyennes échelonnées d’ordre 3 et les moyennes mobiles d’ordre 3.

Statistique Descriptive Page 107 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE

Réponse

2. Définition formalisée
Soit une variable yt dont on étudie l’évolution temporelle, on appelle moyenne mobile d’ordre p, la
série constituée par les moyennes arithmétiques suivantes :
y1 + y2 + · · · + yp y2 + y3 + · · · + yp+1
; ; etc.
p p

Une moyenne mobile d’ordre p s’écrit :


p−1
1X
M Mp = yt+1
p t=1

Les numérateurs des fractions s’appellent sommes mobiles ; les dénominateurs sont les ordres ou
longueurs des moyennes mobiles.
3. Choix de l’ordre et problème de parité
Le choix de l’ordre dépend du rythme apparent des variations régulières de la courbe représentative
du mouvement brut. Il s’agit de trouver le meilleur filtrage des cycles apparent. Ainsi, si des va-
riations prononcées se produisent toutes les j périodes, dans l’ensemble, on choisira une moyenne
mobile d’ordre j.
En pratique : 
 Quand les ti sont des années : on choisit p = 3 ou 5
Quand les ti sont des mois : on choisit p = 12
Quand les ti sont des trimestres : on choisit p = 4.

Quand l’ordre est pair, cela pose un problème : Les valeurs des moyennes mobiles obtenus se
trouvent entre les lignes du tableau, et ne se rapportent donc plus aux dates d’observations.
Pour faire coı̈ncider dates et moyennes, on effectue une deuxième somme mobile d’ordre 2 (après
avoir fait la somme mobile d’ordre pair) sur laquelle on calcule la moyenne mobile en divisant par 2
fois l’ordre choisi.

Statistique Descriptive Page 108 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE

Exemple 3.2. Une moyenne mobile d’ordre 4 sera d’abord effectuée par le calcul de la colonne somme
mobile d’ordre 4, dans laquelle les valeurs seront entre les lignes des dates ; ensuite par le calcul de la
colonne des sommes mobiles d’ordre 2, dans laquelle dates et sommes coı̈ncideront ; enfin par le calcul
de la colonne : moyenne mobile, dans laquelle on divisera les dernières sommes mobiles obtenues par
4 × 2 = 8.

Calcul de moyennes mobiles d’ordre pair


Afin de comparer les résultats issus des méthodes d’ajustement du trend avec ceux des moyennes
mobiles, reprenons les données chiffrées de l’exercice d’application. Le mouvement brut est donné
par trimestres : calculons les moyennes mobiles d’ordre 4. Définition formalisée

Soit une variable yt dont on étudie l’évolution temporelle, on appelle moyenne mobile d’ordre pair
p, la série constituée par les moyennes arithmétiques suivantes :
0, 5y1 + y2 + · · · + 0, 5yp+1 0, 5y2 + y3 + · · · + 0, 5yp+2
M MP = ; ; etc.
p p

Statistique Descriptive Page 109 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE

La correction des variations saisonnières (CVS)

Cette correction ne peut se faire que si la série chronologique est subdivisée en périodes inférieures
à l’année. On néglige, dans un premier temps, les variations accidentelles εt , comme on le faisait
dans les procédés analytiques.
A. Les différentes étapes pour obtenir la série CVS
1re étape : On détermine le trend par diverse méthode. Lorsqu’il est calculé analytiquement (ajus-
tement) on le notera ft ; lorsqu’il est calculé par les moyennes mobiles, on le notera Mt .
2e étape : On calcule les variations saisonnières :

St = yt − ft ou St = yt − Mt En modèle additif
yt yt
St = ou St = En modèle multiplicatif
ft Mt
3e étape : On détermine les j valeurs des coefficients saisonniers Sj .

1X
Sj = Sij
n i

4e étape : Si la somme ou la moyenne des Sj n’est pas égale à zéro dans le modèle additif, ou bien
si la moyenne n’est pas égale à l’unité dans le modèle multiplicatif, il faut corriger ces Sj en Sj0 .
Pour cette correction, on calcule la moyenne des Sj :
p
1X
Sj = Sj
p j=1

Alors, on a :
Sj0 = Sj − S j dans le modèle additif
Sj
Sj0 = dans le modèle multiplicatif
Sj
5e étape : On retranche (modèle additif) ou on divise (modèle multiplicatif) les valeurs données yt
et les Sj0 . La série obtenue est la série CVS, série corrigée des variations saisonnières. On la note
yt∗ .
Donc,
yt∗ = yt − Sj0 dans le modèle additif

yt
yt∗ = dans le modèle multiplicatif
Sj0
yt∗ exprime ce qu’aurait été la réalité du phénomène, s’il n’y avait pas eu de saisons.
Cette opération d’élimination du mouvement saisonnier s’appellent aussi désaisonnalisation
B. Remarque complémentaires sur la série CVS
La série corrigée des variations saisonnières permet de suivre l’évolution du phénomène réel dans
le temps, épuré des mouvements saisonniers de période en période, qui auraient rendu son in-
terprétation difficile et hasardeuse : il est toujours difficile d’émettre un jugement valable sur l’évolution
d’ensemble d’une série chronologique à partir seulement des données brutes.

Statistique Descriptive Page 110 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE

La série yt∗ (CVS) ne comprend donc plus que deux composantes : le trend et les variations acciden-
telles :

Il ne faut pas confondre yt∗ (série CVS) et ybt (série ajustée), cette dernière intégrant un mouvement
saisonnier régulier d’année en année.

Détermination des variations accidentelles

Il suffit d’enlever à la série CVS (yt∗ ) l’influence du trend ft pour obtenir la composante accidentelle
εt .
Donc,
εt = yt∗ − ft dans le modèle additif

yt∗
εt = dans le modèle multiplicatif
ft
L’influence des variations accidentelles doit être neutre sur la longue période pour satisfaire au
principe de conservation des aires du modèle idéal.
Les composantes accidentelles peuvent également être calculées en utilisant la série ajustée :
Donc,
εt = yt − ybt dans le modèle additif

yt
εt = dans le modèle multiplicatif
ybt

3.2.2 Notion de covariation


Le principe

Il est souvent intéressant, en particulier en économie , de comparer deux séries chronologiques. Les
exemples sont nombreux : comparaison de l’évolution du prix d’un produit avec celle des quantités
de ce même produit, évolution du revenu national et évolution des transactions immobilières, etc.

Statistique Descriptive Page 111 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE

Il est donc intéressant de repérer s’il existe un lien de dépendance entre deux phénomènes
évoluant dans le temps : c’est l’objet de la mesure de la covariation.
La mesure des liens de dépendance entre deux variables nous renvoie aux principes de la corrélation.
Cependant, dans le cas présent où les séries chronologiques sont toutes liées par une troisième
variable, le temps,l’interprétation directe du coefficient de corrélation ne pourrait faire apparaı̂tre
qu’une liaison artificielle.
Prenons le cas extrême de deux séries chronologiques représentant des phénomènes complètement
indépendant, mais dont les fonctions sont des fonctions linéaires du temps.

yt = at + b
x t = a0 t + b 0

Il est toujours possible d’éliminer t entre les deux équations et l’on aboutirait à une relation fonction-
nelle de type y = f (x), alors que la réalité est par l’hypothèse, exactement l’inverse. En définitive,
la mesure de la corrélation entre les évolutions dans le temps de deux phénomènes n’implique pas
l’existence d’un réel lien entre eux. On emploie le terme de covariation.

Mise en évidence graphique de la covariation

Pour comparer deux séries chronologiques yt et xt , la première chose à faire est de les tracer sur un
même graphique.
La comparaison visuelle entre séries chronologiques est, très souvent, une opération primordiale.
Cependant elle est difficile car :
• Les données ont des ordres de grandeur trop différents : Pour éviter que le graphe soit saturé, il
vaut mieux étudier les écarts à la moyenne (yt − y).
• Les pics et les creux des deux séries ont des amplitudes trop différentes :il vaut mieux homogénéiser
les dispersions, c’est à dire ramener les variations à l’écart type de la série.
On est amené, pour opérer la comparaison graphique, à faire les changements de variables sui-
vantes :(variables centrées réduites) :
yt − y xt − x
Yt = et Xt =
σy σx

On obtient donc deux nouvelles séries chronologiques : {Yt , ti } et {Xt , ti } que l’on trace sur un
repère angulaire.
La comparaison visuelle est alors immédiate :

Statistique Descriptive Page 112 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE

Les coefficients de covariation

A. Les coefficients de covariation linéaire


Son expression est, dans sa forme, analogue à celle du coefficient de corrélation r ou ρ, mais ici
les calculs n’ont plus la même portée puisqu’il s’agit de mesurer l’intensité d’une éventuelle liaison
entre des variations elles-mêmes liées dans le temps.
P
(xt − x)(yt − y)
C = pP P
(xt − x)2 · (yt − y)2

Il varie de -1 à +1. S’il est proche de ±1, il ya peut être une liaison linéaire entre les évolutions dans
le temps des deux variables. Il faut alors en chercher les causes économiques.
Lorsque les mouvements bruts des deux variables présentent des tendances linéaires assez fortes,
cela aboutit à faire augmenter la valeur absolue de C de façon illusoire. Par ailleurs, tout comme
dans le cas du coefficients de corrélation, il faut se méfier des liaisons non linéaires pouvant exister
entre les deux variables, mais laissant la valeur de C proche de zéro. En définitive, il faut être très
prudent dans les interprétations.
On remarque également que : P
Yt Xt
C=
n
n étant le nombre de dates d’observations ; Yt et Xt , les séries obtenues par changement de variable.

B. Les coefficients de covariation rapporté au trend


Pour annuler l’effet du rapprochement illusoire de C aux valeurs -1 ou +1, lorsque les tendances des
mouvements bruts sont de nature assez linéaire, on étudie la liaison entre yt et xt indépendamment
de leurs trends : On élimine l’influence des moyennes, en calculant :

(xt − ftx )(yt − fty )


P
K = pP
(xt − ftx )2 · (yt − fty )2
P

On a simplement remplacé la moyenne x par les valeurs du trend de la série xt , (ftx ), et la moyenne
y par les valeurs du trend de la série yt , (fty ). Ces valeurs peuvent résulter du calcul des moyennes
mobiles ou d’un ajustement linéaire.
Le coefficient de covariation rapporté au trend (K) varie de -1 et +1. Il réduit les risques d’erreurs
d’interprétation induits par le calcul de C : En cas de linéarité, K se rapproche de zéro, s’il n’y a
pas de covariation effective. Au plus K est proche ±1, au plus on peut penser qu’il y a une forte
covariation entre les variables.

Covariation et déphasage

A. Vérification graphique
Deux séries chronologiques peuvent être liées économiquement, (ou de façon plus général : réellement),
mais en faisant apparaı̂tre un déphasage (décalage) de quelques périodes entre la cause et l’effet.

Statistique Descriptive Page 113 Msc Ir Mathieu MVUYEKURE


3.2. LES MÉTHODES EMPIRIQUES DE DÉCOMPOSITION DES SÉRIES CHRONOLOGIQUES ET LA
COVARIANCE

La représentation graphique, par changement de variable, met en relief le déphasage 4 s’il existe,
comme le montre le diagramme ci-dessous :

B. Calcul d’un coefficient de covariation linéaire avec déphasage


La méthode est très empirique : On calcule d’abord une valeur de C à partir des données telles qu’elles
se présentent dans le tableau. On calcule ensuite une deuxième valeur de C en faisant correspondre,
dans le tableau, à chaque xt un yt+1 . On réitère l’opération jusqu’à retenir comme déphasage opti-
mum celui qui correspond à la valeur de C la plus proche de +1 ou -1. Ce calcul est particulièrement
fastidieux. Il vaut mieux, dans la plupart des cas, se contenter de la vérification graphique.
Exercice d’application
La variable xt représente la production annule d’un produit agricole ; la variable yt , son prix unitaire
moyen annuel en francs constants.
La représentation graphique directe sur une même échelle arithmétique est impossible, eu égard aux
ordres de grandeurs de xt et yt . Il faut faire les changements de variables suivants :

Calculer le coefficient de covariation


Le coefficient de covariation linéaire C appliqué aux dates d’observations est :
P P
(xt − x)(yt − y) Yt Xt
C = pP =
n
P
(xt − x)2 · (yt − y)2

Statistique Descriptive Page 114 Msc Ir Mathieu MVUYEKURE


3.3. EXERCICES

Sans tenir compte du déphase d’une année :


0, 31462
C= = 0, 039
8
Le coefficient de covariation n’est pas signification.
Si l’on compare les observations Xt avec Yt−1 c’est à dire la production de l’année avec les prix de
l’année précédente, on trouve :
7, 81
C= = 0, 97
8
Le coefficient de covariation avec déphasage d’une année est donc fort. Il y a donc une covariation
(positive) forte : avec déphasage d’un an entre les deux variables.

3.3 Exercices
1. On considère les ventes trimestrielles d’un produit depuis 4 ans (ventes en milliers d’unités).
Années Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Vente 1ere année 150 80 110 205
Vente 2e année 170 80 125 215
Vente 3e année 180 105 115 240
Vente 4e année 195 110 150 255
(a) A l’aide d’un graphique montrer le caractère saisonnier des ventes du produit et expliquer
pourquoi le modèle additif est le mieux adapté.
(b) Compléter la 3ème ligne du tableau suivant donnant les moyennes mobiles de ce caractères
statistique :
Années Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Moyenne mobile 1ere année - - 138,75 143,125
Moyenne mobile 2e année 146,275 150,5 152,5 155
Moyenne mobile 3e année ? 156,875 ? 164,375
Moyenne mobile 4e année 169,375 175,625 - -
(c) Déterminer les écarts saisonniers et calculer la série désaisonnalisée.

Statistique Descriptive Page 115 Msc Ir Mathieu MVUYEKURE


3.3. EXERCICES

(d) Déterminer par la méthode des moindres carrés l’équation de la série désaisonnalisée et
son coefficient de corrélation linéaire.
(e) Faire des prévisions par la 5e année.
2. La production d’un bien y entre 2004 et 2006 est donnée par le tableau ci-dessous, on admet
que le phénomène suit un modèle multiplicatif.
ti yt
2004 1 47
2 30
3 39
4 14
2005 5 62
6 40
7 50
8 16
2006 9 69
10 50
11 62
12 15
´
(a) Etablir le trend par la méthode des moyennes mobiles d’ordre 4.
(b) Déterminer la série CVS noté yt∗ .
(c) Déterminer les variations accidentelles εt . Doit-on dire au vus de ces derniers résultats
qu’il y a conservation des aires au niveau des variations accidentelles, expliquer.
3. Les importations en produits maraı̂chers yt , en milliers de tonnes, d’une région du Nord, sont
données, en stock au premier jour de chaque trimestre, dans le tableau ci- dessous. la série
suit un modèle additif.
ti yt
2004 1 1
2 2
3 7
4 9
2005 5 1
6 3
7 11
8 12
2006 9 5
10 6
11 10
12 12
(a) Calculez le trend analytiquement (MMC).
(b) Calculez les coefficients saisonniers.
´
(c) Etablissez la série CVS (corrigée des variations saisonnières : yt∗ ).
(d) Déterminer les variations accidentelles εt . Y a-t-il conservation des aires ?
´
(e) Etablissez la série ajustée ybt et prévoyez les importations au 1er avril 2009. Faites un graphe
des trois séries yt , yt∗ et ybt .

Statistique Descriptive Page 116 Msc Ir Mathieu MVUYEKURE


3.3. EXERCICES

4. La production de coques-plastique de voiliers de plus de 10 mètres, effectuée par un chantier


naval, au cours de ses trois premières années d’exercice est donnée par le tableau ci-dessous :
La série suit un modèle multiplicatif.
Années Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
2004 3 4 3 5
2005 2 7 1 7
2006 2 8 5 9
(a) Calculez le trend par la méthode des moyennes mobiles d’ordre 4.
´
(b) Etablir la série corrigée des variations saisonnières.
(c) Y’a-t-il une variation accidentelle particulièrement importante ?

Statistique Descriptive Page 117 Msc Ir Mathieu MVUYEKURE


3.3. EXERCICES

Statistique Descriptive Page 118 Msc Ir Mathieu MVUYEKURE


Chapitre 4

THÉORIE DES INDICES

4.1 Définition et propriétés des indices

4.1.1 Mise en évidence de la notion d’indice


Dans le domaine des sciences économiques et sociales, les grandeurs représentatives de phénomènes
(prix, production, taux de chaumages, etc.) varient dans le temps et dans l’espace : Dans le temps,
puisqu’elles prennent des valeurs différentes d’une date à une autre ; dans l’espace, car d’une région
à une autre, d’un territoire à un autre, ces grandeurs peuvent être très fluctuantes.
Or, il est souvent malaisé de les apprécier et de les comparer : les tableaux statistiques fournissent
un grand nombre de chiffres rendant les comparaisons immédiates difficiles.
Prenons l’exemple de la production annuelle du bien X qui passe de 53492 à 64190 unités, alors que
celle du bien Y passe de 128 à 158 : la comparaison immédiate est malaisée, il faut faire un calcul
(simple) pour s’apercevoir que les deux productions ont augmenté dans la même proportion (20%)
Pour faciliter cette interprétation directe, on recourt en statistique économique à la notion d’indice,
dont le principe de construction est d’élaborer, dans le tableau statistique, les rapports des grandeurs
que l’on veut comparer, afin de présenter des nombres sans dimension : Un indice, c’est un rapport,
positif, ou nul.
Nous avons étudié dans le premier chapitre la notion de pourcentage, si l’on écrit, en reprenant les
mêmes symboles de notation VV0t × 100 = I, I est alors un indice : c’est l’indice de V , à l’année t,
base 100 à l’année 0.
Si par exemple, la production de l’entreprise E passe de 12 en 2004 à 15 en 2005 et à 18 en 2006 on
pourra déterminer les rapports suivants :

V0 12
2004 → = × 100 = 100
V0 12

V1 15
2005 → = × 100 = 125
V0 12

V2 18
2006 → = × 100 = 150
V0 12
Et l’on pourra énoncer l’indice de production de l’entreprise E base 100 en 2004 passe à 125 en 2005
et à 150 en 2006. Les accroissements de 25% et de 50% sont alors directement lisibles.

119
4.1. DÉFINITION ET PROPRIÉTÉS DES INDICES

L’indice que nous venons de construire est un indice temporel ou chronologique. Si à la place des
années, il s’était agit de région, ou plus généralement d’espaces différents, on aurait obtenu un indice
régional ou spatial.
La notion d’indice est cependant plus large que celle que décrit l’exemple précédent. Ici c’est le cas
où une grandeur ne prend qu’une seule valeur à différentes dates ou sur différents espaces. Ce
type de grandeurs est appelé grandeur simple : le prix d’un produit, la production de telle firme, le
taux de chômage, ou taux de change, sont des grandeurs simples, elles sont repérées par un nombre.
Les indices que l’on calcule sur les grandeurs simples sont appelés indices élémentaires.
Il existe également des grandeurs complexes, composées de différentes grandeurs simples. Pour
obtenir par exemple la grandeur économique  niveau général des prix , il faut résumer un ensemble
de grandeurs simples hétérogènes.
Le problème réside alors dans le choix des grandeurs simples et dans la manière de les agréger, pour
que la grandeur complexe soit significative. Mais dans la suite nous allons voir comment aborder ce
délicat problème. En fait une grandeur complexe est composée d’un ensemble de nombreux
éléments hétérogènes, repérés chacun par un nombre.
Les rapports obtenus sur les grandeurs complexes sont des indices synthétiques. On parlera ainsi
de l’indice des prix à la consommation, de l’indice de la production industrielle, de l’indice du com-
merce extérieur, de l’indice des salaires, etc.
En définitive : il existe deux types d’indices : ceux correspondent aux grandeurs simples exprimées par
un nombre ; ceux qui correspondent aux grandeurs complexes, resumant un grand nombre de nombres.

4.1.2 Les indices élémentaires


Définition 4.1. On appelle indice élémentaire, le nombre sans dimension résultant du rapport de deux
valeurs prises par une même grandeur simple, soit deux dates différentes, soit sur deux espaces différents.
Notation : Soit : Vt la valeur de la variable au temps t ; V0 la valeur de la variable au temps t = 0
(que l’on avait appelée valeur de départ lors de l’étude des pourcentages).
L’indice I s’écrit :
Vt
It/0 = 100 ·
V0
Remarque 4.1. Si on définit l’indice comme simple rapport (sans le multiplier par 100), on peut effec-
tuer tous les calculs ultérieurs sans s’encombrer des puissances de 10 : il suffit alors de multiplier par 100
le résultat final de ces calculs.
Conventions : La date zéro (t = 0) s’appelle date de base ou date de référence pour des indices
chronologiques. Elle devient : situation de base ou de référence dans le cas des indices spatiaux.
La date t s’appelle date (ou période) courante dans le cas des indices chronologiques. Pour les indices
spatiaux on repère t par un sigle exprimant l’espace choisi :
Lecture entre deux date :
Entre deux dates quelconques 1 et 2, la variation relative d’une grandeur simple s’écrit :
V2
I2/1 = 100 ·
V1
On démontrera dans le paragraphe suivant que la variation d’une grandeur simple est égale à celle
de son indice :
I2/0
I2/1 = 100 ·
I1/0

Statistique Descriptive Page 120 Msc Ir Mathieu MVUYEKURE


4.1. DÉFINITION ET PROPRIÉTÉS DES INDICES

Les propriétés des indices élémentaires

Ces pourcentages sont celles des pourcentages (indices élémentaires) ; cependant on verra que les
indices synthétiques ne les possèdent pas toutes. Il est bon de les énoncer.

A. La circularité (Transférabilité ou même transitivité)


Si une grandeur économique prend les valeurs V0 , V1 , V2 aux temps 0, 1, 2 l’indice élémentaire
satisfait la relation :
1
I2/0 = I2/1 · I1/0 ·
100
En généralisant à deux dates t et t0 :

1
It/0 = It/t0 · It0 /0 ·
100

Cette expression est surtout utile lorsqu’on l’écrit comme suit :

It/0
It/t0 = 100 ·
It0 /0

Pour comparer deux grandeurs simples à deux dates t et t0 , il suffit de faire le rapport de
leurs indices.
Conséquence pratique : On peut opérer des changements de base sur les indices élémentaires, en
substituant à la date 0, la date t0 .
Généralisation : On peut appliquer cette propriété de période (de date en date). On dit que les
indices élémentaires sont enchaı̂nables.
 
I1/0 I2/1 I3/2 It/t−1
It/0 = 100 × × × ··· ×
100 100 100 100
La propriété de circularité permet ainsi : d’obtenir l’indice él’ementaire de la date t par rapport à
la base, en effectuant le produit des indices élémentaires intermédiaires successifs. On parle aussi,
dans ce cas, de raccordement.
Chaque indice de type Ij/j−1 s’appelle un maillon. Chaque maillon mesure une évolution proche
dans le temps, ce qui permet des comparaisons moins biaisées, en matière d’indices de prix, puisque
les effets qualité (haut ou bas de gamme) ou regroupements en packs ou stratégies commerciales ont
moins de probabilités de se faire sentir.

B. La réversibilité
Cette propriété s’énonce : quand on inverse le rôle de la base et de la période courante, l’indice
élémentaire s’inverse à 104 près.

104
It/0 · I0/t = 104 ou I0/t =
It /0

La démonstration est immédiate :


Vt V0
It/0 = 100 · ; I0/t = 100 ·
V0 Vt

Statistique Descriptive Page 121 Msc Ir Mathieu MVUYEKURE


4.1. DÉFINITION ET PROPRIÉTÉS DES INDICES

Donc,
Vt V0
100 · × 100 · = 10000 = 104
V0 Vt
Les indices élémentaires sont donc plus adaptés aux calculs économiques que les pourcentages.
Cette propriété est intéressante pour comparer des grandeur à des dates successivement croissantes
ou décroissantes dans le temps, mais trouve son intérêt majeur en économie spatiale, où l’on est
souvent amené à inverser les régions de base dans des comparaisons.

Propriétés secondaires des indices élémentaires : grandeurs liées par un produit ou par un
rapport

1. Indices élémentaires des grandeurs liées par un produit


Quand une grandeur simple est le produit de deux autres, l’indice élémentaire du produit est égal
au produit des indices élémentaires à 10−2 près.

Si a = b × c
1
It/0 (a) = It/0 (b) × It/0 (c) ×
100
Exemple 4.1. La recette totale (RT ) est égale au produit du prix (P ) par les quantités vendues (Q) :
Si le prix passe de 200eà 220e, alors que les quantités vendues passent de 5000 à 6000, il vient :

220 6000
It/0 (P ) = × 100 = 110 ; It/0 (Q) = × 100 = 120
200 5000
1
It/0 (RT ) = 110 × 120 × = 132 (soit 32% d’augmentation sur la période)
100

2. Indices élémentaires des grandeurs liées par un rapport


Quand une grandeur simple est le rapport de deux autres, l’indice élémentaire est égal au rapport
des indices élémentaires à 102 près.
a
Si b =
c
It/0 (a)
It/0 (b) = · 100
It/0 (c)
C’est la même formule que précédemment.

3. Proportionnalité
Si, entre l’époque de base et l’époque t, la grandeur simple est multipliée par une constante k, l’indice
élémentaire est multiplié par k :

Vt = k · V0 =⇒ It/0 = k · 100

En effet :
Vt kV0
It/0 = · 100 = · 100 = k · 100
V0 V0
Ainsi, si une grandeur double entre 2004 et 2006, son indice, base 100 en 2004, sera égal à 200 en
2006.

Statistique Descriptive Page 122 Msc Ir Mathieu MVUYEKURE


4.1. DÉFINITION ET PROPRIÉTÉS DES INDICES

4.1.3 Les indices synthétiques


Définition 4.2. Un indice synthétique s’applique à une grandeur complexe qui n’est autre qu’un en-
semble de grandeurs simples dont les éléments non homogènes ne peuvent être additionnés directement.
Un indice synthétique doit donc résumer une série d’indices élémentaires.
De façon plus formalisée, on peut écrire :
- Soit une grandeur complexe G, constituée de différents éléments

G = {g 1 ; g 2 ; g 3 ; · · · ; g i ; · · · , g k }

-Chaque indice élémentaire est de type :

gti
It/0 (g i ) = × 100
g0i
On a donc une série de k indices élémentaires. Cette série doit être résumée numériquement par un indice
synthétique It/0 (G), qui en est une valeur centrale.

Les indices synthétiques les plus fréquemment employés

A. De la notion de  valeur globale à la construction d’un indice synthétique


En économie, on s’intéresse essentiellement aux variations des prix (p), ou des quantités (q) ou de
leur produit (pq) que l’on appellera ici valeur globale.
La valeur globale est mesurée en unités monétaires.

Valeur globale = prix × quantités

Ainsi, trois types d’indices (élémentaire ou synthétique) sont mesurables : Indice des prix, des quan-
tités, ou de valeur.
L’indice de valeur est moins significatif économiquement que les deux autres, dans la mesure où son
évolution dépend de celle des prix et de celle des quantités, sans qu’on puisse les différencier. Il n’y a
qu’une possibilite de calcul d’un indice de valeur, elle consiste à sommer toutes les valeurs globales
aux temps t et à la date de base 0.
L’indice de la valeur s’écrit donc :
P i i
pq
It/0 = P i it ti × 100
i p0 q 0

Si l’indice de valeur augmente entre 0 et t, rien nous permet de dire que la cause est une augmentation
de prix accompagnée d’une diminution des quantités, ou toute autre combinaison. Une manière de
lever ce doute est de considérer artificiellement, dans le calcul de l’indice, une des deux variables
(prix ou quantité) comme fixe, pendant que l’autre évolue.
Ainsi, pour faire ressortir les variations de prix d’un bien i entre deux dates, il suffit d’éliminer
l’influence des quantités, c’est-à-dire de calculer ce qu’aurait été la valeur globale d’arrivée au temps
t par exemple, si les quantités étaient restées constantes et si seuls les prix avaient variée.
Pour un bien i les valeurs globales à la date de base et à la date courante t, calculées de la manière
exposée précédemment, en fixant les quantités, sont :

A la date de base : pi0 q0i
A la date t : pit q0i

Statistique Descriptive Page 123 Msc Ir Mathieu MVUYEKURE


4.1. DÉFINITION ET PROPRIÉTÉS DES INDICES

L’indice élémentaire de valeur du bien i est donc :


pit q0i pit
It/0 (pq) = · 100 = · 100
pi0 q0i pi0
Il s’agit donc d’un indice élémentaire des prix (par construction). Le passage de l’indice élémentaire
à l’indice synthétique nous amène à considérer, non plus seulement un bien, mais tous les biens
composant la grandeur complexe ; pour ce passage, nous garderons la même logique.
Ainsi, comparons, toujours suivant la même méthode, non plus les valeurs globales d’un seul bien
i, mais de tous biens composant la grandeur complexe G, on obtient les valeurs globales suivantes :
 P i i
P i i i p0 q 0
A la date de base :
A la date t : i pt q 0

L’indice synthétique de valeur de la grandeur G est donc :


P i i
pq
It/0 (pq) = P i it 0i × 100
i p0 q0

La simplification par q0i n’est plus possible comme dans le cas précédent. On vient de construire
ici l’indice de Laspeyres des prix.
Selon la même logique :

Un indice des prix se conçoit à quantités fixes
Un indice des quantités se conçoit à prix fixes

B. L’indice de Laspeyres
Notation :
L’indice de Laspeyres des prix sera noté Lp et l’indice de Laspeyres des quantités Lq .
Construction :
La logique de construction est la même que précédemment : Un indice des prix se conçoit à quantités
fixes, et inversement.
Spécialité :
Le choix de la date de référence (date de base) traduit la spécificité de l’indice : L’indice de Laspeyres
est défini en prenant comme date de référence une date antérieure à la date d’observation.
1. L’indice des prix de Laspeyres :
La date de référence est la date 0. Selon la logique de construction développée plus haut, l’indices
synthétique des prix de Laspeyres s’écrit :

P i i
pq
Lpt/0 = 100 · P i it 0i
i p0 q0

Si les prix ne varient pas, l’indice reste égal à 100.


Convention d’écrire : Afin d’alléger les notations, nous conviendrons de ne plus écrire le symbole
i étant entendu que toutes les sommes se font par rapport à i, numéro d’ordre de repérage des
grandeurs simples g i . Sous cette condition, on peut écrire :
P
p pt q 0
Lt/0 = 100 · P
p0 q 0

Statistique Descriptive Page 124 Msc Ir Mathieu MVUYEKURE


4.1. DÉFINITION ET PROPRIÉTÉS DES INDICES

2. L’indice des quantités (ou de volume) de Laspeyres :


Pour obtenir la formule, il suffit d’intervenir les termes p et q dans la formule précédente.
P
p0 qt
Lqt/0 = 100 · P
p0 q 0

C. L’indice de Paasche
Notation :
L’indice de Paasche des prix sera noté P p et l’indice de Paasche des quantités (ou des volumes) sera
noté P q .
Construction :
La logique de construction, ainsi que la convention d’écriture, sont les mêmes que précédemment.
Définition 4.3. Le choix de la date de référence traduit la spécificité de l’indice . L’indice de Paasche
est défini en prenant comme date de référence la date actuelle (t), et non plus la date de départ (0).

1. L’indice des prix de Paasche


Par définition, on élimine l’influence des quantités, en les considérant comme fixes à la date de
référence (t). La formule de définition est donc :
P
p pt qt
Pt/0 = 100 · P
p 0 qt

2. L’indice des quantités de Paasche


Pour obtenir la formule, il suffit d’intervertir les termes p et q
P
q pt qt
Pt/0 = 100 · P
p t q0

D. Indice de Fisher
En 1922, l’économiste américain Irving Fisher propose un indice synthétique qu’il qualifie d’idéal
dans la mesure où il satisfait à la propriété de réversibilité, et où sa valeur se situe entre les valeurs
des deux autres (Laspeyres et Paasche).
Cependant son non respect de la propriété d’agrégation ne les rend pas très commode à utiliser, du
moins dans la pratique des indices chronologiques.
Définition 4.4. C’est la moyenne géométrique des indices de Laspeyres et de Paasche.
√ √
Fp = Lp · P p et Fq = Lq · P q

Remarque 4.2. L’indice de Fisher est compris entre ceux de Laspeyres et de Paasche, aussi bien pour
les prix que pour les quantités , si les pondérations sont homogènes.

P ≤F ≤L

L’indice de valeur calculé par Laspeyres est égal à celui calculé par Paasche, et est égal au produit de
l’indice de Fisher des prix par l’indice de Fisher des quantités, à 102 près.

100 × I(pq) = Lp P p = Lq P p = Lpq = P pq = F p F p

Statistique Descriptive Page 125 Msc Ir Mathieu MVUYEKURE


4.1. DÉFINITION ET PROPRIÉTÉS DES INDICES

Propriétés des indices synthétiques de Laspeyres, Paasche et Fisher

A. Circularité
La propriété de circularité est intéressante dans le cas de changements de base. Or, on vérifie qu’au-
cun des trois indices ne possède cette propriété.
B. Réversibilité
Quand on inverse le rôle du temps d’un indice de Laspeyres, on obtient un indice de Paasche, et
inversement :
104 104
L0/t = et P0/t =
Pt/0 Lt/0

Les indices de Laspeyres et de Paasche ne sont donc pas réversibles.

Démonstration. La propriété de réversibilité s’écrit comme suit :

104
I0/t × It/0 = 104 ou I0/t =
It/0

Comme P
pt q 0
Lpt/0 = 100 · P
p0 q 0
´
Ecrivons l’inverse par rapport au temps de Lpt/0 :
P
p0 qt
Lp0/t
= 100 · P
pt q t
P P
pt q0 p0 q t
=⇒ Lpt/0 × Lp0/t = 100 · P × 100 · P 6= 104
p0 q0 pt q t
Donc l’indice des prix des prix de Laspeyres n’est pas réversible.
Par définition, l’inverse par rapport au temps de Lpt/0 peut également s’écrire :

104 104
P
p0 q0
p = P
p q
= 100 · P
Lt/0 100 · P p0 q0
t 0 pt q0

Or, l’indice des prix de Paasche est


P
p p 0 q0
P0/t = 100 · P
p t q0

D’où
Lpt/0 × P0/t
p
= 104

Par contre l’indice de Fisher est réversible

104
Ft/0 =
F0/t

Statistique Descriptive Page 126 Msc Ir Mathieu MVUYEKURE


4.1. DÉFINITION ET PROPRIÉTÉS DES INDICES

Démonstration. p
Ft/0 = Lt/0 · Pt/0

s P P
p pt q t pt q0
Ft/0 = 100 P · 100 P
p0 q t p0 q 0
sP P
pt q t pt q0
= 100 P ·P
p0 q t p0 q 0
100
= qP P
P p0 q0 · P p0 qt
pt q0 pt qt

Comme P P
pt q0 pt qt
Lpt/0 = 100 · P p
et Pt/0 = 100 · P
p0 q0 p0 qt
Alors : P P
p0 qt p 0 q0
Lp0/t
= 100 · P p
et P0/t = 100 · P
pt qt p t q0
Lp0/t p
P0/t
P P
p0 qt p0 q0
=⇒ = P et = P
100 pt qt 100 pt q 0

p 100
=⇒ Ft/0 = q
Lp0/t p
P0/t
100
· 100
100
= √
Lp0/t ·P0/t
p

100
104
= q
Lp0/t · P0/t
p

Comme q
F0/t = Lp0/t · P0/t
p

Alors
p 104
Ft/0 = p
F0/t

C. Agrégation
Puisque les indices de Laspeyres et de Paasche sont des moyennes arithmétiques de sous-populations,
on peut utiliser les résultats des moyennes de sous-populations. Rappelons brièvement que : Si une
population est composée de plusieurs sous populations, la moyenne de la population P est
la moyenne pondérée des moyennes des sous-populations.
1X
x= nk xk
n k

Dès lors si l’on agrège les produits ou les articles en groupes (par exemple : logement, alimentation,
produit manufacturés, services) et si l’on calcule pour chaque groupe un indice de Laspeyres ou de

Statistique Descriptive Page 127 Msc Ir Mathieu MVUYEKURE


4.2. DIFFICULTÉS DE CONSTRUCTION ET D’UTILISATION DES INDICES
SYNTHÉTIQUES

Paasche, l’indice global de Laspeyres ou de Paasche sera obtenu à partir de ces données regroupées.
Cette propriété est constamment utilisée dans la pratique.
L’indice de Fischer, n’étant pas une moyenne arithmétique, ne satisfait pas la propriété d’agrégation.

     
 L   L   L 
Indice ou global = Indice ou des indices ou partiels
P P P
     

4.2 Difficultés de construction et d’utilisation des indices


synthétiques

4.2.1 Choix des critères de construction

Le choix des composantes

La quantité de biens produits et consommés sur les marchés est évidemment trop vaste pour qu’on
puisse les retenir tous dans le calcul d’un indice synthétique. On se borne à suivre les évolutions de
produits jugés les plus représentatifs. En matière d’indice de prix à la consommation, par exemple,
on retient un échantillon de produits qu’on appelle parfois panier de la ménagère mais de quelle
ménagère s’agit-il ? Combien de produits représentatifs de son fameux panier ? habite-elle en ville ou
la campagne ? Dans quelle tranche de revenus se situe son ménage ? La diversité des comportements
de consommation est si vaste que l’on est obligé de faire des choix.
Le premier choix concerne le nombre d’articles (ou de postes) à retenir : pour l’indice mensuel
´
des prix à la consommation, l’INSEE (l’Institut National de la Statistique et des Etudes ´
Economiques)
retient un vaste échantillon de produits de consommation courante, mis‘a jour chaque année, corres-
pondant à plus 10% de l’ensemble de la consommation des ménages. La sélection de départ concerne
110000 biens et services, qui sont ensuite agrégés en 1000 variétés élémentaires. Ces variétés sont
agrégées en postes et en fonction de consommation.
En règle générale, le choix du nombre de composantes est le résultat d’un équilibre entre
les possibilités techniques et financières d’observation et le gain marginal de précision
obtenu. Le nombre de composantes à retenir est donc dépendant du but que l’on se fixe
dans la construction d’un indice particulier.
Le deuxième choix concerne la nature des composantes à retenir et leur pondération. Il paraı̂t
assez évident qu’il vaut mieux choisir le prix du pain plutôt que celui du caviar si l’on veut construire
un indice représentatif du coût moyen de la vie. Ici se posent plusieurs problèmes d’ordre théorique
tenant à la signification des composantes de l’échantillon.
• signification temporelle de l’article : les articles doivent être retenus à qualité constante dans le
temps, pour ne pas fausser les comparaisons de prix ou de quantités ; par ailleurs, des types d’articles
sont régulièrement remplacés par d’autres au cours du temps sur les marchés par d’autres au cours
du temps sur les marchés. Il faut donc substituer au type antérieur, un nouveau type présentant plus
ou moins les mêmes caractéristiques. Ces opérations se font généralement à chaque redéfinition
d’un indice, à la suite d’études de l’organisme officiel de statistique.
• signification spatiale des produits : l’utilité marginale de certains biens est différente selon les
régions, les pays ainsi que selon les déplacements des consommateurs d’un espace à un autre. Les
élasticités-prix peuvent changer avec l’espace , comme elles le font avec le temps.

Statistique Descriptive Page 128 Msc Ir Mathieu MVUYEKURE


4.2. DIFFICULTÉS DE CONSTRUCTION ET D’UTILISATION DES INDICES
SYNTHÉTIQUES

• signification fonctionnelle de certains biens : Le progrès économique rend des produits in-
dispensables à une époque, alors qu’ils pouvaient être considérés comme produits de luxe à une
époque antérieure (le GPS, l’ordinateur…). A l’inverse, certains biens d’équipement des ménages qui
possédaient une fonction utilitaire à une époque donnée (comme la bicyclette, par exemple), peuvent
sous l’effet de la mode, ou de toute autre cause de modification des comportements, posséder,à une
autre époque, une fonction de loisir. Ces mutations de longue période sont généralement implicite-
ment intégrées lors de chaque redéfinition des postes des indices dont la période de renouvellement
n’excède habituellement pas deux décennies. Seuls les produits strictement nouveaux, technolo-
giques ou de services posent de sérieux problèmes d’estimation d’un prix de base fictif qui rempla-
cerait le prix de base d’un produit proche.

• signification structurelle de chaque bien : Les biens économiques sont, à degrés divers, dépendants
les uns des autres. Chaque article retenu, doit en toute logique, dépendre le moins possible des autres
articles entrant dans le calcul de l’indice mais, en même temps, être le plus possible représentatif des
articles de même catégorie qui ne sont pas retenus. Cette structure dépend des enquêtes préalables
au choix d’échantillonnage.

• signification budgétaire des dépenses : Les ménages consacrent une partie de leur budget à des
dépenses d’investissement (achats logement, de valeurs mobilières…), d’épargne (retraite, reports
de consommation), d’opérations financières (remboursement de prêts…) d’opérations de répartition
(impôts, cotisation sociales, intérêts, dons divers…). Doit-on considérer ces dépenses comme de la
consommation des ménages, et par là même les prendre, d’une manière ou d’une autre, en compte
dans l’indice des prix à la consommation qui est censé traduire l’effet de l’inflation ? De même,
comment doit-on traiter les prix fictifs correspondants à certains avantages (autoconsommation de
produits de jardins familiaux, primes nettes et gains de jeux de hasards, etc.) ?

Ces défauts théoriques de couverture du champ de l’indice existent dans tous les pays contribuent à
démontrer qu’il est bien difficile de définir un indicateur idéal de mesure des variations de pouvoir
d’achat, et de rappeler qu’un indice de prix n’est pas un indice de dépenses.

• signification par rapport à un groupe type : Chaque indice ne peut être rigoureux que dans
un champ bien déterminé. Pendant longtemps, les indices mensuels officiels des prix à la consom-
mation étaient calculés sur une sous-population de catégories socio-professionnelles moyennes :
les ménages urbains dont le chef de ménage était employé ou ouvrier. Ces indices n’étaient donc
strictement valables, que pour ce groupe de consommateurs, correspondant à des comportements
de consommation différents des autres groupes. Le groupe cible devient tous ménages dès 1993, in-
corporant notamment les retraités et traduisant des comportements de dépenses et de mode de vie
différents de la population des seuls ménages employés et ouvriers. L’INSEE continue, néamoins,
de publier l’indice sur plusieurs populations de référence, abandonnant ainsi l’idée d’indice officiel
unique qui prévalait dans les années 1970.

A l’intérieur d’un groupe, les comportements sont eux-mêmes différents selon des sous-catégories
(locataires ou propriétaires, tributaires de forts déplacements habitat-travail, fumeurs ou non, etc.)
A la limite, on pourrait construire autant d’indices que de structures de référence. C’est pourquoi
un certain nombre d’instituts de statistique dans le monde (dont l’INSEE depuis 2007) proposent,
sur leurs sites Internet, un simulateur de calculs de l’indice des prix à la consommation : l’indice
personnalisé. L’utilisateur peut ainsi faire varier, en pourcentage de son budget total, certaines de
ces dépenses familiales. Chaque citoyen, faisant ses calculs par rapport à son propre profil, peut
immédiatement juger la plus ou moins grande sensibilité d’évolution entre l’indice officiel moyen et
l’estimation de son comportement en matière de consommation. Dans la pratique des statistiques of-
ficielles, néamoins, on juge que le champ de l’indice et les coefficients de pondération sont suffisants
pour rendre compte correctement des phénomènes étudiés.

Statistique Descriptive Page 129 Msc Ir Mathieu MVUYEKURE


4.2. DIFFICULTÉS DE CONSTRUCTION ET D’UTILISATION DES INDICES
SYNTHÉTIQUES

Le choix de la base

Dans le domaine de l’économie spatiale, le choix de la situation de base des indices spatiaux se
porte fréquemment sur l’ensemble territorial hiérarchiquement supérieur, sauf cas spécifique (com-
paraisons entre deux régions, par exemple). La région de base sera ainsi la nation. On comparera une
ou plusieurs régions à la moyenne nationale. Au niveau micro-régional, on comparera un ou plu-
sieurs territoires (commune, canton,micro-espace, zone) à l’ensemble de la région, que l’on choisira
comme base. Il est parfois nécessaire, pour éviter d’intégrer des effets de structure (voir l’analyse
de shift and share) d’exclure la région du calcul de certains indices spatiaux, ou bien d’en mesurer
l’effet.
En matière d’indices temporels, le choix de la période de base est plus délicat. Il faut éviter que la
période choisie soit exceptionnellement bonne ou mauvaise vis-à-vis du phénomène étudié, afin de
ne pas fausser l’évolution de l’indice. Pour réduire l’influence des variations saisonnières et acciden-
telles, il est d’usage de choisir une période de base assez large et non pas une date bien déterminée.
On pourra choisir une moyenne entre plusieurs années entières pour un indice annuel, entre plu-
sieurs mois pour un indice mensuel,etc.
Dans tous les cas, la période de base est de moins en moins valable, au fur et à mesure que l’on
s’éloigne (les structures et les comportements changent dans le temps). Il faut rajeunir la base de
période en période, pour maintenir la validité de l’indice (un changement de base revient à un chan-
gement de pondération). Cette opération se fait le plus souvent lors d’un changement nécessaire du
champ de l’indice, selon une périodicité inférieure à 10 ans pour la plupart des indices. La date de
changement de base s’appelle date de raccordement.
La plupart des indices officiels nationaux (surtout en matière de prix à la consommation) utilisent
comme base une date passée (indice de Laspeyres) et non la date actuelle (indice prospectif de
Paasche) c’est à dire que l’on se fixe le panier de la ménagère dans la composition de la période
de base. Les indices utilisées depuis 1971 par l’INSEE ne sont pas exactement des indices de Las-
peyres, mais des indices-chaı̂nes de Laspeyres à pondérations variables, permettant des comparai-
sons proches, ce qui diminue les risques d’écarts dûs aux effets de qualité.

4.2.2 Difficultés d’utilisation des indices synthétiques


Indice de moyennes ou moyenne des indices

Soit une grandeur complexe G = {g 1 , g 2 , · · · , g i , · · · , g k } dont toutes les grandeurs simples (g i ) qui
la composent sont mesurées dans la même unité. Chaque indice élémentaire est de la forme :
gti
It/0 (g i ) = × 100
g0i
La methode historiquement la plus ancienne consiste à construire l’indice synthétique It/0 (G)
à partir du rapport des moyennes des grandeurs simples, c’est-à-dire en calculant l’indice des
moyennes :
1
Pn i
g
It/0 (G) = 100 1 Pni=1 it
n

n i=1 g0

Le résultat est dépendant de l’unité de qualité choisie pour fixer le prix de chaque produit. Si l’on
passe d’un prix au kilo à un prix à la tonne, par exemple, l’indice synthétique obtenu est modifié.
Il est donc préférable d’éliminer cet effet néfaste de pondération arbitraire, en calculant d’abord les
indices élémentaires It/0 (g i ), ce qui revient à annuler l’influence de l’unité de mesure, et en effec-
tuant ensuite la moyenne des indices :

Statistique Descriptive Page 130 Msc Ir Mathieu MVUYEKURE


4.2. DIFFICULTÉS DE CONSTRUCTION ET D’UTILISATION DES INDICES
SYNTHÉTIQUES

La methode unanimement acceptée est, en effet, celle qui consiste à construire l’indice synthétique
It/0 (G) ‘a partir de la moyenne des indices élémentaires.

n
1 X gti
It/0 (G) = 100
n i=1 g0i

On obtient donc une série de rapports (et non plus une série de moyennes) que l’on résume par une
moyenne arithmétique.

Quelle valeur centrale utiliser ?

Pour résumer la série des indices élémentaires, qu’une seule valeur centrale : la moyenne arithmétique
simple. On pourrait tout aussi bien envisager l’utilisation d’autres valeurs centrales telles que le mode
ou la médiane. Cependant, leur faible adaptation aux calculs algébriques rend leur emploie malaisé.
La moyenne arithmétique simple est également très souvent écartée dans l’élaboration des indices
synthétiques, dans la mesure où elle introduit une sommation directe entre les biens hétérogènes.
On lui préfère donc la moyenne arithmétique pondérée, comme c’est le cas dans les formules
des indices de Laspeyres ou de paasche, où les pondérations sont des valeurs globales prix-quantités.
En règle générale, en sciences économiques, on choisit un système de pondération tel que
les prix soient pondérés par les quantités, lors de l’élaboration d’un indice des prix ; et
l’inverse lors de l’élaboration d’un indice des quantités.
Tous les types de moyennes pondérées (arithmétique, quadratique, harmonique), peuvent être uti-
lisés. On démontre que seule la moyenne géométrique satisfait à la propriété de réversibilité
des indices synthétiques. Un seul indice, de type  Fisher , est cependant peu fréquemment utilisé,
d’une part en raison des difficultés pratiques de son obtention, d’autre part parce qu’il ne peut satis-
faire au principe d’agrégation du fait qu’il n’est pas une moyenne arithmétique pondérée d’indices
élémentaires.
En général , les méthodes de construction basées sur l’emploi des moyennes arithmétiques pondérées
sont les plus utilisées : le calcul est aisé, la signification est claire et l’interprétation est commode :
tel est le cas des indices de Laspeyres et de Paasche qui sont liés par inversion.
Dans l’indice de Laspeyres les pondérations des grandeurs restent fixes : une fois déterminée
la structure de consommation, le calcul pratique ne nécessite que les relevés des prix des produits
pour l’obtention d’un indice des prix, des ceux des quantités pour l’obtention d’un indice des quan-
tités. Par contre, le calcul de l’indice Paasche nécessite les relevés de deux variables (prix et quantité)
à la fois :l’indice de Paasche utilise des pondérations variables, qui sont celles de la période cou-
rante. C’est pourquoi les organismes de statistique préfèrent employer le plus souvent des indices
de type Laspeyres.
Ces considérations d’ordre pratique se doublent de difficultés théoriques : les évolutions des struc-
tures de consommation ne dépendent pas seulement des élasticités-prix, mais encore des élasticités-
revenu des consommateurs. Pour des biens à élasticités-prix faible, comme certains produits alimen-
taires, une augmentation de revenu pourra entraı̂ner une diminution de consommation relative : dès
lors aucun critère théorique ne permet de dire que la pondération par rapport à la période de base
(type Laspeyres) est meilleure ou moins bonne que celle par rapport à la période courante (de type
Paasche) ; tout dépend des comportements différentiels et de la manière dont évoluent les structures
de consommation.

Statistique Descriptive Page 131 Msc Ir Mathieu MVUYEKURE


4.3. EXERCICES

Durée de vie d’un indice et principe de raccordement

Comme nous l’avons souligné dans la précédente section (Choix de la base) les indices synthétiques
vieillissent : leur durée de vie limitée dépend de la plus ou moins rapide évolution des structures
de l’économie (consommation, production, répartition…) et des modes de comportement des agents
économiques.
Sur la longue période, les modes de calcul des indices changent et se pose alors le problème pratique
suivant : Comment suivre l’évolution d’un indice sur une période durant laquelle sa définition s’est
partiellement modifiée ? On est induit à utiliser des raccords d’indices :
La methode consiste à considérer le nouvel indice comme prolongeant exactement l’ancien, à partir
de la date de raccordement. A cette date, les deux indices sont calculés simultanément. Appelons cette
date b ; la valeur de l’ancien indice à la date de raccordement est Ib/0 . On choisit dans la pratique une
valeur moyenne annuelle de l’indice mensuel, pour gommer les fluctuations saisonnières.
A la date de raccordement b, la valeur du nouvel est par hypothèse égale à 100. On calcule un coef-
ficient de raccordement à la date b, égal à :

Ib/0 Valeur de l’ancien valeur


CR = =
100 Valeur du nouvel indice
0
Toute valeur du nouvel indice raccordé peut être comparée aux valeurs de l’indice ancien : soit It/b
la valeur de nouvel indice à la date t peut s’exprimer, en base 0, de la façon suivante :

∗ 0 0 1
It/0 = It/b · CR = It/b · Ib/0 ·
100

Ces comparaisons ne sont cependant que des approximations, puisque, d’une part, les indices n’ont
ni le même champ, ni la même constitution et que, d’autre part, les indices synthétiques ne possèdent
pas la propriété de circularité. En effet, deux indices de Laspeyres, raccordés à la date b ne donnent
pas un indice de Laspeyres, mais un rapport égal à :
P P
∗ pt qb pb q0
It/0 = 100 · P ·P (pour un indice de prix)
pb qb p0 q0

et donc :

It/0 6= Lpt/0

La pratique impose néanmoins l’utilisation des raccordements, qu’il faut interpréter avec prudence,
vu le caractère non rigoureux de l’opération, qui réajuste des chaı̂nons de nature différente.
Afin de permettre l’évaluation des évolutions de grandeurs complexes, sur la longue période, l’INSEE
publie systématiquement les coefficients de raccordement et les séries rétrospectives d’indices, à
chaque changement de définition des indices synthétiques.

4.3 Exercices
1. La consommation des ménages (en euros) d’un échantillon de 1000 ménages enquêtés en 2006
sur le montant de leurs dépenses annuelles par grands postes, selon leur situation spatiale
urbains ou non urbains est donnée par le tableau ci-dessous :

Statistique Descriptive Page 132 Msc Ir Mathieu MVUYEKURE


4.3. EXERCICES

Postes\Ménages Urbains non urbains


Alimentation 4723,40e 3757,56e
Habillement 1574,33e 1352,72e
Logement 4023,30e 3156,35e
Santé 1749,26e 2104,24e
LCTT 3498,52e 2855,75e
Divers 1924,19e 1803,38e
Total 17493,00e 15030,00e
(a) Calculez les indices élémentaires des dépenses, en prenant comme base 100 les dépenses
de santé des ménages non urbains.
(b) Déduire des valeurs des indices, les écarts de dépenses d’habillement entre urbains et non-
urbains et dites qui, des urbains ou des non-urbains dépensent la plus grande part de leur
budget total en dépenses d’habillement.
LCTT : Loisirs,Culture, Transports. Télécommunications.
2. L’indice de la recette totale (RT ) du producteur du bien x, base 100 en 2003, passe à 132 en
2006, alors que la quantité de biens x vendue (Q) passe de 5000 unités à 6000 unités, aux
mêmes dates.
(a) Calculer l’indice I2006/2003 (P ) du prix P du produit x.
(b) Le prix (P ) du produit x est de 220een 2006. Quel était-il en 2003 ?
(c) La quantité vendue passera à 10000 unités en 2008. A quelle valeur sera égal, en 2008,
l’indice des quantités du produit x, base 100 en2003 ?
3. On veut comparer les situations de quantités et de prix des produits A, B, C entre deux
régions S et N . Les données sont :
Produits Prix Quantités
Région S Région N Région S Région N
A 4 3,8 200 250
B 4,8 4,5 250 300
C 5,6 5,4 380 400
Calculer les indices des quantités et des prix de Laspeyres, Paasche Fisher entre les deux
régions.
4. On dit qu’on obtient une chaı̂ne d’indices lorsqu’on exprime des indices de grandeurs simples,
d’année en année, base 100 l’année précédente. Soit la chaı̂ne d’indices suivante, concernant
l’évolution des quantités vendues du produit d’une entreprise au cours de la période 2000-
2006.
Année 2000 2001 2002 2003 2004 2005 2006
Indicet/(t−1) 100 110 107,3 101,7 116,7 107,1 133,3
Construire le tableau des indices, base 100 en 2000 et dire de combien les ventes ont augmenté
en moyenne par an.
5. (a) Démontrer que l’indice de Fisher est réversible.
(b) Démontrer que lorsqu’on inverse le rôle du temps dans un indice des prix de Laspeyres,
on obtient un indice de Paasche.

Statistique Descriptive Page 133 Msc Ir Mathieu MVUYEKURE


4.3. EXERCICES

Statistique Descriptive Page 134 Msc Ir Mathieu MVUYEKURE


Bibliographie

[1] Abdennasser Chekroun, Statistiques descriptives et exercices


[2] Py Bernard, Statistique descriptive.

135

Vous aimerez peut-être aussi