Vous êtes sur la page 1sur 63

CAPES

SÉRIE DOCUMENTS DE TRAVAIL


DT–CAPES N° 2005–26

STATISTIQUE.
(Deuxième partie.)
Les distributions à deux caractères.
Quelques applications à l'économie burkinabè.

Novembre 2005

Seglaro Abel SOME


seglaro.some@univ–ouaga.bf / seglaro@netcourrier.com
1595, Avenue Charles de Gaulle, 01 BP 1919 Ouagadougou 01 Burkina Faso
Tél. : 50 36 96 14/32 – Fax : 50 36 96 33 – courrier@capes.bf – www.capes.bf
2

AVERTISSEMENT

Le Document de Travail du Centre d'Analyse des Politiques Économiques et Sociales (CAPES) est
constitué des travaux de recherche (travaux semi–finis, drafts d'articles, communications
diverses…) des experts du Centre, qui les soumettent de la sorte au débat scientifique.

Les auteurs des travaux publiés dans la Série Document de Travail sont entièrement
responsables de leur contenu.

Le Document de Travail paraît chaque fois que des travaux sont reçus à la Direction du Centre.
3
TABLE DES MATIÈRES
AVERTISSEMENT..................................................................................................................................................................................... 2

LISTE DES TABLEAUX ............................................................................................................................................................................6

LISTE DES GRAPHIQUES ...................................................................................................................................................................... 7

INTRODUCTION GÉNÉRALE............................................................................................................................................................. 8
DÉFINITIONS ET NOTIONS DE BASE ............................................................................................................................................. 8

Population, univers statistique.............................................................................................................................................. 8


Individu, unité statistique....................................................................................................................................................... 8
Caractère, variable statistique................................................................................................................................................ 8
Caractère quantitatif .................................................................................................................................................................9
Caractère qualitatif ....................................................................................................................................................................9
Modalité.........................................................................................................................................................................................9
Variable statistique discrète ...................................................................................................................................................9
Variable statistique continue.................................................................................................................................................. 9
Distribution statistique, série statistique...........................................................................................................................9

CHAPITRE V............................................................................................................................................................................................... 11
LES DISTRIBUTIONS MARGINALES ET CONDITIONNELLES........................................................................................... 11

SECTION 1.............................................................................................................................................................................................. 11
LE TABLEAU DE CONTINGENCE............................................................................................................................................... 11

SECTION 2 .............................................................................................................................................................................................12
LES DISTRIBUTIONS MARGINALES.........................................................................................................................................12

2.1 LA DISTRIBUTION MARGINALE DE X ........................................................................................................................12

2.1.1 EFFECTIFS MARGINAUX ET FRÉQUENCES MARGINALES DE X.........................................................12


2.1.2 LA MOYENNE MARGINALE DE X .........................................................................................................................13
2.1.3 LA VARIANCE MARGINALE DE X ........................................................................................................................13

2.2 LA DISTRIBUTION MARGINALE DE Y........................................................................................................................13

2.2.1 EFFECTIFS MARGINAUX ET FRÉQUENCES MARGINALES DE Y........................................................ 14


2.2.2 LA MOYENNE MARGINALE DE Y........................................................................................................................ 14
2.2.3 LA VARIANCE MARGINALE DE Y....................................................................................................................... 14

SECTION 3 .............................................................................................................................................................................................15
LES DISTRIBUTIONS CONDITIONNELLES ...........................................................................................................................15

3.1 LES DISTRIBUTIONS CONDITIONNELLES DE X SELON Y.................................................................................15

3.1.1 LES FRÉQUENCES CONDITIONNELLES DE X SELON Y..............................................................................15


3.1.2 LA MOYENNE CONDITIONNELLE DE X SELON Y ........................................................................................16
3.1.3 LA VARIANCE CONDITIONNELLE DE X SELON Y .......................................................................................16

3.2 LES DISTRIBUTIONS CONDITIONNELLES DE Y SELON X................................................................................16

3.2.1 LES FRÉQUENCES CONDITIONNELLES DE Y SELON X.............................................................................17


3.2.2 LA MOYENNE CONDITIONNELLE DE Y SELON X .......................................................................................17
3.2.3 LA VARIANCE CONDITIONNELLE DE Y SELON X.......................................................................................17

SECTION 4 .............................................................................................................................................................................................18
RELATIONS ENTRE DISTRIBUTIONS MARGINALES ET CONDITIONNELLES ..................................................18

4.1 RELATIONS ENTRE EFFECTIFS PARTIELS ET MARGINAUX..........................................................................18


4.2 RELATIONS ENTRE FRÉQUENCES MARGINALES ET CONDITIONNELLES...........................................18
4.3 RELATIONS ENTRE MOYENNES MARGINALES ET CONDITIONNELLES................................................18
4
4.4 RELATIONS ENTRE VARIANCES MARGINALES ET CONDITIONNELLES.............................................. 19

CHAPITRE VI.............................................................................................................................................................................................21
LA RÉGRESSION SIMPLE.....................................................................................................................................................................21

SECTION 1..............................................................................................................................................................................................21
REPRESENTATIONS GRAPHIQUES..........................................................................................................................................21

1.1 NUAGE DE POINTS ................................................................................................................................................................21


1.2 COURBES DE REGRESSION..............................................................................................................................................22

SECTION 2 ............................................................................................................................................................................................23
ANALYSE DE LA LIAISON FONCTIONNELLE .....................................................................................................................23

2.1 LA LIAISON NULLE OU L'INDÉPENDANCE TOTALE..........................................................................................23

2.2 LA LIAISON FONCTIONNELLE OU LA DÉPENDANCE TOTALE ...................................................................24

2.3 LA LIAISON RELATIVE ET LA CORRÉLATION ......................................................................................................24

SECTION 3 ............................................................................................................................................................................................25
AJUSTEMENT ET ÉTUDE DE LA CORRÉLATION..............................................................................................................25

3.1 L'AJUSTEMENT LINÉAIRE ................................................................................................................................................25

3.1.1 LA MÉTHODE DE MAYER .........................................................................................................................................25


3.1.2 LA MÉTHODE DES MOINDRES CARRÉS ..........................................................................................................26

3.2 LES PARAMÈTRES DE CORRÉLATION......................................................................................................................27

3.2.1 LE COEFFICIENT DE DÉTERMINATION ..........................................................................................................27


3.2.2 LE COEFFICIENT DE CORRÉLATION LINÉAIRE.........................................................................................28
3.2.3 LES RAPPORTS DE CORRÉLATION....................................................................................................................28

3.3 AUTRES AJUSTEMENTS....................................................................................................................................................30

3.3.1 AJUSTEMENT EXPONENTIEL................................................................................................................................30


3.3.2 AJUSTEMENT PAR UNE FONCTION PUISSANCE.......................................................................................30
3.3.3 AJUSTEMENT POLYNOMIAL.................................................................................................................................30

CHAPITRE VII ..........................................................................................................................................................................................33


LES SÉRIES CHRONOLOGIQUES ....................................................................................................................................................33

SECTION 1.............................................................................................................................................................................................33

GRAPHIQUES ET COMPOSANTES D'UNE SÉRIE CHRONOLOGIQUE ...................................................................33

1.1 REPRÉSENTATIONS GRAPHIQUES..............................................................................................................................33

1.2 LES COMPOSANTES D'UNE SÉRIE CHRONOLOGIQUE.....................................................................................34

1.2.1 LE TREND ET LE CYCLE ............................................................................................................................................34


1.2.2 LES VARIATIONS SAISONNIÈRES .......................................................................................................................35
1.2.3 LES VARIATIONS ACCIDENTELLES ...................................................................................................................35

1.3 MODÈLES DE FORMALISATION D'UNE SÉRIE CHRONOLOGIQUE............................................................35

1.3.1 LE MODÈLE ADDITIF ..................................................................................................................................................35


1.3.2 LE MODÈLE MULTIPLICATIF ................................................................................................................................35

SECTION 2 ............................................................................................................................................................................................36
LA DÉTERMINATION DES COMPOSANTES........................................................................................................................36
5
2.1 LA DÉTERMINATION DU TREND ................................................................................................................................36

2.1.1 MÉTHODES ANALYTIQUES.....................................................................................................................................36


2.1.2 MÉTHODES EMPIRIQUES........................................................................................................................................ 37

2.2 LA DÉTERMINATION DES COEFFICIENTS SAISONNIERS .............................................................................38

2.2.1 MÉTHODE ANALYTIQUE.........................................................................................................................................38


2.2.2 MÉTHODE PRATIQUE ............................................................................................................................................. 40

2.3 ÉTABLISSEMENT DE LA CHRONIQUE AJUSTÉE ET PRÉVISION................................................................. 40

2.4 LA DÉTERMINATION DE LA SÉRIE CVS (DÉSAISONNALISATION)........................................................... 41

2.5 LA DÉTERMINATION DES VARIATIONS ACCIDENTELLES........................................................................... 41

CHAPITRE VIII.........................................................................................................................................................................................43
LES NOMBRES INDICES ......................................................................................................................................................................43

SECTION 1.............................................................................................................................................................................................43
LES INDICES SIMPLES OU INDICES ÉLÉMENTAIRES ....................................................................................................43

1.1 DÉFINITION ET INTERPRÉTATIONS ..........................................................................................................................43

1.2 PROPRIÉTÉS DES INDICES SIMPLES.......................................................................................................................... 44

1.2.1 LA CIRCULARITÉ ........................................................................................................................................................ 44


1.2.2 LA RÉVERSIBILITÉ.......................................................................................................................................................45
1.2.3 ENCHAÎNEMENT .........................................................................................................................................................45
1.2.4 CHANGEMENT DE BASE ET RACCORDEMENT...........................................................................................45
1.2.5 MULTIPLICATION.......................................................................................................................................................45
1.2.6 DIVISION..........................................................................................................................................................................46

SECTION 2 ............................................................................................................................................................................................46
LES INDICES SYNTHÉTIQUES ....................................................................................................................................................46

2.1 L'INDICE DE LASPEYRES...................................................................................................................................................46

2.2 L'INDICE DE PAASCHE ......................................................................................................................................................47

2.3 L'INDICE DE FISHER ...........................................................................................................................................................47

2.4 L'INDICE DE VALEUR.........................................................................................................................................................48

2.5 PROPRIÉTÉS DES INDICES SYNTHÉTIQUES..........................................................................................................48

2.5.1 LES INDICES DE LASPEYRES ET DE PAASCHE ..............................................................................................48


2.5.2 LES INDICES DE FISHER ET DE VALEUR.........................................................................................................49

CONCLUSION ..........................................................................................................................................................................................50
SUJETS D'EXAMEN POUR S'EXERCER.........................................................................................................................................50

RÉFÉRENCES BIBLIOGRAPHIQUES..............................................................................................................................................63
6

LISTE DES TABLEAUX

Tableau 10 Répartition d'un ensemble de consommateurs selon leurs revenus et leurs dépenses
de consommation ................................................................................................................................... 11

Tableau 11 Chiffres d'affaires trimestriels d'une entreprise sur trois années ............................... 33

Tableau 12 Prix de vente moyen au détail (en FCFA) et quantités produites (en milliers de kg)
du beurre de karité, du maïs et du mil à Ouagadougou, de 1983 à 1990........................................ 43
7

LISTE DES GRAPHIQUES

Graphique 13 Nuage de points de la distribution des consommateurs selon leurs revenus et


leurs dépenses de consommation.........................................................................................................21

Graphique 14 Courbes de régression de la distribution des consommateurs selon leurs revenus


et leurs dépenses de consommation ................................................................................................... 22

Graphique 15 Nuage de points et courbes de régression d'une distribution où la liaison entre


les deux variables est nulle................................................................................................................... 23

Graphique 16 Nuage de points et courbes de régression d'une distribution où la liaison entre


les deux variables est fonctionnelle....................................................................................................24

Graphique 17 Courbes de régression dans les cas de corrélation non réciproque ....................... 25

Graphique 18 Evolution des chiffres d'affaires trimestriels d'une entreprise sur trois ans........ 34
8
INTRODUCTION GÉNÉRALE
DÉFINITIONS ET NOTIONS DE BASE

La statistique peut être définie comme un ensemble de méthodes scientifiques utilisées dans la
collecte, l'organisation, la présentation, l'analyse de données numériques, afin de commenter ou
d'interpréter les faits auxquels ces données sont relatives1.

Il est souvent de coutume de distinguer la statistique descriptive qui concerne la collecte,


l'organisation et la présentation des données numériques, de l'inférence statistique qui traite de la
manière par laquelle on tire des conclusions générales à propos d'un phénomène, sur la base de faits
ou données observés.

Ce document porte principalement sur la statistique descriptive qui est une partie importante de la
statistique. Les tâches qui relèvent de la statistique descriptive constituent la première étape de
toute analyse statistique. En effet, l’analyse des données (chiffrées) accumulées par les
organisations (entreprises, administrations publiques, associations, etc.) serait fastidieuse si les
données n'étaient pas organisées et correctement présentées.

Le document s'efforcera également de faire une grande part aux commentaires : interprétations,
signification concrète des résultats, brèves analyses.

Une bonne maîtrise de la statistique commence par une connaissance claire et précise de certaines
autres définitions et concepts. Ce sont les notions de base dont l'assimilation parfaite permet de
collecter correctement les données, de les présenter de façon appropriée, de déterminer des
résultats significatifs et de procéder à des commentaires pertinents. Nous les étudions donc à ce
niveau avant de développer le reste du document.

Population, univers statistique

Une population, ou un univers statistique, est un ensemble fini d'éléments, comme par exemple les
infrastructures de santé au Burkina en 1993, les différents biens vendus par une épicerie au cours
d'une période donnée, la population burkinabè en 1996, etc. La population en statistique n'est donc
pas seulement un ensemble d'êtres humains (comme en démographie), mais peut être aussi un
ensemble d'objets concrets ou non, un flux, etc.

Individu, unité statistique

Un individu, ou une unité statistique, est un élément d'une population. Ainsi, un hôpital au Burkina en
1993, un bien vendu par une épicerie, un habitant du Burkina en 1996, sont des individus. Comme
ces objets ou être humain, un événement peut également être un individu.

Caractère, variable statistique

Le caractère, ou la variable statistique, est la propriété caractéristique d'un individu. Le coût de


construction ou la zone d'implantation géographique d'une infrastructure de santé au Burkina en
1993, le poids ou le prix d'un bien vendu par une épicerie, le sexe, l'âge ou la religion d'un habitant
du Burkina en 1996 sont des exemples de caractère. Comme le suggèrent ces exemples, un individu
peut être caractérisé par un ou plusieurs caractères.

Le caractère peut être de nature quantitative ou qualitative.

1
Les statistiques (au pluriel) ne sont que les données numériques elles–mêmes ou les résultats numériques issus de
l'application des méthodes de la statistique.
9

Caractère quantitatif

Un caractère est dit quantitatif s'il peut faire explicitement l'objet d'une mesure. Un coût de
construction, un poids, un prix ou un âge sont des caractères quantitatifs car mesurables.

Caractère qualitatif

Un caractère qui ne peut faire l'objet d'une mesure est dit qualitatif. Une zone d'implantation
géographique ou la religion d'une personne sont des caractères qualitatifs car non mesurables.

Modalité

La modalité est la valeur d'un caractère quantitatif ou l'état d'un caractère qualitatif. Si l'on
considère le caractère "coût de construction", ses modalités seront par exemple 10 000 000, 42 000
000, 150 000 000 F ; tandis qu'en s'intéressant au caractère "zone d'implantation géographique", on
aura comme modalités : Nord, Centre, Sud, Ouest, etc. On voit ici aussi que chacun des caractères
étudiés peut présenter deux ou plusieurs modalités.

Variable statistique discrète

Une variable statistique est dite discrète lorsque ses valeurs possibles sont des nombres isolés,
notamment des nombres entiers. Par exemple, le nombre d'enfants par ménage ou le nombre de
salariés par entreprise sont des variables statistiques discrètes.

Variable statistique continue

Une variable statistique est dite continue lorsque ses valeurs sont a priori en nombre infini et
quelconques dans un intervalle de valeurs. C'est ainsi que les modalités d'une variable statistique
continue peuvent être généralement présentées en classes de valeurs : [0, 25[ ; [25, 30[ ; [30, 35[...

Distribution statistique, série statistique

Une distribution statistique, ou une série statistique, est l'ensemble des modalités d'un caractère et des
effectifs des individus correspondants. Elle répartie la population suivant le caractère. Elle se
présente généralement sous la forme d'un tableau appelé tableau statistique ou distribution de P
selon x où P représente la population et x le caractère :

xi ni
x1 n1
x2 n2
M M
xk nk
Total n

xi représente les modalités de x qui sont classées de la plus petite à la plus grande, quand le
caractère est quantitatif ; ni, le nombre d'individus (ou l'effectif) qui présentent la modalité xi de x ;
k
et n, le nombre d'individus total de la population (ou l'effectif total) : n = ∑n i .
i =1

Ce genre de distributions à un caractère a fait l'objet d'un autre document de travail (DT–CAPES
n° 2005–22). Celui–ci (DT–CAPES n° 2005–26), étudie les distributions à deux caractères.
10
En pratique, l'on est souvent amené à étudier sur une population donnée plusieurs variables en
même temps (au lieu d'une seule comme nous l'avons fait au niveau du DT–CAPES n° 2005–22).

Le présent document de travail présente à travers le chapitre V, les notions de distributions


marginales et conditionnelles qui découlent de l'étude de distributions à deux caractères,
appelées aussi séries doubles. Le chapitre VI abordera la question de la régression simple qui
permet d'étudier la relation entre deux caractères. Au chapitre VII, nous verrons les séries
chronologiques où l’un des deux caractères représentera le temps. Le document prend fin avec le
chapitre VIII sur des séries chronologiques particulières que sont les nombres indices.
11
CHAPITRE V
LES DISTRIBUTIONS MARGINALES ET CONDITIONNELLES

Considérons une population que l'on étudie selon deux caractères x (ayant comme modalités xi, i =
1, …, k) et y (ayant comme modalités yj, j = 1, …, p).

La répartition des effectifs de cette population selon la variable x uniquement constitue une
distribution marginale : la distribution marginale de x. De même, on définit la distribution
marginale de y : la répartition des effectifs selon la variable y uniquement. On ne peut définir donc
que deux distributions marginales pour une distribution à deux caractères.

Par contre, une étude simultanée des deux caractères amène à définir les distributions
conditionnelles : les distributions conditionnelles de x selon y et les distributions
conditionnelles de y selon x. Il y en a p pour les premières et k pour les secondes.

Le tableau de contingence (section 1) nous permettra d'identifier facilement toutes ces


distributions (sections 2 et 3) et d'étudier les relations entre elles (section 4).

SECTION 1
LE TABLEAU DE CONTINGENCE

Nous appellerons tableau de contingence ou tableau de corrélation, tout tableau à double entrée
représentant une distribution à deux caractères (où un caractère est marqué en première ligne et
l'autre en première colonne).

Considérons l'exemple suivant :

Tableau 10 Répartition d'un ensemble de consommateurs selon leurs revenus et leurs dépenses
de consommation

Dépenses de consommation
25 30 35 40 Total
Revenus
20 4 2 1 0 7
25 5 1 0 0 6
30 3 2 1 1 7
Total 12 5 2 1 20
Source : Données fictives.

Appelons x, le caractère inscrit en première colonne, et y, celui inscrit en première ligne.

Dans notre exemple, x représente donc les revenus, et y, les dépenses de consommation.

Remarquons que ces caractères peuvent être discrets (comme dans cet exemple), mais aussi
continus ou qualitatifs, ensemble ou séparément.

Dans ce type de tableau, les effectifs sont notés nij et appelés effectifs partiels. Ce sont les nombres
d'individus qui présentent à la fois la modalité xi et la modalité yj. Par exemple, dans le tableau 10,
n23 est le nombre de consommateurs qui ont des revenus valant 25 et des dépenses de
consommation valant 35. Il indique ainsi qu'aucun consommateur n'est dans ce cas (n23 = 0).

k p
L'effectif total est noté n : n = ∑ ∑ n ij .
i =1 j=1
12

La fréquence du couple de modalités (xi, yj) appelée encore fréquence totale ou fréquence
n ij
partielle sur effectif total est notée fij : fij = . C'est la proportion des individus qui présentent
n
n32
simultanément les modalités xi et yj. Ainsi, f32 = est la proportion des consommateurs qui ont
n
des revenus valant 30 et des dépenses de consommation valant 30, soit 2 = 10 %.
20

k p
∑ ∑ n ij
k p k p
Par ailleurs, nous avons ∑ ∑ fij = 1 puisque ∑ ∑ fij = i =1 j=1
= n = 1.
i = 1 j= 1 i =1 j=1 n n

Considérons les variables séparément afin de définir les distributions marginales.

SECTION 2
LES DISTRIBUTIONS MARGINALES

Nous pouvons définir dans le cas d'une distribution à deux caractères, deux distributions
marginales : la distribution marginale selon le caractère x et la distribution marginale selon le
caractère y.

2.1 LA DISTRIBUTION MARGINALE DE X

Elle est déterminée en isolant les première et dernière colonnes du tableau de contingence. La
première colonne contient les modalités xi et la dernière, les effectifs correspondants (on ne
considère pas le caractère y).

Dans le tableau 10, la distribution marginale de x concerne les revenus : elle donne la répartition des
consommateurs selon leurs revenus (sans considérer leurs dépenses de consommation).

2.1.1 EFFECTIFS MARGINAUX ET FRÉQUENCES MARGINALES DE X

p
Les effectifs marginaux de x sont notés ni. : ni. = ∑ n ij . Ils donnent les nombres d'individus
j= 1

présentant la modalité xi (indépendamment des modalités yj). Par exemple, n1. est le nombre total
de consommateurs qui ont des revenus valant 20, soit 7.

k
En outre, la somme des effectifs marginaux de x est égale à l'effectif total : n = ∑n i. .
i =1

Les fréquences marginales de x sont notées fi. : fi. = n i. . Elles donnent les fréquences des individus
n
présentant la modalité xi (indépendamment des modalités yj). Par exemple, f1. est la proportion des
consommateurs qui ont des revenus valant 20, soit 7 = 35 %.
20

k
p k ∑ n i.
Nous avons aussi fi. = ∑ fij et ∑fi. = i =1
= n = 1.
j=1 i =1 n n

Comme on le voit dans le tableau suivant, la distribution marginale de x se ramène à une


distribution à un caractère :
13

xi ni. fi.
x1 n1. f1.
x2 n2. f2.
M M M
xk nk. fk.
Total n 1

Elle peut donc être étudiée avec tous les outils présentés en première partie.

Nous allons nous intéresser ici à la moyenne et à la variance.

2.1.2 LA MOYENNE MARGINALE DE X

La moyenne arithmétique associée à la distribution marginale de x est appelée moyenne marginale


k
∑ n i .x i k
de x et notée x (d'aucuns la note également x ). Sa formule est x = i =1
(⇔ x = ∑fi. x i ) ou
n i =1
k p
∑ ∑ n ij x i
i = 1 j= 1 k p
encore x = (⇔ x = ∑ ∑ fij x i ).
n i =1 j=1

Pour la distribution donnée en exemple, x sera concrètement les revenus moyens (les revenus par
consommateur), soit x = 7×20 + 6×25+ 7 ×30 = 25.
20

2.1.3 LA VARIANCE MARGINALE DE X

La variance associée à la distribution marginale de x est appelée variance marginale de x et notée


k k p
∑ n i.(x i − x)2 ∑ ∑ n ij(x i − x)2
k i =1 j=1
V(x). Sa formule est V(x) = i =1
(⇔ V(x) = ∑ fi. (x i − x)2 ) ou encore V(x) =
n i =1 n
k p
(⇔ V(x) = ∑ ∑ fij (x i − x)2 ).
i =1 j=1

k
∑ n i.x 2i 2 k 2
La relation de König nous donne aussi que V(x) = i =1
−x (⇔ V(x) = ∑fi. x 2i − x ) ou encore
n i =1
k p
∑ ∑ n ij x 2i
i =1 j=1 2 k p 2
V(x) = − x (⇔ V(x) = ∑ ∑ fij x 2i − x ).
n i =1 j=1

7 ×202 + 6×252 + 7 ×302


Pour notre exemple, V(x) sera la variance des revenus, soit V(x) = – 252 = 17,5.
20

2.2 LA DISTRIBUTION MARGINALE DE Y

Elle est déterminée en isolant les première et dernière lignes du tableau de contingence. La première
ligne contient les modalités yj et la dernière, les effectifs correspondants (on ne considère pas le
caractère x).

Dans le tableau 10, la distribution marginale de y concerne les dépenses de consommation : elle
donne la répartition des consommateurs selon leurs dépenses de consommation (sans considérer
14
leurs revenus).

2.2.1 EFFECTIFS MARGINAUX ET FRÉQUENCES MARGINALES DE Y

k
Les effectifs marginaux de y sont notés n.j : n.j = ∑ n ij . Ils donnent les nombres d'individus
i =1
présentant la modalité yj (indépendamment des modalités xi). Par exemple, n.1 est le nombre total
de consommateurs qui ont des dépenses de consommation valant 25, soit 12.

p
En outre, la somme des effectifs marginaux de y est égale à l'effectif total : n = ∑ n.j .
j= 1

n .j
Les fréquences marginales de y sont notées f.j : f.j = . Ils donnent les fréquences des individus
n
présentant la modalité yj (indépendamment des modalités xi). Par exemple, f .1 est la proportion des
consommateurs qui ont des dépenses de consommation valant 25, soit 12 = 60 %.
20

p
p ∑ n .j
k
Nous avons aussi f.j = ∑ fij et ∑ f.j = j=1
= n = 1.
i =1 j=1 n n

Comme on le voit dans le tableau suivant, la distribution marginale de y se ramène à une


distribution à un caractère :

yj n.j f.j
y1 n.1 f.1
y2 n.2 f.2
M M M
yp n.p f.p
Total n 1

Elle peut donc être étudiée avec tous les outils présentés en première partie.

Nous allons nous intéresser ici à la moyenne et à la variance.

2.2.2 LA MOYENNE MARGINALE DE Y

La moyenne arithmétique associée à la distribution marginale de y est appelée moyenne marginale


p
∑ n .j y j
j=1 k
de y et notée y (d'aucuns la note également y ). Sa formule est y = (⇔ y = ∑ f.j y j ) ou
n i =1
k p
∑ ∑ n ij y j
i =1 j=1 k p
encore y = (⇔ y = ∑ ∑ fij y j ).
n i =1 j=1

Pour la distribution donnée en exemple, y sera concrètement les dépenses de consommation


qu'effectuent en moyenne chacun des consommateurs, soit y = 12 × 25 + 5 ×30 + 2 ×35 + 1× 40 = 28.
20

2.2.3 LA VARIANCE MARGINALE DE Y

La variance associée à la distribution marginale de y est appelée variance marginale de y et notée


15
p k p
∑ n.j(y j − y)2 p ∑ ∑ n ij(y j − y)2
j=1 i =1 j=1
V(y). Sa formule est V(y) = (⇔ V(y) = ∑ f.j (y j − y)2 ) ou encore V(y) =
n j= 1 n
k p
(⇔ V(y) = ∑ ∑ fij (y j − y)2 ).
i =1 j=1

p
∑ n.jy 2j p
j=1 2 2
La relation de König nous donne aussi que V(y) = −y (⇔ V(y) = ∑ f.j y 2j − y ) ou encore
n j= 1
k p
∑ ∑ n ij y 2j
i =1 j=1 2 k p 2
V(y) = − y (⇔ V(y) = ∑ ∑ fij y 2j − y ).
n i =1 j=1

Pour notre exemple, V(y) sera la variance des dépenses de consommation, soit V(y) =
12 × 25 2 + 5 ×30 2 + 2 × 35 2 + 1 × 40 2
– 282 = 18,5.
20

Envisageons maintenant une étude simultanée des deux caractères. Nous sommes amené dans ce
cas à étudier les distributions conditionnelles.

SECTION 3
LES DISTRIBUTIONS CONDITIONNELLES

Une distribution à deux caractères présente deux types de distributions conditionnelles : les
distributions conditionnelles de x selon y, et les distributions conditionnelles de y selon x.

3.1 LES DISTRIBUTIONS CONDITIONNELLES DE X SELON Y

Elles sont au nombre de p puisqu'il y a p modalités pour y. Elles sont déterminées par la première et
toutes les autres colonnes du tableau de contingence, sauf la dernière. Pour chaque distribution,
une colonne comprendra les modalités xi et l'autre les effectifs nij (j étant fixé) comme le montre le
tableau suivant, pour j = 1 :

xi ni1 fi1
x1 n11 f 11
x2 n21 f21
M M M
xk nk1 fk1
Total n.1 1

En revenant à notre tableau de contingence (tableau 10), cette distribution conditionnelle de x


selon y quand j = 1, concerne les revenus des consommateurs qui ont obtenu des dépenses de
consommation égales à 25.

3.1.1 LES FRÉQUENCES CONDITIONNELLES DE X SELON Y

La fréquence notée fij et qui se lit : "fi si j" est appelée fréquence conditionnelle de la modalité xi
n ij
selon yj : fij = .
n.j

C'est la proportion des individus qui présentent la modalité xi, parmi les individus présentant
uniquement la modalité yj.
16

Dans notre exemple, f11 est la proportion des consommateurs ayant des revenus valant 20, parmi
ceux qui ont des dépenses de consommation valant 25, soit 4 = 33,33 %.
12

k
k ∑ n ij n .j
j
Nous avons donc l'égalité : ∑ fi = i =1
= = 1.
i =1 n .j n .j

Etudier une distribution conditionnelle de x selon y revient à étudier une distribution à un


caractère. Nous présentons, dans ce sens, les moyennes et variances des distributions
conditionnelles de x selon y.

3.1.2 LA MOYENNE CONDITIONNELLE DE X SELON Y

k
∑ n ij x i k
La moyenne conditionnelle de x selon y est notée x j . Sa formule est : x j = i =1
(⇔ x j = ∑fij x i ).
n .j i =1

Dans notre exemple, x 1 donne les revenus moyens des consommateurs qui ont des dépenses de
consommation valant 25 : x 1 = 4×20 + 5×25+3×30 = 24,58.
12

3.1.3 LA VARIANCE CONDITIONNELLE DE X SELON Y

k
∑ n ij(x i − x j)2
La variance conditionnelle de x selon y est notée Vj(x). Sa formule est : Vj (x) = i =1
(⇔
n .j
k
Vj (x) = ∑ fij(x i − x j)2 ).
i =1

k
∑ n ij x 2i 2
Cette formule peut également être développée selon la relation de König : Vj(x) = i =1
−x j (⇔
n .j
k 2
Vj (x) = ∑ fijx 2i − x j ).
i =1

Par exemple, calculons la variance des revenus des consommateurs ayant des dépenses de
4×202 + 5×252 +3×302
consommation valant 25 : V1(x) = – (24,58)2 = 14,57.
12

3.2 LES DISTRIBUTIONS CONDITIONNELLES DE Y SELON X

Elles sont au nombre de k puisqu'il y a k modalités pour x. Elles sont déterminées par la première et
toutes les autres lignes du tableau de contingence, sauf la dernière. Pour chaque distribution, une
colonne comprendra les modalités yj et l'autre les effectifs nij (i étant fixé) comme le montre le
tableau suivant, pour i = 1 :

yj n1j f1j
y1 n11 f11
y2 n12 f12
M M M
yp n1p f1p
Total n1. 1
17

En revenant à notre tableau de contingence (tableau 10), cette distribution conditionnelle de y


selon x quand i = 1, concerne les dépenses de consommation des consommateurs dont les revenus
sont égaux à 20.

3.2.1 LES FRÉQUENCES CONDITIONNELLES DE Y SELON X

La fréquence notée fji et qui se lit : "fj si i" est appelée fréquence conditionnelle de la modalité yj
n ij
selon xi : fji = .
n i.

C'est la proportion des individus qui présentent la modalité yj, parmi les individus présentant
uniquement la modalité xi.

Dans notre exemple, f11 est la proportion des consommateurs ayant des dépenses de consommation
valant 25, parmi ceux qui ont des revenus valant 20, soit 4 = 57,14 %.
7

p
p ∑ n ij
j=1 n i.
Nous avons donc l'égalité : ∑ f ji = = = 1.
j=1 n i. n i.

Etudier une distribution conditionnelle de y selon x revient à étudier une distribution à un


caractère. Nous présentons, dans ce sens, les moyennes et variances des distributions
conditionnelles de y selon x.

3.2.2 LA MOYENNE CONDITIONNELLE DE Y SELON X

p
∑ n ijy j p
j=1
La moyenne conditionnelle de y selon x est notée y i . Sa formule est : y i = (⇔ y i = ∑ f ji y j ).
n i. j= 1

Dans notre exemple, y 1 donne les dépenses de consommation moyennes des consommateurs qui
ont des revenus valant 20 : y 1 = 4×25+ 2×30 + 1×35+ 0×40 = 27,86.
7

3.2.3 LA VARIANCE CONDITIONNELLE DE Y SELON X

p
∑ n ij(y j − y i )2
j=1
La variance conditionnelle de y selon x est notée Vi(y). Sa formule est : Vi(y) = (⇔
n i.
p
Vi(y) = ∑ f ji(y j − y i )2 ).
j= 1

p
∑ n ij y 2j
j=1 2
Cette formule peut également être développée selon la relation de König : Vi(y) = −y i (⇔
n i.
p 2
Vi(y) = ∑ f ji y 2j − y i )
j= 1

Par exemple, calculons la variance des dépenses de consommation des consommateurs ayant des
18
4×252 + 2×302 + 1×352 + 0×402
revenus valant 20 : V1(y) = – (27,86)2 = 13,11.
7

SECTION 4
RELATIONS ENTRE DISTRIBUTIONS MARGINALES ET CONDITIONNELLES

Ces relations peuvent être établies aux niveaux des effectifs, des fréquences, des moyennes et des
variances.

4.1 RELATIONS ENTRE EFFECTIFS PARTIELS ET MARGINAUX

Dans toute série à deux caractères, comme on l'a vu plus haut, on aura les égalités suivantes :

k p k p
n = ∑ ∑ n ij = ∑n i. = ∑ n .j
i =1 j=1 i =1 j= 1

4.2 RELATIONS ENTRE FRÉQUENCES MARGINALES ET CONDITIONNELLES

Pour les fréquences, nous aurons :

p k
fi. = ∑ fIJ et f.j = ∑ fIJ (voir supra) ;
j= 1 i =1

nI. n ij n n
fij = fi. × fji = f.j × fij puisque fi. × fji = × et f.j × fij = .j × ij .
n n i. n n
.j

4.3 RELATIONS ENTRE MOYENNES MARGINALES ET CONDITIONNELLES

La moyenne marginale est égale à la moyenne des moyennes conditionnelles, pondérée par les
fréquences marginales :

p
∑ n .j x j p
j= 1
x = (⇔ x = ∑ f.j x j )
n j= 1

k
∑ n i. y i k
y = i =1
(⇔ y = ∑ fi. y i )
n i =1

En effet :

k k p p k p p p k k p k
∑ n i .x i ∑ ∑ n ij x i ∑ ∑ n ij x i ∑ n .j x j ∑ n.j y j ∑ ∑ n ij y j ∑ ∑ n ij y j ∑ n i. y i
i =1 i =1 j=1 j=1i =1 j= 1 j= 1 j=1i =1 i =1 j=1 i =1
x = = = = et y = = = = .
n n n n n n n n

Calculons pour le tableau 10, les moyennes marginales à partir des moyennes conditionnelles.

Il convient de calculer auparavant les moyennes conditionnelles. Pour x, x 1 = 24,58 (voir supra), x2
= 2×20+ 1×25+ 2×30 = 25, x3 = 1×20+ 0×25+ 1×30 = 25, et x 4 = 0×20+ 0×25+1×30 = 30. Pour y, y 1 = 27,86
5 2 1
(voir supra), y 2 = 5×25+ 1×30+ 0×35+ 0×40 = 25,83, et y 3 = 3×25+ 2×30+ 1×35+1×40 = 30.
6 7
19

k
n x +n x +n x +n x ∑ n i. y i
Ainsi, x = = .1 1 .2 2 .3 3 .4 4 = 12×24,58 + 5×25+ 2×25+ 1×30 = 25, et y = i = 1 =
n 20 n
n 1. y 1 + n 2. y 2 + n 3. y 3
= 7×27,86+ 6×25,83+ 7×30 = 28. Nous retrouvons les mêmes valeurs calculées
n 20
directement à partir des distributions marginales.

4.4 RELATIONS ENTRE VARIANCES MARGINALES ET CONDITIONNELLES

La variance marginale est égale à la moyenne des variances conditionnelles augmentée de la


variance des moyennes conditionnelles :

p p
∑ n.j Vj(x) ∑ n.j(x j − x)2 p p
j=1 j=1
V(x) = + (⇔ V(x) = ∑ f.j Vj(x) + ∑ f.j (x j − x)2 ) ou encore, selon le théorème
n n j= 1 j= 1
p p 2
∑ n.j Vj(x) ∑ n.j x j p p
j=1 j=1 2 2 2
de König, V(x) = + − x (⇔ V(x) = ∑ f.j Vj(x) + ∑ f.j x j − x )
n n j= 1 j= 1

k k
∑ n i.Vi (y) ∑ n i.(y i − y)2 k k
V(y) = i =1
+ i =1
(⇔ V(y) = ∑fi. Vi (y) + ∑ fi. (y i − y)2 ) ou encore, selon le théorème
n n i =1 i =1
k k 2
∑ n i.Vi (y) ∑ n i. y i 2 k k 2 2
de König, V(y) = i =1
+ i =1
−y (⇔ V(y) = ∑fi. Vi (y) + ∑ fi. y i − y )
n n i =1 i =1

En effet :

k k p p k j
p k j
V(x) = ∑ fi. (x i − x)2 = ∑ ∑ fij (x i − x)2 = ∑ f.j ∑ fi (x i − x)2 = ∑ f.j ∑ fi [(x i − x j )+(x j − x)]2 =
i =1 i =1 j=1 j= 1 i =1 j= 1 i=1
p k p p p
j
∑ f.j ∑ fi (x i − x j )2 + ∑ f.j (x j − x)2 (théorème de König) = ∑ f.j Vj(x) + ∑ f.j (x j − x)2 et
j= 1 i=1 j=1 j= 1 j= 1

p k p k p k p
V(y) = ∑ f.j (y j − y)2 = ∑ ∑ fij (y j − y)2 = ∑ fi. ∑ f ji(y j − y)2 = ∑ fi. ∑ f ji[(y j − y i )+(y i − y)]2 =
j= 1 i =1 j=1 i =1 j= 1 i =1 j= 1
k p k k k
∑ fi. ∑ f ji(y j − y i )2 + ∑ fi. (y i − y)2 (théorème de König) = ∑ fi. Vi (y) + ∑ fi. (y i − y)2 )
i =1 j= 1 i=1 i =1 i =1

Calculons les variances marginales pour le tableau 10, en utilisant ces relations.

Nous commençons par calculer les variances conditionnelles. Pour x, V1(x) = 14,57 (voir supra),
2×202 + 1×252 + 2×302 1×202 + 0×252 +1×302
V2(x) = – (25)2 = 20, V3(x) = – (25)2 = 25, et V4(x) =
5 2
0×202 + 0×252 + 1×302 5×252 + 1×302 + 0×352 + 0×402
– (30)2 = 0. Pour y, V1(y) = 13,11 (voir supra), V2(y) = –
1 6
3×252 + 2×302 + 1×352 +1×402
(25,83)2 = 3,64, et V3(y) = – (30)2 = 28,57.
7

p
∑ n.j Vj(x)
j=1
Nous calculons ensuite les moyennes des variances conditionnelles. Pour x, =
n
20
k
n .1 V 1 (x) + n .2 V 2 (x) + n .3 V 3 (x) + n .4 V 4 (x) ∑ n i.Vi (y)
12×14,57 + 5×20+ 2×25+ 1×0 i =1
= = 16,242. Pour y, =
n 20 n
n 1. V1 (y)+ n 2. V2 (y)+ n 3. V3 (y)
= 7×13,11+ 6×3,64+ 7×28,57 = 15,68.
n 20

p 2
∑ n.j x j
j=1 2
Puis, nous calculons les variances des moyennes conditionnelles. Pour x, −x =
n
k 2
2 2 2 2
n .1 x 1 + n .2 x 2 + n .3 x 3 + n .4 x 4 2 12×(24,58)2 + 5×252 + 2×252 + 1×302 ∑ n i. y i 2
2 i =1
−x = – 25 = 1,26. Pour y, −y =
n 20 n
2 2 2
n 1. y1 + n 2. y 2 + n 3. y 3 2 7 ×(27,86)2 + 6×(25,83)2 + 7 ×302
−y = – 282 = 2,82.
n 20

Enfin, nous obtenons que V(x) = 16,242 + 1,26 = 17,5 et V(y) = 15,68 + 2,82 = 18,5. Ce qui correspond
aux résultats trouvés en passant directement par les distributions marginales.
21
CHAPITRE VI
LA RÉGRESSION SIMPLE

Généralement, dans une distribution à deux variables, la valeur d'une variable dépend de celle de
l'autre. Elle est appelée variable dépendante, de réponse ou expliquée. L'autre variable est
appelée variable indépendante ou explicative, car sa valeur fournit une explication au moins
partielle du comportement de la variable dépendante. Par exemple, si l'on désire étudier l'effet des
revenus sur les dépenses de consommation du tableau 10 (voir chapitre V), x sera la variable
explicative et y la variable expliquée.

La régression simple est un moyen d'analyser ces relations entre variables. Elle commence par des
représentations graphiques qui permettent de pressentir la liaison entre variables.

SECTION 1
REPRESENTATIONS GRAPHIQUES

La représentation graphique d'une distribution à deux variables x et y consiste à dessiner un nuage


de points ou des courbes de régression.

1.1 NUAGE DE POINTS

Un nuage de points est la représentation graphique des couples de points (xi, yj).

Représentons le nuage de points de la distribution des consommateurs selon leurs revenus et leurs
dépenses de consommation donnée par le tableau 10 (voir chapitre V).

Si ce tableau de contingence ne comportait pas de pondération (nij = 1 quand i = j et nij = 0 quand i ≠


j), il aurait pu se résumer en deux colonnes, et la représentation du nuage de points aurait été
simple : on reporterait les couples (xi, yj) dans un repère rectangulaire.

Comme ce tableau comporte des pondérations, il faudrait logiquement représenter le nuage de


points dans un graphe à trois dimensions. Ce qui est complexe et peu pratique. On convient alors
parfois de représenter le nuage dans le plan, en indiquant au–dessus de chaque point (xi, yj)
l'effectif nij correspondant, comme on le voit avec le graphique 13.

Graphique 13 Nuage de points de la distribution des consommateurs selon leurs revenus et


leurs dépenses de consommation

yj (1)
40
35 (1) (1)

30 (2) (1) (2)


25 (3)
(4) (5)
20
xi
15 20 25 30

Source : Tableau 10.


22

Ce nuage de points reste néanmoins déformé par la non prise en compte des pondérations. Le
moyen de le résumer dans un repère plan, consiste à tracer les courbes de régression.

1.2 COURBES DE REGRESSION

Pour toute distribution à deux variables x et y, il est possible de tracer deux courbes de régression :
la courbe de régression de y en x, et la courbe de régression de x en y.

La courbe de régression de y en x est la courbe qui passe par les points (xi, y i ) (courbe
représentative de la fonction y i = f(xi)), et celle de x en y est la courbe qui passe par les points (yj,
x j ) (courbe représentative de la fonction x j = f(yj)). La première permet d'étudier l'effet de x sur y
et la seconde, l'effet contraire.

Traçons les courbes de régression pour la distribution donnée par le tableau 10.

Les moyennes conditionnelles x j et y i ont déjà été calculées au chapitre V. Nous pouvons alors
dresser les tableaux suivants qui fournissent les couples (xi, y i ) et (yj, x j ) :

xi yi yj xj
20 27,86 25 24,58
25 25,83 30 25
30 30 35 25
40 30

Graphique 14 Courbes de régression de la distribution des consommateurs selon leurs revenus


et leurs dépenses de consommation

y
45

40 Courbe de régression de x en y

35

30

25 Courbe de régression de y en x

20 x
15 20 25 30 35

L'on voit que les courbes de régression sont dessinées à partir des nuages de points. Ainsi dans les
cas de tableau de contingence avec pondérations, la représentation graphique des points (xi, y i ) ou
( x j , yj) uniquement peut être considérée aussi comme la représentation du nuage de points.

On observe que la pente de la courbe de régression de y en x est toujours plus faible que celle de la
23
courbe de régression de x en y. De plus, elles sont toujours croissantes ou décroissantes en même
temps.

Les courbes de régression précisent la façon dont évolue la valeur moyenne d'une variable en
fonction de toutes les valeurs de l'autre variable. Elles donnent l'allure générale du phénomène, en
résumant le nuage de points : elles passent le plus près possible de tous les points du nuage2.

Pour notre ensemble de consommateurs, l'allure des courbes de régression n'est pas assez explicite.
La courbe de régression de y en x indique que les dépenses de consommation baissent puis
augmentent lorsque les revenus augmentent, et la courbe de régression de x en y indique que les
revenus augmentent légèrement avec les dépenses de consommation.

SECTION 2
ANALYSE DE LA LIAISON FONCTIONNELLE

Comme nous venons de le mentionner, l'allure du nuage de points ou des courbes de régression
révèle s'il existe une liaison ou non entre les deux variables. Théoriquement, trois types de liaison
sont possibles : la liaison nulle, la liaison totale et la liaison relative.

2.1 LA LIAISON NULLE OU L'INDÉPENDANCE TOTALE

Lorsque les courbes de régression de y en x et de x en y sont des droites perpendiculaires


d'équations respectives y = y et x = x , la liaison entre x et y est nulle. Le graphique 15 illustre cette
situation.

Graphique 15 Nuage de points et courbes de régression d'une distribution où la liaison entre


les deux variables est nulle

y
Courbe de régression de x en y

y barre Courbe de régression de y en x

x
x barre

Comme le montre ce graphique, la liaison nulle signifie qu'il n'y a aucune influence d'une variable
sur l'autre : les variations de l'une n'entraînent pas de variations de l'autre. Les deux variables sont
donc totalement indépendantes.

Dans ce cas, les fréquences conditionnelles sont identiques et, par conséquent, égales aux
fréquences marginales : ∀ i, fi1 = fi2 = … = fip = fi. ; ∀ j, fj1 = fj2 = … = fjk = f.j,. Cela entraîne aussi que les
moyennes conditionnelles sont identiques et égales aux moyennes marginales : x 1 = x2 = … = x p = x

2
Nous allons le démontrer plus loin cette propriété, dans le cas particulier des droites de régression.
24

et y 1 = y 2 = … = y k = y .

2.2 LA LIAISON FONCTIONNELLE OU LA DÉPENDANCE TOTALE

Lorsque les courbes de régression de y en x et de x en y sont confondues, comme on le voit avec


l'exemple donné par le graphique 16, les variables x et y sont totalement dépendantes.

Graphique 16 Nuage de points et courbes de régression d'une distribution où la liaison entre


les deux variables est fonctionnelle

Courbe de régression de y en x

Courbe de régression de x en y

Dans cette situation, à chaque valeur de x correspond une valeur unique de y, et réciproquement.
Ce qui implique qu'il y a autant de modalités de x que de y (k = p), et que les moyennes
conditionnelles sont égales aux valeurs des variables : x 1 = x1, x2 = x2, …, x p = xk et y 1 = y1, y 2 = y2, …,
y k = y p.

Il importe de noter que la liaison fonctionnelle n'est pas forcément réciproque : x peut être lié à y,
mais pas nécessairement l'inverse.

2.3 LA LIAISON RELATIVE ET LA CORRÉLATION

En général, les variables sont, dans une certaine mesure, dépendantes l'une de l'autre : elles sont en
corrélation. La liaison entre elles est dite relative. Le nuage de points est résumé par deux courbes
de régression. Le graphique 14 illustre ce cas général où y est corrélé avec x et x est corrélé avec y.

Mais, tout comme la liaison fonctionnelle, la corrélation n'est pas réciproque : y peut être corrélé
avec x sans que x ne le soit avec y, et x peut être corrélé avec y sans que y ne le soit avec x, comme
on le voit avec le graphique 17.
25
Graphique 17 Courbes de régression dans les cas de corrélation non réciproque

y y Courbe de
régression de y en x
Courbe de régression de x en y
Courbe de
régression
de
Courbe de régression de y en
x en y
x

y est corrélé avec x x


y n'est pas corrélé avec x x
x n'est pas corrélé avec y
x est corrélé avec y

La corrélation est positive quand x et y varient dans le même sens, et négative quand ils varient en
sens contraire.

SECTION 3
AJUSTEMENT ET ÉTUDE DE LA CORRÉLATION

L'ajustement consiste à déterminer la courbe qui passe le plus près possible de tous les points d'un
nuage de points. L'ajustement revient donc à déterminer l'équation de la courbe de régression
(puisqu'il a été défini que la courbe de régression passe le plus près possible de tous les points d'un
nuage de points).

Pour cela, il est logique de minimiser les carrés des distances entre les points du nuage et la courbe
de régression. C'est la méthode des moindres carrés que nous verrons dans le cas d'un ajustement
linéaire et que nous généraliserons pour d'autres types d'ajustement.

3.1 L'AJUSTEMENT LINÉAIRE

L'ajustement à une droite (d'équation y = ax + b ou x = a'y + b') ou ajustement linéaire,


s'appliquera à un nuage de points qui paraît se distribuer au voisinage d'une droite (le nuage de
points présente une forme allongée). On utilise la méthode de Mayer ou la méthode des moindres
carrés.

3.1.1 LA MÉTHODE DE MAYER

Elle consiste à partager l'ensemble des points (xi, yj) en deux sous–ensembles A et B ayant le même
nombre de points (si possible, sinon un des ensembles aura un point de plus que l'autre) ; A étant
constitué des points ayant les plus petites abscisses et B des points ayant les plus grandes abscisses.

Il s'agit ensuite de tracer une droite appelée droite de Mayer (d'équation y = ax + b) qui passe par
les centres de gravité GA de A et GB de B3. Cette droite de Mayer est sensée ainsi ajuster au mieux le
nuage de points : c'est une droite de régression.

3
Le centre de gravité ou point moyen d'un nuage de points (xi, yj) est un point noté G, qui a pour coordonnées ( x ,
y ). Par conséquent, GA a pour coordonnées la moyenne des abscisses de A ( x A ) et la moyenne des ordonnées de A
( y A ), et GB a pour coordonnées la moyenne des abscisses de B ( xB ) et la moyenne des ordonnées de B ( y B ).
26

Enfin, on peut déterminer l'équation de la droite de Mayer en résolvant le système  y A = a x A + b ,
 y B = a x B + b
duquel on tire les valeurs de a et de b.

La méthode de Mayer est simple et fournit une droite convenable dans les cas de séries doubles sans
pondérations, et surtout lorsque les points du nuage sont quasiment alignés. Mais sa simplicité ne
permet pas d'obtenir une mesure de sa fiabilité.

3.1.2 LA MÉTHODE DES MOINDRES CARRÉS

Elle vise à déterminer une droite D d'équation y = ax + b, qui passe le plus près possible de chaque
point du nuage. D sera appelée droite de régression de y en x, droite d'ajustement ou droite des
moindres carrés.

En minimisant la quantité ∆ qui est la moyenne du carré des écarts entre les yj observés et les yj
donnés par l'équation de la droite, on arrive à déterminer cette droite.

k p
Minimisons donc ∆ = ∑ ∑ fij (y j −ax i − b)2 . Cela revient à trouver les valeurs de a et b qui minimisent
i =1 j =1

∆, puisque ∆ est une fonction de a et de b.

Il s'agit alors de calculer les dérivées partielles de ∆ par rapport à a et à b, et de les égaliser à zéro4 :

 ∂∆ k p
 ∂a = −2 i∑ ∑ fij x i (y j −ax i −b )= 0
=1 j =1
 k p
 ∂∆ = −2 ∑ ∑ fij (y j − ax i − b)= 0
 ∂b i =1 j = 1

p p p
∂∆ = 0 ⇒ ∑ k k k
∑ fij y j −a ∑ ∑ fij x i −b ∑ ∑ fij = 0 ⇒ b = y – a x .
∂b i =1 j =1 i =1 j =1 i =1 j= 1

k p
En remplaçant b par son expression dans l'équation ∂∆ = 0, on a ∑ ∑ fij x i (y j − ax i − y + a x) = 0 ⇒
∂a i =1 j =1
k p
∑ ∑ fij x i (y j − y)
k p k p k p i =1 j = 1
∑ ∑ fij x i [(y j − y)− a(x i − x)] = 0 ⇒ ∑ ∑ fij x i (y j − y)− a ∑ ∑ fij x i (x i − x) = 0 ⇒ a = =
i =1 j = 1 i =1 j = 1 i = 1 j =1 k p
∑ ∑ fij x i (x i − x)
i =1 j = 1
k p k p k p
∑ ∑ fij x i y j − y ∑ ∑ fij x i ∑ ∑ fij x i y j − xy
i =1 j =1 i = 1 j =1 i =1 j =1
k p k p
= k p 2
∑ ∑ fij x 2i − x ∑ ∑ fij x i ∑ ∑ fij x 2i − x
i =1 j =1 i =1 j =1 i =1 j =1

Le dénominateur de a est la variance marginale de x (voir chapitre 5). Son numérateur est appelée
covariance de x et de y et est noté COV(x, y) ou σxy.

COV(x, y) 5
En définitive, les valeurs de a et de b qui minimisent ∆ sont a = et b = y – a x .
V(x)

4
L'on pourra vérifier que les dérivées secondes sont positives.
27

La méthode des moindres carrés permet de déterminer également la droite D' d'équation x = a'y + b',
qui sera ainsi la droite de régression de x en y.

k p COV(x, y)
En minimisant ∆' = ∑ ∑ fij (xi − a' y j − b')2 , on trouve que a' = et b' = y – a' x 6.
i =1 j = 1 V(y)

a, b, a' et b' sont appelés coefficients de régression.

a mesure la variation de y suite à la variation d'une unité de x et a' celle de x suite à celle d'une unité
de y. b et b' sont les valeurs, respectivement, de y et x lorsque, respectivement x = 0 et y = 0.

Les droites de régression se coupent au point moyen G (centre de gravité du nuage de points)
puisque = a x + b et x = a' + b'.

L'angle formé par les deux droites permet d'apprécier la liaison entre les deux variables. On l'a vu
au niveau de l'étude graphique de la liaison fonctionnelle. Etudions cette liaison par le calcul et
l'interprétation de paramètres appropriés.

3.2 LES PARAMÈTRES DE CORRÉLATION

Pour représenter D et D' sur le même graphique, on écrit l'équation de D' de la manière suivante : y =
1 x – b' .
a' a'

On voit ainsi qu'en cas de liaison fonctionnelle entre x et y (D et D' sont confondues), on aura a = 1
a'
[COV(x, y)]2
; ce qui est équivalent à aa' = 1 ou = 1.
V(x)V(y)

En cas de liaison nulle entre x et y (D perpendiculaire à D'), on aura aa' = 0, ce qui est équivalent à
COV(x, y) = 0.

Et en cas de liaison relative, 0 < aa' < 1.

Le produit des pentes des droites de régression nous fournit ainsi un premier paramètre de
corrélation : le coefficient de détermination.

3.2.1 LE COEFFICIENT DE DÉTERMINATION

Pour mesurer la qualité d'un ajustement linéaire, on peut utiliser le coefficient de détermination

p k p k p
5 k
∑ ∑ fij x i y j − xy = ∑ ∑ fij (x i − x)(y j − y) : relation de König. Donc on a aussi COV(x, y) = ∑ ∑ fij (x i − x)(y j − y) , et a =
i =1 j =1 i =1 j =1 i =1 j =1
k p k p
∑ ∑ n ij x i y j − nxy ∑ ∑ n ij (x i − x)(y j − y)
i=1 j=1 i=1 j=1
p
ou encore a = p
.
k 2 k
∑ ∑ n ij x 2i − nx ∑ ∑ n ij (x i − x) 2
i =1 j=1 i=1 j=1

Sur la covariance, on notera que COV(x, x) = V(x) et qu'en procédant à des changements de variable sur x et y : x
= ax' + b et y = a'y' + b', alors COV(x, y) = aa'COV(x', y').
6
Le processus est analogue au processus de détermination de a et b.
28
[COV(x, y)]2
noté r2 : r2 = aa' ⇔ r2 = avec 0 ≤ r2 ≤ 1
V(x)V(y)

Comme souligné plus haut, quand r2 = 1, la corrélation linéaire entre x et y est parfaite ; la liaison
entre x et y est linéaire et fonctionnelle.

A l'inverse, quand r2 = 0 (⇔ COV(x, y) = 0), il n'y a pas de relation linéaire entre x et y ; la liaison
linéaire entre x et y est nulle, mais il peut exister un autre type de relation entre x et y.

Ainsi, plus r2 est proche de 1 (notamment quand r2 ≥ 0,76), plus l'ajustement linéaire est de bonne
qualité, et plus r2 est proche de 0, plus l'ajustement linéaire est de mauvaise qualité.

Pour faire apparaître le sens de la liaison, il est intéressant de considérer le coefficient de corrélation
linéaire.

3.2.2 LE COEFFICIENT DE CORRÉLATION LINÉAIRE

En pratique, pour étudier une liaison linéaire, on utilise le coefficient de corrélation linéaire, noté
COV(x, y)
r, qui découle directement du coefficient de détermination : r = ± aa ' ⇔ r = avec – 1 ≤ r
σ xσ y
≤ 17.

L'interprétation du coefficient de corrélation linéaire découle également de celle du coefficient de


détermination : en cas de forte corrélation linéaire, r ≥ 0,87, l'ajustement linéaire sera de bonne
qualité ; en cas de faible corrélation linéaire, r < 0,87, l'ajustement sera de mauvaise qualité,
inacceptable.

Cependant, à la différence du coefficient de détermination, le signe du coefficient de corrélation


linéaire indique si la liaison entre x et y est positive ou négative. Le coefficient de corrélation
linéaire est positif (r > 0 ⇔ COV(x, y) > 0) quand x et y varient dans le même sens et négatif (r < 0 ⇔
COV(x, y) < 0), quand x et y varient en sens contraire.

Remarque : Lorsque l'on effectue un changement de variable sur x et y, le coefficient de corrélation


linéaire calculé ne change pas. Par exemple, si on pose x = ax' + b et y = a'y' + b', on aura r = r', avec r,
COV(x, y)
le coefficient de corrélation linéaire pour x et y, et r', celui pour x' et y'. En effet r = =
σ xσ y
aa'COV(x', y') COV(x', y')
(voir supra) = = r'.
aa'σ x'σ y' σ x'σ y'

Les coefficients de détermination et de corrélation linéaire permettent juste d'établir s'il existe une
liaison (linéaire) ou non entre les variables. A la différence des rapports de corrélation, ils ne
permettent pas de savoir laquelle est la variable explicative et laquelle la variable expliquée.

3.2.3 LES RAPPORTS DE CORRÉLATION

Lorsque l'on ajuste le nuage de points par une droite, on suppose que la liaison entre les variables
est linéaire. Or, elle ne l'est pas toujours. Les rapports de corrélation permettent de connaître de

7 σy x
En exprimant COV(x, y) en fonction de r, nous trouvons une autre formule de a et a' : a = r ; a' = r .
σx
y
29
façon générale l'intensité de la liaison (linéaire ou non) entre deux variables, ainsi que les liens de
causalité entre elles.

Il y a deux rapports de corrélation : le rapport de corrélation de y en x qui permet de savoir en


définitive si x explique y, et le rapport de corrélation de x en y qui permet de savoir si y explique
x.

Le rapport de corrélation de y en x, noté ηy,x, est la proportion de la variance marginale de y


k
∑ fi. (yi − y)2
représentée par la variance des moyennes conditionnelles de y : ηy,x = i =1
⇔ ηy,x = 1 –
V(y)
k
∑fi. Vi (y) k k
i =1
(puisque ∑ fi. (yi −y)2 = V(y) – ∑fi. Vi (y) ) avec 0 ≤ ηy,x ≤ 1.
V(y) i =1 i =1

k
La variance des moyennes conditionnelles de y, ∑ fi. (yi − y)2 , est la variance des moyennes des
i =1
observations yj pour chaque xi. C'est donc la variance que traduit par définition la courbe de
régression de y en x. On l'appelle variance expliquée par la régression, tandis que la moyenne des
k
variances conditionnelles, ∑fi. Vi (y) , est appelée variance résiduelle (non expliquée par la
i =1
régression).

Variance exp liquée Variance résiduelle


Par conséquent, ηy,x = =1– .
Variance m arg inale Variance m arg inale

De même, le rapport de corrélation de x en y, noté ηx,y, est la proportion de la variance marginale


p
∑ f.j (x j −x)2
j =1
de x représentée par la variance des moyennes conditionnelles de x : ηx,y = ⇔ ηx,y = 1 –
V(x)
p
∑ f.j Vj(x) p p
j =1 Variance exp liquée
(puisque ∑ f.j (xj −x)2 = V(x) – ∑ f.j Vj(x) ), avec 0 ≤ ηx,y ≤ 1. Et ηx,y = =1
V(x) j =1 j =1 Variance m arg inale
Variance résiduelle
– .
Variance m arg inale

Si la variance expliquée est forte, on aura un rapport de corrélation proche de 1. Cela signifie que la
régression résume bien le nuage de points, et que la liaison entre les variables est forte. Si le rapport
de corrélation est proche de 0, la liaison sera faible.

Ainsi, pour le rapport de corrélation de y en x par exemple (le même raisonnement pourra
s'appliquer au rapport de corrélation de x en y), on a deux cas extrêmes :

k
Quand ηy,x = 0 (⇒ ∑ fi. (yi −y)2 = 0 et yi = y ), cela signifie que la régression de y en x n'explique pas la
i =1
liaison entre y et x (x n'explique pas y) ; y est sans corrélation avec x (il y absence de corrélation
entre y et x), et la courbe de régression de y en x est une droite parallèle à l'axe des abscisses. Si on a
aussi ηx,y = 0, on dira que la liaison entre x et y est nulle (x n'explique pas y et y n'explique pas x
non plus).

k k
Quand ηy,x = 1 (⇒ ∑fi. Vi (y) = 0 et V(y) = ∑ fi. (yi −y)2 )), cela signifie que la régression de y en x
i =1 i =1
explique en totalité la liaison entre y et x (x explique y à 100 %) ; il y a liaison fonctionnelle de y en
30
x. Si on a aussi ηx,y = 1, on dira que la liaison fonctionnelle est réciproque (x explique y à 100 % et y
explique x à 100 %).

La comparaison entre les rapports de corrélation et le coefficient de détermination fournit


également des indications sur la liaison entre les variables. En effet, lorsque r2 = ηy,x on dira qu'il y a
corrélation linéaire de y en x. De même, en cas de corrélation linéaire de x en y, on aura r2 = ηx,y.
Ainsi, si r2 = ηy,x = ηy,x ≠ 0, on dira qu'il y a double corrélation linéaire entre x et y.

3.3 AUTRES AJUSTEMENTS

Lorsque l'on obtient un coefficient de corrélation linéaire médiocre, l'on ne doit pas en conclure
pour autant qu'il n'y a pas de relation étroite entre les variables x et y. La relation peut être d'une
autre nature que linéaire : le nuage de points peut suggérer un ajustement exponentiel (y = λAx),
par une fonction puissance (y = λxA), ou polynomial (y = akxk + ak–1xk–1 + ... + a1x + a0).

3.3.1 AJUSTEMENT EXPONENTIEL

Si l'allure du nuage de points suggère un ajustement exponentiel, il convient de poser que


l'équation de la courbe de régression est de la forme y = λAx.

On considère ainsi que les points (xi, yj) sont proches de la courbe y = λAx, et que les points (xi, lnyj)
seront proches de la droite d'équation lny = (lnA)x + lnλ.

En déterminant cette droite par la méthode des moindres carrés, on trouve les valeurs de lnA et de
COV(x, ln y)
lnλ, et par conséquent, celles de A et de λ : lnA = et lnλ = ln y – (lnA) x , puis A =
V(x)
COV (x, y)

e V(x)
et λ = e ln y − (ln A)x .

3.3.2 AJUSTEMENT PAR UNE FONCTION PUISSANCE

Si l'allure du nuage de points suggère un ajustement par une fonction puissance, il convient de
poser que l'équation de la courbe de régression est de la forme y = λxA.

On considère ainsi que les points (xi, yj) sont proches de la courbe y = λxA, et que les points (lnxi,
lnyj) seront proches de la droite d'équation lny = Alnx + lnλ.

En déterminant cette droite par la méthode des moindres carrés, on trouve les valeurs de A, de lnλ,
COV(ln x, ln y)
et de λ : A = , lnλ = ln y – A ln x , et λ = e ln y − Aln x .
V(ln x)

3.3.3 AJUSTEMENT POLYNOMIAL

Si l'allure du nuage de points suggère un ajustement polynomial, il convient de poser que l'équation
de la courbe de régression est de la forme y = akxk + ak–1xk–1 + ... + a1x + a0.

Cette équation sera déterminée par la méthode des moindres carrés. En effet, en minimisant la
k p
fonction ∆ = ∑ ∑ fij ( y j − a k x ik − a k − 1 x ik − 1 − L − a 1 x i − a 0 ) 2 , on obtient les valeurs de a0, a1, ..., et ak.
i = 1 j= 1

Calculons les dérivées partielles de ∆ par rapport à a0, a1, ..., ak, et égalisons–les à zéro (l'on vérifiera
31
que les dérivées secondes sont positives). Nous obtenons le système de k + 1 équations à k + 1
inconnues suivant :

a k f x k + a k
k − 1 +L + a x + a = y
 k i∑k
=1
i. i k − 1 ∑ fki . x i
i=1
1 k 0 k p
La k ∑ fi . x i + a k − 1 ∑ fi. x ik + L + a 1 ∑ fi. x 2i + a 0 x = ∑ ∑ fij x i y j
k + 1
k1
i= ki = 1 i = 1k i =k1 j = 1 k p
 a k ∑ fi . x 2i k + a k − 1 ∑ fi. x 2i k − 1 +L + a 1 ∑ fi . x ik + 1 + a 0 ∑ fi. x ik = ∑ ∑ fij x ik y j
 i = 1 i= 1 i=1 i= 1 i=1 j =1

En le résolvant, on trouve les valeurs des coefficients a0, a1, ..., et ak.

Enfin, en représentant le nuage de points et les différentes courbes déterminées par les ajustements
linéaire, exponentiel, par une fonction puissance, ou polynomial sur un même graphique, il est
possible de dire laquelle des fonctions ajuste le mieux le nuage de points : c'est la fonction pour
laquelle la courbe passe le plus près de tous les points.

Pour l'exercice, étudions la relation entre les revenus x et les dépenses de consommation y de
l'ensemble de consommateurs donnés par le tableau 10 (voir chapitre V).

Nous avons déjà indiqué que la courbe de régression de x en y laissait voir que x augmentait avec y.
A la lumière de la section 2, le graphique 14 indique que la liaison entre ces variables est relative.
Calculons les paramètres de corrélation pour plus de précisions.

Le tableau de calculs suivant est établi à l'effet de calculer la covariance de x et de y :

yj p p
25 30 35 40 Total ∑ n ij y j x i ∑ n ij y j
xi j= 1 j=1

20 4 2 1 0 7 195 3900
25 5 1 0 0 6 155 3875
30 3 2 1 1 7 210 6300
Total 12 5 2 1 20 – 14075

Que peut–on dire du sens de la liaison entre x et y ?

k p
∑ ∑ n ij x i y j
COV(x, y) = i =1 j =1
– x y = 14075 – 25 × 28 = 3,75 ( x et y ont déjà été calculés au chapitre V).
n 20
Comme cette valeur (de la covariance) est positive, la liaison entre x et y est positive.

Qu'en est–il de la nature et de l'intensité de cette liaison ?

[COV(x, y)]2 (3,75)2


Le coefficient de détermination r2 = = = 0,04 (V(x) et V(y) ont déjà été calculés
V(x)V(y) 17,5×18,5
au chapitre V). Cette valeur étant proche de zéro, un ajustement linéaire pour la distribution
étudiée sera de mauvaise qualité. La valeur de r confirme cette conclusion : r = 0,21 : il n'y a pas de
liaison linéaire entre x et y.

k
∑ fi. (yi − y)2
= 2,82 = 0,15 (voir le calcul de ∑ fi. (y i − y)2 au
k
Le rapport de corrélation de y en x ηy,x = i =1
V(y) 18,5 i =1
chapitre V). Cette valeur étant proche de zéro, nous en déduisons qu'il y a une faible corrélation
entre y et x : x explique très peu y.
32
p
∑ f.j (x j −x)2 p
Le rapport de corrélation de x en y ηx,y = j =1
= 1,26 = 0,07 (voir le calcul de ∑ f.j (x j − x)2 au
V(x) 17,5 j= 1

chapitre V). Cette valeur étant encore plus proche de zéro que la valeur de ηy,x, nous en déduisons
qu'il y a une très faible corrélation entre x et y, et que y explique encore moins x que l'inverse.
33
CHAPITRE VII
LES SÉRIES CHRONOLOGIQUES

Les séries chronologiques, encore appelées séries temporelles ou chroniques, sont des séries
statistiques à deux caractères dont l'un représente le temps. Par exemple, le tableau 11 représente
une série chronologique.

Tableau 11 Chiffres d'affaires trimestriels d'une entreprise sur trois années

j (trimestres)
1 2 3 4
i (années)
1 18 5 22 18
2 26 7 10 24
3 22 9 15 26
Source : Données fictives.

Comme on le voit avec ce tableau, pour les séries chronologiques, le temps est généralement repéré
en deux dimensions : années (i) et trimestres (j), années (i) et mois (j), trimestres (i) et mois (j),
mois (i) et jours (j), etc.

La variable étudiée est habituellement représentée par y (variable expliquée), et le temps par t
(variable explicative). t = m(i – 1) + j, avec i variant de 1 à n, j variant de 1 à m, et t variant de 1 à N où
N = nm. De la sorte, si i représente des années et j des trimestres (comme dans notre exemple), alors
t est simplement le numéro ou le rang du trimestre. Les modalités de y peuvent donc être notées yt
ou yij.

On peut dire que la variable y est liée fonctionnellement à t (à chaque date correspond une et une
seule valeur de y), mais pas l'inverse (une même valeur de y peut correspondre à plusieurs dates) :
c'est une liaison fonctionnelle non réciproque.

L'étude d'une série chronologique est finalement l'étude de l'évolution d'une variable dans le temps.

SECTION 1
GRAPHIQUES ET COMPOSANTES D'UNE SÉRIE CHRONOLOGIQUE

L'étude d'une série chronologique commence généralement par une représentation graphique qui
permet de mettre en évidence ses composantes.

1.1 REPRÉSENTATIONS GRAPHIQUES

On représente graphiquement une série chronologique en dessinant un nuage de points de


coordonnées (t, yt), reliés entre eux par des segments de droites, dans l'ordre des dates croissantes.

Parfois, il est plus intéressant de représenter un graphique semi–logarithmique en utilisant les


logarithmes de y (en ordonnées). Cela est pratique quand il existe de grandes différences de valeurs
pour y, ou quand l'on veut faire apparaître des variations relatives.

Ainsi, l'évolution d'une variable y dont le taux de croissance de t à t + 1, r, est constant, sera donnée
par la relation yt = y0(1 + r)t, et représentée sur un graphique semi–logarithmique par une droite
dont l'équation s'écrira lnyt = [ln(1 + r)]t + lny0. La connaissance de cette équation permettra de
déterminer la valeur de r : r = eln(1 + r) – 1. Si t représentait des années successives, r serait simplement
le taux de croissance annuel moyen de y.
34

Représentons graphiquement la série chronologique donnée par le tableau 11.

Graphique 18 Evolution des chiffres d'affaires trimestriels d'une entreprise sur trois ans

Chiffres
d'affaires y
26
24
22
20
18
16
14
12
10
8
6
4
2
0 Trimestres t
1 2 3 4 5 6 7 8 9 10 11 12
Année 1 Année 2 Année 3

Le graphique montre que chaque année, au second trimestre, le chiffre d'affaires est le plus bas, et
qu'il est généralement le plus élevé au quatrième trimestre. De plus, on voit que l'évolution du
chiffre d'affaires est marquée par une légère tendance à la hausse. Ces variations trimestrielles et
cette tendance à la hausse font partie des composantes d'une série chronologique.

1.2 LES COMPOSANTES D'UNE SÉRIE CHRONOLOGIQUE

L'évolution dans le temps d'une variable est généralement marquée par un mouvement de longue
période, des mouvements croissants et décroissants de moyen terme, des mouvements de court
terme, et des mouvements exceptionnels. Ces mouvements constituent les composantes d'une série
chronologique.

1.2.1 LE TREND ET LE CYCLE

Le trend correspond au mouvement de longue période et se matérialise par une tendance générale à
la hausse, à la baisse ou stationnaire de l'évolution de la variable. On l'ajuste par une courbe (selon
que le trend est linéaire, exponentiel ou polynomial) qui résume l'évolution de la variable dans le
long terme (sans tenir compte des variations de moyen et court termes).

Le cycle est relatif à des fluctuations de moyen terme autour du trend, de type sinusoïdal, qui se
répètent. Sa période et son amplitude peuvent être repérées graphiquement. Il est d'usage de ne pas
l'exprimer analytiquement, mais de confondre son évolution avec celle du trend.

Nous représenterons le trend et le cycle par y't.

L'étude du graphique 18 laisse ainsi apparaître sur les trois ans un trend linéaire à la hausse, et des
cycles de période égale à peu près à une année ou quatre trimestres.
35
1.2.2 LES VARIATIONS SAISONNIÈRES

Les variations saisonnières sont des mouvements significatifs qui se produisent au même moment,
à chaque période des cycles observés. Pour notre graphique 18, on voit que chaque année, au second
trimestre, le chiffre d'affaires est bas, et qu'il est haut au quatrième trimestre : ce sont des variations
saisonnières.

Les variations saisonnières seront représentées par St, et on considère qu'elles se répètent à
l'identique à chaque période : on a donc S1j = S2j = S3j = …, ou bien Sj = Sm+j = S2m+j = … C'est le principe
de la répétition à l'identique des variations saisonnières. On considère aussi que sur la période, ces
variations se compensent : les surfaces entre la courbe représentant le trend et la courbe
représentant l'évolution de la variable sont supposées parfaitement se compenser. Donc par
période, l'influence des variations saisonnières est neutre. C'est le principe de conservation des
aires.

1.2.3 LES VARIATIONS ACCIDENTELLES

Encore appelées variations résiduelles, résidu ou aléa, ce sont des mouvements exceptionnels,
irréguliers et imprévisibles. Le chiffre d'affaires du troisième trimestre de la première année est une
variation accidentelle : c'est la seule année où sa valeur est plus élevée que celle du quatrième
trimestre (voir graphique 18).

Les variations accidentelle sont notées εt, et on considère qu'elles sont de faible amplitude et en
moyenne nulles sur une petite période.

1.3 MODÈLES DE FORMALISATION D'UNE SÉRIE CHRONOLOGIQUE

En tenant compte des composantes d'une série chronologique, on formalise l'évolution de la


variable par une relation mathématique à travers un modèle additif ou multiplicatif.

1.3.1 LE MODÈLE ADDITIF

Le modèle additif s'exprime par la relation yt = y't + St + εt.

On l'utilise lorsque l'on considère que les composantes sont indépendantes les unes des autres. Cela
correspond graphiquement à la situation où les amplitudes des composantes saisonnières sont
constantes. C'est le cas pour la série des chiffres d'affaires donnée par le tableau 11 et représentée
par le graphique 18.

Dans ce modèle, le principe de conservation des aires revient à supposer que la somme et donc la
m
moyenne des variations saisonnières sont nulles pour i fixé : ∑ S j = 0.
j =1

1.3.2 LE MODÈLE MULTIPLICATIF

Il s'exprime par la relation yt = y't × St + εt (première forme du modèle multiplicatif) ou par la


relation yt = y't × St × εt (deuxième forme). Cette dernière relation peut se ramener au modèle
additif, en introduisant le logarithme : lnyt = lny't + lnSt + lnεt.

On l'utilise lorsque l'on considère que les composantes sont dépendantes les unes des autres : la
composante saisonnière, et éventuellement la composante accidentelle, sont proportionnelles au
trend. Graphiquement, les amplitudes des composantes saisonnières sont croissantes ou
décroissantes.
36

Dans ce modèle, le principe de conservation des aires revient à supposer que la moyenne des
m
∑ Sj
m j =1
variations saisonnières est égale à l'unité pour i fixé : ∑ S j = m, et donc = 1.
j =1 m

SECTION 2
LA DÉTERMINATION DES COMPOSANTES

Le modèle d'évolution étant choisi, et en admettant que les variations accidentelles sont intégrées
dans le trend ou sont négligeables, il reste à déterminer les composantes en estimant les paramètres
du trend et des variations saisonnières.

2.1 LA DÉTERMINATION DU TREND

Elle peut se faire selon des méthodes analytiques ou empiriques.

2.1.1 MÉTHODES ANALYTIQUES

Elles s'appliquent dans les cas où la tendance générale d'évolution de la variable est assimilable à
une fonction simple connue. En effet, si le trend est linéaire par exemple8, sa détermination consiste
en un ajustement linéaire du nuage de points représentant la chronique.

Nous poserons que la droite d'ajustement est d'équation y' t = αt + β dont les paramètres (α et β)
seront estimés par la méthode de Mayer ou, mieux, par la méthode des moindres carrés (voir
chapitre VI).

Dans le cas du modèle additif, la série sera ajustée par une droite d'équation yt = αt + β + St (les εt
COV(t, y)
ont été négligés), et par la méthode des moindres carrés, nous aurons α = et β = y – α t .
V(t)

Dans le cas du modèle multiplicatif, la série sera ajustée par l'équation yt = (αt + β)St et le calcul
de α et β est ramené au calcul précédent.

Déterminons le trend de la série des chiffres d'affaires (tableau 11) par la méthode des moindres
carrés.

Nous présentons les données sous la forme d'un tableau de contingence à deux colonnes pour
effectuer les calculs nécessaires.

t yt t2 tyt
1 18 1 18
2 5 4 10
3 22 9 66
4 18 16 72
5 26 25 130
6 7 36 42
7 10 49 70
8 24 64 192
9 22 81 198

8
Voir le chapitre VI sur les cas d'ajustements non linéaires.
37
t yt t2 tyt
10 9 100 90
11 15 121 165
12 26 144 312
78 202 650 1365

N N N
∑t ∑yt ∑ ty t
Nous avons ainsi t = 1
= 78 = 6,5 ; y = t =1
= 202 = 16,83 ; COV(t, y) = t =1
– t y = 1365 –
N 12 N 12 N 12
N
∑ t2
6,5 × 16,83 = 4,355 ; V(t) = 1
– t 2 = 650 – (6,5)2 = 11,92 ; α = 4,355 = 0,37 et β = 16,83 – 0,37 × 6,5 =
N 12 11,92
14,425.

Le trend est donc donné par la relation y't = 0,37t + 14,425.

2.1.2 MÉTHODES EMPIRIQUES

Elles s'appliquent dans les cas où la chronique ne peut pas être ajustée par une fonction simple
connue, ou bien dans le cas où l'on ne désire pas utiliser la méthode analytique. Elles sont plus
souvent utilisées car, dans de nombreux, elles conviennent mieux que les méthodes analytiques.
Ainsi, on pourra estimer le trend soit par la méthode des moyennes échelonnées, soit par la
méthode des moyennes mobiles.

Les moyennes échelonnées d'ordre p ou sur p saisons d'une variable y, pour p impair, sont les
y1 + y 2 +L+ y p y p + 1 + y p + 2 +L+ y 2p y 2p + 1 + y 2p + 2 +L+ y 3p
valeurs y' suivantes : y' p + 1 = , y' 3p + 1 = , y' 5p + 1 = ,
p p p
2 2 2

y1 yp +1
+ y 2 +L+
etc. Lorsque p est pair, les moyennes échelonnées sont : y' p + 2 = 2 2 , y' 3p + 2 =
p
2 2

yp +1 y 2p + 1 y 2p + 1 y 3p + 1
+ y p + 2 +L+ + y 2p + 2 +L+
2 2 , y' 5p + 2 = 2 2 , etc.
p p
2

La méthode des moyennes échelonnées consiste ainsi à remplacer un nombre m de valeurs


consécutives de la variable par leur moyenne arithmétique. De la sorte, on lisse la chronique, en
adoucissant les variations saisonnières pour obtenir le trend.

Cette méthode entraîne cependant la perte de nombreuses observations. C'est pourquoi le choix de
p doit être judicieux, lorsqu'il n'est pas imposé. En général, on essaie de faire correspondre p à la
durée d'une période ; et de façon conventionnelle, si t correspond à des années, p sera égal à 3 ou 5 ;
en trimestres, p = 4, et en mois, p = 12.

Les moyennes mobiles d'ordre p ou sur p saisons d'une variable y, pour p impair, sont les valeurs
y1 + y 2 +L+ y p y 2 + y 3 +L+ y p + 1 y 3 + y 4 +L+ y p + 2
y' suivantes : y' p + 1 = , y' p + 3 = , y' p + 5 = , etc. Lorsque p
p p p
2 2 2

y1 yp+1 y2 yp+ 2
+ y 2 +L+ + y 3 +L+
est pair, les moyennes mobiles sont : y' p + 2 = 2 2 , y' p + 4 = 2 2 , y' p + 6 =
p p
2 2 2
38

y3 yp + 3
+ y 4 +L+
2 2 , etc. Les numérateurs sont appelés sommes mobiles.
p

La méthode des moyennes mobiles permet aussi de lisser la chronique en remplaçant un nombre p
de valeurs consécutives de la variable par leur moyenne arithmétique. Mais, le calcul ici est décalé
de période en période, en réutilisant toutes les données du calcul précédent sauf la première.
Contrairement donc à la méthode des moyennes échelonnées, seules les observations au début et à
la fin de la série disparaissent.

En cela, la méthode des moyennes mobiles estime mieux le trend, et est la méthode empirique la
plus couramment utilisée.

Le choix de p se fait selon les mêmes principes qu'avec la méthode des moyennes échelonnées.

Calculons les moyennes échelonnées et mobiles pour estimer le trend de la chronique donnée par le
tableau 11. Nous prenons p = 4 puisque les données sont trimestrielles. Les moyennes sont données
dans le tableau suivant :

Valeurs observées
18 5 22 18 26 7 10 24 22 9 15 26
(yt)
Moyennes
échelonnées d'ordre – – 16,75 – – – 16,25 – – – 15,25 –
4 (y't)
Moyennes mobiles
– – 16,75 18 16,75 16 16,25 16 16,875 17,75 – –
d'ordre 4 (y't)

2.2 LA DÉTERMINATION DES COEFFICIENTS SAISONNIERS

On estime les variations saisonnières St, supposées identiques à chaque période, par des
coefficients saisonniers notés γj, qui correspondent à des variations périodiques identiques en
modèle additif, ou à des variations périodiques de proportion identique en modèle multiplicatif.
Ainsi, il n'y aura qu'un coefficient saisonnier pour chaque saison j qui résume les variations
correspondantes à cette saison. Au total, il y aura m coefficients saisonniers pour toute série
chronologique.

Il existe deux méthodes d'estimation des coefficients saisonniers : la méthode analytique et la


méthode pratique.

2.2.1 MÉTHODE ANALYTIQUE

Cette méthode est valable quand le trend est linéaire.

Partons du moment où les paramètres α et β du trend ont été estimés par la méthode des moindres
carrés (supra).

En modèle additif, nous pouvons écrire que yt = y't + St = αt + β + γj, puisque nous avons indiqué que
les variations saisonnières sont estimées par γj (elles se résument à γj pour chaque saison j). Ce qui
implique que γj = yt – αt – β = yij – α[m(i – 1) + j] – β = yij – α[m(i – 1) + j] – y + α t = yij – α[m(i – 1) +
j– t]– y.
39
n
Calculons ∑ γ j .
i =1

n n n n n n n n ( n − 1)
∑γ j = ∑ yij – α[m ∑ (i – 1) + ∑ j – ∑ t ] – ∑ y ⇒ nγj = ∑ yij – α[m + nj – n t ] – n y ⇒ nγj =
i =1 i =1 i =1 i =1 i =1 i =1 i =1 2
n n ( n − 1)
∑ yij – α[m + nj – n nm+ 1 ] – n y ⇒ γj = y j – α(j – m+ 1 ) – y où y j est la moyenne
i =1 2 2 2
saisonnière (moyenne de y sur la saison j).

Par la méthode analytique donc, en modèle additif, avec un trend linéaire, les coefficients
saisonniers sont donnés par la formule γj = y j – y – α(j – m+ 1 ).
2

m m m m m m m
On démontre bien que ∑ γ j = 0 : ∑ γ j = ∑ [ y j – y – α(j – m+ 1 )] = ∑ y j – ∑ y – α ∑ j + α ∑ m+ 1
j= 1 2 j= 1 j=1 2 j=1 j=1 j=1 j=1
m (m + 1) m (m + 1)
=my –my – α +α = 0.
2 2

Mais en réalité, il arrive que cette somme soit légèrement différente de 0. Ce qui impose la
correction des γj pour satisfaire à ce principe de conservation des aires.

m
∑γ j
m j =1
Si donc, après calculs, ∑ γ j ≠ 0, on calcule un coefficient correcteur noté ρ = pour retenir en
j= 1 m
définitive comme coefficients saisonniers corrigés les valeurs γj' = γj – ρ.

En modèle multiplicatif, pour un trend exponentiel, on retrouve cette valeur de γj en passant par
les logarithmes. En effet, en partant de yt = y't × St = λAt × γj, on arrive à lnyt = (lnA)t + lnλ + lnγj,
puis à lnγj = ln y j – ln y – (lnA)(j – m+ 1 ).
2

m m m m m m
Dans ce cas ∑ lnγ j = 0, et, par suite, ∑ γ j = m. En effet, ∑ lnγ j = ∑ ln y j – ∑ ln y – (lnA)( ∑ j –
j =1 j= 1 j =1 j=1 j=1 j=1
m m m (m + 1) m (m + 1)
∑ m+ 1 ) = ∑ ln y j – m ln y – (lnA)( – ) = m ln y – m ln y = 0.
j=12 j=1 2 2

m
Si après calculs, ∑ γ j ≠ m, les coefficients saisonniers corrigés sont obtenus en divisant les γj par ρ
j= 1

γj
: γj' = .
ρ

Déterminons par la méthode analytique, les coefficients saisonniers pour la série des chiffres
d'affaires (tableau 11).

Comme nous avons estimé que cette série suivait un modèle additif (supra), nous aurons alors :
γ1 = y 1 – y – α(1 – 4+ 1 ) = 22 – 16,83 + 0,37 × 1,5 = 5,725 ;
2
γ2 = y 2 – y – α(2 – 1 ) = 7 – 16,83 + 0,37 × 0,5 = – 9,645 ;
4+
2
γ3 = y 3 – y – α(3 – 1 ) = 15,67 – 16,83 – 0,37 × 0,5 = – 1,345 ;
4+
2
γ4 = y 4 – y – α(4 – 1 ) = 22,67 – 16,83 – 0,37 × 1,5 = 5,285.
4+
2
40

avec γ1 + γ2 + γ3 + γ4 = 5,725 – 9,645 – 1,345 + 5,285 = 0,02. D'où ρ = 0,02 = 0,005 et comme coefficient
4
saisonniers corrigés :

γ1' = 5,725 – 0,005 = 5,72 ;


γ2' = – 9,645 – 0,005 = – 9,65;
γ3' = – 1,345 – 0,005 = – 1,35 ;
γ4' = 5,285 – 0,005 = 5,28.

2.2.2 MÉTHODE PRATIQUE

Dans cette méthode, on calcule d'abord les St qui sont les différences entre les valeurs observées et
les valeurs obtenues par le trend en modèle additif, ou leurs rapports en modèle multiplicatif : St =
yt
yt – yt' (modèle additif) ou St = (modèle multiplicatif).
y't

Ensuite, on détermine les coefficients saisonniers qui sont les moyennes des St pour chaque saison :
n
∑ S ij
γj = i =1
. A la place des moyennes, il est également possible de déterminer les médianes des St.
n

m m
Enfin, on doit vérifier que ∑ γ j = 0 (en modèle additif), ou ∑ γ j = m (en modèle multiplicatif) ;
j= 1 j= 1
m
∑γ j γj
j =1
sinon on les corrige en calculant ρ = , et les γj' : γj' = γj – ρ (modèle additif) ou γj' =
m ρ
(modèle multiplicatif).

Calculons par la méthode pratique, les coefficients saisonniers pour la série des chiffres d'affaires
(tableau 11).

La série suivant un schéma additif, nous calculons les St = yt – yt'. Les yt' seront les valeurs données
par l'équation du trend (il est également possible d'utiliser les moyennes mobiles). Nous obtenons
les résultats suivants :

St = yt – yt' 1 2 3 4
1 3,205 – 10,165 6,465 2,095
2 9,725 – 9,645 – 7,015 6,615
3 4,245 – 9,125 – 3,495 7,135
γj 5,725 – 9,645 – 1,348 5,282
γj' 5,7215 – 9,6485 – 1,3515 5,2785
m m
N.B. : ∑ γ j = 0,014 ; ρ = 0,0035 et ∑ γ 'j = 0.
j= 1 j =1

2.3 ÉTABLISSEMENT DE LA CHRONIQUE AJUSTÉE ET PRÉVISION

Si l'on somme dans le modèle additif, ou si l'on multiplie, dans le modèle multiplicatif, les deux
composantes, trend et coefficient saisonnier, calculées, on obtient la chronique ajustée, notée y) t :
) )
y t = yt' + γ j' (modèle additif) ou y t = yt' × γj' (modèle multiplicatif).

La série ajustée y) t représente l'évolution qu'aurait subi le phénomène, si le mouvement saisonnier


était parfaitement régulier d'année en année.
41

γ '
1 γ '
1
 
Son équation est donc donnée par y) t = αt + β +  γ 2' ou y) t = (αt + β) ×  γ 2' .
γ Mm γ Mm
 '  '

La série ajustée permet ainsi de faire des prévisions : pour un t donné, on calcule la valeur de y) t .

Donnons la série ajustée pour notre exemple sur les chiffres d'affaires.

 5,72
Elle est donnée par l'équation y) t = 0,37t + 14,425 + −−91,,35
65 , en utilisant les coefficients saisonniers
 5,28
obtenus par la méthode analytique. Il est également possible d'utiliser ceux donnés par la méthode
pratique.

A partir de là nous pouvons calculer la valeur du chiffre d'affaires au troisième trimestre de l'année
4, soit y15 = 0,37 × 15 + 14,425 – 1,35 = 18,625.

2.4 LA DÉTERMINATION DE LA SÉRIE CVS (DÉSAISONNALISATION)

Pour déterminer la série CVS ou série corrigée des variations saisonnières, notée yt*, on calcule
les différences (en modèle additif), ou les rapports (en modèle multiplicatif), entre les valeurs
observées yt et les coefficients saisonniers correspondants : yt* = yt – γj' (modèle additif) ou yt* =
yt
(modèle multiplicatif).
γ 'j

La série CVS exprime ce qu'aurait été la réalité du phénomène s'il n'y avait pas eu d'influence
saisonnière.

La détermination de la série CVS consiste finalement à une élimination de l'influence saisonnière


appelée également désaisonnalisation.

Désaisonnalisons notre série de chiffres d'affaires ; autrement dit, déterminons sa série CVS.

Les résultats sont donnés par le tableau suivant :

yt* = yt – γj' 1 2 3 4
1 12,2785 14,6485 23,3515 12,7215
2 20,2785 16,6485 11,3515 18,7215
3 16,2785 18,6485 16,3515 20,7215
N.B. : Calculs effectués avec les coefficients saisonniers obtenus par la méthode pratique. On aurait
pu également utiliser les coefficients saisonniers donnés par la méthode analytique.

2.5 LA DÉTERMINATION DES VARIATIONS ACCIDENTELLES

Il suffit d'enlever à la série CVS l'influence du trend pour obtenir la composante accidentelle : en
y *t
modèle additif, εt = yt* – yt' ; en modèle multiplicatif, εt = .
y't

La différence (en modèle additif) ou le rapport (en modèle multiplicatif) entre yt et y) t permet
42
y
également de déterminer les variations accidentelles : εt = yt – y) t (modèle additif) ou εt = ) t
yt
(modèle multiplicatif).

Que valent les variations accidentelles pour le deuxième trimestre de l'année 2 pour notre série de
chiffres d'affaires ?

Il s'agit de calculer ε6 : ε6 = y6* – y6' = 16,6485 – 16,645 = 0,0035 ou ε6 = y6 – y) 6 = 7 – 7,005 = – 0,005.


43
CHAPITRE VIII
LES NOMBRES INDICES

Les nombres indices ou les indices sont des indications chiffrées caractérisant l'évolution d'une
grandeur économique et permettant de comparer des évolutions de grandeurs économiques
(production, prix, revenus…). Ces grandeurs varient dans le temps (elles prennent des valeurs
différentes d'une date à l'autre), mais aussi dans l'espace (elles sont différentes d'une localité à
l'autre).

Considérons par exemple les prix et les quantités de certains produits à Ouagadougou entre 1983 et
1990.

Tableau 12 Prix de vente moyen au détail (en FCFA) et quantités produites (en milliers de kg)
du beurre de karité, du maïs et du mil à Ouagadougou, de 1983 à 1990

Année Prix Quantités


Beurre de karité Maïs Mil Beurre de karité Maïs Mil
1983 441 92 89 2151 70 392
1984 587 106 119 3716 77 417
1985 674 115 113 1072 136 631
1986 534 104 84 1647 155 679
1987 441 63 63 4211 267 632
1988 403 98 97 3778 227 817
1989 497 77 78 837 257 649
1990 423 76 81 650 258 449
Source : Construit à partir de l'Annuaire séries longues du Burkina Faso, INSD, 1996.

Les prix du beurre de karité, du maïs, du mil, ou les quantités de beurre de karité, de maïs, de mil,
considérés séparément, constituent des grandeurs simples. Et leur évolution sera étudiée à l'aide
d'indices simples. Alors que l'évolution des grandeurs complexes qui sont composées de
différentes grandeurs simples (exemple : un niveau général de prix ou de quantités), sera étudiée
par des indices synthétiques.

SECTION 1
LES INDICES SIMPLES OU INDICES ÉLÉMENTAIRES

Soit G, une grandeur économique notée Gt à la date t où t varie de 0 à n.

Gt peut être également une grandeur économique dans un espace précis si on considère t comme un
indicateur de lieu.

Ainsi, nous ne présenterons que les indices chronologiques, puisque les indices spatiaux se
définissent et se comprennent de la même manière.

1.1 DÉFINITION ET INTERPRÉTATIONS

L'indice simple de G permet de calculer sa variation mesurée à une date quelconque par rapport à
une autre date.

Nous noterons It/0(G) l'indice de la période t par rapport à la période 0. Il est égal au rapport entre
44

la valeur de G au temps t et sa valeur au temps 0 : It/0(G) = G t .


G0

La date t est appelée date courante, et la date 0, date de base ou date de référence. Pour les
indices spatiaux, on repère t par des sigles exprimant les espaces considérés.

On convient généralement de multiplier le résultat de ce rapport par 100 pour éviter de traîner trop
de chiffres après la virgule. Nous aurons donc souvent : It/0(G) = G t × 100. Ce qui signifie que la
G0
grandeur G est à l'indice It/0(G) à la date t, base 100 à date 0.

En fait, l'indice simple, lorsqu'il n'est pas multiplié par 100, est le (coefficient) multiplicateur (voir
chapitre II, la moyenne géométrique, sur les taux de croissance).

G t −G 0
Nous établissons ainsi les relations entre indice simple et taux de variation : Tt/0(G) =
G0
G
(taux de variation de G entre 0 et t) ⇔ Tt/0(G) = G t – 0 ⇔ Tt/0(G) = It/0(G) – 1 ⇔ It/0(G) = 1+
G0 G0
Tt/0(G).

Un indice simple supérieur à 1 (ou à 100) indique une augmentation de la grandeur G entre les deux
dates, et un indice simple inférieur à 1 (ou à 100) en indique une diminution. Un indice simple égale
à 1 (ou à 100) indique que la valeur de G est restée la même.

Calculons les indices simples du prix et des quantités du beurre de karité en 1990, base 100 en 1983.

bk
P90 Q bk
I90/83(Pbk) = × 100 = 423 × 100 = 95,92 et I (Q bk
) = 90
× 100 = 650 × 100 = 30,22.
90/83
bk
P83 441 Q bk
83 2151

Pour interpréter ces indices, nous dirons par exemple que le prix du beurre de karité a diminué de
4,08 % entre 1983 et 1990 et que sa quantité a également baissé de 69,78 %.

Nous pouvons dire aussi que le prix du beurre de karité a été multiplié par 0,9592 entre 1983 et
1990 et que sa quantité l'a été par 0,6978.

1.2 PROPRIÉTÉS DES INDICES SIMPLES

Les indices simples possèdent une propriété importante, la propriété de circularité ou de


transférabilité, qui permet d'effectuer des changements de base, de raccorder des séries d'indices,
et d'établir les relations de réversibilité et d'enchaînement. Les indices simples possèdent
également les propriétés de multiplication et de division.

1.2.1 LA CIRCULARITÉ

Les indices simples possèdent la propriété de circularité, de transférabilité ou de transitivité. Ce


G
qui permet d'écrire que It/0(G) = It/1(G) × I1/0(G). En effet, G t × 1 = G t .
G1 G0 G0

Par exemple, en partant du tableau 12, nous vérifions que I90/83(Pbk) = I90/86(Pbk) × I86/83(Pbk) : 0,9592 =
0,7921 × 1,2109.
45
1.2.2 LA RÉVERSIBILITÉ

La réversibilité des indices simples découle directement de la propriété de circularité.

Elle entraîne que It/0(G) = 1 , puisque It/0(G) × I0/t(G) = It/t(G) = 1.


I 0 / t (G )

Ainsi, en partant du tableau 12, nous avons bien I90/83(Pbk) = 1 : 0,9592 = 1 .


I83 / 90 (P bk ) 1,0425
1.2.3 ENCHAÎNEMENT

En généralisant la propriété de circularité, nous énonçons la relation suivante qui est celle de
l'enchaînement : It/0(G) = It/t–1(G) × It–1/t–2(G) × ... × I1/0(G).

En application, nous aurons par exemple avec le tableau 12, I90/83(Pbk) =


I90/89(Pbk) × I89/88(Pbk) × I88/87(Pbk) × I87/86(Pbk) × I86/85(Pbk) × I85/84(Pbk) × I84/83(Pbk) : 0,9592 =
0,8511 × 1,2333 × 0,9138 × 0,8258 × 0,7923 × 1,1482 × 1,3311.

1.2.4 CHANGEMENT DE BASE ET RACCORDEMENT

La propriété de circularité permet d'effectuer des changements de base. En effet, à partir d'un indice
simple base 100 à la date 0 (It/0(G)), il est possible d'obtenir sa valeur base 100 à une nouvelle date 1
quelconque (It/1(G)), en divisant l'ancien indice par l'indice de la nouvelle date base 100 à l'ancienne
date (I1/0(G)). I1/0(G) est appelé coefficient de raccordement.

I t / 0 (G )
Autrement dit, It/1(G) = .
I1 / 0(G)

Calculons par exemple l'indice du prix du beurre de karité en 1983 base 100 en 1982, sachant qu'il
est égal à 171,6 en 1983 base 100 en 1980 et à 173,93 en 1982 base 100 en 1980.

I83 / 80 (Pbk )
I83/82(Pbk) = = 1,7160 = 0,9866 × 100 = 98,66.
I82 / 80 (P bk ) 1,7393

Cette possibilité d'effectuer des changements de base permet de raccorder des séries d'indices
calculés à des dates de référence différentes, c'est–à–dire de les ramener à une même et unique base.

1.2.5 MULTIPLICATION

Lorsque la grandeur G est égale au produit de deux autres grandeurs économiques E et F, alors
l'indice élémentaire de G est égal au produit des indices élémentaires de E et de F : si G = E × F,
alors It/0(G) = It/0(E) × It/0(F).

En effet It/0(G) = G t = E t ×Ft = E t × Ft = It/0(E) × It/0(F).


G0 E 0 ×F0 E0 F0

La variation de G dépend ainsi de la variation de E et de celle de F.

Pour illustrer cette propriété, considérons G comme étant le chiffre d'affaires d'une entreprise qui
vend un produit i, avec E le prix unitaire du produit, et F la quantité produite. Nous aurons donc G
= E × F.
46

Selon la propriété de multiplication, l'indice simple du chiffre d'affaires de l'entreprise l'année t


base 100 l'année 0, sera aussi égal au produit de l'indice simple du prix et de l'indice simple de la
quantité. L'évolution du chiffre d'affaires dépend donc de l'évolution du prix et de celle de la
quantité.

1.2.6 DIVISION

Lorsque la grandeur G est égale au rapport de deux autres grandeurs économiques E et F, alors
l'indice élémentaire de G est égal au rapport des indices élémentaires de E et de F : si G = E , alors
F
It / 0(E)
It/0(G) = .
It / 0(F)

Et Et
F E0 It / 0(E)
En effet It/0(G) = G t = Ft
= Et × 0 = = .
G0 E0 E0 Ft Ft It / 0(F)
F0 F0

SECTION 2
LES INDICES SYNTHÉTIQUES

Les indices synthétiques interviennent dans l'étude de la variation de plusieurs grandeurs


économiques en même temps. Ils sont, en quelque sorte, des moyennes d'indices simples.

Les plus courants sont l'indice de Laspeyres et de Paasche ; l'indice de Fisher étant une synthèse
des deux.

2.1 L'INDICE DE LASPEYRES

Pour des produits i (i = 1, ..., n), posons Pti, le prix du produit i à la date t, Qti, sa quantité à la date t
P0i Q i0
et α0i = n
, le coefficient de pondération qui mesure la part du produit i sur sa valeur totale à la
∑ P0i Q i0
i =1
n
date 0 ( ∑α 0i = 1).
i =1

L'indice de Laspeyres des prix l'année t, base 100 l'année 0, est noté Lt/0(P) avec Lt/0(P) =
n n
∑ Pti Q i0 P0i Q i0 ∑ Pti Q i0
n n n Pi
∑ α 0i It / 0(P i ) ⇔ Lt/0(P) = i=1
n
car Lt/0(P) = ∑ α 0i It / 0(P i ) = ∑ n × ti = i =n 1 .
i =1 i =1 i =1 P
∑ P0i Q i0 ∑ P0i Q i0 0 ∑ P0i Q i0
i =1 i =1 i =1

n
L'indice de Laspeyres des quantités l'année t base 100 l'année 0 est Lt/0(Q) = ∑ α 0i I t / 0(Q i ) ⇔
i =1
n
∑ P0i Q it
i =1
Lt/0(Q) = n
.
∑ P0i Q i0
i =1

L'indice de Laspeyres se présente donc (au regard de ses premières formules) comme une moyenne
47
arithmétique d'indices simples pondérée par des coefficients de pondération9 calculés à la date de
base.

2.2 L'INDICE DE PAASCHE

Pour des produits i (i = 1, ..., n), posons Pti, le prix du produit i à la date t, Qti, sa quantité à la date t
i i
et αti = nPt Q t , le coefficient de pondération qui mesure la part du produit i sur sa valeur totale à la
∑ Pti Q it
i =1
n
date t ( ∑α ti = 1).
i =1

L'indice de Paasche des prix l'année t, base 100 l'année 0, est noté Pt/0(P) avec Pt/0(P) = 1
n α ti

i = 1 I (Pi )
t/0
n
∑ Pti Q it
⇔ Pt/0(P) = i=1
n
.
∑ P0i Q it
i =1

L'indice de Paasche des quantités l'année t, base 100 l'année 0, est noté Pt/0(Q) avec Pt/0(Q) =
n
∑ Pti Q it
1 ⇔ Pt/0(P) = i =1
.
n α ti n
∑ ∑ Pti Q i0
i =1 I i i =1
t / 0 (Q )

L'indice de Paasche se présente donc (au regard des premières formules) comme une moyenne
harmonique des indices simples pondérée par des coefficients de pondération calculés à la date
courante.

En outre, les secondes formules permettent de voir que les indices de Laspeyres et de Paasche des
prix mesurent la variation de la valeur d'un ensemble de biens à quantités constantes. Ils mesurent
donc la variation moyenne des prix de ces biens. Quant aux indices de Laspeyres et de Paasche des
quantités, ils mesurent la variation de la valeur d'un ensemble de biens à prix constant ; ils
mesurent en définitive la variation moyenne des quantités de ces biens.

2.3 L'INDICE DE FISHER

L'indice de Fisher est la moyenne géométrique des indices de Laspeyres et de Paasche.

L'indice de Fisher des prix est donc Ft/0(P) = L t / 0(P)×Pt / 0(P) et l'indice de Fisher des quantités,
Ft/0(Q) = L t / 0(Q)×Pt / 0(Q) .

Il s'ensuit que l'indice de Fisher est compris entre l'indice de Laspeyres et l'indice de Paasche : Pt/0 ≤
Ft/0 ≤ Lt/0.

9
Dans les études sur les dépenses de consommation des ménages par exemple, le coefficient de pondération est appelé
coefficient budgétaire.
48
2.4 L'INDICE DE VALEUR

L'indice de valeur est noté It/0(V) et calculé selon la formule It/0(V) = Pt Q t (un seul produit) ou
P0 Q 0
n
∑ Pti Q it
i =1
It/0(V) = n
(plusieurs produits).
∑ P0i Q i0
i =1

Il mesure la variation de la valeur d'un produit ou d'un ensemble de produits entre la date 0 et la
date t.

En multipliant un indice de prix par un indice de quantité, on obtient un indice de valeur. En effet,
on peut établir les relations suivantes :

o It/0(V) = It/0(P) × It/0(Q) ;

o It/0(V) = Lt/0(P) × Pt/0(Q) ;

o It/0(V) = Pt/0(P) × Lt/0(Q) ;

o It/0(V) = Ft/0(P) × Ft/0(Q).

Les preuves sont les suivantes :

o It/0(P) × It/0(Q) = Pt × Q t = Pt Q t = It/0(V).


P0 Q0 P0 Q 0

n n n
∑ Pti Q i0 ∑ Pti Q it ∑ Pti Q it
i=1 i =1 i =1
o Lt/0(P) × Pt/0(Q) = n
× n
= n
= It/0(V).
∑ P0i Q i0 ∑ Pti Q i0 ∑ P0i Q i0
i =1 i =1 i =1

n n n
∑ Pti Q it ∑ P0i Q it ∑ Pti Q it
i=1 i =1 i =1
o Pt/0(P) × Lt/0(Q) = n
× n
= n
= It/0(V).
∑ P0i Q it ∑ P0i Q i0 ∑ P0i Q i0
i =1 i =1 i =1

o Ft/0(P) × Ft/0(Q) = L t / 0(P)×Pt / 0(P) × L t / 0(Q)×Pt / 0(Q) = L t / 0(P)×Pt / 0(Q)×Pt / 0(P)×L t / 0(Q) = (I t / 0(V))2
= It/0(V).

2.5 PROPRIÉTÉS DES INDICES SYNTHÉTIQUES

2.5.1 LES INDICES DE LASPEYRES ET DE PAASCHE

Les indices de Laspeyres et de Paasche ne possèdent pas la propriété de circularité comme


l'indiquent les relations suivantes :

o Lt/0(P) = 1 et Lt/0(Q) = 1 (⇒ Lt/0(P) ≠ 1 et Lt/0(Q) ≠ 1 );


P0 / t(P) P0 / t(Q) L 0 / t (P) L 0 / t(Q)

o Pt/0(P) = 1 et Pt/0(Q) = 1 (⇒ Pt/0(P) ≠ 1 et Pt/0(Q) ≠ 1 ).


L 0 / t (P) L 0 / t(Q) P0 / t(P) P0 / t(Q)
49

n
∑ Pti Q i0
En effet, 1 = n 1 = i =n 1 = Lt/0(P) (même processus de démonstration pour l'indice de
P0 / t(P) ∑ P0Q 0
i i
∑ P0i Q i0
i =1 i =1
n
∑ Pti Q i0
i =1
n
∑ Pti Q it
Laspeyres des quantités) et 1 = n 1 = i =n 1 = Pt/0(P) (même processus de démonstration
L 0 / t (P) ∑ P0 Q t
i i
∑ P0i Q it
i =1 i =1
n
∑ Pti Q it
i =1
pour l'indice de Paasche des quantités).

2.5.2 LES INDICES DE FISHER ET DE VALEUR

L'indice de Fisher est réversible car Ft/0(P) = 1 (ou Ft/0(Q) = 1 ).


F0 / t(P) F0 / t(Q)

En effet, 1 = 1 = 1 = L t / 0(P)×Pt / 0(P) = Ft/0(P) (même processus


F0 / t(P) L 0 / t(P)×P0 / t(P) 1 × 1
Pt / 0(P) L t / 0(P)
démonstration pour l'indice de Fisher des quantités).

L'indice de valeur possède la propriété de réversibilité des facteurs c'est–à–dire que It/0(V) =
Lt/0(P) × Pt/0(Q) = P t/0(P) × Lt/0(Q) (voir démonstration supra).

A partir du tableau 12, calculons des indices de Laspeyres, de Paasche et de Fisher des prix et des
quantités, et l'indice de valeur à titre d'exemples :

L90/83(P) = 946945×100 = 95,66


989919

P90/83(P) = 330927×100 = 94,46


350347

F90/83(P) = 0,9566×0,9446×100 = 95,06

L90/83(Q) = 350347×100 = 35,39


989919

P90/83(Q) = 330927×100 = 34,95


946945

F90/83(Q) = 0,3539×0,3495×100 = 35,17

I90/83(V) = 330927×100 = 33,43.


989919
50
CONCLUSION
SUJETS D'EXAMEN POUR S'EXERCER

Nous proposons ici onze sujets d'examen concernant les distributions à un et deux caractères que
nous avons composés pour les étudiants de première année de sciences économiques et de gestion
de l'Université de Ouagadougou, pour les secondes sessions et celles de septembre de 1997 à 2002.

Ils doivent être traités en deux heures, sans document. Seule une calculatrice est autorisée.

SUJET DU 28 JUIN 1997

Exercice n° 1

Soit X une variable statistique. Les modalités x1 , ..., xk sont de même pondérance. La moyenne
arithmétique est notée x, la moyenne quadratique Q, la médiane Me, et l'écart-type σ.

1) Donner la définition de l'écart-médian.


2) Sachant que = 4,45; x = 2,6; que vaut Q ?

Exercice n° 2

Lors d'une enquête, on a étudié la distribution des loyers mensuels dans une commune. Les
résultats sont donnés dans le tableau sous forme d'une liste de 9 déciles (on note Dn le nième
décile).

D1 D2 D3 D4 D5 D6 D7 D8 D9
840 F 1000 F 1190 F 1310 F 1440 F 1620 F 1870 F 2300 F 3000 F

On suppose qu'il n'y a pas de loyer inférieur à 260 F ni de loyer supérieur à 5000 F.

N.B. : Bien lire toutes les questions, et construire un tableau de calculs dont la première
colonne contient les extrémités de classe ei et la deuxième les fréquences cumulées F(ei).
(Déduire le contenu des autres colonnes en fonction des formules qui seront utilisées).

1) Cette distribution est-elle plurimodale ? Pourquoi ?

2) Caractériser le centre de la distribution en calculant les loyers médian et moyen, et en les


interprétant.

3) Caractériser la dispersion de la distribution en calculant le coefficient de variation,


l'intervalle interquartile, et en les interprétant.

4) Calculer les fréquences des intervalles [1000, 3000[; [1095, 2085[ et [1000, 2000[.

5) Caractériser la concentration de la distribution en calculant la médiale, l'indice de Gini, et


en les interprétant.

Exercice n° 3

Le tableau suivant donne les productions annuelles de mil en millions de francs courants
(PtQt) et les hausses annuelles du prix du mil (Tx) de 1993 à 1996 au Burkina Faso. Pt est le
51
prix du kg de mil pour l'année t. Qt est la quantité de mil produite pour l'année t. La hausse
de prix (Tx) de l'année t est calculée sur la base du prix de l'année précédente t-1.

Années t PtQt Tx
1993 33948,5 -
1994 33570,6 7%
1995 39994,8 35 %
1996 57758,2 35 %
Source : Ministère de l'Economie et des Finances (Burkina Faso), Comité de prévision, de
conjoncture et de surveillance multilatérale, Données et indicateurs économiques et financiers.
Séries macro-économiques établies à l'aide de l'IAP, février 1997.

1) Reprendre le tableau et le compléter en figurant, dans une troisième colonne, les indices du
prix du mil de 1993 à 1996 base 100 l'année précédente (It/t-1(P)); puis en calculant dans une
quatrième colonne, les indices du prix du mil de 1993 à 1996 base 100 en 1993 (It/93(P)); et
enfin en calculant les productions annuelles en millions de francs 1993 (P93Qt) (c'est-à-dire
corrigées de l'incidence de l'inflation).

2) Calculer à l'aide d'une régression linéaire une prévision de la production, en millions de


francs 1993, pour 1997 (P93Q97). Utiliser le modèle suivant : lnxt = αt + β avec xt représentant les
productions annuelles en millions de francs 1993. Pour les années, poser t = 1 pour 1993, t = 2 pour
1994, etc. Il s'agit donc de calculer x5.

3) Quelle est alors la prévision de la production, en francs courants, pour 1997 (P97Q97), si l'on
projette une baisse du prix en 1997 de 15 % ?

Barème envisagé (nombre de points par question) :

Exercice n° 1 Exercice n° 2 Exercice n° 3


1) 2) 1) 2) 3) 4) 5) 1) 2) 3)
1 1 1 3 3 1,5 3 3 2 1,5

SUJET DU 29 SEPTEMBRE 1997

Exercice n° 1 (3/20)

Le calcul d'une somme est un des calculs les plus importants en économie, ou dans les affaires.
Pour trouver par exemple la masse salariale de 200 employés, faut-il multiplier par 200 le
salaire modal, le salaire médian ou le salaire moyen ? Justifier la réponse en définissant le
salaire modal, le salaire médian et le salaire moyen; ou en utilisant la formule de calcul du
salaire moyen.
N.B. : Toute réponse non justifiée ou incorrectement justifiée est nulle.

Exercice n° 2 (10/20)

Soit la distribution statistique suivante, donnant le nombre de salariés, par classe de salaire mensuel
d'une société :
52

Classe (en F) 500-600 600-800 800-900 900-1200 1200-1800


Effectif 9 24 15 9 3

1) Interpréter la classe modale après l'avoir déterminée. (1/20)

2) Interpréter le salaire médian, le salaire moyen et le coefficient de variation après les avoir
calculés. (3/20)

3) Calculer le premier décile D1, le neuvième décile D9 ainsi que D9 - D1. Calculer la fréquence de
l'intervalle [D1, D9[. Comment appelle-t-on cet intervalle ? L'interpréter. (3/20)

4) Interpréter la médiale et l'indice de Gini après les avoir calculés. (2/20)

5) L'indice de Gini est-il modifié si l'on augmente tous les salaires de 5 % ? Expliquer. (1/20)

N.B. : Toute interprétation incomplète, imprécise ou approximative sera considérée comme fausse.

Exercice n° 3 (7/20)

1) Au Burkina Faso, le prix moyen du kg de riz paddy est passé de 80 F en 1985 à 105 F en 1995.
Ce prix est passé de 80 F en 1985 à 85 F en 1987. De 1987 à 1994, il est passé de 85 F à 95 F.
Calculer le taux de variation du prix moyen du kg de riz paddy de 1994 à 1995. (1/20)

2) Les productions annuelles de ce riz en millions de francs courants (PtQt) sont données dans le
tableau suivant. Pt est le prix du kg pour l'année t. Qt est la quantité de riz produite pour l'année t.

Années t 1985 1987 1994 1995


PtQt 2771,5 4002,3 5505,3 8381,6
Source : Ministère de l'Economie et des Finances (Burkina Faso), Comité de prévision, de
conjoncture et de surveillance multilatérale, Données et indicateurs économiques et financiers.
Séries macro-économiques établies à l'aide de l'IAP, février 1997.

a) Déterminer les productions annuelles en millions de francs 1985 (P85Q85, P85Q87, P85Q94, et
P85Q95) (Ce sont les productions corrigées de l'incidence de l'inflation). Présenter calculs et résultats
dans un tableau approprié. (4/20)

b) Calculer à l'aide d'une régression linéaire une prévision de la production, en millions de francs
1985, pour 1996 (P85Q96). Utiliser le modèle suivant : lnxt = αt + β avec xt représentant les
productions annuelles en millions de francs 1985. Pour les années, poser t = 1 pour 1985, t = 2 pour
1987, etc. Il s'agit donc de calculer x5. (1/20)

c) Quelle serait la production, en francs courants, pour 1996 (P96Q96), si le prix du kg de riz
paddy passait de 105 F en 1995 à 110 F en 1996 ? (1/20)
53
SUJET DU 9 JUIN 1998

Exercice n° 1

Le tableau de contingence suivant est relatif à l'âge de l'époux (xi) et à celui de l'épouse (yj) relevés
pour 25 mariages :

yj
[15, 20[ [20, 25[ [25,30[
xi
[20, 25[ 4 2 0
[25,30[ 5 6 0
[30, 35[ 0 4 1
[35, 40[ 0 1 2

1) Valeurs des effectifs partiels suivants : n11 ; n23 ; n32 ; n21. (1/20)
2) Calcul de f2., f.2, f22, f32, et significations. (3/20)
3) Montrer que Σfji = 1. (0,5/20)

Exercice n° 2

1) Soit le modèle Y = t + + j où , , et j sont les paramètres estimés par la méthode analytique


d'estimation des composantes d'une série chronologique. Montrer que Σ j = 0 (j = 1, ..., m). (0,5/20)

2) On considère que Y représente le prix d'un bien et t le numéro du trimestre, et on donne le


tableau :

Trimestres
1 2 3 4
Années
1 100 90 98 102
2 101 92 99 105

On donne aussi Σiyi = 296 ; y = 98,375 et les yj = 100,5 ; 91 ; 98,5 ; 103,5. Calculer , , et les j.
Que représentent les j ? (3,5/20)

3) Quel prix peut-on prévoir pour le quatrième trimestre de la troisième année ? (0,5/20)

Exercice n° 3

Soient Lt/0(Q) et Pt/0(Q), les indices de quantité de Laspeyres et de Paasche au temps t base 100 au
temps 0, respectivement.

1) Démontrer que les indices de quantité de Laspeyres et de Paasche ne possèdent pas la propriété
de réversibilité temporelle. En déduire les relations entre ces deux indices. (1,5/20)

2) Calculer Lt/0(Q), Pt/0(Q) et Ft/0(Q) (indice de quantité de Fisher au temps t base 100 au temps 0)
sachant que L0/t(Q) = 97,94 et P0/t(Q) = 97,82. (1,5/20)

3) Commenter rapidement, pour chaque indice, l'évolution des quantités vendues. (1,5/20)
54
Exercice n° 4

On a un lot de 6 pièces de monnaies dont 3 sont fausses et les autres bonnes.

1) Quelle est la probabilité de tirer une pièce fausse ? (0,5/20)


2) Combien peut-on réaliser de combinaisons de trois pièces ? (0,5/20)
3) On tire trois pièces au hasard. Quelle est la probabilité de tirer trois bonnes pièces ? (0,5/20)

Exercice n° 5

Le tableau suivant donne des classes de chiffres d'affaires pour 30 entreprises :

Classe de chiffres d'affaires (ei) en millions de francs [0, 4[ [4, 5[ [5, 6[ [6, 8[
Nombre d'entreprises (ni) 10 6 5 9

1) Comment appelle-t-on l'ensemble des 30 entreprises ? Chaque entreprise ? (1/20)


2) Indiquer la variable statistique étudiée ici, ainsi que sa nature. (1/20)
3) Comment appelle-t-on le diagramme différentiel de cette série de chiffres d'affaires ? Le tracer.
(1/20)
4) Déterminer la classe modale de la série. (0,5/20)
5) On donne les 3 quartiles : Q1 = 3 ; Q2 = 4,83 ; Q3 = 6,33. Dessiner le box-plot de la série. (0,5/20)

Exercice n° 6

Soient 2 sociétés pour lesquelles les statistiques de répartition des salaires donnent les courbes
suivantes:

Commenter. (1/20)

SUJET DU 19 SEPTEMBRE 1998

Exercice 1

On considère la table de contingence suivante, où X est le taux de change d'un pays et Y le solde la
balance commerciale :
55

Y
[0, 4[ [4, 8[
X
[0, 10[ 0 20
[10, 20[ 40 0
[20, 30[ 0 20

Calculer et donner la signification des moyennes marginale (x) et conditionnelles (xj). (4/20)

Exercice 2

Soit la série double (xi, yi) ; i = 1, ..., n.

1) Montrer que COV(X,Y) = Σxiyi/n - xy où x est la moyenne des xi et y celle des yi. (1/20)

2) On pose Z = X + C et W = Y + D où C et D sont des constantes. Montrer que COV(X,Y) =


COV(Z,W). (1/20)

3) On considère que xi désigne le rang ou le numéro du mois et yi le niveau de pollution relevé dans
une ville de janvier 1994 à décembre 1998 (xi = 1, ..., 60).
On donne Σyi = 6000, Σyi2 = 1 500 000 et Σxiyi = 300 000.
Calculer et commenter COV(X,Y) et le coefficient de corrélation linéaire. (2/20)

4) Déterminer, en utilisant les résultats de la méthode des moindres carrés, l'équation de la droite de
régression de Y en X. (1/20)

5) A combien peut-on estimer le niveau de pollution pour le mois de janvier 1999 ? (0,5/20)

6) Si l'on pense que le niveau de pollution atteint des pics pour certains mois de l'année, quel type
d'analyse peut-on proposer pour cette série ? (1/20)

Exercice 3

Pour une année, on donne les indices de prix pour février (t = 2) et novembre (t = 11) en prenant
comme base le mois de janvier (t = 1) : I2/1(P) = 101,58 ; I11/1(P) = 105,47.

1) Pour les indices élémentaires, montrer le principe de changement de base, c'est-à-dire que It/0(P) =
It/1(P) x I1/0(P). (1/20)

2) Calculer et commenter l'indice du prix pour novembre en prenant comme base le mois de février
(I11/2(P)). (1/20)

Exercice 4

On a une urne qui contient neuf boules : deux blanches, trois noires et quatre rouges.

1) Quelle est la probabilité de tirer une boule blanche ? (1/20)

2) On tire successivement (tirage sans remise) trois boules au hasard. Quelle est la probabilité de tirer
une boule blanche, une noire et une rouge ? (1/20)
56

Exercice 5

1) Soit la série simple (xi, ni) ; i = 1, ..., k et Σni = n. On note x la moyenne de cette série et 2X sa
variance. On considère la variable Y = aX + b où a et b sont des constantes. Exprimer la moyenne y et
la variance 2Y de la nouvelle série (yi, ni) respectivement en fonction de x et 2X. (2/20)

2) Une altitude moyenne est de 3 865,8 m et l'écart-type de 868,6 m par rapport au niveau de la mer.
On pose que 1 pieds = 0,3048 m (et donc que 1 m = 3,281 pieds). Sachant qu'on mesure l'altitude en
pieds par rapport au niveau d'un lac situé à 400 m au-dessus du niveau de la mer, calculer la moyenne
et la variance des altitudes en pieds. (1/20)

Exercice 6

Il y a 5000 chambres sur le site du campus universitaire, et leurs prix de location se répartissent
comme suit :

Prix de location ei [4800, 5000[ [5000, 5300[ [5300, 5700[ [5700, 6000[ [6000, 6800[ Total
Nombre de chambres ni 400 1200 1400 1200 800 5000

1) Représenter cette série par un histogramme de densité. (1/20)

2) Peut-on affirmer que le loyer de plus d'un quart de ces chambres est inférieur à 5000 ? Quel
indicateur a-t-on utilisé pour répondre à cette question ? Donner la valeur de cet indicateur. (1,5/20)

SUJET DU 15 JUIN 1999

Ce tableau retrace les ventes (en milliers de francs) d'une entreprise pendant quinze ans.

Années (t) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Ventes (y) 20 30 46 65 67,5 62,5 66,5 63 68 65,5 67 64 62,5 55,5 45

1) Représenter le nuage de points. (1 pt)

2) Représenter sur le même graphique les fonctions suivantes : (4 pts)

a) y = 15,1t + 2,5 ;
b) y = 13,587(1,486)t ;
c) y = - 0,71t2 + 12,85t + 12,52.

3) Au vu des graphiques, quelle fonction ajuste le mieux le nuage de points ? (1 pt)

4) En considérant les quatres premières années, calculer le coefficient de corrélation linéaire pour les
fonctions linéaire et exponentielle. (2 pts) (N.B. : Les deux fonctions ont été déterminées par la
méthode des moindres carrés, et on donne la variance de t t2 = 1,25; la variance de y y2 = 290,1875 ;
et la variance de lny lny2 = 0,1967).

5) Quelle fonction ajuste le mieux les quatres premiers points ? (1 pt)

6) Déduire de la fonction exponentielle : (3 pts)


57

a) le taux de croissance annuel moyen des ventes sur les quatre premières années ;
b) l'indice des ventes l'année 4 base 100 l'année 1 ;
c) le taux de croissance global des ventes entre l'année 1 et l'année 4.

7) Pour l'année 1, l'entreprise a réalisé des ventes s'élevant à 12000 francs au premier semestre et à
8000 francs au second semestre ; pour l'année 2, 17000 et 13000 francs ; pour l'année 3, 25000 et
21000 francs ; et pour l'année 4, 35000 et 30000 francs.

a) Estimer le trend de cette série chronologique. (2 pts)


b) Calculer les coefficients saisonniers par la méthode des rapports au trend. (2 pts)
c) Donner la série CVS. (2 pts)
d) Si le trend se maintient dans le temps, prévoir le montant des ventes au second semestre de l'année
5. (2 pts)

SUJET DU 21 SEPTEMBRE 1999

Une société a mis en place un service "Budgets" chargé d'établir les prévisions de son activité. Les
statistiques suivantes sont relatives à l'évolution de ses ventes trimestrielles (en millions de francs) des
deux dernières années :

Trimestres 1 2 3 4
Années
1997 390 420 410 380
1998 400 420 440 470

1) Représenter graphiquement cette chronique (nuage de points). (2 pts)

2) Ajuster par la méthode des moindres carrés :

a) les quatre premiers points du nuage par une équation de la forme y=at2+bt+c (ajustement
polynomial) ; (3 pts)
b) les quatre points suivants par une équation de la forme : y = at + b ; (2 pts)
c) le trend de la chronique par une équation de la forme y = t + (méthode des moindres carrés). (2
pts)

d) Représentations graphiques. (3 pts)

3) Déterminer les ventes trimestrielles de 1999. (8 pts)

SUJET DU 20 JUILLET 2001

I) Le tableau suivant est relatif aux valeurs des exportations (X) et des importations (Y) de 9 pays :

Y
[25, 500[ [500, 1500[ [1500, 2500[ ni.
X
[10, 500[ 4 n12 n13 n1.
[500, 1500[ n21 1 n23 n2.
[1500, 2500[ n31 n32 1 n3.
n.j 5 2 2 9
58

On sait que x 1 = 404, x 2 = 1500, et x 3 = 1127,5.

1) Compléter le tableau de contingence relatif à cette double série en déterminant les effectifs manquants.

II) Entre 1995 et 1999, les valeurs des exportations (X) et du PIB (Y) du Burkina ont été les suivantes :

Exportations (en milliards de FCFA) 106,6 111,1 115,4 152,9 145,3


PIB (en milliards de FCFA) 892,6 948,0 1000,1 1057,5 1118,5
Source : Ministère de l'Economie et des Finances, Rapport sur l'économie du Burkina Faso 1999, p. 27

2) Représenter le nuage de points.

3) Calculer la covariance de X et de Y, COV(X, Y), sachant que l'équation de la droite de régression de Y en


X est Y = 3,7X + 534,846, et que la variance de X, V(X), est égale à 361,24.

4) Calculer le coefficient de corrélation linéaire, r, sachant que l'équation de la droite de régression de X en Y


est X = 0,21Y – 84,4394.

III) Soit la série des ventes trimestrielles en valeurs (Yt) d'une entreprise sur trois années et des moyennes
mobiles correspondantes (Yt') :

t 1 2 3 4 5 6 7 8 9 10 11 12
Yt 20 6 24 20 28 8 10 26 24 10 16 28
Yt' – – 18,5 19,75 18,25 17,25 17,5 17,25 18,25 19,25 – –

5) Calculer les coefficients saisonniers, γj, en considérant que la série suit un schéma additif.

On pose Yt = Pt × Qt où Pt représente le prix de vente et Qt les quantités vendues au trimestre t, et on indique


que l'indice des quantités vendues au trimestre 12 base 100 au trimestre 11, I12/11(Q), est égal à 109,375 ; que
I11/10(Q) = 128, et que I10/9(Q) = 83,33.

6) Déterminer la variation du prix entre le trimestre 9 et le trimestre 12.


7) En déduire l'indice du prix au trimestre 9 base 100 au trimestre 12, I9/12(P).

IV) Les coefficients de pondération relatifs à l'année 1987 pour le beurre de karité, le maïs et le mil, α87bk,
α87ma et α87mi, sont égaux respectivement à 0,97, 0,01 et 0,02. On sait également que l'indice du prix du beurre
de karité en 1990 base 100 en 1987, I90/87(Pbk), est égal à 95,92 ; que l'indice du prix du maïs en 1990 base 100
en 1987, I90/87(Pma), est égal 120,63 ; et que l'indice du prix du mil en 1990 base 100 en 1987, I90/87(Pmi), est égal
à 128,57.

8) Calculer l'indice de Paasche des prix de ces biens en 1987 base 100 en 1990 : P87/90(P).
9) En déduire l'indice de Laspeyres des prix en 1990 base 100 en 1987 : L90/87(P).
10) Montrer, à l'aide de 8) et de 9), que les indices de Laspeyres et Paasche des prix ne sont pas réversibles.

SUJET DU 21 SEPTEMBRE 2001

SUJET 1 (à TRAITER PAR LES ETUDIANTS QUI REPRENNENT LE C1)


I) Le coût total de production, à Banfora, de 10 unités d'un bien est égal à 50. A Bobo, il est égal à 60 pour la
production de 15 unités, et à Ouaga, il est égal à 75 pour la production de 20 unités.

1) Calculer le coût moyen de production, CM1, pour une firme qui produit 100 unités de ce bien dans chaque ville.
2) Calculer le coût moyen de production, CM2, pour une firme qui en produit à Banfora pour un coût total égal à
250, à Bobo pour un coût total égal à 400, et à Ouaga pour un coût total égal à 562,5.
3) Quels types de moyenne ont été utilisés pour calculer CM1 et CM2 ? Expliquer.

II) On établit que le premier quartile, Q1, d'une série statistique est égal à 95,25, que le second, Q2, est égal à 100,
et que le troisième, Q3, est égal à 115,25. La plus petite valeur de la série est 80, et la plus grande, 170.
59

4) Dessiner le box-plot de la série.


5) En déduire une appréciation de sa dispersion et dire si sa moyenne arithmétique sera significative.

III) Une population se répartie de la façon suivante selon des classes de valeurs : 15 % entre 150 et 225, 35 % entre
225 et 275, 15 % entre 275 et 400, 20 % entre 400 et 500, et 15 % entre 500 et 700.

6) Nommer et construire le diagramme différentiel relatif à cette répartition.


7) Déterminer le mode et la médiane de la répartition.
8) La répartition est-elle symétrique ?
r −2
9) Tirer l'expression du moment centré d'ordre 3, µ3, de la formule µr = Σ (−1)α Cαr mα1 m r −α +(−1)r −1(r −1)m r1 .
α =0
10) Faire de même pour le moment centré d'ordre 4 : µ4.

SUJET 2 (à TRAITER PAR LES ETUDIANTS QUI REPRENNENT LE C2)

I) Les moyennes conditionnelles de X et de Y d'une série double sont x 1 = 13, x 2 = 9, y 1 = 5 et y 2 = 3,33. Les
variances conditionnelles de X sont V1(X) = 16 et V2(X) = 24. Les effectifs nij sont n11 = 10, n21 = 40, n12 = 30 et n22 =
20.

1) Calculer la moyenne marginale de Y, y , à partir des moyennes conditionnelles de y, y i.


2) Calculer la variance marginale de X, V(X), à partir des variances conditionnelles de X, Vj (X).
3) Calculer la covariance de X et de Y : COV(X, Y), sachant que ΣΣnijxiyj = 4000.

II) Les coefficients saisonniers pour une série chronologique, suivant un schéma additif, sont : γ1 = 6,19 ; γ2 = – 3,81
;
γ3 = – 1,83 ; et γ4 = 5,83.

4) Faut-il les corriger ? Expliquer.


5) Calculer les coefficients saisonniers corrigés s'il le faut.

III) Soient deux biens 1 et 2. Le prix du bien 1 connaît un taux de variation de – 16 % entre 1998 et 1999, de 28 % entre
1999 et 2000, et de 9 % entre 2000 et 2001. 7000 unités du bien 1 ont été achetées en 1998 et 13000 en 2001.

6) Déterminer l'indice de valeur du bien 1 en 2001 base 100 en 1998 : I01/98(V1)


7) Déterminer la variation du prix du bien 2 entre 1998 et 2001, sachant que l'indice des quantités du bien 2 en 2001
base 100 en 1998, I01/98(Q2), est égal à 125, et que son indice de valeur en 2001 base 100 en 1998, I01/98(V2), est égal à
50.
8) Calculer l'indice de Laspeyres des quantités en 2001 base 100 en 1998, L01/98(Q), sachant que les coefficients
budgétaires du bien 1 pour les années 1998 et 2001 sont α981 = 0,6 et α011 = 0,5.
9) Calculer l'indice de Paasche des quantités en 2001 base 100 en 1998 : P01/98(Q).
10) Calculer l'indice de Fischer des quantités en 2001 base 100 en 1998 : F01/98(Q).

SUJET 3 (à TRAITER PAR LES ETUDIANTS QUI REPRENNENT LE C1 ET LE C2)


Traiter les questions 1), 2), 3), 4) et 9) du sujet 1, et les questions 1), 2), 6), 7) et 8) du sujet 2.

(A 2 points par question correctement traitée.)


60
SUJET DU 18 MAI 2002

I/ Soient les graphiques A et B suivants : Graphique B Chiffres d'affaires trimestriels (CA)


d'une entreprise sur trois ans

y Graphique A CA (yt)
Nuage de points d'une série double (x, y) 22
7 20
18
6 16
5 14
12
4
10
3 8
2 6
4
1 2
0 x 0

0 1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 9 10 11 12
Trimestres (t)

1) La liaison entre les variables x et y (graphique A) est-elle nulle, totale ou relative ? Expliquer.
2) En déduire les valeurs des rapports de corrélation de y en x et de x en y : ηy,x et ηx,y.
3) Pour formaliser l'évolution du chiffre d'affaires (graphique B), quel modèle utiliser ? Expliquer.
4) Déterminer le trend de cette série de chiffres d'affaires par la méthode des moyennes mobiles.
5) Déterminer les coefficients saisonniers.
6) Calculer l'indice du chiffre d'affaires au trimestre 12, base 100 au trimestre 1.
7) En déduire le taux de croissance trimestriel moyen du chiffre d'affaires entre les trimestres 1 et
12.

II/ Le coefficient de détermination, r2, pour une série double (x, y) est égal à 1.

8) Etablir les relations entre les coefficients de régression.

III/ On a pu obtenir les informations suivantes sur les dépenses d'un étudiant :

Année 1 Année 2
Dépenses
Prix Quantité Prix Quantité
Loyer (mensuel) 5000 8 5000 9
Tickets (restaurant) 100 480 100 540
Carburant (litre d'essence) 450 80 500 75

9) Pour mesurer l'évolution moyenne des prix entre les années 1 et 2, quel indice peut-on calculer
par exemple ? Même question pour l'évolution moyenne des quantités.

10) Donner les formules de ces indices, les calculer et les commenter.

2 points par question correctement traitée.


61
SUJET DU 6 SEPTEMBRE 2002

Indiquer le numéro de la question et la lettre correspondant à la bonne réponse.

1) On appelle population : a) l ensemble des univers statistiques ? b) des variables statistiques ? c) des
individus ? d) des modalités ? ou e) autre réponse ?
2) Le caractère est la propriété caractéristique : a) d'une population ? b) d'une unité statistique c) d'un
univers statistique ? d) d'une modalité ? ou e) autre réponse ?
3) La modalité d'un caractère quantitatif est : a) sa forme ? b) sa quantité ? c) son mode ? d) sa valeur ?
ou e) autre réponse ?
4) L'amplitude des classes d'une série dont les centres de classe sont : 52, 60, 68, 76, 84, 92 est : a) 2 ?
b) 4 ? c) 6 ? d) 8 ? ou e) autre réponse ?
5) Le chiffre d affaires d une entreprise a augmenté de 5 % par an pendant 2 ans, 9 % par an pendant 5
ans, et 12 % par an pendant 3 ans. L'augmentation moyenne sur les 10 ans est de : a) 7,84 % ? b)
9,07 % ? c) 10 % ? d) 15 % ou e) autre réponse ?
6) Une hausse de 80 % suivie d une baisse de 50 % revient: a) à une baisse de 10 % ? b) à une baisse de
20 % ? c) à une baisse de 30 % ? d) à une hausse de 10 % ? ou e) autre réponse ?
7) On donne la série statistique suivante : 14, 16, 12, 9, 11, 18. La médiane est égale à : a) 9 ? b) 11 ? c)
[12, 14[ ? d) 14 ? ou e) autre réponse ?
8) Tout quantile d ordre 0,75 est forcément : a) supérieur à la médiane ? b) inférieur à 75 % ? c)
inférieur à la moyenne arithmétique ? d) supérieur à la moyenne quadratique ? ou e) autre réponse
?
9) On donne les moments non centrés et centrés suivants : m1 = 1,2 ; m2 = 2,16 ; m3 = 4,644 ; m4 =
10,224 ; µ2 = 0,72 ; µ3 = 0,144 ; µ4 = 1,238. Le coefficient de variation est égal à : a) 30 % ? b) 40 % ? c)
50 % ? d) 60 % ? ou e) autre réponse ?
10) Soient les moments donnés au 9). Le coefficient d'aplatissement de Pearson est égal à : a) 3 ? b) 2,39
? c) 0,05 ? d) 3,4 ? ou e) autre réponse ?
11) Soient les moments donnés au 9). Le deuxième coefficient d'asymétrie de Pearson est égal à : a) 0,15
? b) 0,24 ? c) 37 ? d) 0,61 ? ou e) autre réponse ?
12) Pour une série statistique, la médiale est égale à la médiane. La concentration est alors : a) forte ?
b) égalitaire ? c) moyenne ? d) nulle ? ou e) autre réponse ?
13) Une entreprise possède trois établissements ayant les mêmes effectifs. Les salaires moyens de ces
établissements sont 4, 5, 6 et les variances 9, 8, 7. La variance des salaires dans l'entreprise est
égale à : a) 5 ? b) 8 ? c) 0,67 ? d) 8,67 ? ou e) autre réponse ?
14) COV(x, x) est égale : a) à 0 ? b) à 1 ? c) au carré de l'écart-type ? d) à 2 ? ou e) autre réponse ?
15) Dans le cas de la liaison fonctionnelle, les moyennes conditionnelles sont égales : a) aux valeurs des
variables ? b) aux moyennes marginales ? c) aux moyennes conditionnelles ? d) à zéro ? ou e) autre
réponse ?
16) Dans le cas d'un modèle additif, si on retranche les valeurs des coefficients saisonniers corrigés aux
valeurs de la série brute, on obtient : a) la série corrigée des variations accidentelles ? b) la série
ajustée ? c) la série prévisionnelle ? d) la série corrigée des variations saisonnières ? ou e) autre
réponse ?
17) Pour une série chronologique de 10 valeurs, les moyennes mobiles d'ordre 3 sont au nombre de : a) 2
? b) 3 ? c) 4 ? d) 5 ? ou e) autre réponse ?
18) L'équation du trend d'une série chronologique trimestrielle est yt' = 2t + 8. Il s'agit d'un modèle
additif. Les coefficients saisonniers sont γ1 = 3 ; γ2 = 4 ; γ3 = 1,5 ; γ4 = 2. La valeur de la série
ajustée pour t = 15 est : a) 36,375 ? b) 37,375 ? c) 39,375 ? d) 42,375 ou e) autre réponse ?
n n Pi
19) La formule ∑Pti Q it / ∑ Pti Q it 0i est celle de l'indice de : a) Paasche des prix ? b) Laspeyres des prix ? c)
i =1 i =1 Pt
Fisher des prix ? d) Laspeyres des quantités ? ou e) autre réponse ?
20) On connaît deux valeurs de l'indice élémentaire des prix d'un produit : I84/80 = 1,24 et I86/80 = 1,488.
Entre 1984 et 1986, le prix du bien: a) a baissé de 16,67 % ? b) a baissé de 20 % ? c) a augmenté de
83,33 % ? d) a augmenté de 20 % ? ou e) autre réponse ?

N.B. : Bonne réponse = 1 point. Mauvaise réponse = 1 point. Pas de réponse = 0 point.
62
SUJET DU 10 OCTOBRE 2002

N.B. : Les étudiants qui ne reprennent que le SM1, traiteront les questions 1) à 10). Ceux qui ne
reprennent que le SM2, traiteront les questions 11) à 20). Ceux qui ne reprennent que le TD,
traiteront les questions 1), 2), 3), 9), 10), 11), 14), 17), 18) et 19). Les autres (ceux qui reprennent
SM1+SM2, SM1+TD, SM2+TD ou SM1+SM2+TD), traiteront les questions 1), 2), 3), 5), 6), 11), 12),
14), 15) et 19). [2 points par question correctement traitée.]

I/ Une entreprise produit des chaussures de couleurs blanche, noire, bleue et rouge. Elle
produit les chaussures noires et bleues dans une même proportion de 25 %.

1) Quelle est la population étudiée ? Le caractère étudié et sa nature ?


2) Cette distribution peut-elle être unimodale ? Donner graphiquement un exemple.

II/ Dans une entreprise, 38 %, 62 % et 88 % des salariés ont un salaire inférieur


respectivement à 20, 24 et 30. Aucun salarié n'a un salaire inférieur à 10, ni supérieur ou
égal à 40.

3) Quelle est la population étudiée ? Le caractère étudié et sa nature ?


4) Dessiner l'histogramme et la courbe cumulative de la répartition.
5) Déterminer la classe salariale modale et le salaire médian.
6) Calculer le salaire médial.
7) Calculer le salaire moyen par changement de variable.
8) Le salaire moyen est-il représentatif ?

III/ De l'année 1 à l'année 6, les taux de croissance annuels du chiffre d'affaires d'une
entreprise ont été de 5 %, 7 %, 3 %, 1 % et 8 %.

9) Calculer le taux de croissance annuel moyen.


10) Calculer le taux de croissance global.

IV/ On donne le tableau suivant : x 3 5 5


y 2 4 6

11) Calculer les variances marginales de x et de y à partir des variances conditionnelles.


12) Représenter le nuage de points et en déduire si la liaison entre x et y est totale.
13) Vérifier en calculant les rapports de corrélation de y en x et de x en y.

V/ Les productions trimestrielles d'un bien y ont été de 47, 30, 39, 14, 62, 40, 50, 16, 69,
50, 62 et 15, sur trois ans. On a COV(t, yt) = 6,645 et V(t) = 11,92.

14) Déterminer l'équation du trend par la méthode des moindres carrés.


15) Calculer les coefficients saisonniers en admettant un modèle multiplicatif.
16) Donner une prévision de la production au deuxième trimestre de la quatrième année.

VI/ Le prix d'un bien A a augmenté de 50 % de l'année 0 à l'année 1, puis a diminué de 30


% de l'année 1 à l'année 2. L'indice du prix d'un bien B est de 120 à l'année 1, base 100 à
l'année 0, et de 130 à l'année 2, base 100 à l'année 1. La part de A sur la valeur globale
des deux biens est de 3/4 à l'année 0 et de 1/2 à l'année 1 comme à l'année 2.

17) Donner l'évolution du prix de A entre l'année 0 et l'année 2.


18) Même question pour B.
19) Donner l'évolution moyenne du prix de ces biens entre l'année 0 et l'année 1.
20) Même question entre l'année 0 et l'année 2.
63

RÉFÉRENCES BIBLIOGRAPHIQUES

1) BARTHE R., La statistique descriptive en 10 leçons. Méthode progressive "ABCD", Economica, 1989

2) CALOT G., Cours de statistique descriptive, Dunod, 1981

3) CHAUVAT G., REAU J.P., Statistiques descriptives. TD. Exercices et corrigés, Armand Colin, 1996

4) GIARD V., Statistique appliquée à la gestion, 5ème édition, Economica, 1987

5) GOUNGOUNGA C., Statistique et calcul des probabilités. Cours et exercices corrigés, 1996

6) LECOUTRE J.P., Statistique descriptive. Exercices corrigés avec rappels de cours, Masson, 1990

7) MASIERI W., Statistique et calcul des probabilités, 6e édition, Sirey, 1988

8) MASIERI W., Statistique et calcul des probabilités. Travaux pratiques. Enoncés et solutions, 6e édition,
Sirey, 1994

9) MAURICE–BAUMONT C., Statistiques et probabilités en mathématiques. B.T.S. 1ère et 2ème années,


Ellipses, 1990

10) PY B., Statistique descriptive. Nouvelle méthode pour bien comprendre et réussir, 4e édition, Economica,
1996

11) PY B., Exercices corrigés de statistique descriptive. Problèmes, exercices et QCM, 2e édition, Economica,
1994

12) WONNACOTT T.H., WONNACOTT R.J., Statistique. Economie Gestion Sciences Médecine (avec
exercices d'application), 4ème édition, Economica, 1991