Vous êtes sur la page 1sur 53

UNIVERSITE METHODISE DE COTE

D’IVOIRE

FACULTE DES SCIENCES ECONOMIQUES


ET DE GESTION

COURS D’ECONOMETRIE

LICENCE 3 ECONOMIE

Dr. BOUAFFON Yapo


Enseignant Chercheur à l’UFR SEG
Université Felix Houphouet Boigny
Cel : 05 95 32 19
08 BP 1295 Abidjan 08 République de Côte d’Ivoire
E.mail : bouaffon@gmail.com
Plan de cours

Chapitre I Introduction
1.1 Le domaine de l’analyse économique
1.2 La théorie économique et l’économétrie
1.3 Définition, objectifs et nécessité de l’économétrie
1.4 Méthodologie de la recherche économétrique
1.5 La construction de modèle économique
1.6 Le terme de l’erreur
1.7 Définitions et concepts utilisés en économétrie
1.8 Notions simples de statistique

Chapitre II Le modèle de régression linéaire simple


2.1 Introduction
2.2 Le modèle régression linéaire à deux variables
2.3 Les hypothèses du modèle de régression linéaire simple
2.4 Estimation des paramètres du modèle de régression linéaire simple : la méthode
des moindres carrés ordinaires (MCO)
2.5 Estimation des paramètres du modèle de régression linéaire simple : la méthode du
maximum de vraisemblance (MV)
2.6 Régression linéaire et forme fonctionnelle

Chapitre III Evaluation du modèle de régression linéaire


3.1 Introduction
3.2 Propriétés des estimateurs MCO
3.3 La théorie de la corrélation
3.4 La mesure du pouvoir explicatif du modèle
3.5 Inférence dans le modèle linéaire simple
3.6 La prévision dans le modèle linéaire simple

Chapitre IV La régression multiple (Modèle linéaire général)

Bibliographie
J. Johnston (1985) « Méthodes économétriques » traduit et présenté par Bernard
GUERRIEN et F. VERGARA. Economica, 3ème édition.
Régis BOURBONNAIS (2007) «Econométrie, Manuel et exercices corrigés » Dunod,
6ème édition

2
Chapitre I Introduction

1.1 Le domaine de l’analyse économique

L’économie est une science sociale, elle étudie le problème des choix dans une société
d’un point de vue scientifique, à partir d’une exploration systématique de ce problème.
Cette exploration systématique passe aussi bien par la formulation de théorie que par
l’examen de données empiriques. Une théorie est fondée sur une série d’hypothèses et
de conclusion découlant de ces hypothèses. Les théories sont des exercices logiques :
si les hypothèses sont correctes, alors les résultats se vérifient nécessairement.

La science économique a défini des théories pour formaliser les relations entre les
variables dans leurs interrelations. Ainsi par exemples : La théorie de la production
nous enseigne entre autres que la production (Y) d’un bien ou service est fonction d’un
ensemble de facteurs de production entre autres le capital (K) et le travail (L) :
Y=f(K,L) ; La théorie du consommateur nous instruit quant à elle que la demande
d’un bien X par un consommateur est fonction du revenu de ce consommateur R, du
prix du bien Px et du prix des autres biens Py : Q = f(R, Px, Py…), etc.

Le rôle de l’économétrie est de tester les propositions théoriques qui fondent ces
relations entre variables, d’obtenir des estimations numériques des coefficients de
ces relations, de faire des prévisions par rapport à leurs valeurs futures et de
faire des recommandations pertinentes à même d’aider à la prise de décision.

1.2 La théorie économique et l’économétrie

L’économie comme nous l’avons souligné plus haut est une science sociale. Son objet
d’étude est la société, et le comportement des institutions et des ménages qui la
composent. La théorie économique essaie d’expliquer les relations entre variables
économiques et utilise les informations obtenues dans un cadre théorique général pour
expliquer l’affectation des ressources, la production et la décision de répartition au
sein d’un système qui doit fonctionner dans un contexte de rareté.
L’économétrie essaie quant à elle, à partir de l’analyse statistique de données limitées,
de tirer des conclusions relatives au monde réel. Ainsi, la théorie économique tout
comme l’économétrie essaye de produire une série d’information pour améliorer la
prise de décision.

1.3 Définition, objectifs et nécessité de l’économétrie

a. Définition
Au sens littéral, l’économétrie signifie « mesure de l’économie ». Bien que la mesure
soit une part importante de l’économétrie, le domaine de cette discipline est plus
vaste ; les citations suivantes en témoignent :
 L’économétrie consiste à appliquer les mathématiques statistiques aux données
économiques pour fournir une base empirique aux modèles construits par
l’économie mathématique et obtenir des résultats mesurés.

 L’économétrie peut être définie comme l’analyse quantitative des phénomènes


économiques actuels basée sur le développement concurrent de la théorie et de
l’observation reliées par des méthodes appropriées de déduction.

3
 L’économétrie peut être définie comme l’application de méthodes statistique et
mathématique à l’analyse de statistiques économiques en vue de donner un
contenu empirique aux théories économiques et de les vérifier ou de les réfuter.

En fait, l’économétrie est une discipline essentiellement basée sur la construction


de modèles économétriques.

b. Objectifs de l’économétrie
L’économétrie à trois objectifs essentiels :
1. l’analyse, c'est-à-dire le test de la théorie ;
2. l’aide à la prise de décision, c'est-à-dire fournir des estimateurs numériques aux
coefficients des relations économiques ;
3. la prévision, les estimations numériques des coefficients sont utilisées dans
l’optique de donner une prévision des valeurs futures.

c. La nécessité de l’analyse économétrique


Si l’objectif de l’opérateur économique est de prendre la meilleure décision parmi un
ensemble de choix possibles, alors la connaissance de la direction de la relation et,
dans plusieurs cas celle de l’ampleur de la relation est nécessaire pour ne pas dire
indispensable. Ainsi, en fournissant à l’opérateur économique un support pour tester,
modifier ou réfuter si possible les conclusions contenues dans les théories
économiques, et d’affecter des signes, et des interprétations fiables aux coefficients
des variables économiques, l’économétrie se positionne comme un outil indispensable
à la prise de décision.

1.4 Méthodologie de la recherche économétrique

Afin d’atteindre les trois objectifs cités plus haut, l’économètre doit de façon
systématique conduire sa recherche en adoptant une approche logique qui comprend
cinq phases :

Phase 1 : la spécification du modèle qui servira à expliquer le phénomène que l’on


veut analyser ;

Phase 2 : la collecte des données relatives aux variables du modèle spécifié ;

Phase 3 : l’estimation du modèle spécifié ;

Phase 4 : l’évaluation des résultats de l’estimation du modèle spécifié ;

Phase 5 : l’utilisation du modèle spécifié pour la prévision/prise de décision.

1.5 La construction de modèle économique

La formulation d’un modèle économique, de même que la détermination du nombre de


variables à inclure dans ce modèle dépendront essentiellement des objectifs pour
lesquels le modèle est bâtit. On peut noter aussi que la complexité du modèle est
fonction du degré d’information que l’on voudrait obtenir pour le modèle.

4
Par exemple : le modèle économique de l’offre et de la demande cherche
traditionnellement à expliquer la relation prix-quantité sur un marché particulier. Ce
modèle comprendra trois (3) équations :

a. l’équation de la demande
QD   0  1 P1   2Yd (1 - 1)
b. l’équation de l’offre
QD   0  1 P1   2 R2 (1 - 2)
c. l’équation d’équilibre de marché
QD  QO (1 - 3)
Avec QD = Quantité de biens demandée ; QO = Quantité de biens offerte
P1 = Prix du bien ; R2 = Prix moyen des facteurs ; Yd = Revenu disponible
Les modèles plus compliqués peuvent tenter d’expliquer le comportement de plusieurs
variables. Disons cependant que les modèles économiques qui relèvent de la
microéconomie ou de la macroéconomie qui s’adressent à l’économie d’un pays ou à
une industrie, à une firme ou à un marché particulier ont des caractéristiques en
commun.
En effet, les modèles sont d’abord formulés sur la base de comportement des variables
économiques et sont déterminées par l’opération simultanée d’un certain nombre
d’opérations économiques. Ensuite, celui qui construit le modèle part d’un principe,
même si les modèles sont une signification du monde réel des plus complexes, ils
retiendront des aspects importants du secteur économique ou du système économique
étudié. Enfin, le constructeur du modèle a la conviction que les informations et le
degré de compréhension fournit par les modèles permettront de prédire le
comportement du système dans le futur et probablement de contrôler le comportement
afin d’améliorer le fonctionnement du système économique.

A titre d’exemple considérons un modèle économique basé sur les hypothèses


suivantes :

H1 : la consommation est fonction croissante du revenu disponible mais cette


consommation croit dans une proportion inférieure à celle du revenu disponible ; la
propension marginale à consommer du revenu disponible est positive mais inférieure à
l’unité (0≤ Pmc ≤1).

H2 : l’investissement est fonction directe du revenu national, mais il est fonction


décroissante du taux d’intérêt.

H3 : le revenu national est la somme de la consommation, de l’investissement et des


dépenses gouvernementales pour les biens et services.

Avant de traduire les propositions que nous venons de faire en langage mathématique,
il est essentielle de résoudre le problème de spécification, la nature des relations entre
les variables endogènes que sont la consommation, l’investissement et le revenu
national d’une part et les variables exogènes tels que l’impôt, les dépenses
gouvernementales et le taux d’intérêt d’autre part. Ces relations devront être linéaires
ou non linéaires ? Si elles sont non linéaires, devront elles avoir une forme quadratique
ou même avoir une forme de degré ≥ 2. Par ailleurs, on devrait se poser la question de

5
savoir si cet investissement est aussi fonction des périodes antérieures T-2 ; T-3 et les
profits antérieurs ou anticipés. Pour simplifier notre modèle, nous formulerons de la
façon suivante :
Ct   0  1 (Yt  Tt ) (1- 4) Equation de comportement
I t  1Yt 1   2 Rt (1- 5) Equation de comportement
Yt  Ct  I t  Gt (1- 6)
Avec les restrictions 0<α1<1 ; β1>0 ; β2<0
Et Ct = Consommation de la période t
It = Investissement de la période t
Yt = Revenu national de la période t
Gt = Dépenses gouvernementales de la période t
Tt = Impôts sur le revenu de la période t
Rt = Taux d’intérêt de la période t

Notre modèle ainsi formulé comprend deux équations de comportement et une identité
qui est l’équation (1 – 6).
Les variables Ct, It et Gt sont définies comme des variables endogènes de la période t.
Quant aux variables Rt, Yt, Tt elles sont classifiées comme variables exogènes de la
période t. Yt-1 qui était une variable endogène, l’année antérieure à l’année t est
considérée comme variable exogène de la période t.

Les équations (1-4), (1-5), (1-6) présentent le modèle sous sa forme structurelle. Quant
à la forme réduite, elle présentera le modèle de sorte que les variables endogènes
soient uniquement fonction des variables aux valeurs prédéterminées c'est-à-dire les
variables exogènes.

La forme réduite de notre modèle s’obtiendra en substituant les équations (1-5), (1-6)
dans l’équation (1-4) et nous obtiendrons :
Ct   0  1 (Ct  1Yt 1   2 Rt  Gt  Tt )
Ct   0  1Ct  11Yt 1  1 2 Rt  1Gt  1Tt
0    
Ct   1 1 Yt 1  1 2 Rt  1 Gt  1 Tt (1-7)
1  1 1  1 1  1 1  1 1  1
L’équation (1-7) représente la forme réduite de la fonction de consommation avec
0<α1<1, quant à la fonction d’investissement, elle demeure inchangée :
I t  1Yt 1   2 Rt (1-8) parce qu’elle est déjà sous la forme réduite.
En effet, l’équation de l’investissement est uniquement exprimée en fonction des
variables exogènes à la période t. Pour obtenir la forme réduite de l’équation (1-6),
nous allons écrire que :
    
Yt  0  1 1 Yt 1  1 2 Rt  1 Gt  1 Tt  1Yt 1   2 Rt  Gt
1  1 1   1 1  1 1  1 1  1
I t  (18)
Ct  (1 7)

0   G 
Yt   1 Yt 1  2 Rt  t  1 Tt (1-9)
1  1 1  1 1  1 1  1 1  1
(1-9) représente la forme réduite de la fonction du revenu national.
Le système d’équation (1-7), (1-8) et (1-9) représente la forme réduite de notre modèle
macroéconomique initial représenté par les équations (1-4), (1-5) et (1-6).

6
1.6 Le terme de l’erreur (variable résiduelle)

La différence fondamentale entre l’économiste et l’économètre réside dans le fait que


l’économètre se souci principalement du terme de l’erreur, de son importance et de son
comportement. En effet, avant que l’économiste décidera que la fonction de
consommation dépend du revenu disponible (Yd) et écrira Ct=f(Yd), l’économètre dira
que cette relation devrait inclure un terme d’erreur. Ainsi donc il écrira sa fonction de
consommation comme Ct = f(Yd,  t ) = Ct   0  1Yt   t
Sans la variable résiduelle εt, la fonction de consommation est une fonction
déterministe, alors avec la prise en compte de la variable résiduelle elle devient
stochastique.
 t désigne une variable aléatoire suivant une loi de probabilité déterminée. Le terme
 t mesure la différence entre les valeurs réellement observées de Ct et les valeurs
qui auraient dues être observées si la relation fonctionnelle avait été rigoureusement
exacte.

Pour mieux fixer les idées, supposons que nous avons des données en provenance
d’une enquête sur les ménages, Yd est le revenu disponible et Ct leurs dépenses de
consommation. Il est clair que la dépense d’un ménage dépend, en plus de son revenu,
de toute une série d’autres facteurs, tels sa taille, sa composition. Supposons donc que
nous étudions la relation entre Ct et Ydt pour les ménages ayant « même taille et même
composition ». Malgré cela il ne serait pas réaliste de s’attendre à ce que tous les
ménages avec un revenu Ydt aient la consommation (α0+ α1Ydt).

Premièrement, même parmi les ménages de taille et composition identique, il existera


des différences dans l’âge des parents et des enfants. La consommation variera aussi
en fonction des habitudes du mari (qui peut être un joueur de poker, un alcoolique…)
ou celle de sa femme. Certains ménages ont un revenu qui augmente tandis que pour
d’autres il diminue. Beaucoup de ces facteurs ne sont même pas qualifiables. Même si
ces données existaient, le nombre de variables dépasserait le nombre d’observation. En
outre, beaucoup de ces facteurs n’ont que des effets très faibles. C’est pourquoi nous
représentons « l’effet net » de toutes ces influences possibles par une seule variable
aléatoire εt.

Une deuxième raison pour ajouter le terme aléatoire à notre équation est qu’il y a peut
être un élément de hasard, fondamental et imprévisible, dans le comportement humain.

Ce sont là deux raisons suffisantes pour introduire une variable aléatoire, leurs effets
conjugués se répercutant au niveau de sa variance. La variable εt est souvent appelée
élément de perturbation ou erreur de l’équation. On ne peut pas prédire la valeur de εt
pour une quelconque observation, mais on peut proposer des hypothèses concernant
les caractéristiques principales de sa loi de probabilité.

1.7 Définitions et concepts utilisés en économétrie

a. Variable aléatoire
Une variable aléatoire est une variable dont la valeur est inconnue jusqu’à ce quelle
fasse l’objet d’une observation. La valeur d’une variable aléatoire résulte d’une
expérimentation.

7
b. Variables aléatoires discrètes et continues
- Une variable aléatoire est dite discrète si elle ne peut prendre qu’un nombre
fini de valeur que l’on peut compter en utilisant des nombres entiers. Exemple :
le nombre de fille dans un ménage : 1, 2, 3, …
- Une variable est dite continue si elle peut prendre toute valeur réelle dans au
moins un intervalle des nombres réels.

c. L’équation structurelle est une expression quantitative qui permet de déduire


un modèle tel qu’il a été conceptualisé.

d. Equation de comportement : c’est une expression quantitative qui décrit le


comportement des individus ou groupe d’individus. Exemple : fonction de
consommation, d’investissement, d’épargne, etc.

e. Equation technique : c’est une expression qui montre comment les variables
sont combinées pour donner naissance à une autre variable économique.
Exemple : fonction de production Q  AX 1b1 X 2b2 où X1 et X 2 sont des inputs
qui sont combinés pour donner Q qui est l’output ou le produit.

f. Variable économique
C’est une grandeur économique qui peut prendre des valeurs différentes d’une
observation à une autre pour un problème économique donné. La variable économique
peut être systématique, aléatoire, endogène ou exogène.
- La variable économique sera dite systématique si sa valeur peut être connue
avec certitude selon des relations spécifiques
- Elle sera dite aléatoire lorsque la détermination de sa valeur ne découle pas
d’un modèle prévisible avec certitude.
- Une variable économique est endogène lorsque sa valeur est déterminée par la
structure économique considérée dans l’étude.
- Une variable économique exogène est celle dont la valeur économique est
déterminée et connue à l’avance.

g. une série chronologique : une série chronologique est une série statistique
dans laquelle les valeurs du caractère sont fonction du temps. Une série
chronologique est encore appelée chronique ou série temporelle

h. Données en coupe transversale : ce sont des données qui sont observées au


même moment pour un échantillon d’unités (ménages, firmes, villes, pays,
etc.).

i. Population : Au sens économétrique, c’est l’ensemble de toutes les


observations possibles sur une variable.

j. Echantillon : c’est un sous ensemble de la population

k. Constante : une constante est une magnitude qui ne change pas en par
conséquent représente l’antithèse de la variable

8
l. Coefficient : Quand une constante est jointe à une variable, on l’appelle
coefficient de cette variable. Exemple : Si l’on a l’expression 5R dans un
modèle, alors 5 serait un coefficient et non pas une constante.

m. Paramètre ou constante : Quand un nombre spécifique n’est pas assigné à un


coefficient parce que ce coefficient est inconnu et par conséquent peut prendre
virtuellement n’importe qu’elle valeur, on l’appelle constante paramétrique ou
simplement paramètre. Exemple : Dans l’expression 5R, 5 est un coefficient.
Mais dans l’expression aR, R étant une variable, (a) est un paramètre.

1.8 Notions simples de statistique

 Soit x une variable aléatoire, si x prend n valeurs x1 , x2 , , xn alors leur somme


n
est donnée par : x
i 1
i  x1  x2   xn
7
Exemple, xi  2,5,3, 7,9, 6, 4 x
i 1
i  2  5  3  7  9  6  4  36
n n
 Si a est une constante alors :  axi  a xi
i 1 i 1

n n n
 Si x et y sont deux variables aléatoires, alors :  ( xi  yi )   xi   yi
i 1 i 1 i 1

 Si x et y sont deux variables aléatoires et a, b sont deux constantes, alors :


n n n

 (ax  by )  a x  b y
i 1
i i
i 1
i
i 1
i

 La moyenne arithmétique de n valeurs de x est :


1 n 1
x   xi  ( x1  x2   xn )
n i 1 n
n n n
1 n
Notons aussi que
n

 ( x  x )  0 en effet,
i
 ( xi  x )   xi   x or x 
i 1 i 1 i 1
 xi
n i 1
i 1

On peut donc écrire que :


n
nx   xi ainsi on a :
i 1
n

 ( x  x )  nx   x  nx  nx  0
i
i 1

1.9 Moyenne d’une variable aléatoire

La moyenne ou espérance mathématique d’une variable aléatoire x est la moyenne


arithmétique de cette variable aléatoire. Elle est notée E(X) et lue espérance
mathématique de X.

9
Si X est une variable aléatoire discrète qui prend les valeurs x1 , x2 , , xn avec des
densités de probabilité dont les valeurs sont : f ( x1 ), f ( x2 ), , f ( xn ) , l’espérance
mathématique de X est donnée par :
E ( X )  x1 f ( x1 )  x2 f ( x2 )   xn f ( xn )
n
E ( X )   xi f ( xi )
i 1

Quelques propriétés de l’espérance mathématique


 Si c est une constante, alors :
E(c)= c

 Si c est une constante, et X une variable aléatoire alors :


E (cX )  cE ( X )
 Si a et c sont deux constantes, et X une variable aléatoire alors :
E (a  cX )  a  E (cX )  a  cE ( X )
 Si X et Y sont deux variables aléatoires alors :
E ( X  Y )  E ( X )  E (Y )
E ( X  Y )  E ( X )  E (Y )
E ( XY )  E ( X ) E (Y ) si X et Y sont indépendantes

1.10 Variance d’une variable aléatoire

Si X est une variable aléatoire, la variance de X notée par :


Var ( X )   X2 est :
Var ( X )  E  X  E ( X )   E  X 2  2 XE ( X )  [ E ( X )]2 
2

Var ( X )  E ( X 2 )  2 E ( X ) E ( X )  [ E ( X )]2
Var ( X )  E ( X 2 )  2[ E ( X )]2  [ E ( X )]2
Var ( X )  E ( X 2 )  [ E ( X )]2
NB : LA racine carrée de la variance est appelée écart type.

Propriétés de la variance

 Var(a) = 0 pour toute constante a

 Si X et Y sont deux variables aléatoires alors :


Var ( X  Y )  Var ( X )  Var (Y )  2 cov( XY )
en effet,
Var ( X  Y )  E  ( X  Y )  E ( X  Y ) 
2

Var ( X  Y )  E  ( X  Y )  E ( X )  E (Y ) 
2

Var ( X  Y )  E  ( X  E ( X ))  (Y  E (Y )) 
2

Var ( X  Y )  E ( X  E ( X )) 2  2( X  E ( X ))(Y  E (Y ))  (Y  E (Y )) 2 

10
Var ( X  Y )  Var ( X )  2 cov( XY )  Var (Y )
de même :
Var ( X  Y )  Var ( X )  2 cov( XY )  Var (Y )
Ainsi si X et Y sont deux variables aléatoires indépendantes :
C ov( XY )  0 alors :
Var(X+Y)  Var(X-Y)
Var(X+Y)  Var ( X )  Var (Y )

11
CHAPITRE II LE MODELE DE REGRESSION LINEAIRE SIMPLE

II.1 Introduction

Dans le chapitre précédent, nous avons essayé de situer l’économétrie par rapport à la
théorie économique, de définir ce qu’est l’économétrie et de définir son objectif. Nous
avons ensuite présenté la méthodologie de recherche économétrique. La révision de
quelques concepts statistiques à clos ce chapitre.
Dans le présent chapitre, nous nous attèlerons à présenter le modèle de régression
linéaire simple, les hypothèses qui sous tendent ce modèle et l’estimation de ses
paramètres.

II.2 Le modèle de régression linéaire à deux variables

Le modèle de régression linéaire à deux variables est un modèle qui lie deux variables
entre elles à savoir :
Yt   0  1 X t   t ; t = 1,2, …,n (2-1)
Où : Yt = variable dépendante ou expliquée
Xt = variable indépendante ou explicative
εt = variable aléatoire ou terme de l’erreur
β0 et β1 sont des paramètres constants inconnus que l’on se propose d’estimer à l’aide
des observations. On dispose de n observations sur Yt et Xt ; c'est-à-dire de n couples
(Yt ;Xt) qui sont les réalisations de X et Y.

En terme graphique, l’équation (2-1) a deux composantes :


- Une composante systématique rendue par la ligne droite qui traverse le nuage
de points formé par les différentes observations c'est-à-dire E (Yˆt )   0  1 X t
et ;
- Une composante aléatoire rendue par l’écart entre la ligne droite et les points
qui ne sont pas sur cette ligne.

E(Yt )  0  1 X t

Y1
Y2

X
X1 X2

Comme la droite Yˆt passe par les points moyens, il va se trouver que des points seront
au dessus et en dessous de cette dernière. Ainsi, les observations qui sont au dessus de
la ligne donnent des valeurs positives de εt et les observations en dessous donneront

12
des valeurs négatives de εt. Et comme la ligne représentée par Yˆt passe par les points
moyens, les valeurs négatives et positives de qui sont εt s’annuleront mutuellement
de sorte que la sommation des erreurs sera nulle c'est-à-dire   i  0 .

II.3 Les hypothèses du modèle de régression linéaire simple

Estimer le modèle présenté dans l’équation (2-1) implique la détermination des valeurs
numériques des paramètres β0 et β1. Pour cela, il est nécessaire de connaitre Xt, Yt et
εt. Les deux premières sont observables (Xt, Yt) et ne pose pas de problème. Là où il y
a problème, c’est avec εt car l’erreur n’est pas observable. Ainsi, le mieux que nous
pouvons faire afin de déterminer les valeurs numériques de β0 et β1 est d’émettre des
hypothèses sur εt. Ces hypothèses sont les suivantes :

Hypothèse 1 (H1) : linéarité

Yt est une fonction linéaire de Xt ou en n’importe qu’elle transformation de Xt. C'est-à-


dire Yt   0  1 X t   t (2-1).

Hypothèse 2 (H2) : Stochasticité de εt

Les valeurs possibles de εt ne sont pas connues d’avance, elles peuvent être positives,
négatives, ou nulles. Toutes fois, quelque soit la valeur de εt, cette dernière a une
certaine probabilité de réalisation.

Hypothèse 3 (H3) : Nullité de la moyenne des erreurs

Quoique εt puisse prendre des valeurs aussi bien positives, négatives ou nulles, ces
valeurs n’annulent mutuellement. En d’autres termes la moyenne des erreurs est nulle :
E ( t )  0 (2-2)
Hypothèse 4 (H4) : Homoscédasticité

L’homoscédasticité traduit la constance de la variance du terme de l’erreur c'est-à-dire


que la dispersion de εt autour de sa moyenne est constante pour toutes les valeurs de
Xt. Ce qui signifie que les limites supérieures et inférieures du nuage de points sont à
égales distance de la ligne de régression : Var ( t )  E  t  E ( t )  E ( t ) 2   2 (2-3)
2

Limite supérieure

 a2
 b2
 a1
 b1 Limite inférieure

X1 X2 X

13
Hypothèse 5 (H5) : Normalité

Nous faisons l’hypothèse que εt suit une loi normale avec comme moyenne zéro (0) et
variance  2 :  t  N (0,  2 ) (2-4)
L’implication de la normalité est que la plupart des observations sont concentrées dans
le voisinage immédiat de la ligne de régression.

Hypothèse 6 (H6) : Nullité de la covariance entre εt et Xt

Il n’ya pas d’association linéaire entre en εt et Xt par conséquent cov(εt ,Xt ) = 0 (2-5)
En clair la variable résiduelle εt est indépendante des n variables explicatives Xt
Preuve :
Cov( t , X t )  E[( t  E ( t ))( X t  E ( X t ))]
Cov( t , X t )  E[ t ( X t  E ( X t )] car E ( t )  0
Cov( t , X t )  E[ t X t   t E ( X t )] or Xt est non stochastique E ( X t )  X t
Cov( t , X t )  X t E ( t )  X t E ( t )  0
Cov ( t , X t )  0

Hypothèse 7 (H7) : Absence d’autocorrélation entre les résidus

Cov( t ,  s )  0 t  s (2-6) car


Cov( t ,  s )  E[( t  E ( t ))( s  E ( s ))]
0 0

Cov( t ,  s )  E ( t ,  s )  0 t  s
Deux erreurs relatives à deux observations différentes (t) et (s) sont non corrélées ou
indépendantes entre elles.

Hypothèse 8 (H8) : Rang plein

Il faut qu’il y ait au moins autant d’observations que de paramètres à estimer c'est-à-
dire N>k, où k est le nombre de paramètres à estimer et N le nombre d’observations.

II-4 Estimation des paramètres du modèle de régression linéaire simple : la


Méthode des Moindres Carrés Ordinaires (MCO)

Il existe plusieurs méthodes économétriques que l’on peut utiliser pour déterminer les
valeurs numériques des paramètres de l’équation (2-1). Toutes-fois nous allons
focaliser notre étude sur la méthode dite des moindres carrés ordinaires pour des
raisons suivantes :
 Elle est simple comparée aux autres méthodes ;
 Les paramètres obtenus à partir de cette méthode ont des propriétés optimales ;
 Elle est très utilisée et demeure de loin la plus utilisée dans l’estimation des
modèles économétriques ;
 Les principes qui sous tendent la méthode des MCO sont simples à comprendre

14
Le critère de la méthode des MCO peut se décomposer en deux parties : La première
exige que la ligne de régression passe par les points moyens du nuage de points de
sorte que les déviations positives ou négatives s’annulent mutuellement c'est-à-
dire  t  0 . La deuxième partie du critère exige que la somme des carrés des erreurs
soit minimale. Ainsi, si on écrit l’équation (2-1) on a :
Yt   0  1 X t   t
Notons ̂ , ˆ les paramètres estimés de  et  de sorte que l’on ait :
0 1 0 1

Yˆt  ˆ0  ˆ1 X t (2-7)


Posons : ˆt  Yt  Yˆt  Yt  ˆ0  ˆ1 X t (2-8)
Où εt représente les déviations résiduelles (résidus).
Le principe de la méthode des MCO revient à trouver les valeurs des paramètres qui
minimisent la somme du carré des erreurs.
Elevons les résidus au carré et prenons la sommation. On a
n n

 ˆt2   (Yt  ˆ0  ˆ1 X t )2 (2-9)


i 1 i 1
n n
Nous devons minimiser  ˆ t2 , c'est-à-dire déterminer ̂0 et ˆ1 tel que  ˆ 2
t soit
i 1 i 1
minimale.
n
Pour cela nous allons déterminer la dérivée de  ˆ
i 1
2
t par rapport à ̂0 et ˆ1 .

La condition nécessaire pour un minimum exige que les dérivées premières soient
égales à zéro, ceci nous permet de déterminer ̂0 et ˆ1 .
   ˆt2
 ˆ 0
  0

   ˆt
2

 ˆ  0
 1

  ˆt2
 2 (Yt  ˆ0  ˆ1 X t ) 0 (2-10)
ˆ
0

  ˆt2
 2 (Yt  ˆ0  ˆ1 X t ) X t 0 (2-11)
ˆ 1
En réarrangeant les termes des équations (2-10) et (2-11) nous obtenons les deux
équations normales :
 Yt  nˆ0  ˆ1  X t (2-12)

 Les équations normales

X Y t t  ˆ0  X t  ˆ1  X t 2 (2-13)
En divisant l’équation (2-12) par « n » ensuite la multiplier par X nous obtenons :
XY  ˆ0 X  ˆ1 X 2 (2-14)
Divisons ensuite l’équation (2-13) par « n » pour ensuite lui soustraire l’équation (2-
14) :

15
X Y t t
 ˆ
X t
 ˆ
X t
2

(2-15)
0 1
n n n
 X tYt  XY  ˆ1 (
 X t  X 2 ) et nous obtenons :
2

n n

ˆ1   t 2t
X Y  nXY
(2-16)
 X t  nX 2
ˆ1 peut s’écrire encore :

ˆ1  
( X t  X )(Yt  Y )
(2-17)
(X t  X )2
Et comme ˆ0  Y  ˆ1 X on a :

ˆ0  Y  X  

( X t  X )(Yt  Y ) 
 (2-18)
  ( X t  X )
2

Représentation des variables par les écarts : xt  X t  X et yt  Yt  Y

ˆ1  
xt yt
(2-19)
x t
2

Et une fois ˆ1 obtenue selon l’équation (2-19) nous pouvons avoir :
ˆ  Y  ˆ X (2-20)
0 1

16
EXERCICE D’ECONOMETRIE

Directeur Administratif et Financier d’une coopérative agricole, vous vous demandez


s’il faut ou non souscrire un contrat de maintenance pour une machine à très haute
performance que la coopérative vient d’acquérir. Le coût de maintenance est censé
être lié au temps d’utilisation de la machine. Yt représentant le coût annuel de
maintenance exprimé en centaines de mille francs CFA et Xt le nombre d’heures
d’utilisation de la machine par an, l’échantillon de 10 observations (n = 10) prélevé a
permis de dresser le tableau statistique suivant :
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Yt 17,0 22,0 30,0 37,0 47,0 30,5 32,5 39,0 51,5 40,0
Xt 13 10 20 28 32 17 24 31 40 38

1) Estimez par la méthode des MCO la droite de régression liant le coût annuel de
maintenance à la durée annuelle d’utilisation de la machine et interprétez la valeur
des coefficients. (Yt = a + bXt +Ɛt).
2) Rappelez les formules définissant les estimateurs sans biais des variances et
    
covariances  2 ,  2 ,  2 , cov(a, b) et calculez au fur et à mesure leur valeur
a b

numérique respective.
3) Dressez le tableau d’analyse de la variance et testez au seuil de 5% la signification
d’ensemble (globale) de la régression estimée.
4) Calculez le coefficient de détermination non ajouté R2 et interprétez le résultat.

5) Déterminez un intervalle de confiance au seuil α=5% pour  2 et interprétez le


résultat.
6) Dans l’hypothèse où l’entreprise n’utiliserait pas la machine pensez-vous que le
coût de maintenance de la machine serait statistiquement significatif au seuil α=5%
?
7) Les impacts des variations du temps d’utilisation de la machine sur le coût de
maintenance de la machine sont-ils statistiquement significatifs au seuil α = 5% ?
comparativement au test de signification globale de la question 2), quelle remarque
pouvez-vous faire ?
8) L’entreprise s’attend à utiliser la machine 30 heures par an. Quelle serait dans ce
cas, votre prévision de coût de maintenance de la machine.

9) Si le contrat de maintenance coûtait 3 millions de francs CFA par an, allez-vous y


souscrire pour le compte de l’entreprise ? pourquoi ? pourquoi pas ?

17
II–5 Régression linéaire et forme fonctionnelle

Une spécification (modèle) est dite linéaire lorsque Y (variable expliquée) ou une
quelconque transformation de Y peut être exprimée comme une fonction linéaire de X
(variable explicative) ou d’une quelconque transformation de X.

On notera aussi qu’un modèle de régression peut-être linéaire dans les variables ou
dans les paramètres ou à la fois dans les variables et dans les paramètres.

Exemples :
- le modèle de régression Yt = a0 + a1 X1t + εt est linéaire à la fois dans les
paramètres et dans les variables.

- Le modèle Yt = a0 + a1 Log Xt + εt est linéaire dans les paramètres et non dans


les variables.

- Le modèle Yt = a0 + a1² Xt + εt est linéaire dans les variables mais pas dans les
paramètres.

- Le modèle Yt  X t e t n’est ni linéaire dans les paramètres, ni linéaire dans les


variables.

Les transformations suivantes, suivant les modèles ci-après sont nécessaires pour
pouvoir utiliser la méthode MCO et obtenir les estimateurs sans biais des
paramètres.

- Log Y = α + βX + εt, ce modèle est de la forme semi-log parce que le


logarithme intervient seulement sur Y. Pour ce modèle, le nuage de point dans
le plan (X,Y) est non linéaire. En posant Z = logY on a : Z = α + βX + εt. Cette
équation transformée donne dans le plan (Z, X) un nuage de point qui
s’apparente à une droite et donc la méthode MCO peut appliquer directement à
cette équation.

- Yt  b0 X tb1e t . Ces modèles ont de la forme double log ou log – log : LogY =
logb0 + b1logX + ε dans la mesure où le modèle nécessite le log à la fois de X
et de Y

Si Y* = logY, b0* = log b0, X* = logX alors Y* = b0* + b1X* + ε

18
CHAP. III Evaluation du Modèle de Régression Linéaire

III – 1 Introduction

Dans le chapitre précédent, nous avons présenté et estimé le modèle de régression


simple, sans toutefois nous poser de question sur la fiabilité ou la qualité des
estimateurs obtenus. Etant donné l’objectif de l’économétrie qui est d’aider à la prise
de décision, il est essentiel que l’on s’assure que les estimateurs obtenus ont des
propriétés désirables et donc fiables. Ce présent chapitre va donc nous permettre de
mieux apprécier les estimations obtenues dans le chapitre précédent.

III – 2 Propriétés des estimateurs MCO

Ici nous voulons voir si les estimateurs obtenus par la méthode du MCO ont des
propriétés désirables. Les propriétés désirables sont : être linéaire, être sans biais et
avoir la plus petite variance.

III – 2- 1 L’estimateur ˆ1

 ˆ1 est linéaire en Yt

ˆ1    ( X  X )Y  Y  ( X  X )
( X t  X )(Yt  Y )
 t t t

(X t  X) 2
(X  X ) (X  X )
t
2
t
2

0

Car ∑(xt - x ) = ∑Xt - n x = n x - n x = 0

On pose que
(Xt  X )
wt  , et on note que wt est une quantité exogène parce que dépendant de
 ( X t  X )2
Xt et donc peut être traité comme une constante.

ˆ1   wtY t  w1Y1  w2Y2  ...  wk Yk


ˆ1 est une fonction linéaire de (ou en)Yt

 ˆ1 est sans biais

ˆ1 est un estimateur sans biais de β1 si et seulement si E( ˆ1 ) = β1. En d’autres termes
ˆ1 est sans biais si sa moyenne est égale à sa vraie valeur.
Montrons que β1 est sans biais.
ˆ1   wtY t et Yt   0  1 X t   t
ˆ1   wt (  0  1 X t   t )
ˆ1   0  wt  1  wt X t   wt  t

or w 
(X  X ) t
 0 car (X  X) 0
(X  X )
t 2 t
t

19
Notons aussi que

 wt   ( Xt  X )2 t  1
(X  X )X
 t
car (X t  X ) X t   ( X 2t  XX t )  X 2t  X  X t
(X t  X ) X t   X 2t  nX 2   ( X t  X ) 2

ˆ1  1   wt  t
E ( ˆ1 )  1   wt E ( t ) comme E( t )  0 ; on a :
E ( ˆ1 )  1
ˆ1 est un estimateur sans biais de 1

 ˆ1 est convergent


Var ( ˆ1 )  0
ˆ1 est un estimateur convergent de 1 si
quand n  
2 2
Var ( ˆ1 )  E  ˆ1  E ( ˆ1 )   E  ˆ1  1 
or :
ˆ1  1   wt  t  ˆ1  1   wt  t
 
Var ( ˆ1 )  E   wt  t   E   w2t  2t  2 wt w,t  t  ,t 
2

 t t , 
1 
Var ( ˆ )  w E ( )  2 w w E (  )
2
t
2 ,
t  ,
t t t t
t t ,
Or, d’après les hypothèses :
E ( t2 )   2 ;
E ( t  t , )  0 si t  t ,
Var ( ˆ1 )   w2t 2   2  w2t

(Xt  X ) ( X t  X )2
Or wt   w 2

 ( X t  X )2  ( X t  X )2  ( X t  X )2
t

 2
Var ( ˆ1 ) 
(X t  X )2
Lorsque
n   alors (X t  X ) 2 tend également vers , d'où Var(ˆ1 ) tend vers 0
 ˆ1 est convergent.

III – 2- 2 L’estimateur ̂0


 ̂0 est linéaire en Yt

20
on sait que ˆ0  Y  ˆ1 X et que ˆ1 
 ( X t  X )Yt
 ( X t  X )2
ˆ0  Y  
( X t  X )Yt X
(X  X ) t
2

ˆ0 
 Y  X  ( X  X )Y
t t t

n (X  X ) t
2

 Yt X ( X t  X )Yt 
ˆ0     
 n  ( X t  X )2 
1 X (Xt  X ) 
ˆ0     Yt
 n  ( X t  X )2 
1 X (Xt  X )
Posons :  t (gamma)   qui est une quantité exogène parce que
n  ( X t  X )2
dépendant de Xt et donc peut être traité comme une constante.
ˆ0    tY t   1Y1   2Y2  ...   k Yk
̂0 est une fonction linéaire en Yt

 ̂0 est un estimateur sans biais


ˆ0    tY t et Yt   0  1 X t   t
ˆ0    t (  0  1 X t   t )
ˆ0   0   t  1   t X t    t  t
1 2 3

1 X (Xt  X ) 
(1)     2 
 n  ( X t  X ) 
t

n X  (Xt  X ) (X  X )
  
n  ( X t  X )2
or t
0
(X  X )
t 2
t

n
 t 
n
1

1 X (Xt  X ) 
(2)  X    n  X t
 ( X t  X )2 
t t


  X  n
X X  ( X t  X )X t
t

(X  X )2
t t
t

On sait que :
(X  X )X t t
 1 d’où :
(X  X ) t
2

21
  X  n  X  X  X  0
X t
t t

 X  0 t t

ˆ      
0 0 t t

E ( ˆ )      E ( )
0 0 t t
0

E ( ˆ0 )   0
̂0 est un estimateur sans biais de  0

 ̂0 est convergent


2 2
Var ( ˆ0 )  E  ˆ0  E ( ˆ0 )   E  ˆ0   0 
Or ˆ0   0    t  t  ˆ0   0    t  t
Var ( ˆ0 )  E    t  t 
2

Var ( ˆ0 )    2t E ( t ) 2 on pose que : E ( t ) 2   2 voir hypothèse 4


Var ( ˆ0 )   2   2t

  2
t ?

1 X (Xt  X ) 
t    
 n  ( X t  X )2 
2
1 X ( X t  X )2 2 X (Xt  X )
 2
 2  
n  ( X t  X )  ( X t  X ) n  ( X t  X )2
t 2 2

 
X (Xt  X )  1 X (Xt  X ) 
2 2
1
 2
 
n  ( X t  X )2  ( X t  X )2
 2   2 
n (Xt  X ) 
t

 0 
2
1 X
 2
t  
n  ( X t  X )2
Var ( ˆ0 )   2   2t 
 
2 1 X
2

2
 Var ( ˆ
 )     

1 X 
 t n 
0 2
 2
   

n ( X X ) 
 ( X t  X )2 
t

1
Lorque n   ;  0 et  ( X t  X ) 2 tend vers , d'où Var(ˆ0 ) tend vers 0
n
ˆ
  est donc convergent ou converge en probabilité vers  .
0 0

Nota Bene :

22
Calcul de Covariance ( ˆ0 )( ˆ1 ) : cov(ˆ0 , ˆ1 )

X  2
On démontre que Cov( ˆ0 , ˆ1 )  
 ( X t  X )2
Dans les formules de Var ( ˆ0 ) , Var ( ˆ1 ) et Cov( ˆ0 , ˆ1 ) , nous avons la variance des
résidus  2 qui est inconnue. Il faut donc lui trouver un estimateur sans biais ˆ 2 . On
  ˆt2 
démontre que E     .
2

 n  2 

Par conséquent, en appelant ˆ  l’estimateur sans biais de   alors : ˆ


2 2 2

 ˆ
t
2

n2
Ce résultat peut être généralisé dans le cas du modèle à k variables explicatives, pour

donner : ˆ2 
 ˆt2
nk

On démontre aussi que :


 ˆt2   (Yt  Y )2  ˆ12  ( X t  X )2

III – 3 La théorie de la Corrélation

3-3-1 Présentation Générale

Lorsque leurs phénomènes ont une évolution commune, nous disons qu’ils sont
« corrélés ». La corrélation simple mesure le degré de liaison existant entre ces deux
phénomènes représentés par des variables. Si nous cherchons une relation entre trois
variables ou plus, nous ferons appel alors à la notion de corrélation multiple.

Nous pouvons distinguer la corrélation linéaire, lorsque tous les points du couple de
valeurs (x, y) des deux variables semblent alignés sur une droite, de la corrélation non
linéaire lorsque le couple de valeurs se trouve sur une même courbe d’allure
quelconque.

Deux variables peuvent être :

- En corrélation positive ; on constate alors une augmentation (ou diminution, ou


constance) simultanée des valeurs des deux variables ;

- En corrélation négative ; lorsque les valeurs de l’une augmentent, les valeurs


de l’autre diminuent ;

- Non corrélées, il n’y a aucune relation entre les variations des valeurs de l’une
des variables et les valeurs de l’autre.

Le tableau 3-1, en croisant les critères de linéarité et de corrélation, renvoie à une


représentation graphique

23
Tableau 3-1 : Linéarité et corrélation

Corrélation positive Corrélation négative Absence de corrélation


Relation linéaire Graphe 1 Graphe 2 Graphe 5
Relation non linéaire Graphe 3 Graphe 4 Graphe 5

Graphe 1
Graphe 2

Graphe 3 Graphe 4

Graphe 5

3.3.2 Mesure du Coefficient de corrélation

Mesure du coefficient de corrélation linéaire

La représentation graphique ne donne qu’une « impression » de la corrélation entre


deux variables sans donner une idée précise de l’intensité de la liaison, c’est pourquoi
nous calculons une statistique appelée coefficient de corrélation linéaire simple, notée
"  x , y " ou "rx , y " . Il est égal à :

24
"  x , y  rx , y 
Cov( x, y )

 xy

(X t  X )(Yt  Y )
 x y  x y (X t  X )2  (Y  Y )
t
2

Avec
Cov (x, y) ; бxy = Covariance entre x et y ;
бx et бy = écart type de x et écart type de y

On peut démontrer que, par construction ce coefficient reste compris entre -1 et 1

- Proche de 1, les variables sont corrélées positivement ;


- Proche de -1, les variables sont corrélées négativement ;
- Proche de 0, les variables ne sont pas corrélées.

III – 4 Mesure du Pouvoir explicatif du Modèle

Après avoir estimé les valeurs des paramètres sur la base de l’échantillon, après avoir
aussi calculé les différentes variances de ces estimateurs, il serait souhaitable que nous
puissions déterminer le degré du pouvoir explicatif de la variable ou des variables
indépendantes du modèle de régression. En d’autres termes, nous voudrions savoir
dans quelles mesures les variations de la variable dépendante Y sont expliquées par
l’estimation linéaire de la relation entre Y et X .

Le coefficient de détermination

Yt   0  1 X t   t 
ˆ ˆ ˆ  Yt  ˆ0  ˆ1 X t  ˆt  Yt  Yˆt  ˆt
Yt   0  1 X t  Yˆt

Posons :
Yt  Yt
Yt  Y  Yt  Y
Yt  Y  Yt  Y  Yˆt  Yˆt  (Yt  Yˆ )  (Yˆt  Y )
(Y  Y )  (Y  Yˆ )  (Yˆ  Y )
t t t t

(Yt  Y ) peut être assimilé à l’écart totale entre yt et sa moyenne y . C’est cet écart que
le modèle de régression essaie d’expliquer.

(Yˆt  Y ) représente l’écart entre la valeur d’estimation Yˆt et la moyenne Y . C’est cet
écart qui est expliqué par le modèle de régression.

(Yt  Yˆt ) représente l’écart entre l’observation Yt et sa valeur estimée Yˆ . C’est l’écart
qui demeure inexpliquée par le modèle de régression. Il représente le terme de l’erreur
t .

Etant donné que l’explication de l’écart entre l’observation et sa moyenne est notre
objectif principal, nous devions tenir compte du fait que :

25
Yt  Y  0 ; Yt  Y  0 ou Yt  Y  0 , c’est pourquoi on écrit que :

 (Y  Y )   (Y  Yˆ )   (Yˆ  Y )  2  (Yt  Yˆt )(Yˆt  Y )


2 2 2
t t t t
(1) (2) (3) *

*  (Yt  Yˆt )(Yˆt  Y )   ˆt (Yˆt  Y )   ˆtYˆ t  Y  ˆ t


ˆt 0 0

 (Y  Yˆ )(Yˆ  Y )  0
t t t

 (Y  Y )   (Yˆ  Y )   (Y  Yˆ )
2 2 2
t t t t

 (Y  Y )
2
t = Variation totale de Yt ou somme totale des Carrés (STC)

 (Yˆ  Y )
2
t = Variation de Yt expliquée (par Xt) ou Somme des Carrés de la
Régression (SCR)

 (Y  Yˆ )
2
t t = Variation inexpliquée ou somme des Carrés des erreurs (SCE)

Pour mesurer le pouvoir explicatif de notre modèle de régression, nous voudrions


obtenir un indice qui montre la proportion des variations de la variable Yt expliquée
par l’expression de la régression.

Un tel indice se présente comme suit :


 (Y  Y )   (Yˆ  Y )   (Y  Yˆ )
2 2 2
t t t t
STC SCR SCE

STC  SCR  SCE


STC SCR SCE
 
STC STC STC
SCR SCE
1 
STC STC
SCR
Si on pose que R 2 
STC
SCR SCE
R2   1
STC STC
 (Yˆt  Y )  (Yt  Yˆt )
2 2

R 
2
 1
 (Yt  Y )  (Yt  Y )
2 2

 (Y  Y )   (Y  Yˆ )
2 2

R 2
 t t t

 (Y  Y )
2
t

R 2 est le coefficient de détermination non ajusté


R 2 = coefficient de corrélation
La valeur de R² est comprise entre 0 et 1

26
- Si R² = 1 ou 100% , l’équation de régression explique 100% des variations de
la variable dépendante Yt
- Si R² = 0, cela signifie que l’équation de régression n’explique aucune
variation de la variable dépendante Yt
- Si R² є ]0 ; 1[ ou 0 < R² < 1

 Si R² est proche de zéro (0) l’équation de régression n’explique qu’une


faible proportion des variations de Yt

 Si R² est proche de 1, l’équation de régression explique une grande


proportion des variations de Yt.

Il ne faut pas attacher trop d’importance à la valeur du coefficient de détermination,


qui est loin d’être un critère suffisant pour juger de la qualité d’un modèle.

Par ailleurs, R² à tendance à croître avec le nombre de variables explicatives du


modèle, même si ces variables n’on rien à voir avec le phénomène étudié. Pour pallier
à cet inconvénient, certains auteurs ont proposé d’introduire un R² corrigé noté R ² et
défini par :
N 1
R2  1 (1  R 2 )
N k
SCR / ( N  k )
R2  1
SCT / ( N  1)
on a : R 2  R 2 et si n est grand R 2  R 2

Cependant, ce coefficient n’est pas pertinent pour comparer le pouvoir explicatif


entre plusieurs modèles ne comprenant pas le même nombre de degré de liberté. Il
convient cela de calculer le coefficient de détermination corrigée par les degrés de
liberté := 1

III-5 Inférence dans le modèle linéaire simple

3-5-1 Intervalle de confiance pour les paramètres

Entreprendre une estimation ponctuelle est une démarche que l’on peut considérer
comme relativement naturelle : si l’on se trouve placé face à un phénomène aléatoire
dépendant d’un paramètre inconnu, il est logique de chercher à disposer d’une valeur
numérique de ce paramètre. Il existe cependant de nombreuses situations où une telle
estimation ponctuelle n’est pas, en elle-même, d’un grand intérêt.

Ainsi, imaginez-vous-même assistant au dépouillement d’une élection municipale.


Alors qu’une partie seulement des suffrages est connues, vous pourriez estimer la
proportion des électeurs ayant voté pour votre liste. Supposons 50,4%. Cette
estimation ponctuelle est-elle éclairante ?

Certes, elle donne une idée des résultats du scrutin, mais suffirait-elle à vous rassurer ?
Ne préfériez-vous pas voir affirmer qu’il y a de très fortes chances pour que la

27
proportion des votants favorables à votre liste soit comprise par exemple entre 50,2%
et 50,7%.

Estimer un paramètre en montrant qu’il appartient, avec une probabilité donnée


à un intervalle, est ce que l’on appelle réalisé une estimation par intervalle de
confiance.

Exemple introductif et définitions

L’entreprise pour laquelle vous travaillez envisage de s’implanter sur le marché


Burkinabé pour vendre une nouvelle boisson de sa fabrication. Ce marché ne
l’intéresse que si la consommation moyenne par an et par habitant est de 0,20 litre. Si
cette consommation est comprise entre 0,20 et 0,40 litre, elle exportera à partir de la
Côte d’Ivoire. Si la consommation moyenne dépasse 0,40 litre, elle envisage la
création d’une unité de production au Burkina. Une enquête auprès de 400 personnes
montre que, sur cet échantillon, la consommation moyenne est de 0,23 litre. Quelle
décision faut-il prendre ?

Nous avons ici une situation où une estimation ponctuelle est peu intéressante.
Manifestement, les dirigeants de votre entreprise préféreraient qu’on puisse leur
donner une fourchette de valeurs, dans laquelle la consommation moyenne ait toute
chance de situer.

Faisons ainsi l’hypothèse que la distribution des consommations individuelles est


normale, et appelons x n l’échantillon de valeurs dont on dispose (avec n = 400).
Imaginons que l’on puisse trouver, sur un échantillon gaussien X n issu de N ( m,  ) ,
deux statistiques, An et Bn, telles que Prob{An ≤ m ≤ Bn} = 0,99

Le paramètre m qui représente la consommation moyenne par individu aurait donc


99% de chance d’appartenir à l’intervalle [ An ; Bn], dont les bornes sont aléatoires.
X m
On sait que : n  N (0,1)
0 / n

Désignons par μ le fractile ou quantité d’ordre α avec α=99,5% de la loi normale


centrale réduite (μ =2,5758). La loi normale étant symétrique, on a alors :


 X m 

Pr ob    n     99%

 0 / n 

 L’évènement
X m
  n 
0 / n
est équivalent successivement, aux évènements suivants :
 
 0  X n  m   0
n n
 
Xn   0  m  Xn   0
n n

28
0 0
Donc, si on appelle An la statistique X n   et Bn la statistique X n   on
n n
obtient, par construction : Prob {An ≤ m ≤ Bn} = 99%

L’intervalle [An ; Bn], dont les bornes sont aléatoires est appelé intervalle de Confiance
pour le paramètre m. On dit qu’il est construit au niveau de confiance 99%.

Si l’écart type  0 , supposé connu, est égal à 0,10 litre, on peut calculer numériquement
la réalisation de [An ; Bn].

Pour n = 400 et x n = 0,23 litres on a :


0,1
An = 0,23 – 2,5758  0,217
20

0,1
Bn = 0,23 – 2,5758  0,243
20

Ce résultat, qui est une estimation de m par intervalle de confiance, invite votre
entreprise à pénétrer le marché burkinabé en exportant directement à de la C.I puisque
la réalisation [0,217 ; 0,243] est inclus dans l’intervalle [0,20 litre ; 0,40 litre]

29
Intervalle de confiance pour les paramètres

Etant donné Yt = a + bxt +εt, déterminer un intervalle de confiance pour b par exemple,
c’est trouver un intervalle [bmin ; bmax] tel que Prob [bmin ≤ b ≤ bmax] = P = 1 – α
bˆ  b
 loi de student à n-2 ddl  tc
ˆ bˆ
Pr ob  tn/22  tc  tn/22   1  
bˆ  b  /2
tn/22   tn  2
ˆ bˆ
ˆ bˆtn/22  bˆ  b  ˆ bˆtn/22
bˆ  ˆ bˆtn/22  b  bˆ  ˆ bˆtn/22
bˆ  ˆ bˆtn/22  b  bˆ  ˆ bˆtn/22

Intervalle de confiance pour la variance résiduelle

ˆ 2
Théorème : La quantité (n  2) 2  une loi de  2 (khi-deux) et on peut donc trouver

dans la table de cette loi les valeurs 12 ayant la probabilité 1-α/2 d’être dépassées et
 2 2 ayant la probabilité α/2 d’être dépassées et l’on a :
 ˆ 2 
Pr ob   2 (1 /2)( n 2)  (n  2) 2   (2 /2)( n 2)   1  
  
(n  2)ˆ  2
( n  2)ˆ  2
  2  2
 ( /2)( n 2)
2
 (1 /2)( n  2)

3 - 5 - 2 Le test d’Hypothèses

Avant d’arriver aux procédures du test d’hypothèse, il est important de percevoir la


logique des décisions relatives au rejet ou à l’acceptation des hypothèses.

DECISIONS Décision relative à Ho (D1) Décision relative à H1 (D2)


Hypothèses vraies
Pas d’erreur Erreur de première espèce α
H0
Erreur de seconde espèce Pas d’erreur
H1

Au vue de ce tableau, l’erreur qui consiste à rejeter l’Hypothèse nulle Ho alors qu’elle
est vraie est une erreur de première espèce ; la probabilité de commettre une erreur de
première espèce appelée α est généralement appelée "Niveau ou seuil significatif".

30
L’erreur consistant à accepter Ho alors qu’elle est fausse est appelée erreur de seconde
espèce.

3 - 5 - 2 - 1 Procédure des tests d’Hypothèses

a) L’Hypothèse nulle

L’Hypothèse nulle ou Hypothèse de base noté Ho, spécifie ou attribue une valeur à un
paramètre.
Soit une fonction de demande quelconque de la forme suivante Qt = βo + β1 Pt + β2 Yt
+ εt, une hypothèse nulle peut être définie par : Ho : β2 = 0

Le terme zéro ici indique que notre hypothèse est correcte, alors Yt a un effet nul sur
Qt.
Ainsi l’hypothèse nulle est ce à quoi nous croyons jusqu’à ce que l’on vous prouve le
contraire. Si on arrivait à nous prouver le contraire alors on rejetterait l’Hypothèse
nulle.

b) L’Hypothèse alternative

Celle-ci est une hypothèse logique, noté H1 que nous acceptons si l’hypothèse nulle H0
est rejetée. L’hypothèse alternative est flexible et dépend dans une certaine mesure de
la théorie économique.

Ainsi, pour l’Hypothèse nulle H0 : β2 = 0, il y a trois Hypothèses alternatives et


possibles :

 H1 : β2 ≠ 0. Ici, rejeter l’Hypothèses nulle H0 : β2 = 0 signifie que β2 prend


d’autres valeurs et que ces valeurs peuvent être positives ou négatives (on parle
de test bilatéral).

 H1 : β2 > 0 ; Ici, rejeter l’Hypothèse nulle conduit à la conclusion que le


paramètre β2 est positif (on parle de test unilatéral).

 H1 : β2 < 0. Ici, rejeter l’Hypothèse nulle conduit à la conclusion que le


paramètre β2 est négatif (on parle de test unilatéral).

Si dans le cadre de l’analyse d’une régression simple (une seule variable dépendante)
nous sommes amenés à tester ces hypothèses suivantes au seuil α.
α pouvant être égal à 0,01 ; 0,05 ou 0,10 nous procéderons de la manière suivante :

 Test unilatéral à gauche


Il est dit unilatéral à gauche si l’ensemble de rejet w de H0 est d’un seul tenant et se
situe à l’extrémité à gauche de la distribution de la loi de densité :

31
H 0 : 1  1
H1 : 1  1
ˆ  
tc  1 1  student (n  2) (tn  2 )
ˆ ˆ
1

Règle de décision : Si t c  tn 2  alors on rejette H 0

 Test unilatéral à droite

Le test est dit unilatéral à droite si la zone de H0 est d’un seul tenant et se situe à
l’extrémité droite de la distribution de la loi de densité.
H 0 : 1  1
H1 : 1  1
ˆ  
tc  1 1  student (n  2) (tn  2 )
ˆ ˆ
1

Règle de décision : Si t c  tn 2  alors on rejette H 0

 Test bilatéral

Il est bilatéral si l’ensemble de rejet w de H0 est en deux parties


H 0 : 1  1
H1 : 1  1
ˆ  
tc  1 1  student (n  2) (tn /22 )
ˆ ˆ
1

Règle de décision : Si t c  tn/22  alors on rejette H 0

3 - 6 Analyse de la variance pour régression simple

L’analyse de la variance (ANOVA) est une méthode statistique utilisée dans la


décomposition de la variation totale d’une variable en composantes additives
attribuables à des facteurs distincts. Ces facteurs constituent les sources de variations
de la variable en question. Ainsi, dans le cas d’une régression, on s’intéresse à la
variable expliquée, et l’analyse de la variance permet de tester la significativité globale
du modèle en question, c'est-à-dire si l’ensemble des variables explicatives à une
influence sur la variable à expliquer.

32
Ce test peut être formulé de la manière suivante : existe-t-il au moins une variable
explicative significative ?

Soit le test d’Hypothèses :


H 0 : 1   2    k  0 (tous les coefficients sont nuls)

H1 : Il existe au moins un des coefficients non nul

NB : Nous ne testons pas le cas où le terme constant β0 est nul, car seules nous
intéressent les variables explicatives. Un modèle dans lequel seul le terme constant est
significatif n’a aucun sens économique.

Le cas où l’hypothèse H0 est acceptée signifie qu’il n’existe aucune relation linéaire
significative entre la variable à expliquer et les variables explicatives.

La régression est jugée significative si la variabilité expliquée est significativement


différente de zéro (0)

 Equation de la variance par régression simple


Yt  Yt
Yt  Y  Yt  Y
Yt  Y  Yt  Y  Yˆt  Yˆt
(Yt  Y )  (Yt  Yˆ )  (Yˆt  Y )
(Yt  Y ) 2  (Yt  Yˆt ) 2  (Yˆt  Y ) 2  2(Yt  Yˆt )(Yˆt  Y )
 (Yt  Y )2   (Yt  Yˆt )2   (Yˆt  Y )2  2 (Yt  Yˆt )(Yˆt  Y )
*
Montrons que * = 0
*  2 (Yt  Yˆt )(Yˆt  Y )   ˆ t (Yˆt  Y ) avec ˆt  Yt  Yˆt

 ˆ (Yˆ  Y )   ˆ Yˆ   ˆ Y
t t t t t

 ˆ (Yˆ  Y )   ˆ Yˆ  Y  ˆ
t t t t t

 ˆ (Yˆ  Y )   ˆ  ˆ  ˆ X   Y  ˆ
t t t 0 1 t t

 ˆ (Yˆ  Y )  ˆ  ˆ  ˆ  ˆ X  Y  ˆ
t t 0 t 1 t t t
0 0 0

 (Y  Y )   (Y  Yˆ )   (Yˆ  Y )
t
2
t t
2
t
2

33
 ˆ   (Y  Yˆ )
t t
2

Yˆt  ˆ0  ˆ1 X t


Y  ˆ  ˆ X 0 1

Yˆt  Y  ˆ1 ( X t  X )
 (Yˆt  Y )  ˆ1  ( X t  X )
 (Yˆ  Y )  ˆ  ( X  X )
2 2 2
t 1 t

 (Y  Y )  ˆ  ( X  X )   (Y  Yˆ )
2 2 2 2
t 1 t t t

 (Y  Y )  ˆ  ( X  X )   ˆ
2 2 2 2
t 1 t t

 ˆ   (Y  Y )  ˆ  ( X  X )
2 2 2 2
t t 1 t

 (Y  Y )   (Yˆ  Y )   (Y  Yˆ )
t
2
t
2
t t
2

STC  SCR  SCE


où :

STC est la Somme Totale des Carrés ;


SCR est la Somme des Carrés de la Régression ;
SCE est la Somme des Carrés des Erreurs.
Une fois les valeurs de STC, SCR et SCE connues, il faut déterminer leur degré de
liberté.

Degré de liberté

En Statistique, le degré de liberté désigne le nombre de valeurs aléatoires qui ne


peuvent être déterminées ou fixées par une équation.

Par exemple : Si l’on cherche deux nombres dont la somme est 12, aucun des deux
nombres ne doit être déterminé par l’équation : x + Y = 12
X peut être choisi arbitrairement, mais alors pour y il n’y a alors plus de choix.

Ainsi, si vous choisissez 11 comme valeur pour x, y vaut obligatoirement 1.

Il y a donc deux variables aléatoires (x, y), mais un seul degré de liberté.

On a donc

 (k – 1) ddl pour  (Yˆt  Y ) 2 dans la mesure où il s’agit des variations


expliquées par le modèle de régression et qu’il y a k-1 coefficients associée
aux variables explicatives.

 (n – k) ddl pour  (Yt  Yˆt ) 2 puisque pour chaque coefficient estimé, nous
perdons k observations sur l’ensemble des données.

34
 (n – 1) ddl pour  (Yt  Y ) 2 , nous avons n observations et en estimant la
moyenne de Yt nous perdons une observation.

Les éléments ci-dessus peuvent être rangés dans un tableau que nous appellerons
tableau de l’analyse de la variance. Cette dernière se présente comme suit :

Tableau d’analyse de la variance (ANOVA)

Source de variation Somme des carrés Degré de liberté Carrés moyens

Variations SCR   (Yˆt  Y ) 2 k – 1= 2 – 1 = 1


S12 
SCR
expliquées par la k 1
régression SCR  ˆ12  ( X t  X ) 2
SCR
S12 
1
Variations non SCE   (Yt  Yˆt ) 2 n–K=n–2
S22 
SCE
expliquées nk
SCE   ˆt2
SCE
S22 
n2
Variations totales STC   (Yt  Y ) 2 n–1=
(k – 1) + (n – k)
=n–1

S12
Fc  2  la loi de Fischer (F(1;n  2) )
S2
Fc  F (k  1);(n  k )ddl
SCR SCR
(k  1) 1
Fc    F(1;n-2)
SCE SCE
(n  k ) n2

3 – 6 Prévision dans le modèle simple

L’un des principaux objectifs de la recherche économétrique est la prévision. Ainsi


toute recherche économétrique devrait aboutir à des prévisions.

La prévision en économétrie, c’est non seulement prévoir une valeur dans le futur mais
aussi simuler le passé si nous sommes dans le cas de série temporelle et prédire des
valeurs au cas où l’on se situerait dans le cadre de données en coupe instantanée.

Qu’il s’agisse de l’une ou l’autre de ces situations, le problème revient à déterminer la


valeur qui doit être attribuée à la variable expliquée lorsque l’on connaît la valeur des
variables explicatives.

Prévision ponctuelle

Qu’il s’agisse de prévoir une valeur dans le futur ou simuler le passé (cas des séries
temporelles) ou qu’il s’agisse de prédire des valeurs (cas des données en coupe

35
instantanée), la valeur ponctuelle qui est attribuée à la variable expliquée inconnue
lorsque là un les valeurs explicatives sont sens cfées être connues est appelée prévision
ponctuelle (par opposition à la prévision par intervalle).

Erreur de prévision

La prévision en elle-même n’a d’utilité que si nous connaissons sa précision. Il faut


donc en plus de la valeur prévisionnelle, fournir une estimation de l’erreur de
prévision et la dispersion de cette erreur.

Soit le modèle suivant :


Yt   0  1 X t   t avec t=1,2, ,n .
On a estimé  et  par ˆ et ˆ en raisonnant sur une période de n.
0 1 0 1

Le modèle estimé se présente comme suit :


Yˆt  ˆ0  ˆ1 X t
Dans le cadre de la prévision on se situe à une date au-delà de n et on cherche la valeur
de la variable endogène à cette date.

Connaissant X 0 , la valeur de la variable exogène à la date correspondante à la


prévision, la valeur vraie prise par Yt dans la prévision sera Y0 .
Y0   0  1 X 0   0

Ne connaissant pas β0 et β1, nous allons estimer ce modèle :


Yˆ0  ˆ0  ˆ1 X 0

L’écart entre Yˆ0 et Y0 est appelé erreur de prévision :


  Yˆ  Y
0 0 0

On va étudier les propriétés de ∆0 , c'est-à-dire que nous allons calculer son espérance
mathématique et sa variance.

 Espérance mathématique de l’erreur de prévision ∆0

Yˆ0  ˆ0  ˆ1 X 0


Y0   0  1 X 0   0
 0  Yˆ0  Y0  ( ˆ0   0 )  ( ˆ1  1 ) X 0   0
E ( 0 )  E ( ˆ0   0 )  E ( ˆ1  1 ) X 0  E ( 0 )  0
0 0 0
Car ˆ0 est Car ˆ1 est par hypothèse
sans biais sans biais t E( t )  0
E(ˆ0 )   0 E(ˆ1 )  1
E( 0 )   0 E(1 )  1

Variance de l’erreur de prévision

36
V ( 0 )  E   0  E ( 0 ) 
2

or E( 0 )  0
 V ( 0 )  E   0 
2

 0  ( ˆ0   0 )  ( ˆ1  1 ) X 0   0
 0  ( ˆ0   0 )   0   ( ˆ1  1 ) X 0
2
 2 0  ( ˆ0   0 )   0   ( ˆ1  1 ) 2 X 20  2 ( ˆ0   0 )   0  ( ˆ1  1 ) X 0

 2 0  ( ˆ0   0 ) 2   02  2( ˆ0   0 ) 0  ( ˆ1  1 ) 2 X 02  2( ˆ0   0 )( ˆ1  1 ) X 0  2 0 ( ˆ1  1 ) X 0


E ( 0 ) 2  E ( 0 ) 2  E ( ˆ0   0 ) 2  E ( ˆ1  1 ) 2 X 02  2 X 0 E ( ˆ0   0 )( ˆ1  1 ) 

Car E  0 ( ˆ0   0 )   0 de même E  0 ( ˆ1  1 )   0


on a déjà démontré que:
0 0 
ˆ      avec : t t

1 X (Xt  X ) 
t    
 n  ( X t  X )2 
( ˆ0   0 ) 0    t  t  0
E ( ˆ0   0 ) 0     t E ( t  0 )  0 voir hypothèse

E ( ˆ0   0 ) 0   0 (1)


on a aussi démontré que:
1 1 
ˆ    w  avec: t t

(Xt  X )
wt  
 ( X t  X )2
( ˆ1  1 ) 0   wt  t  0 

E ( ˆ0   0 ) 0   wt E ( t  0 )  0
E ( ˆ0   0 ) 0  0 (2)

37
Var ( 0 )  E ( 0 ) 2  E  0   E  ˆ0   0   E  ˆ1  1  X 02  2 X 0 E ( ˆ0   0 )( ˆ1  1 ) 
2 2 2

Var ( 0 )   2  Var ( ˆ0 )  X 02Var ( ˆ1 )  2 X 0Cov( ˆ0 , ˆ1 )



2 1 X
2

ˆ
 Var (  0 )      
 n  ( X t  X ) 
2

 2
 Var ( ˆ1 ) 
(X t  X )2
 2
 Cov(ˆ0 , ˆ1 )   XVar ( ˆ1 ) 
(X t  X )2

1 X
2
 X 02 2 2 X 0 X  2
Var ( 0 )        
2 2
  
 n  ( X t  X )   ( X t  X )  ( X t  X )
2 2 2

 1 X
2
X 02 2X0 X 
Var ( 0 )    1  
2
  
 n  ( X t  X )  ( X t  X )  ( X t  X ) 
2 2 2

 1 ( X 0  X )2 
Var ( 0 )   2 1   2 
 n  ( X t  X ) 

A partir de ces estimations de la variance de l’erreur de prévision, on peut construire


un intervalle de confiance de prévision.

Intervalle de prévision pour Y0

0
 loi de student
ˆ 0
Pr ob  tn/22  tc  tn/22   1  
tn/22  tc  tn/22
Yˆ  Y
tn/22  0 0  tn/22
ˆ 0
ˆ 0 tn/22  Yˆ0  Y0  ˆ 0 tn/22
Yˆ0  ˆ bˆtn/22  Y0  Yˆ0  ˆ bˆtn/22

38
CHAPITRE IV. MODELE LINEAIRE GENERAL OU MODELE DE
REGRESSION SIMPLE

Introduction

Le modèle linéaire général est une extension du modèle de régression simple abordé
dans les chapitres précédents. Après avoir présenté le modèle linéaire au niveau du
chapitre paragraphe I, nous envisageons présenter les estimateurs du vecteur A au
paragraphe II. Les différentes propriétés des estimateurs sont proposées en III et le
paragraphe IV est consacré à l’inférence dans le modèle linéaire général. En V, nous
présentons la prévision.

4-1 Présentation du modèle

Présentation

Lors de chapitres précédents, nous avons considéré qu’une variable endogène est
expliquée à l’aide d’une seule variable exogène. Cependant, il est extrêmement rare
qu’un phénomène économique ou social puisse être appréhendé par une variable. le
modèle linéaire général est une généralisation du modèle de régression simple dans
lequel figurent plusieurs variables explicatives. Pour sa présentation, on peut formuler
quatre (4) formes différentes mais mutuellement équivalentes :

Première formulation

Yt  a1 X t1  a2 X t 2   ak X tk  U t
Où Yt est la variable à expliquer
Xt1, Xt2, … Xtk, sont k variables explicatives.
Ut est une erreur aléatoire inconnue.
Le modèle comporte n informations ou observations.

Deuxième formulation
Yt  a1 X t1  a2 X t 2   ak X tk  U t
Y1   X 11 X 12 X 1k   a1  U1 
Y   X X 
X 2 k   a2  U 2 
 2    21 22 
      
      
Yn   X n1 X n 2 X nk   ak  U n 

Troisième formulation (forme compact ou matricielle)

39
Y1   X 11 X 12 X 1k   a1  U1 
Y   X X 
X 2 k   a2  U 2 
 2    21 22 
      
      
Yn   X n1 X n 2 X nk   ak  U n 
Y X A U

Y  X A U
( n1) ( nk ) ( k 1) ( n1)

La dimension du vecteur Y est de n lignes et une (1) colonne ;


X est une matrice comportant n lignes et k colonnes ;
A est un vecteur colonne formé par les k paramètres du modèle ;
U est un vecteur colonne formé par les n termes de perturbation.

Quatrième formulation

En posant X’t= tième ligne de la matrice X ; on a aussi la formulation suivante :


Y1  X 1' A  U1
Y2  X 2' A  U 2

Yn  X n' A  U n

L’écriture sous forme matricielle rend plus aisée la manipulation du modèle linéaire
général, c’est pourquoi nous l’adoptons par la suite.

4-2 Hypothèse de l’application de la méthode des moindres carrés

Hypothèse 1 : le nombre de composantes (d’observations) est plus grand que le


nombre de variables explicatives k. n > k.

Hypothèse 2 : Les variables explicatives sont des quantités connues non aléatoires

Hypothèse 3 : La matrice X de format (nxk) est de rang k : Rang  X ( nk )  k


C'est-à-dire qu’il doit être possible d’extraire de X un déterminant non nul d’ordre k.
Cette hypothèse a pour but de garantir l’inversion de la matrice
produit X T X ou X ' X .

Hypothèse 4 : L’espérance mathématique de l’erreur est nulle.


U1   E (U1 )   0 
U   E (U )   
0
E (U )  E  2    2 
 0
     
     
U n   E (U n )   0 

Hypothèse 5 : La variance de l’erreur est constante (hypothèse d’homoscédasticité)


E (UU ' )  U   2 I n
Où In est la matrice unité de format (nxn).

40
U1  U12 U1U 2 U1U n 
U   2

U n    2 1 
UU U U 2U n
UU   2  U1U 2
' 2

 
   
U n  U nU1 U nU 2 U n2 

 E (U12 ) E (U1U 2 ) E (U1U n ) 


 2

E (UU )    2I  
' E (U 2U1 ) E (U )
2 E (U 2U n )
 U n U

 
 E (U nU1 ) E (U nU 2 ) E (U n2 ) 
 U2 0 0
 
 0  U2 0
E (UU )  
'

 
0 0  U2 
1 0 0
0 1 0 
2 
E (UU )   U
'
  U2 I n  U
 
 
0 0 1
In

Cette matrice U est la matrice des variances covariances des erreurs.


Partant des hypothèses :
 E (U12 )  E (U 22 )   E (U n2 )   U2 => hypothèse d’homoscédasticité ;
 et E (U iU j )  0 si i  j hypothèse de non corrélation des erreurs.

Hypothèse 6 : Le vecteur U suit une loi normale multivariée de paramètre 0 et de


variance  U2 I n .
U  NU (0;  U2 I n ) c'est-à-dire que U est un vecteur où chaque composante est normale.

4-3 Estimation des composantes du vecteur A

Soit le modèle Y = XA + U où U est une quantité aléatoire inconnue. Donc


U = Y – XA.
La MCO consiste à choisir les éléments du vecteur A qui minimisent la somme des
carrés des erreurs U. Les éléments de la matrice A doivent être choisis de manière à ce
que la forme quadratique U’U soit aussi petite possible.
U 'U  (Y  XA)' (Y  XA)
U 'U  (Y '  A' X ' )(Y  XA)
U 'U  Y 'Y  Y ' XA  A' X 'Y  A' X ' XA
U 'U  Y 'Y  2 A' X 'Y  A' X ' XA

41
U U  (2 AX Y )  ( AX XA)
  0
A A A
U U
 2 X Y  2 X XA  0
A
U U
 2 X Y  2 X XAˆ  0
A ˆ
U U
  X Y  X XAˆ  0
Aˆ
X XAˆ  X Y équation normale
( X X ) 1 ( X X ) Aˆ  ( X X ) 1 X Y

Aˆ  ( X X ) 1 X Y

Cette condition est réalisable si la matrice carrée de dimension (k x k) est inversible. or


X X est une matrice définie semi-positive donc les conditions de second ordre sont
U U
vérifiées.  2 X X  0 , on a un minimum.
Aˆ 2

4-4 Propriétés des estimateurs MCO

4-4-1 L’estimateur  est linéaire en Y

Puisque Aˆ  ( X X ) 1 X Y , l’expression w  ( X X ) 1 X  de dimension (k x n) est une


quantité exogène dans la mesure où elle ne dépend que de la matrice X dont les
éléments sont exogènes. On peut donc traiter w comme une matrice de constance
(k x n).
Aˆ  ( X X ) 1 X Y  ˆ
 A  wY par conséquent  est linéaire en Y
w  ( X X ) 1 X  

4-4-2 L’estimateur  est sans biais

Aˆ  ( X X ) 1 X Y
 est ou serait sans biais si E ( Aˆ )  A
On sait que Y = XA + U
Aˆ  ( X X ) 1 X Y
Aˆ  ( X X ) 1 X ( XA  U )
Aˆ  ( X X ) 1 X ( XA)  ( X X ) 1 X U
Aˆ  ( X X ) 1 ( X X ) A  ( X X ) 1 X U
Aˆ  A  ( X X ) 1 X U
E ( Aˆ )  A  ( X X ) 1 X E (U ) or E (U )  0
d’où E ( Aˆ )  A => Â est un estimateur sans biais de A

42
4-4-3 L’estimateur  est convergent

 est un estimateur convergent de A si Var ( Aˆ )  0 quand n  

a. Estimation de la matrice des variances et covariances Â

Var ( Aˆ )   Aˆ  E ( Aˆ  E ( Aˆ ))( Aˆ  E ( Aˆ ))

Var ( Aˆ )   Aˆ  E ( Aˆ  A)( Aˆ  A)


Or Aˆ  A  ( X X ) 1 X U d’où Aˆ  A  ( X X ) 1 X U et ( Aˆ  A)  U X ( X X ) 1 puisque
( X X ) 1 est symétrique.
Nous rappelons que ( ABC )  C BA et
si A est symétrique A  A et
donc [( X X ) ]  ( X X )
1 1

( Aˆ  A)( Aˆ  A)  ( X X ) 1 X UU X ( X X ) 1 d’où


Var ( Aˆ )    ( X X ) 1 X E (UU ) X ( X X ) 1

avec E (UU )   U2 I n  U = la matrice des variances et covariances des erreurs U


'

Var ( Aˆ )    ( X X ) 1 X  2 I X ( X X ) 1
Aˆ U n

Var ( Aˆ )   Aˆ   U2 ( X X ) 1 ( X X )( X X ) 1
On sait aussi que :
X X
( X X ) 1 ( X X )   1 et donc :
X X
Var ( Aˆ )   Aˆ   U2 ( X X ) 1

b. Estimation de la variance de l’erreur ˆU2


Après le calcul matriciel, il apparaît que nous pouvons estimer sans biais  U2 :
Uˆ Uˆ
ˆU2 
nk
Uˆ Uˆ  (Y  XAˆ )(Y  XAˆ )
Uˆ Uˆ  Y Y  2 Aˆ ( X Y )  Aˆ X XAˆ
Puisque : Aˆ  ( X X ) 1 X Y
Uˆ Uˆ  Y Y  2 Aˆ ( X Y )  Aˆ X X ( X X ) 1 X Y
Uˆ Uˆ  Y Y  2 Aˆ ( X Y )  Aˆ ( X Y )
Uˆ Uˆ  Y Y  Aˆ ( X Y )
Uˆ Uˆ  Y Y  Aˆ ( X Y )

43
c. Convergence de Â

On a montré que :
Var ( Aˆ )   Aˆ   U2 ( X X ) 1
Uˆ Uˆ
et ˆU2 
nk
Uˆ Uˆ
donc Var ( Aˆ )  ˆU2 ( X X )1  ( X X )1
nk
ˆ ˆ
 U U est une somme de carrés finis ;
 Par ailleurs en vertu de l’hypothèse 3 ( X X ) 1 existe et donc n’est pas finie.
Par conséquent :
Uˆ Uˆ
Var ( Aˆ )  ˆU2 ( X X )1  ( X X )1 tend vers zéro (0) quand n  
nk
=> Â est un estimateur convergent de A.

4-4-4 L’estimateur  est à variance minimale

 est un estimateur sans biais et sa matrice de variances de covariances est


Var ( Aˆ )   Aˆ   U2 ( X X ) 1 . Nous devons montrer que cette variance est minimale.
Tout estimateur linéaire autre que  serait nécessairement de la forme :
A*  Aˆ  CY
On avait démontré que Aˆ  A  ( X X ) 1 X U
A*  A  ( X X ) 1 X U  CY
A*  A  ( X X ) 1 X U  C ( XA  U )
Y

A  A  ( X X ) X U  CXA  CU
* 1

E ( A* )  A  ( X X ) 1 X E (U )  CXA  C E (U )
0 0

E ( A )  A  CXA
*

On remarque que A*est biaisé. Pour qu’il soit sans biais pour toutes les valeurs de A,
nous devons avoir : CX = 0
A*  A  ( X X ) 1 X U  CU
A*  A  ( X X ) 1 X   C  U
A*  A  ( X X ) 1 X   C  U

44
Var ( A* )  E ( A*  A)( A*  A)

Var ( A* )  E ( ( X X ) 1 X   C  U )( ( X X ) 1 X   C  U )

Var ( A* )  E  ( X X ) 1 X   C  UU   X ( X X ) 1  C  

Var ( A* )  ( X X ) 1 X   C  E (UU )  X ( X X ) 1  C 


Var ( A* )   U2 ( X X ) 1 X   C   X ( X X ) 1  C 
 
Var ( A* )   U2 ( X X ) 1 X X ( X X ) 1  ( X X ) 1 X C   CX ( X X ) 1  CC 
 0 0 
CX  0 ; XC=0
Var ( A* )   U2 ( X X ) 1  CC 
CC  est une matrice semi-définie positive car une matrice multipliée par sa propre
transposée est toujours définie semi-positive. par conséquent Var(A*) est
nécessairement ≥ Var( Â )

4-5 Inférence dans le modèle linéaire général

4-5-1 Test d’hypothèses

Aˆ  A  ( X X ) 1 X U
E ( Aˆ )  A
Var ( Aˆ )   U2 ( X X ) 1
Aˆ  N ( A,  2 ( X X ) 1 )
U

aˆi  ai
 N (0,1)
ˆ aiˆ
aˆi  ai
 student (n  k )
ˆ aiˆ

4-5-1-1 Test unilatéral à droite

H 0 : ai  ai
H1 : ai  ai
Règle de décision :
Si tc > tlu alors on rejette H0 (tc > tα(n-k))
aˆ  a
tc  i i
ˆ aˆi

4-5-1-2 Test unilatéral à gauche

H 0 : ai  ai
H1 : ai  ai

45
Règle de décision :
Si tc < - tlu alors on rejette H0 (tc < - tα(n-k))
aˆ  a
tc  i i
ˆ aˆi

4-5-1-3 Test bilatéral

H 0 : ai  ai
H1 : ai  ai
Si tc  t(n/2 k ) on rejette H0
aˆ  a
tc  i i
ˆ aˆi

4-5-2 Intervalle de confiance dans le cas des variances résiduelles ˆU2

Dans ce cas, la formule établie précédemment reste valable :


ˆ 2
La quantité (n  k ) U2  une loi de  2 (khi-deux) et on peut donc trouver dans la
U
table de cette loi les valeurs 12 ayant la probabilité 1-α/2 d’être dépassées et
 2 2 ayant la probabilité α/2 d’être dépassées et l’on a :
 ˆ 2 
Pr ob   2   (n  k ) U2   2   1
 (1 2 )( n k ) U ( )( n  k )
2 
D’où l’intervalle de confiance au seuil α à risque symétrique pour ˆU2 :

2   2
(1 )( n  k ) 1 ( )( n  k )
2
  2

(n  k )ˆ U
2
U 2 (n  k )ˆU 2
(n  k )ˆU 2 (n  k )ˆU 2
 U 2 
 2 2 
( )( n  k ) (1 )( n  k )
2 2

4-5-3 Intervalle de confiance dans le cas des paramètres

aˆi  ai
tc   student (n  k )
ˆ aˆi
Pr ob  tn/2k  tc  tn/2k   1  
tn/2k  tc  tn/2k
aˆ  a
tn/2k  i i  tn/2k
ˆ aˆi
ˆ aˆi tn/2k  aˆi  ai  ˆ aˆi tn/2k
aˆi  ˆ aˆi tn/2k  ai   aˆi  ˆ aˆi tn/2k

46
aˆi  ˆ aˆi tn/2k  ai  aˆi  ˆ aˆi tn/2k

4-5-4 Analyse de la variance

4-5-4-1 Equation de la variance

Etant donné l’équation Y = XA + U ;


L’équation de prédiction selon la MCO est :
Y  XAˆ  Uˆ  Yˆ  Uˆ
Y  XAˆ  Uˆ
Y Y  ( XAˆ  Uˆ )( XAˆ  Uˆ )
Y Y  ( Aˆ X   Uˆ )( XAˆ  Uˆ )
Y Y  Aˆ X XAˆ  Aˆ X Uˆ  Uˆ XAˆ  Uˆ Uˆ
Y Y  Aˆ X XAˆ  Uˆ Uˆ
car Aˆ X Uˆ  Uˆ XAˆ  0

Preuve : X Uˆ  0?
Uˆ  Y  XAˆ 
Uˆ  Y  X ( X X ) X Y 
1

Aˆ  ( X X ) X Y 
1

X Uˆ  X Y  X X ( X X ) 1 X Y
X Uˆ  X Y  X Y
X Uˆ  0
donc X Uˆ  0
Y Y  Aˆ X XAˆ  Uˆ Uˆ

Y Y  Yˆ Yˆ  Uˆ Uˆ

4-5-4-2 Mesure du pouvoir explicatif du modèle de régression : Calcul de R²

Nous avons la relation Y Y  Aˆ X XAˆ  Uˆ Uˆ


Puisque par hypothèse Y n’est pas centré sur sa moyenne arithmétique c'est-à-dire
Y  0 on tire le raisonnement suivant : Il est conventionnel de mesurer la variance de
Y autour de (ou par rapport à) sa moyenne Y en faisant :
 (Yt  Y )2  Y Y  nY 2
Y Y  nY 2  Aˆ X XAˆ  nY 2  Uˆ Uˆ

 Le terme Y Y  nY 2 est appelé somme totale des carrés (STC) corrigée ;


 L’expression Yˆ Yˆ  nY 2  Aˆ X XAˆ  nY 2 est appelée somme des carrés de la
régression (SCR) et représente la portion de la somme totale des carrés (STC)
qui est expliquée par la régression ;

47
 Uˆ Uˆ est la somme des carrés des erreurs (SCE) et représente la portion de la
STC qui n’est pas expliquée par le modèle de régression linéaire. Uˆ Uˆ est aussi
appelée Somme des Carrés des Résidus.

Y Y  nY 2  Aˆ X XAˆ  nY 2  Uˆ Uˆ
STC  SCR  SCE
STC SCR SCE
 
STC STC STC

Si on pose que :
SCR SCE
R2   1
STC STC

Yˆ Yˆ  nY 2 Uˆ Uˆ
R 
2
 1 
Y Y  nY 2 Y Y  nY 2

Aˆ X XAˆ  nY 2
R2 
Y Y  nY 2

4-5-4-2 Test de signification globale du modèle de régression

Dans le cas d’une régression multiple, on test la signification globale du modèle de la


manière suivante :
H 0 : a2  a3   ak  0
H1 : Il existe au moins un ai  0 avec i = 2, 3, ,k
( Aˆ X XAˆ  nY 2 ) / (k  1)
Fc   F  (k  1), (n  k ) 
Uˆ Uˆ / (n  k )
Règle décision :
Si Fc  F (k  1; n  k ) , on rejette H0
R 2 / (k  1)
Fc 
(1  R 2 ) / (n  k )

Tableau d’analyse de la variance (ANOVA)

Sources de Somme des carrés Degré de Carrés moyens


variation liberté
X1,X2,…,Xk Aˆ X XAˆ  nY 2  Aˆ X Y  nY 2 k–1 Aˆ X XAˆ  nY 2
Variations
k 1
expliquées
Résidus Uˆ Uˆ n–k Uˆ Uˆ
nk
Variations totales Y Y  nY 2 n–1

48
( Aˆ X XAˆ  nY 2 ) / (k  1)
Fc   F (k  1, n  k )
Uˆ Uˆ / (n  k )

4. 5 Prévision

4. 5.1 Définition

Au sens large, la prévision c’est d’une part prévoir une valeur dans le futur, et d’autre
part de faire une simulation du passé dans le cas de séries temporelles et prédire des
valeurs dans le cadre de données en coupe instantanées.
Qu’il s’agisse de l’une ou l’autre de ces situations, le problème reviens à déterminer la
valeur qui doit être attribuée à la variable expliquée lorsque l’on connaît les valeurs
des variables explicatives.

4.5.2 Prévision ponctuelle

Etant donné le modèle linéaire général : Y = XA + U , le modèle pour un ensemble


donné de  (êta thêta) observations (qui peuvent être des observations subséquentes,
futures ou hors échantillons) est défini par la relation :
Y  X  A  U où
U est un vecteur de dimension (  x1), de moyenne nulle égale à zéro (0) et de
variance  U2 I avec U indépendant de U.
Nous noterons par convenance Y les valeurs subséquentes, futures ou hors
échantillons de la variable expliquée et X  les valeurs subséquentes, futures ou hors
échantillons de la variable explicatives.
Y est donc un vecteur de dimension (  x1) et X  est une matrice de dimension
( x k) valeur connue.
On estime le modèle initial Y = XA + U à partir d’un échantillon de n observations de
de Y pour obtenir modèle Yˆ  XAˆ .
Puisqu’on continue de laisser Aˆ  ( X X ) 1 X Y être l’estimateur des moindres carrés
ordinaires (MCO) de A, la fonction de prédiction moindre carré Yˆ  X Aˆ ou X Aˆ est
  

l’estimateur de X  A .
Pour des valeurs données de X  , la valeur chiffrée de X  Aˆ donc de Yˆ est appelée
prévision ponctuelle.

4.5.3 Erreur de prévision

Partant du modèle linéaire général Y = XA + U, on suppose X  connu à un instant


donné et on estime que la prévision de la variable expliquée Yˆ est Yˆ  X  Aˆ alors
qu’en fait la valeur vraie prise par la variable expliquée à l’horizon de prévision est
plutôt Y  X  A  U . Dans ce cas l’erreur de prévision est la variable aléatoire :

49
  Yˆ  Y  Y  X  Aˆ  Y
  X Aˆ  X A  U
   

  X  ( Aˆ  A)  U
( k ) ( k 1) ( 1)

Ainsi, l’espérance mathématique de l’erreur de prévision encore appelée l’erreur de


prévision anticipée ou erreur moyenne en échantillonnage répétée est :
E ( )  E[ X  ( Aˆ  A)  U ]  X  E ( Aˆ  A)  E (U )
E ( )  X [ E ( Aˆ )  A]  0  X ( A  A)  0  0
  

Dans la mesure où l’erreur de prévision Yˆ  Y est un vecteur aléatoire, la question


suivante est sa variabilité d’échantillonnage.

4.5.4 La matrice des variances et covariances de l’erreur de prévision

Cov( )  V ar( )  E[(Yˆ  Y )(Yˆ  Y )' ]


Cov( )  E[( X  Aˆ  X  A  U )( X  Aˆ  X  A  U )' ]
Cov( )  E[( X Aˆ  X A  U )( Aˆ ' X '  A' X '  U ' )]
      

Cov( )  E[( X  ( Aˆ  A)  U )(( Aˆ  A)' X  '  U ' )]


Cov( )  E[( X  ( Aˆ  A)( Aˆ  A)' X  '  X  ( Aˆ  A)U '  U ( Aˆ  A)' X  '  U U ' ]
Cov( )  X  E[( Aˆ  A)( Aˆ  A)' ] X  '  X  E[( Aˆ  A)U ' ]  E[U ( Aˆ  A)' ] X  '  E[U U ' ]
Les termes de covariances X E[( Aˆ  A)U ' ], E[U ( Aˆ '  A' )] X ' sont nuls.
   

Il en est ainsi parce que  qui est l’estimateur MCO obtenu à partir d’observations
passées et U le vecteur des perturbateurs futurs ne sont pas corrélés. Les aˆ i éléments
de  ne dépendent que de U t éléments du vecteur U et on note que t=1,2,…,n alors
que n  , par conséquent :
Cov( )  V ar( )  E[(Yˆ  Y )(Yˆ  Y )' ]
Cov( )  X E[( Aˆ  A)( Aˆ  A)' ] X '  E[U U ' ]
    
Dans cette expression on sait que :
E[( Aˆ  A)( Aˆ  A)' ]   U2 ( X X ) 1  Var ( Aˆ )
Il reste à déterminer E[U U ' ] . Supposons que   t  h avec h=1,2,3

50

 U t 1 
 
 
E (U U )  E  U t  2  U t 1U t  2U t 3 
'

 U  

  t 3 
(13)

 (31)
 U 2t 1 U t 1U t  2 U t 1U t 3 
 
E (U U ' )  E U t  2U t 1 U 2t  2 U t  2U t 3 
U t 3U t 1 U t 3U t  2 U 2t 3 

 u2 0 0 0 0 0 
 
E (U U ' )   0  2
u
2 
0    u 0 0 0 
0 0  u2  0 0 0 

I

D’où :
E (U U ' )   u2 I
Cov( )  X   U2 ( X X ) 1 X '   u2 I
Cov( )   U2 [ X  ( X X ) 1 X '  I ] la covariance de l'erreur de prévision

Le modèle pour les  observations est : Y  X  A  U . Quand le nombre


d’observations subséquentes, futures ou hors échantillons selon le cas  =1 ;
Y et  deviennent des scalaires et X  devient un vecteur ligne. La matrice de
variances et covariances de  est :
Var ( )   2   U2 [ X  ( X X ) 1 X '  1]

4.5.5 Prévision par intervalle

L’erreur de prévision   Yˆ  Y est distribuée suivant une loi normale


N (0,  ) avec : 
2

2
   [ X  ( X X ) X   1]
2
U
1 '

Lorsque dans l’expression de la variance de l’erreur de prévision  2 l’on remplace la


variance théorique  U2 par la variance empirique ˆU2 , alors la statistique :
Yˆ  Y
tc  1

(ˆU [ X  ( X X ) X   1])
2 1 ' 2

Uˆ Uˆ (Y  XA ˆ )' (Y  XA
ˆ)
ˆU2   suit une loi de student à n-k degré de liberté.
nk nk
On peut donc construire un intervalle de prévision pour Y . Si nous notons par t /2 la
valeur qui a la probabilité  d’être excédée par cette statistique t c , on peut estimer
2
que l’on a une probabilité 1   d’avoir la relation aléatoire suivante :

51
Yˆ  Y
t  1
 t
2 2
(ˆ [ X  ( X X ) X   1])
2
U
1 ' 2

L’intervalle de prévision pour Y à (1   )% de confiance est alors :


Yˆ  Sd t  Y  Yˆ  Sd t avec
    
2 2
1
Sd=(ˆU2 [ X  ( X X ) 1 X '  1]) 2

52
ECONOMETRIE ECONOMIE RURALE
MASTER 2 ECONOMIE RURALE Exercice de cours

Dans le cadre d’un mémoire de fin de stage, vous avez à charge de trouver les
principaux déterminants des importations d’un pays donné. A cet effet, vous envisagez
le modèle de régression multiple Y1 = a0 + a1Xt1 + a2 Xt2 + Ut où Yt représente les
importations annuelles en volume : Xt1, la consommation des ménages (exprimée en
milliards de francs CFA) ; Xt2, la production intérieure brute (exprimée en milliards de
francs CFA) ; Ut, le terme de l’erreur. Le tableau ci-après donne un aperçu chiffré de
l’évolution des variables du modèle.
2004 2005 2006 2007 2008
Y1 2 2,8 4 4 3,7
Xt1 2 3 5 4 3
Xt2 5 6 6 5 6
1) La forme compacte du modèle étant Y = XA + U, formez en explicitant autant que
possible les matrices Y, X, A et U 2) Calculez les matrices-produits Y’Y, X’X et X’Y.
3) Ecrire sous forme numérique le système des équations normales. 4) Les hypothèses
d’application de la méthode des MCO étant supposées vérifiées, déterminez Â, le
vecteur des estimateurs des paramètres. 5) Interprétez â0, â1, â2. 6) Trouvez les
valeurs respectives des différentes composantes de l’équation de la variance. 7)
Calculez le coefficient de détermination non ajusté R2 et interprétez la valeur trouvée.
8) Testez au seuil = 5% la signification du coefficient de détermination non ajusté
R2 . 9) Sachant que :
 26,3571 0, 0714 4, 7143
 X X    0, 0714 0, 2143 0,1429 
1

 4, 7143 0,1429 0,9286 


calculez l’estimation de la variance résiduelle et déterminez la matrice des
variances et covariances du vecteur Â. 10) Les fluctuations de la production intérieure
brute c’est-à-dire de
Xt2 influencent-elles significativement les importations du pays en question ? 11)
L’impact de la consommation des ménages sur le volume des importations est-il
statistiquement égal à 0,9 ? 12) Dressez le tableau de l’analyse de la variance. 13)
Trouvez la prévision ponctuelle d’importation qu’il est raisonnable de faire en 2011 si
pour cette année les valeurs prévues des variables Xt1 et Xt2 sont respectivement de 7
et 9. 14) trouvez la valeur de la variance de l’erreur de prévision
et construisez au seuil (1 - = 95% une prévision par intervalle.
Interprétez l’intervalle de prévision trouvé.

53

Vous aimerez peut-être aussi