Vous êtes sur la page 1sur 47

République Tunisienne

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique


Université de Ga fsa

Institut Supérieur d’Administration des Entreprises de Gafsa

Cours d’Econométrie I
Niveau : (L3) Licence Fondamentale en : Finance / Monnaie, Finance et
Banque

Enseignant : Dr. Zayati Montassar


Maître-assistant en méthodes quantitatives : spécialité économétrie
Tél: (00216) 55 018 082
E-mail:

Année Universitaire : 2017 / 2018


Table des matières
CHAPITRE 0 : RAPPEL STATISTIQUE ET INITIATION A L’ECONOMETRIE 3
I. QUELQUES RAPPELS STATISTIQUES: 3
II. ÉCONOMETRIE: 5
1) L’ÉCONOMETRIE COMME OUTIL D’INVESTIGATION : 5
2) QUELQUES MODELES DE BASE 6
3) MODELE ECONOMIQUE VERSUS MODELE ECONOMETRIQUE : 7
III. THEORIE DE LA CORRELATION : 7
CHAPITRE1 : LE MODELE DE REGRESSION SIMPLE 9
I. PRESENTATION DU MODELE : 9
1. VOCABULAIRE : 9
2. SPECIFICATION : 9
3. ROLE DU TERME ALEATOIRE : 10
4. CONSEQUENCES DU TERME ALEATOIRE : 10
II. ESTIMATION DES PARAMETRES PAR LA METHODE DES MOINDRES CARRES ORDINAIRES (MCO): 10
1. MODELE ET HYPOTHESE : 10
2. FORMULATION DES ESTIMATEURS : 11
3. PROPRIETES STATISTIQUES DES ESTIMATEURS 14
4. THEOREME DE GAUSS – MARKOV : 15
5. ESTIMATION DE LA VARIANCE DES ERREURS (𝝈𝗌²) : 15
III. ANALYSE DE LA VARIANCE : 16
1. DECOMPOSITION DE LA VARIANCE : 16
2. LE COEFFICIENT DE DETERMINATION : 16
3. TABLEAU D’ANALYSE DE LA VARIANCE : 17
IV. INDUCTION STATISTIQUE ET CONSEQUENCE DES HYPOTHESES : 17
1. CONSEQUENCE DE L’HYPOTHESE DE NORMALITE DES ERREURS: 17
2. TEST STATISTIQUE SUR LES PARAMETRES : 17
3. TEST D’ANALYSE DE LA VARIANCE OU TEST DE SIGNIFICATIVITE GLOBALE : 18
4. INTERVALLE DE CONFIANCE DES PARAMETRES : 18
V. PREVISION : 19
VI. APPLICATION ET MISE A NIVEAU : 19
CHAPITRE 2 : LE MODELE DE REGRESSION MULTIPLE 24
I. LE MODELE LINEAIRE GENERALE : 24
II. ESTIMATION ET PROPRIETES : 25
1. HYPOTHESES ET PROPRIETES DES ESTIMATEURS : 26
III. ANALYSE DE LA VARIANCE ET QUALITE D’AJUSTEMENT : 28
IV. APPLICATION : 29
CHAPITRE 3 : PROBLEMES DE VIOLATION DES HYPOTHESES CLASSIQUES 33
I. L’AUTOCORRELATION DES ERREURS : 33
A. PRESENTATION DU PROBLEME : 33
B. L’ESTIMATEUR DES MOINDRES CARRES GENERALISES (MCG) : 34
C. LES CAUSES ET LA DETECTION DE L’AUTOCORRELATION DES ERREURS : 35
1. DEFINITION ET CAUSES: 35
2. DETECTION : 36
a. EXAMEN VISUEL : 36
b. TEST DE DURBIN ET WATSON : 37
c. TEST DE BREUSCH-GOLDFREY : 38

2
Chapitre 0 : Rappel statistique et
initiation à l’économétrie

I. Quelques rappels statistiques:


La force de la statistique est qu’on n’est pas obligé d’étudier toute la population. Il est
possible de tirer des conclusions sur une population, à partir d’un échantillon suffisamment
représentatif. Et comme les données en elles-mêmes ne sont pas intelligibles, le statisticien
recherche la synthèse. Sa première démarche pour synthétiser les données consiste à
calculer les paramètres de description, c’est la statistique descriptive. Plus tard, la démarche
du statisticien consistera à contraster des données empiriques aux lois théoriques, dont on
connait parfaitement les comportements, en vue de faire de la prédiction, c’est la statistique
inférentielle [ou mathématique].

A. Les indicateurs de position (ou de tendance centrale) :

3
B. Les indicateurs de dispersion :

C. Les indicateurs de forme :

4
II. Économétrie:
L'économétrie peut être définie comme l'application des méthodes statistiques à l'étude
des phénomènes économiques .Plus précisément la démarche économétrique comporte
trois étapes :
1) Construire un modèle testable qui soit justifié par la théorie économique et qui puisse
être vérifié statistiquement ;
2) Estimer les paramètres du modèle ;
3) Vérifier que les écarts entre les observations et les résultats théoriques du modèle ne
sont pas systématiques.

Théorie

Formalisation de la théorie
Modélisation

Confrontation du modèle avec la


théorie Estimation économétrique

Théorie validé Théorie non validée

Ré-spécifier les
données Ré-spécifier le modèle

Dans l’étude de la dépendance entre y et x, on se pose trois questions fondamentales :


- X et y sont-ils liés et comment mesurer cette liaison ?
- Trouver une fonction qui permet de déterminer y à partir de x ?
- Estimer les paramètres de cette fonction ?

Remarque :
Seule la théorie (économique,…) doit nous guider pour la spécification du modèle, les
données ne doivent servir qu’à valider ou invalider les hypothèses que l’on émet…
Il est donc nécessaire de bien comprendre les hypothèses sous-jacentes à chacune des
fonctions proposées.

1) L’Économétrie comme outil d’investigation :


L’économétrie n’est pas seulement un système de validation, mais également un outil
d’analyse. Nous pouvons citer quelques domaines où à l’action économique par :

- La mise en évidence de relations entre des variables économiques qui n’étaient pas a
priori évidentes ou pressenties.

5
- L’induction statistique ou l’inférence statistique consiste à inférer, à partir des
caractéristiques d’un échantillon, les caractéristiques d’une population. Elle permet
de déterminer des intervalles de confiance pour des paramètres du modèle ou de
tester si un paramètre est significativement inférieur, supérieur ou simplement
différent d’une valeur fixée.
- La simulation qui mesure l’impact de la modification de la valeur d’une variable sur
une autre (∆𝐶𝑡 = 𝛼1 ∆𝑌𝑡 ).
- La prévision, par l’utilisation de modèles économétriques, qui est utilisée par les
pouvoirs publics ou l’entreprise afin d’anticiper et éventuellement de réagir à
l’environnement économique.

2) Quelques modèles de base


Modèle Formule Propriétés fondamentales
Linéaire 𝑦 = 𝑎𝑥 + 𝑏 la variation de Y est proportionnelle à la variation de X
le taux de variation de Y est proportionnel au taux de
Log-linéaire 𝑦 = 𝐵𝑥𝑎 variation de X
le taux de variation de Y est proportionnel à la
Exponentiel 𝑦 = 𝑒𝑎𝑥 +𝑏 variation de X
la variation de Y est proportionnelle au taux de
Logarithmique 𝑦 = 𝑎 𝑙𝑜𝑔(𝑥) + 𝑏
variation de X

a) Propriétés d’un modèle linéaire :

 Simplicité.
𝑑𝑦  Peut être appliqué directement dans un premier temps pour vérifier l’existence
= d’une relation.
𝑎
𝑑𝑥  Estimation directe des paramètres par la méthode des moindres carrés.

b) Propriétés du modèle log-linéaire :


𝑑𝑦  Favori des économistes – modèle à élasticité constante
𝑦
𝑑𝑥 =  Exp : emploi = f(production), demande = f(prix) …
𝑥  Linéarisation par ln(𝑦) = 𝑎 ln(𝑥) + ln⁡( 𝑏)

c) Propriétés du modèle exponentiel (géométrique) :

 Surtout utilisé quand x = temps (ainsi dx = 1)


 Dans ce cas, la croissance (décroissance) de y est constant dans le temps.
𝑑𝑦/𝑦  Ex : évolution du nombre de pages web dans le monde
=
𝑎  Ce type d’évolution ne dure pas longtemps
𝑑𝑥  Linéarisation : ln(𝑦) = 𝑎𝑥 + 𝑏

d) Propriétés du modèle logarithmique :

6
 Archétype de la croissance (décroissance) qui s’épuise.
𝑑𝑦  Exp : salaire = f(ancienneté) ou vente = f(publicité).
=
𝑑𝑥/𝑥  Linéarisation par ln(𝑦) = 𝑎 ln(𝑥) + b
𝑎

3) Modèle économique versus modèle économétrique :

III. Théorie de la corrélation :

L’analyse de la corrélation a pour objet de présenter les mesures statistiques destinées à


rendre compte du sens et de la force de la liaison mathématique qui peut exister entre deux
variables quantitatives X et Y. Il faut, d’ores et déj{, noter que dans ce cadre, la position des
variables est symétrique. L’analyse ne permet pas de distinguer variable endogène de la
variable exogène. L’outil graphique « diagramme de dispersion ou graphique nuage de points
» est le plus adapté et indiqué pour débuter l’étude de la corrélation. Après l’avoir réalisé, la
forme du nuage des points renseigne – à partir d’un simple coup d’oeil – sur le type d’une
éventuelle liaison entre X et Y. Plusieurs situations sont possibles :

7
1. Le coefficient de corrélation de Pearson :

Le coefficient de corrélation linéaire de Pearson, noté rXY, est un coefficient paramétrique


qui donne la mesure du degré de liaison linéaire entre deux variables quantitatives X et Y
normalement distribuées.

8
Chapitre1 : Le modèle de
régression simple

Nous commençons notre étude par le modèle le plus simp le : une variable endogène
est expliquée par une variable exogène. Après avoir étudié les conséquences
probabilistes de l’erreur d’observation, nous présentons en I. les formules de base
permettant d’estimer les paramètres du modèle. Les hypothèses stochastiques et leurs
conséquences sont étudiées au paragraphe II.

En III. et IV., la qualité de l’estimation d’un modèle est examinée à l’aide des
premiers tests statistiques (Student, Fisher).

Enfin, en V., le modèle de régression simple est étudié en tant qu’outil de prévision
avec le degré de confiance que nous pouvons en attendre.

I. Présentation du modèle :
Soit la fonction de consommation keynésienne :

𝐶 = 𝛼0 + 𝛼1 𝑌
Où : C=
consommation Y
= revenu,
𝛼1= propension marginale à consommer ;
𝛼0= consommation autonome ou incompressible.

1. Vocabulaire :
 La variable consommation est appelée « variable à expliquer » ou « variable endogène ».
 La variable revenu est appelée « variable explicative » ou « variable exogène » (c’est le
revenu qui explique la consommation).
 𝛼1et 𝛼0 sont les paramètres du modèle ou encore les coefficients de régression.

2. Spécification :
Nous pouvons distinguer deux types de spécification :

 Les modèles en série temporelle, les variables représentent des phénomènes observés à
intervalles de temps réguliers, par exemple la consommation et le revenu annuel sur
20 ans pour un pays donné. Le modèle s’écrit alors :
𝐶𝑡 = 𝛼0 + 𝛼1𝑌𝑡 ; 𝑡 = 1, … , 20
Où : 𝐶𝑡 = consommation au temps t.
𝑌𝑡 = revenu au temps t.

9
 Les modèles en coupe instantanée, les variables représentent des phénomènes observés
au même instant mais concernant plusieurs individus, par exemple la consommation et
le revenu observés sur un échantillon de 20 pays. Le modèle s’écrit alors :
𝐶𝑖 = 𝛼0 + 𝛼1𝑌𝑖 ; 𝑖 = 1, … , 20
Où : C = consommation du pays i pour une année donnée,
Y = revenu du pays i pour une année donnée.

3. Rôle du terme aléatoire :


Le modèle tel qu’il vient d’être spécifié n’est qu’une caricature de la réalité. En effet, ne
retenir que le revenu pour expliquer la consommation est à l’évidence même insuffisant ; il
existe une multitude d’autres facteurs susceptibles d’expliquer la consommation. C’est
pourquoi nous ajoutons un terme ( 𝜀𝑡 ) qui synthétise l’ensemble de ces informations non
explicitées dans le modèle : 𝐶𝑡 = 𝛼0 + 𝛼1𝑌𝑡 + 𝜀𝑡 si le modèle est spécifié en série temporelle
(𝐶𝑖 = 𝛼0 + 𝛼1𝑌𝑖 + 𝜀𝑖 si le modèle est spécifié en coupe instantanée), où 𝜀𝑡 représente l’erreur
de spécification du modèle, c'est-à-dire l’ensemble des phénomènes explicatifs de la
consommation non liés au revenu. Le terme 𝜀𝑡 mesure la différence entre les valeurs
réellement observées de 𝐶𝑡 si la relation spécifiée avait été rigoureusement exacte. Le terme 𝜀𝑡
regroupe donc trois erreurs :
- Une erreur de spécification, c’est-à-dire le fait que la seule variable explicative n’est
pas suffisante pour rendre compte de la totalité du phénomène expliqué ;
- Une erreur de mesure, les données ne représentent pas exactement le phénomène ;
- Une erreur de fluctuation d’échantillonnage, d’un échantillon à l’autre les
observations, et donc les estimations, sont légèrement différentes.

4. Conséquences du terme aléatoire :


Les valeurs vraies 𝛼0 et 𝛼1 sont parfaitement connues, cependant, dans la réalité, nous ne
connaissons pas ces valeurs mais seulement les deux séries d’observation 𝐶𝑡 et 𝑅𝑡 . Les
estimateurs de 𝛼0 et 𝛼1 notés respectivement 𝛼^0 et 𝛼^1 , sont des variables
aléatoires, qui
suivent les mêmes lois de probabilité, celle de 𝜀𝑡 , puisqu’ils sont fonctions de la variable
aléatoire 𝜀𝑡 . Les caractéristiques de moyenne et d’écart type de ces coefficients permettent de
construire des tests de validité du modèle estimé.

II. Estimation des paramètres par la méthode des moindres carrés


ordinaires (MCO):
1. Modèle et hypothèse :
Modèle :

Soit le modèle suivant :

𝑦𝑡 = 𝛼0 + 𝛼1𝑥𝑡 + 𝜀𝑡 ; 𝑡 = 1,… , 𝑛

Avec : 𝑦𝑡 = variable à expliquer au temps t

1
𝑥𝑡 = variable explicative au temps t
𝛼0 et 𝛼1 = paramètres du modèle
𝜀𝑡 = erreur de spécification (différence entre le vrai et le modèle spécifié), cette erreur est
inconnue et restera inconnue.
𝑛 = nombre d’observation.

L’estimation et son évaluation ne prend effet que si certaines hypothèses sont respectées.
Ces hypothèses permettent de déterminer les propriétés des estimateurs et de mettre en place
les outils de statistique inférentielle ou inductive (tests d’hypothèses, intervalle de confiance).

Hypothèses :

-H1 : le modèle est linéaire en 𝑥𝑡 (ou en n’importe quelle transformation de 𝑥𝑡).

-H2 : les valeurs 𝑥𝑡 sont observées sans erreurs (𝑥𝑡 non aléatoire).

-H3 : 𝐸(𝜀𝑡 ) = 0, l’espérance mathématique de l’erreur est nulle : en moyenne le modèle est
bien spécifié et donc l’erreur moyenne est nulle.
-H4 : 𝑉(𝜀2) = 𝜎 2, la variance de l’erreur est constante 1 : le risque de l’amplitude de l’erreur
𝑡 𝜀
est le même quelle que soit la période.

-H5 : 𝐸(𝜀𝑡 𝜀𝑡′ ) = 0 𝑠𝑖 𝑡 ≠ 𝑡′, les erreurs sont non corrélées (ou encore indépendantes) : une
erreur à l’instant 𝑡 n’a pas d’influence sur les erreurs suivantes.

-H6 : 𝐶𝑜𝑣(𝑥𝑡 , 𝜀𝑡 ) = 0, l’erreur est indépendante de la variable explicative.

-H7 : 𝜀𝑡 ↝ 𝑁(0 ; 𝜎 2).


2. Formulation des estimateurs :


L’ajustement par la méthode des moindres carrés ordinaires consiste à trouver les valeurs
de 𝛼0 et 𝛼1 qui minimise la somme des carrés des écarts entre les vraies valeurs de y et les
valeurs prédites avec le modèle de prédiction.

1
Cette hypothèse s’appelle l’hypothèse d’homoscédasticité ; dans le cas où cette hypothèse n’est pas
vérifiée, on parle alors de modèle hétéroscédastique.

1
La résolution analytique est la suivante :

Il s’agit de minimiser la Somme des Carrés des Résidus :


𝑛 𝑛
𝑀𝑖𝑛(𝑆𝐶𝑅) = 𝑀𝑖𝑛 ∑𝜀 2 = 𝑀𝑖𝑛 − − 𝑥 )2 = 𝑀𝑖𝑛 (𝑆)
∑( 𝑦 𝛼^ 𝛼^
� � 0 1 𝑡
� �
𝑡=1 𝑡=1
En opérant par dérivation par rapport à 𝛼0 et 𝛼1 afin de trouver le minimum de cette fonction,
on obtient les résultats suivants :
‫ 𝑆𝜕 ﻟ‬0 = 𝑛
‫ 𝑦(𝑛∑ ﻟ‬− 𝛼^ − 𝛼^ 𝑥 ) = ‫= 𝒏𝗌∑ ﻟ‬
2− ‫ 𝑡𝑦(∑ ﻟ‬− 𝛼^0 − 𝛼^1 𝑥 𝑡 ) = 𝑡 0 1 𝑡 𝒕
0 0
𝜕𝛼^ I I I
𝑡=1 𝑡=1 𝒕=𝟏
0 ⟹ 𝑛
⟹ ⟹
❪ 𝜕𝑆 = ❪ ❪ 𝑛 ❪ 𝒏
𝗅𝜕𝛼^1 I−2 ∑ 𝑥 𝑡 (𝑦𝑡 − 𝛼^ 0 − 𝛼^1 𝑥𝑡 ) I∑ 𝑥𝑡 (𝑦𝑡 − 𝛼^0 − 𝛼^1 𝑥 𝑡 ) = I∑ 𝒙𝒕 𝗌𝒕 = 𝟎
0
=0 0
𝗅 𝑡 =1 𝗅𝑡=1 𝗅𝒕=𝟏
𝑛 𝑛 𝑛 𝑛
‫ 𝑦(∑ ﻟ‬− 𝛼^ − 𝛼^ 𝑥 ) = 0 ‫ 𝑦 ∑ﻟ‬− ∑ 𝛼^ − ∑ 𝛼^ 𝑥 = 0
𝑡 0 1 𝑡 𝑡 0 1 𝑡
I 𝑡 =1 I
❪𝑛 ❪𝑡=1𝑛 𝑡=1 𝑡=1
( ⟹ ∑𝑥 −
𝛼^ −𝛼^ 𝑥 ) = 0
) (𝑦
I∑𝑥 𝑡 𝑦𝑡 − 𝛼^0 − 𝛼^1 𝑥 𝑡 I 𝑡 𝑡 1 𝑡
𝗅𝑡=1 =0 0
𝗅 𝑡=1
𝑛 𝑛
𝑛 𝑛
‫ 𝑦 ∑ﻟ‬− 𝑛𝛼^ − 𝛼^ ∑ 𝑥 = 0 ‫ 𝑦 ∑ﻟ‬− 𝑛𝛼^ − 𝛼^ ∑ 𝑥 = 0
𝑡 0 1 𝑡 𝑡 0 1 𝑡
I I
❪𝑡=1
𝑛 𝑡=1 ❪ 𝑡=1 𝑡=1
𝑛
⟹ ∑𝑥 − − 𝛼^ 𝑥 ) = ⟹ ∑ 𝑥 ( 𝑦 − − 𝛼^ 𝑥 )=0
(𝑦 𝛼^ 0
𝛼^
I 𝑡 𝑡 0 1 𝑡 I 𝑡 𝑡 0 1 𝑡
𝗅 𝑡=1 𝗅 𝑡=1

𝛼^ =∑𝑦𝑡 −
∑ 𝑥𝑡 𝑎^ 𝟎 = 𝒚 −
0 1 ‫ﻟ‬
𝑛
𝑛 𝑛 𝑛
⟹ ⟹
∑ 𝑥 𝑡 (𝑦𝑡 − 𝛼^0 − 𝛼^1 𝑥𝑡 ) ❪∑ 𝑥𝑡 (𝑦𝑡 − 𝛼^0 − 𝛼^1 𝑥 𝑡 ) = 0
=0 𝗅𝑡=1
𝗅𝑡 =1
𝑛 𝑛

∑ 𝑥𝑡 (𝑦𝑡 − 𝛼^0 − 𝛼^1 𝑥 𝑡 ) = 0 ⟹ ∑ 𝑥 𝑡 (𝑦𝑡 − 𝑦 + 𝛼^1 𝑥 − 𝛼^1 𝑥 𝑡 ) = 0


𝑡=1
𝑡=1
𝑛

[(𝑦 ∑𝑥 − )]

(𝑥 𝑦) − 𝛼^ 𝛼^𝑥 = 0 ⟹ ∑ 𝑥𝑡 (𝑦𝑡 − 𝑦) ∑ 𝑥𝑡𝑦𝑡 − 𝑛𝑥𝑦
𝑡 𝑡 1 𝑡 1 = ∑ 𝑥 𝑡 (𝑥𝑡 − 𝑥) =
𝑡=1 �
𝑽(𝒙)

∑(𝒙𝒕 − 𝒙)(𝒚𝒕 − 𝒚) 𝑪𝒐𝒗(𝒙,


⟹ 𝑎^ 𝟏 = =
∑(𝒙𝒕 − 𝒙)² 𝒚)
1
∑ 𝑥 2 − 𝑛𝑥2

Remarque :

On note 𝑆𝑥𝑦 = ∑(𝑥𝑡 − 𝑥)(𝑦𝑡 − 𝑦)

Et 𝑆𝑥𝑥 = ∑(𝑥𝑡 − 𝑥)²

1
Application 1 :
On voulait estimer la relation de consommation des cafés pour les étudiants de l’école ESTIM
en fonction de leurs revenus journaliers. Les données sur le montant du revenu journalier et
du montant dépensé pour la consommation des cafés étaient les suivantes :

i 1 2 3 4 5 6 7 8 9 10 11 12
Yi 0 0 2 1 1 3 3 4 2 3 1 2
Xi 5 3 10 10 5 4 5 7 8 6 6 7

Réponse :
L’équation à estimer est la suivante : 𝑦𝑖 = 𝛼0 + 𝛼1𝑥𝑖 + 𝜀𝑖 ; 𝑖 = 1,… , 12
Avec : 𝑦𝑖 = la consommation en café pour l’individu i
𝑥𝑖 = revenu du l’individu i
𝛼0 et 𝛼1 = paramètres du modèle
𝜀𝑖 = erreur de spécification (différence entre le vrai et le modèle spécifié)
∑ ∑𝑥𝑡
∑(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 𝑎𝑣𝑒𝑐 𝑦 = 𝑒𝑡 𝑥 =
𝛼^0 = 𝑦 + 𝛼^1 𝑥 𝑒𝑡 = ∑(𝑥𝑖 − 𝑥)² 𝑦𝑡 𝑛
𝛼^ 1
𝑛

𝑖 𝒚𝒊 𝒙𝒊 (𝒚𝒊 − 𝒚) (𝒙𝒊 − 𝒙) (𝒙𝒊 − 𝒙)(𝒚𝒊 − 𝒚) (𝒙𝒊 − 𝒙)²


1 0 5 -1,83 -1,33 2,44 1,78
2 0 3 -1,83 -3,33 6,11 11,11
3 2 10 0,17 3,67 0,61 13,45
4 1 10 -0,83 3,67 -3,05 13,45
5 1 5 -0,83 -1,33 1,11 1,78
6 3 4 1,17 -2,33 -2,72 5,44
7 3 5 1,17 -1,33 -1,56 1,78
8 4 7 2,17 0,67 1,45 0,44
9 2 8 0,17 1,67 0,28 2,78
10 3 6 1,17 -0,33 -0,39 0,11
11 1 6 -0,83 -0,33 0,28 0,11
12 2 7 0,17 0,67 0,11 0,44
Total 22 76 4,67 52,67
Moyenne 1,833 6,333

7
6
5 y = 0,0886x + 1,2722
𝛼^ 4,67 ∑( 𝑥𝑖 − 𝑥) (𝑦 − 𝑦) = 0,0886 4
𝑖
= = 3
1
{ ∑(𝑥𝑖 − 𝑥)2 52,67 2
𝛼^ 0 = 𝑦 + 𝛼^ 1 𝑥 = 1,833 − 0,0886 ∗ 6,333 = 1,272 1
0

0246810 12

1
3. Propriétés statistiques des estimateurs
 Propriétés de 𝑎^ 𝟏 :

𝛼^ ∑(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) ∑[(𝑥𝑖 − 𝑥)𝑦𝑖 − (𝑥𝑖 − 𝑥)𝑦] ∑((𝑥𝑖 − 𝑥)𝑦𝑖 ) − ∑(𝑥𝑖 − 𝑥)𝑦
= = =
1
∑(𝑥𝑖 − 𝑥)2 ∑(𝑥𝑖 − 𝑥)2 ∑(𝑥𝑖 − 𝑥)2

Or ∑(𝑥𝑡 − 𝑥) = ∑ 𝑥𝑡 − ∑ 𝑥 = ∑ 𝑥𝑡 − 𝑛𝑥 = 𝑛𝑥 − 𝑛𝑥 = 0

⟹ ∑(𝑥𝑖 − 𝑥)𝑦𝑖 − ∑(𝑥𝑖 − 𝑥)𝑦 ∑(𝑥𝑖 − 𝑥)𝑦𝑖 − 𝑦 ∑(𝑥𝑖 − 𝑥) ∑(𝑥𝑖 − 𝑥)𝑦𝑖


𝛼^ = = =
1
∑(𝑥𝑖 − 𝑥)2 ∑(𝑥𝑖 − 𝑥)2 ∑(𝑥𝑖 − 𝑥)2

Posant : 𝒙𝒊−𝒙
𝒘𝒕 =∑(𝒙𝒊−𝒙)𝟐 ⟹ = ∑ 𝑤𝑖 𝑦𝑖 ⟹ est un estimateur linéaire.
𝛼^1
1

‫ﻟ‬ ∑𝑤 𝑖 = 0
I
⟹ ∑𝑥𝑖𝑤𝑖 = 1

I ∑𝑤𝑖 ² = 1
𝗅 ∑(𝑥 − 𝑥 ) 2
𝑖

𝛼^ 1 = ∑ 𝑤𝑖 𝑦𝑖 = ∑ 𝑤𝑖 (𝛼0 + 𝛼1 𝑥 𝑖 + 𝜀𝑖 ) = 𝛼0 ∑ 𝑤𝑖 + 𝛼1 ∑ 𝑤𝑖 𝑥 𝑖 + ∑ 𝑤𝑖 𝜀𝑖

𝛼^ 1 = 𝛼1 + ∑ 𝑤𝑖 𝜀𝑖 ⟹ 𝛼^ 1 est une variable a léa to ir e.

Note : on dit que  un estimateur est sans biais de A si et seulement si 𝐸 (𝐴^ ) = 𝐴

⨀𝐸(𝛼^1 ) = 𝐸 (𝛼1 + ∑ 𝑤𝑖 𝜀𝑖 ) = 𝛼1 + ∑ 𝐸(𝑤𝑖 𝜀𝑖 ) = 𝛼1 + ∑ 𝑤𝑖 𝐸(𝜀𝑖 ) ; 𝑜𝑟 𝐸(𝜀𝑖 ) = 0

⟹ 𝑬 (𝑎^ 𝟏 ) = ⟹ 𝛼^ 1 est un estimateur sans biais.

𝜎²
⨀𝑉(𝛼^ 1 ) = 𝑉 (𝛼1 + ∑ 𝑤𝑖 𝜀𝑖 ) = ∑ 𝑤𝑖 ²𝑉(𝜀𝑖 ) = 𝜎² ∑ 𝑤𝑖 ² =
∑(𝑥𝑖 −

𝝈² 𝑛⟶+∞
𝑽 (𝑎 ^ 𝟏 ) = −−−−−→ 0 ⟹ on dit que 1 est un estimateur c onvergent
∑(𝒙𝒊 − α^

 Propriétés de
𝑎^ 𝟎 :
∑𝑦𝑖 1
𝛼^ 0 = 𝑦 − 𝛼^1 𝑥 − ∑𝑤𝑖𝑦𝑖 𝑥 = ∑𝑦𝑖 ( − ∑𝑤 𝑖 𝑥)
= 𝑛

⟹ 𝛼^0 = ∑𝑦𝑖 𝑞𝑖 ⟹ 𝛼^ 0 est une variable linéaire

‫ﻟ‬ ∑𝑞 𝑖 = 1
I
𝟏 ∑𝑥 𝑞 = 0
I ∑ 𝑞2 =
𝒒𝒕 = − ∑𝒘 𝒊 𝒙 ⟹
𝒏 ❪
1
𝑖 𝑖
2
1 𝑥
+
𝗅 𝑖 𝑛 ∑(𝑥𝑖 − 𝑥)2

1
𝛼^0 = ∑ 𝑦𝑖 𝑞𝑖 = ∑ 𝑞𝑖 (𝛼0 + 𝛼1 𝑥 𝑖 + 𝜀𝑖 ) = 𝛼0 ∑ 𝑞𝑖 + 𝛼1 ∑ 𝑞𝑖 𝑥 𝑖 + ∑ 𝑞𝑖 𝜀𝑖

⟹ 𝛼^ 0 = 𝛼0 + ∑ 𝑞𝑖 𝜀𝑖 ⟹ 𝛼^ 0 est une variable aléatoire.

⨀𝐸(𝛼^ 0 ) = 𝐸 (𝛼0 + ∑ 𝑞𝑖 𝜀𝑖 ) = 𝛼0 + ∑ 𝐸(𝑞𝑖 𝜀𝑖 ) = 𝛼0 + ∑ 𝑞𝑖 𝐸(𝜀𝑖 ) ; 𝑜𝑟 𝐸(𝜀𝑖 ) = 0

⟹ 𝑬 (𝑎^ 𝟎 ) = 𝑎𝟎 ⟹ 𝛼^ 0 est un estimateur sans biais.

⨀𝑉(𝛼^ 0 ) = 𝑉 (𝛼0 + ∑ 𝑞 𝜀𝑖 ) = ∑ 𝑞2 𝑉(𝜀𝑖 ) = 𝜎2 ∑ 𝑞 2


𝑖 𝑖 𝑖

𝟏 𝒙𝟐 𝑛 ⟶+∞
⟹ 𝑽(𝑎^ 𝟎 ) = 𝝈² [ + ∑( 𝒙𝒊 − 𝒙 )𝟐] −−−−→ 0 𝛼^ 0 est un estimateur convergent.
𝒏

Remarque :

𝐶𝑜𝑣 (𝛼^0 , 𝛼^ 1 ) = 𝐶𝑜𝑣(𝑦 − 𝛼^ 1 𝑥 ; 𝛼^ 1 ) = −𝑥 𝐶𝑜𝑣(𝛼^ 1 ; 𝛼^ 1 ) = −𝑥 𝑉(𝛼^ 1 )

⟹ 𝑠𝑖 𝑥 > 0 alors α^0 et α^1 sont liés négativement, plus particulièrement une sur-
estimation
de l’un se traduit par une sous-estimation de l’autre.

4. Théorème de Gauss – Markov :


Les estimateurs de MCO sont les meilleurs des estimateurs non biaisés. On dit que ce sont
des estimateurs BLUE (Best Linear Unbeased Estimater).

5. Estimation de la variance des erreurs ( 𝝈𝗌²) :


Un estimateur sans biais de cette variance est fournie par 𝜎^ 2 qu’on obtient comme suit :

2
𝜎^𝜀 2 =∑ 𝑡 = 𝑆. 𝐶.
𝑑𝑑𝑙 𝑅 ; avec ddl = (nbres d′ observation− nbres de paramètres)
𝑑𝑑𝑙

∑ 𝗌𝟐∑ 𝗌𝟐
𝝈^𝗌 𝟐 = 𝒕 = 𝒕
𝒅𝒅𝒍𝒏 − 𝟐
( 𝑛−2) 𝜎 2
En effet, 𝐸 (∑ 𝜀 2 ) = (𝑛 − 2)𝜎 2 ⟹ 𝐸 (𝜎^ 2 ) = 𝐸 ( ) = 𝜎 2.

𝑡 𝜀 𝜀 (𝑛−2) 𝜀

⟹ 𝜎^ 2 est un estimateur sans biais.


Ce qui nous permet de déterminer les estimateurs de la variance de chacun des paramètres :

1 𝜎^
2
𝑉 ^ (𝛼^ ) = 𝜎^ 2
2 𝑥
[ 0 � +
𝑛 ∑( 𝑥𝑖 − 𝑥

1
]
)2
𝑉^ ( 𝛼 ^ ) = 𝜀

1 ∑(𝑥𝑖 − 𝑥)2

1
III. Analyse de la variance :

1. Décomposition de la variance :
𝑦𝑡 − 𝑦̅ = (𝑦𝑡 − 𝑦^𝑡 ) + (𝑦^𝑡 − 𝑦̅ )

⟹ ∑ (𝑦𝑡 − 𝑦̅)2 = ∑(𝑦𝑡 − 𝑦^𝑡 )2 + ∑ (𝑦^𝑡 − 𝑦̅)2 + 2 ∑ (𝑦𝑡 − 𝑦^𝑡 )(𝑦^𝑡 − 𝑦̅)

= ∑ 𝜀 2 + ∑(𝑦^ − 𝑦̅)2 + 2 ∑ 𝜀 (𝑦^ − 𝑦̅)


𝑡 𝑡 𝑡 𝑡

Or ∑ 𝜀𝑡 (𝑦^𝑡 − 𝑦̅ ) = ∑ 𝜀𝑡 𝑦^𝑡 − ∑ 𝜀𝑡 𝑦̅ = ∑ 𝜀𝑡 𝑦^𝑡 − 𝑦̅ ∑ 𝜀𝑡

= ∑ 𝜀𝑡 𝑦^𝑡 = ∑ 𝜀𝑡 (𝛼^ 0 + 𝛼^ 1 𝑥𝑡 ) = 𝛼^ 0 ∑ 𝜀𝑡 + 𝛼^ 1 ∑ 𝑥 𝑡 𝜀𝑡 = 0

⟹ ∑(𝒚𝒕 − 𝒚̅)𝟐 = ∑ 𝗌𝟐 + ∑(𝒚^ − 𝒚̅)𝟐


� �

⟹ 𝐒𝐂𝐓 = 𝐒𝐂𝐑 + 𝐒𝐂𝐄

Somme des Carrés Somme des Carrés Somme des Carrés


Total des Résidus Expliqués

A/ Conséquences :

∎ SCE = ∑(𝑦^𝑡 − 𝑦̅ )2 = ∑(𝛼^ 0 + 𝛼^ 1 𝑥𝑡 − 𝑦̅)2 = ∑(𝑦̅ − 𝛼^ 1 𝑥̅ + 𝛼^ 1 𝑥𝑡 − 𝑦̅)2

= ∑(−𝛼^ (𝑥 − 𝑥̅))2 = 𝛼^ 2
∑(𝑥 − 𝑥̅)2𝑎=^𝟏 𝟐𝐒𝐱𝐱
1 𝑡 1

= 𝛼^1 ∑(𝑥 𝑡 − 𝑥 )(𝑦𝑡 − 𝑦) = 𝑎^ 𝟏

2
∎ 𝜎^𝜀 2 = ∑ 𝑡 = 𝑆𝐶𝑅 SCT − SCE
𝑛−2 𝑛− = 𝑛−2
2

2. Le coefficient de détermination :

Cette équation va nous permettre de juger de la qualité de l’ajustement d’un modèle.


∑(𝑦^𝑡 −
𝟐
𝑦̅)2 SCE SCT − SCR SCR Cov2(x, y)
𝑹 = = =1− = V ( x) V ( y )
∑(𝑦 �− 𝑦̅)2 SCT SCT SCT
=

⟹ 𝑹² est appelé le 𝐜𝐨𝐞𝐟𝐟𝐢𝐜𝐢𝐞𝐧𝐭 𝐝𝐞 𝐝é𝐭𝐞𝐫𝐦𝐢𝐧𝐚𝐭𝐢𝐨𝐧

1
Il exprime la part de la variable endogène expliqué par la régression. La régression est
d’autant plus meilleure que 𝑹² soit proche de 1.

2
3. Tableau d’analyse de la variance :
Pour résumer les éléments, étant permis la décomposition de la variance, on dresse un
tableau qui prend la forme suivant :

Soit k : le nombre de paramètres du modèle.

Source de Somme Degré CM : Carrés


variation des de Moyens
carrés liberté
Var. exogène SCE
SCE = ∑(𝑦^𝑡 − 𝑘−1= 1 CME =
𝒙𝒕 𝑘−1
𝑦̅) 2
SCR
Résidu SCR = ∑𝜀 2 𝑛−𝑘 =𝑛−2 CMR =
𝑡
𝑛−𝑘
SCE/
𝑭𝒄 =
Total SCT = ∑(𝑦𝑡 − 𝑛 − (𝑘 − 1) = 𝑛 − SCR/𝑘 − 1
𝑦̅) 2 1 𝑛−𝑘

IV. Induction statistique et conséquence des hypothèses :


1. Conséquence de l’hypothèse de normalité des erreurs:
On sait que :
2 ∑ 𝜀2𝑡
𝜀𝑡 ↝ 𝑁(0 ; 𝜎𝜀 ) 𝜎^ 2 =
𝜀
𝑛−2
1 𝑥2 𝜎^ 2
𝜎^ 2 = 𝑉^ (𝛼^0 ) = 𝜎^ 2 ] 𝜎^ 2 = 𝑉^ (𝛼^ ) = 𝜀
[ +
𝛼^ 0 𝜀 ∑(𝑥𝑖 − 𝑥)2 𝛼^ 1 1
∑(𝑥𝑖 − 𝑥)2
𝑛
D’ailleurs ; et comme les paramètres 𝛼^𝑗 sont des combinaisons linéaires de variable
normale
𝛼^ 1 = 𝛼1 + ∑ 𝑤𝑖 𝜀𝑖
{ ; d’espérance 𝐸(𝛼^ 𝑗 ) et de variance (^ ) alors :
= 𝛼 + ∑ 𝜀 𝛼
𝛼^ 0
𝜎²
0
𝑞𝑖 𝑖
𝑗
𝛼^ 𝑗 − 𝛼𝑗
𝛼^ ↝ 𝑁 (𝐸(𝛼^ ); 𝜎 2 (𝛼^ )) ⟹ ↝ 𝑁(0,1)
𝑗 𝑗 𝑗
𝜎 (𝛼^𝑗 )
Et donc
𝛼^𝑗 − 𝛼𝑗 : c′ est la loi de Student
↝ (➚𝑁−𝑛𝑏𝑠 .𝑝𝑎𝑟𝑎𝑚 è𝑡𝑟𝑒𝑠 )
𝜎^(𝛼^𝑗 )

2. Test statistique sur les paramètres :


Il s’agit de fixer des valeurs données pour les paramètres 𝛼𝑗 et de tester les hypothèses :

𝐻0 : 𝛼𝑗 = 𝑏
𝐻1 : 𝛼𝑗 ≠ 𝑏
On utilise la statistique de student :

2
𝛼^𝑗 − 𝛼𝑗
𝘑 (𝛼^ ) = ↝➚
𝑐 𝑗 (𝑁−2)
𝜎^(𝛼
^𝑗 )

2
Pour un seuil critique α (généralement 5%) :
Si |𝘑𝑐 (𝛼^𝑗 )| > ➚(𝑁−2) alors on rejette H0 et on accepte H1 .

Remarque :

Si on veut décider à propos de la significativement individuelle des paramètres et poser la


question si le paramètre 𝛼𝑗 est statistiquement différent de 0 ou non ? Il suffit alors de changer
b par 0.

𝐻0 : 𝛼𝑗 = 0
𝐻1: 𝛼𝑗 ≠ 0 ⟹ hypothèse de significativité

3. Test d’analyse de la variance ou test de significativité globale :


En se basant sur la relation de décomposition de la variance, on peut établir un test permettant
de vérifier la significativité globale du modèle. SCT = SCE + SCR.
Lorsque toutes les hypothèses du modèle sont satisfaite et sous l’hypothèse H0 :
𝐻0: tous les 𝛼𝑗 = 0
𝐻1: ∃ au moins 𝛼𝑗 ≠ 0

Sous H1 : hypothèse de significativité globale.


SCE /
𝑘−1
On utilise la statistique de 𝑭 = ↝ ℱ(𝑣 𝑣
= 𝑘−1; = 𝑁 − 𝑘)
Fischer 𝒄 SCR / 𝟏 𝟐
𝑛−𝑘
Pour un seuil critique α (généralement 5%) : si 𝑭𝒄 > 𝑭𝒕𝒂𝒃 alors on rejette H0 et on accepte H1
et on dit que le modèle est globalement significatif.

4. Intervalle de confiance des paramètres :


𝑎^ 𝒋 −𝑎𝒋
On a : ↝ ➚( )
𝝈^(𝑎^ 𝒋 ) 𝑵−𝒏𝒃𝒔.𝒑𝒂𝒓𝒂𝒎è𝒕𝒓𝒆𝒔
Pour un seuil critique 𝛽 = 5%, un intervalle de confiance à 95% de confiance est le
suivant :
𝐼𝐶95%(𝛼𝑗) = [𝛼^ 𝑗 − ➚(𝑁−2) ∗ ^𝜎 (𝛼^ 𝑗 ) ; 𝛼^𝑗 + ➚(𝑁−2) ∗ ^𝜎(𝛼^𝑗 )]

Remarque :

Le test de significativité individuelle de paramètres 𝛼𝑗 peut-être réaliser à partir de


l’intervalle de confiance.

𝐻0: 𝛼𝑗 = 𝑏
Si le réel 𝑏 ∈ 𝐼𝐶 95% (𝛼𝑗 ) alors on décide sinon on accepte H1.
𝐻1: 𝛼𝑗 ≠ 𝑏 H0

2
V. Prévision :
On admettant la stabilité des paramètres du modèle et ces hypothèses. Si on se donne une
valeur futur 𝑋𝑇+ℎ pour la variable exogène, alors la valeur prévue correspondante à la valeur
endogène sera 𝑌^𝑇+ℎ = 𝛼^ 0 + 𝛼^ 1 𝑋 𝑇+ℎ .
La valeur théorique de la variable endogène à cette date est : 𝑌𝑇+ℎ = 𝛼0 + 𝛼1𝑋𝑇+ℎ + 𝜀𝑇+ℎ
L’erreur de prévision 𝑒 𝑇+ℎ = 𝑌𝑇+ℎ − 𝑌^𝑇+ℎ = 𝜀 𝑇+ℎ − (𝛼^ 0 − 𝛼0 ) − 𝑋 𝑇+ℎ (𝛼^1 − 𝛼1 ).

𝐸(𝑒𝑇+ℎ ) = 𝐸 (𝜀 𝑇+ℎ ) − 𝐸 (𝛼^ 0 − 𝛼0 ) − 𝑋 𝑇+ℎ 𝐸(𝛼^ 1 − 𝛼1 ) = 0

Cela prouve que l’estimateur 𝑌^𝑇+ℎ est un estimateur sans biais de 𝑌𝑇+ℎ .

𝑉(𝑒𝑇+ℎ ) = 𝑉 (𝜀 𝑇+ℎ ) + 𝑉 (𝛼^ 0 − 𝛼0 ) + 𝑋 2 𝑇+ℎ 𝑉 (𝛼^ 1 − 𝛼1 ) + 2𝑋 𝑇+ℎ 𝐶𝑂𝑉(𝛼^ 0 ; 𝛼^ 1 )

1
= 𝜎² + 𝜎² [ 𝑥
2 𝜎² 𝜎²
𝑇+ ] + 𝑋2 𝑇+ℎ − 2𝑋𝑇+ℎ 𝑋
∑( 𝑥𝑖 − )2 ∑( 𝑥𝑖 − ) 2 ∑( 𝑥𝑖 − 𝑥)2
𝑥 𝑥
1 𝑋𝑇+ℎ − 𝑋
= 𝜎² [1 + + ]
𝑇 𝑇 ∑(𝑥𝑖 − 𝑥 )2
𝒆𝑻+𝒉 − 𝟎
𝒆
𝝈𝟐 ↝ 𝑵(𝟎 ; )⟹ ↝➚
𝑻+𝒉 (𝒆𝑻+𝒉) (𝑵−𝒏𝒃𝒔.𝒑𝒂𝒓𝒂𝒎è𝒕𝒓𝒆𝒔 )
𝝈(𝒆𝑻+𝒉)

𝑰𝑪𝟗𝟓%(𝒀𝑻+𝒉 ) = [𝒀^ 𝑻+𝒉 − ➚(𝑵−𝟐) ∗ 𝝈^ ( 𝒆𝑻+𝒉 ) ; 𝒀^ 𝑻+𝒉 + ➚(𝑵−𝟐) ∗ 𝝈^ ( 𝒆𝑻+𝒉 )]

VI. Application et mise à niveau :


A. Application 1 :

2
B. Application 2 :

2
2
2
23
Chapitre 2 : le Modèle de
Régression Multiple

I. Le modèle linéaire générale :


Le modèle linéaire générale est une généralisation du modèle de régression simple dans
lequel figure plusieurs variables explicatives :

𝑦𝑡 = 𝛼0 + 𝛼1𝑥1𝑡 + 𝛼2𝑥2𝑡 + ⋯ + 𝛼𝑘 𝑥𝑘𝑡 + 𝜀𝑡 ; ∀ 𝑡 = 1, … , 𝑛

Afin d’en alléger l’écriture et de facilité l’expression de certains résultats, on a habituellement


recours aux notions matricielles. En écrivant le modèle, observation par observation nous
obtenons :

24
La dimension de la matrice X est donc de n lignes et k+1 colonnes (k étant le nombre de
variables explicatives réelles).

II. Estimation et propriétés :

2
1. Hypothèses et propriétés des estimateurs :
Le modèle est linéaire en X (ou sur ces coefficients) et nous distinguons les hypothèses
stochastiques (liées à l’erreur 𝜀) des hypothèses structurelles.

a) Hypothèses stochastiques :

b) Hypothèses structurelles :

c) Propriétés des estimateurs :

Considérons les propriétés de l’estimateur (3). Le modèle sous forme matricielle peut
s’écrire, comme pour le modèle de régression simple, de différentes manières :

2
Remarque :

2
III. Analyse de la variance et qualité d’ajustement :

2
IV. Application :

2
3
3
3
Chapitre 3 : problèmes de
violation des hypothèses
classiques

3
3
3
3
3
3
3
4
4
4

Vous aimerez peut-être aussi