Vous êtes sur la page 1sur 163

Chapitre 0a : Introduction

«De l’économie à l’économétrie»

1. Une définition de l’économétrie.


2. Buts et moyens de l’économétrie.
Chapitre 0b : Rappels mathématiques

1. Rappel sur l’algèbre linéaire.


2. Rappel sur les variables aléatoires et
l’inférence statistique.

--
Les modèles économiques et la réalité
1. Les modèles économiques en général

Modèle économique
=
discours sur la réalité du fonctionnement de
l’économie

Ce discours peut prendre une forme: - littéraire


- formalisée
(mathématique)

--
Quelques limites d’un modèle économique

1. Quelle que soit la forme adoptée, des


simplifications sont introduites dans le
discours sur l’économie.
Les modèles sont des formalisations
approximatives de la réalité économique.

2. Le modèle lui–même se préoccupe de sa


cohérence, mais peu de son caractère
opérationnel.
--
Une construction permettant d’utiliser des
données : le modèle statistique.

Un modèle statistique est un objet


mathématique crée de façon à fournir un
contexte dans lequel on peut manipuler
des données au moyen de méthodes
d’inférence statistique.

--
Deux questions:
- Est-il possible d’adapter un modèle
économique de façon à lui donner une
structure de modèle statistique ?

- Si oui, comment le fait-on et quelles


sont les méthodes d’inférence possible?

--
Qu’est ce que « faire de l’économétrie »?
1. Faire de l’économétrie consiste à répondre à ces
deux questions.
2. Par construction, l’économétrie constitue donc
une articulation entre économie et statistique.
3. L’économétrie emprunte à ces deux disciplines.
De façon schématique :

Modèle économique
+ =
économétrie
Modèle et méthodes statistiques
--
Les buts de l’économétrie en bref
L’économétrie est l’ensemble de méthodes
statistiques spécialement conçues pour :
analyser des données économiques,
tester des théories économiques,
aider à la prise de décision économique,
prévoir l’évolution de variables économiques,
aider à l’élaboration de nouvelles théories
économiques.
--
L’économétrie s’appuie sur :
 des données,
 une approche formalisée de la science
économique, c’est-à-dire une approche qui
exploite des représentations mathématiques
(appelés modèles) des mécanismes
économiques,
 des outils statistiques. L’outil statistique de
base est le modèle linéaire
--
2. Les moyens de l’économétrie
2.1 Les données
1. Les données individuelles ou données en
coupes : elles mesurent, pour une
période donnée, une variable pour des
unités statistiques différentes (individus,
entreprises, pays, ménages,…)

Xi , i  1,2,..., n

--
2. Les données chronologiques ou
temporelles : elles mesure une variable pour
des
 dates successives (stocks)
 périodes successives (flux)

Le plus souvent, les différentes dates sont


régulièrement espacées. On parle alors de
périodicité de données (annuelles,
mensuelles, …)
Xt , t  1,2,..., T

--
3.Les données de panel ou en coupes
répétées : combinaison des deux types
précédents
X it , i  1,2,..., n t  1,2,..., T

Exp. : 2000 ménages interrogés chaque


année sur leurs dépenses d’équipement

On parle de panel lorsque les données


portent à chaque période sur les mêmes
individus.
--
2. Les moyens de l’économétrie
2.2 La formalisation (ou modélisation)
Supposons qu’on s’intéresse à la demande d’un
bien et qu’on souhaite vérifier que:
 la demande diminue lorsque le prix du bien
augmente,
 la demande augmente lorsque le revenu des
ménages augmente.

Il faut formaliser (=mettre en équation) pour


obtenir une hypothèse qui soit testable
statistiquement .
--
Posons Q = la demande du bien
P = le prix du bien
Y = le revenu du consommateur
La théorie économique nous dit que :

Q  f ( P, Y ).
Introduisons les notations :
f f
f 
'
p et f 
y
'

P Y
L’hypothèse à tester s’écrit
f p'  0 et f y'  0.
--
L’économètre choisit la fonction , le plus
souvent en utilisant des formulations très
simples ou classiques dans la théorie
économique.

Par exemple : Q     P  Y

Le problème est alors d’estimer , ,  et de


tester:
H 0 :   0 et   0.
--
Remarque :
Les résultats obtenus dépendent du choix de
la fonction  fait par l’économètre.

 L’économètre doit choisir un modèle qui


soit le plus proche possible de la réalité

--
PGD = Processus Générateur des Données

L’idéal
C’est-à-dire le « vrai modèle »
celui qui est vérifié exactement par les données
Il est impossible de le connaître !!

Un modèle : que choisir ?

Construire un modèle qui représente le mieux

La pratique
possible la réalité : bonne spécification
Lorsque le modèle utilisé est faux,
on dit qu’il y a mauvaise spécification
--
Exemple :
On dispose de 28 données américaines
relatives aux variables suivantes :
Prix : prix de ventes d’une maison en milliers de $
Taxes : montant de la taxe d’habitation en
centaines de $
Terrain : surface du terrain en milliers de pieds
carrés
Maison : surface de la maison en centaines de
pieds carrés
Age : âge de la maison en années
Tableau des valeurs
--
On souhaite mesurer
l’impact des différentes variables sur le prix
des maisons
et être capable de prédire
le prix (évaluer) d’une maison dont on
connaît les caractéristiques.

PRIX = (TAXES, TERRAIN, MAISON, AGE)

--
Pour simplifier, on peut s’intéresser
seulement à deux variables : PRIX et
TERRAIN.
PRIX = (TERRAIN)
On choisit une fonction  très simple :
PRˆ IX  a  b TERRAIN

Le problème est celui de la détermination


des paramètres a, b de la droite.

--
Chapitre 0b : Rappels mathématiques

1. Rappel sur l’algèbre linéaire.


2. Rappel sur les variables aléatoires et
l’inférence statistique.

--
1. Rappel sur l’algèbre linéaire
1.1 Espace euclidien

1.1.1 Produit scalaire


On définit la multiplication d’un vecteur ligne a
par un vecteur colonne b comme le résultat
scalaire :

 b1 
  n
a  b   a1 ,..., an        ai bi
  i 1
b 
 n
--
Le produit scalaire de deux vecteurs colonnes
de même dimension est noté <u,b> et est
définie par :
 b1 
  n
 u , b  u b   u1 ,..., u n        ui bi
  i 1
b 
 n

Définition
Un espace euclidien est un espace vectorielle
muni d’un produit scalaire.

--
1.1.2 Norme
La norme (ou longueur) d’un vecteur
colonne u est
u   u, u 

1.1.3 distance entre deux vecteurs


La distance entre les vecteurs u et v de
ℝn est définie par
n
d (u , v )  uv   i i
(u
i 1
 v ) 2

--
Définition
La projection d’un vecteur u sur un
vecteur v est définie par
 u, v  v
pv (u )  2
v

1.1.4 Vecteurs orthogonaux


Deux vecteurs non nuls u et v de ℝn sont
orthogonaux si
 u, v   0
On note uv
--
1.1.5 Orthogonal d’un s-espace
vectoriel.
Un vecteur u est orthogonal à un sous
espace vectoriel V ssi il est orthogonal à
tous les vecteurs de V, on note alors

u V
Définition
Les sous-espaces V et W sont dits
orthogonaux si tout vecteur de V est
orthogonal à tout vecteur de W.
--
Définition
L’ensemble de tous les vecteur
orthogonaux à V est appelé l’orthogonal
de V et est noté V.

Propriétés
 (V) = V,
 VV={0}.

--
1.2 Application linéaires et
Matrices.

1.2.1 Transposé d’une matrice


Transposé une matrice revient à remplacer les
lignes par les colonnes et vice versa.
Par exemple si

 1 2
   1 4  2
A 4 3 alors A   
   2 3 5 
 2   
 5
--
Définitions.
 Une matrice est dite symétrique si elle
est égale à sa transposée.

 Une matrice est dite diagonale si elle


est carrée et que tous ses éléments
extradiagonaux sont nuls
6 0 0
 
Par exemple A  0 2 0
 
0 0 3 

--
1.2.2 Trace d’une matrice
La trace d’une matrice carrée est la
somme des éléments de sa
diagonale.

Propriétés
1. trace(A+B)=trace(A)+trace(B)
2. trace(AB)=trace(BA)
mais trace(AB)≠trace(A)trace(B)

--
1.2.3 Propriétés de déterminant de
matrices.
Notons le déterminant d’une matrice
carrée A (JxJ) par |A|.

Propriétés
1. |A|= |A’|,
2. |AB|= |A|.|B|, en particulier |Ak|= |A|k.
3. |cA|=cJ|A|,(où A est de dimension JxJ).

--
1.2.4 Matrices orthogonales

Une matrice  est dite orthogonale si


son inverse est égale à sa transposée :

’ = -1

--
1.2.5 Valeurs et vecteurs propres
d’une matrice
Propriétés
• Une matrice carrée symétrique de
dim=JxJ possède toujours des valeurs
propres.
• La trace d’une matrice carrée est
toujours égale à la somme des valeurs
propres.
• Le déterminant d’une matrice carrée
symétrique est toujours égale au
produit de ses valeurs propres.
--
Propriété
Si A est une matrice JxJ réelle
symétrique, il existe J vecteurs propres
normés et orthogonaux.

--
Théorème (de diagonalisation)
Soit A une matrice symétrique (JxJ).
Soient la matrice orthogonale  dont les
colonnes sont les J vecteurs propres de
A, et la matrice diagonale  ayant sur sa
diagonale principale les J valeurs
propres.
Alors
’A =  et A = ’

--
2. Rappel sur les variables
aléatoires et l’inférence
statistique.

--
2.1 Variable aléatoire
La notion de variable aléatoire formalise l’association
d’une valeur au résultat d’une expérience aléatoire.

> Variable aléatoire discrète


Une variable aléatoire discrète prend un nombre
limité de valeurs dans ℝ.

> Variable aléatoire continue


Une variable aléatoire continue prend des valeurs
dans ℝ ou dans un intervalle de ℝ.
--
Exemple de variables discrètes :
 variable de Bernoulli,
 variable binomiale,
 variable discrète uniforme

Exemple de variables continue :


 variable normale (de Gauss)
 variable Chi-deux
 variable de Student
 variable de Ficher

--
2.2 Inférence statistique

> Modélisation
La modélisation est une approche qui
consiste à approximer la réalité par un modèle
plus simple.

--
Remarques:

 Le modèle ne pourra jamais représenter


complètement la réalité dans toute sa
complexité.

 Comme le modèle ne peut tout décrire, il


restera toujours une partie inexpliquée qui
sera supposée aléatoire.
--
A réviser impérativement:
 La notion des intervalles de confiances
 Les tests statistiques
 Tests paramétriques,
 Sur la moyenne,
 Sur la variance
 Sur la proportion

 Tests de Chi-deux
 D’indépendance
 De lois

--
--
Chapitre 1 : Modèle à une équation
linéaire avec une
seule variable
explicative.
(modèle de régression linéaire simple)
- Définition du modèle de régression simple
- Estimation des paramètres.
- Estimation de la variance des termes
d’erreurs.
1.1 Définition du modèle et
interprétation
Le modèle de régression simple et le modèle de
régression multiple forment la base de
l’économétrie linéaire qui est elle-même la base
de toute l’économétrie.

Les modèles de régression ont aussi des


prolongements importants dans le domaine de
l’analyse de la variance et de la covariance.
Dans la pratique, nous avons généralement :

Données
Et nous cherchons à
X Y expliquer la variable
X1 y1 Y par la variable X :
x2 y2
⋮ ⋮ =? tq Y=(X)
xn yn
1.1.1 Définition du modèle

Le modèle est construit pour représenter une


relation entre :
•une variable endogène (dépendante) continue Y
et
•une seule variable exogène (ou explicative,
indépendante) X.
On dispose de n observations pour chacune
des variables, de sorte que le modèle
économétrique comporte n variables
aléatoires Y1, …,Yn et n variables aléatoires
X1, …,Xn .

Le couple (Xi ,Yi ) se présente comme la


mesure du couple de variables (X,Y) pour le
ième individu.
X  ( X 1 , X 2 ,..., X n ) Y  (Y1 , Y2 ,..., Yn )
Notons et
Définition
Le modèle est constitué de la famille de lois pour
((͢X, (͢Y) pour les quelles la loi conditionnelle de (͢Y
sachant (͢X satisfait les conditions suivantes:
Condition 1 (C1):
L’espérance conditionnelle de Yi sachant (͢X est
de la forme affine en Xi :
E (Yi X )  1   2 X i , i  1,... , n

Condition 2 (C2):
La covariance conditionnelle entre Yi et Yj
sachant (͢X est nulle pour toute paire de variables
distinctes (Yi,Yj) et égale à une constante
strictement positive si Yi=Yj :
 0 si i  j

i, j  1,... , n CovYi , Y j X   

 2
si i  j
avec >0.
Remarques :
1. La condition C1 contraint non seulement
l’espérance conditionnelle E(Yi| X
(͢ ) à
dépendre linéairement des variables X 1,
…,Xn, mais de plus de ne dépendre
(linéairement) que de la variable
exogène d’indice i. On peut montrer que

E (Yi X )  E (Yi X i )  1   2 X i

Soient X une variable aléatoire et A et B deux tribus telles que AB.


On a
E(X|A)=E( E(X|B) |A)
2. La forme de E(Yi| (͢X) est définie à l’aide des
coefficients β1 et β2, qui sont les même pour
tous les individus.

3. La condition C2 impose aux covariances


conditionnelles entre des variables
endogènes de ne pas dépendre des variables
exogène. Par conséquence, ces covariances
conditionnelles des couple (Xi,Yi) sont aussi
des variances non conditionnelles.
4. La cov(Yi,Yj| (͢X) ne dépende pas des indices i
et j mais ne dépend que de la distance entre
ces deux indices

a. Si cette distance est positive (i≠j), alors


la covariance est nulle. Cela signifie que
une fois connues les variables
exogènes, il n y a pas de corrélation
entre les variables endogène.
b. Si cette distance est nulle (i=j), alors la
covariance cov(Yi,Yi| (͢X)=var(Yi|(͢X). Celle-
ci est la même pour tous les individus
statistiques et égale à un nombre noté
2. Cette condition est appelée
homoscédasticité.
1.1.2 Reformulation et interprétation

Le modèle de régression linéaire à une variable


admet une définition équivalente qui permet de :

 reformuler le modèle,

 faciliter
le rapprochement entre le modèle
économétrique et un modèle économique,

 spécifier
une relation entre une variable
endogène et une variable exogène.
1.1.3 Une reformulation
On définit la variable aléatoire i par

 i  Yi  E Yi X  , i  1,... , n.

On peut alors écrire que

Yi  E  Yi X    i , i  1,... , n.

Ou encore
Yi  1   2 X i i , i  1,... , n.
a) L’espérance
De la définition de i et la condition C1 on peut
obtenir :
C1'. E  i X   0 , i  1,... , n.

b) La covariance
D’une façon similaire, avec la condition C2 on a:

 0 si i  j

C 2'.  
Cov  i ,  j X  
2

 si i  j

Démonstration
Réciproquement, il est facile de montrer que
si on a la relation

Yi  1   2 X i   i , i  1,... , n.

accompagnée des conditions C1’ et C2’,

alors cette spécification satisfait la définition d’un


modèle de régression linéaire à une variable
donnée dans section précédente.
1.1.4 Interprétation
La reformulation
Yi  1   2 X i   i , i  1,... , n.
fait apparaître le modèle de RLS comme étant
composé d’une relation liant linéairement la
variable endogène à la variable exogène,
accompagnée de conditions sur cette relation.

1   2 X i : la partie de Yi expliquée à partir de Xi.


 i : la partie de Yi non expliquée par Xi.
= terme d’erreur.
1.1.5 Interprétation des paramètres  1 et  2

Les paramètres 1 et 2 sont des paramètres de


la loi conditionnelle de Yi sachant Xi (1 et
2 sont des paramètre de l’espérance de cette
loi).

(a)Le paramètre 1 s’interprète comme la


valeur attendue (espérée) de Yi lorsque Xi=0.
On appelle ce paramètre intercept ou ordonné
à l’origine.
(b) Le paramètre 2 a plusieurs interprétations
possibles et équivalentes :
On a
dE (Yi X i )
 2
dX i

Interprétation : si la valeur de Xi augmente


d’une unité, alors la valeur de Yi variera de 2
unités.
Estimation du modèle
La loi conditionnelle de Yi| X admet pour
espérance 1   2 X i et pour variance 2.

1, 2 et 2 sont des paramètres de la loi


conditionnelle de (Y1, …,Yn) sachant X.

On ne connaît pas la vraie valeur de


ces paramètres.
1.2 Estimation Moindres Carrés de  1 et  2
On peut utiliser le principe de l’inférence
statistique pour approximer les valeurs
inconnues des paramètres à partir des
observations.

Il s’agit de trouver des estimateurs ponctuels


de 1 et 2.

La méthode qui sera utilisée est appelée


méthode des Moindres carrés (MC).
Approche intuitive
On cherche des valeurs de 1 et de 2 pour
lesquels les formes 1   2 X i expliquent en
moyenne la plus grande partie possible des
Yi, i=1,…,n.

Pour cela, on choisit des valeurs de 1 et de


2 pour lesquelles la distance entre les Yi et
les 1   2 X i soit la plus petite possible.
Formellement, si on mesure chacune de ces
distance par [Yi  (β1  β2 Xi )]2 , le problème
consiste à minimiser la fonction S définie par

S : IR  IR  IR 
n
1
β1,β2   Sβ1 ,β2   
n i1
(Yi  β1  β2 Xi )2
MLRS : modèle linéaire de régression simple

Définition
Dans le MLRS, on appelle estimateur des
moindres carrés de (β1 , β2 ) toute solution
notée (βˆ 1 , βˆ 2 ) du problème

min S β1 ,β2  ,
 β1 ,β2 IR 2

n
1
où Sβ1 ,β2   
n i1
(Yi  β1  β2 Xi )2
Remarque
La fonction S est deux fois continûment
dérivable. De plus c’est une fonction
convexe.
Par conséquence tout extremum est un
minimum, atteint en tout point (βˆ 1 , βˆ 2 ) de ℝ2

satisfaisant
S ˆ ˆ
(β1 ,β2 )  0, k  1,2.
βk
Dans la minimisation de S, il faut distinguer
deux cas :
1er cas : S’il existe deux individus i et j pour
les quels Xi≠Xj, alors S est strictement
convexe.
  un minimum unique pour S.

2ème cas : Si pour tous les individus i on a


Xi=x≠0, alors
 S admet une infinité (continûment) de
minimums.
Allure de la fonction S (1er cas)
Allure de la fonction S (2ème cas)
Théorème
Dans le MRLS à une variable, s’il existe deux
individus i et j tels que Xi≠Xj , alors
l’estimateur Moindres Carrés de (1,2) est
données par n

ˆ 
 X .Y
i 1
i i  nX .Y
β 2 n
,
i 1
X i2  nX 2

ˆ  Y β
β ˆ X.
1 2
Variance des estimateurs βˆ 1 et βˆ 2
Propriété
Dans le MRLS, les variances conditionnelle des
paramètres 1 et 2 sont données par
 2 
ˆ 2 1 X 
V(1 X )    
2

n
n (Xi  X ) 
 i 1 
et

2
V(ˆ 2 X ) 

n
( X i  X )2
i 1
1.3 Valeurs ajustées et résidus
Définition
Dans le MRLS, les valeurs ajustées issues de
l’estimation Moindres Carrées de 1 et de 2
sont les n variables notées Ŷ1 Ŷ2, …, Ŷn,
définies par Yˆ i  βˆ 1  βˆ 2 Xi , i  1,...,n .

Remarque
Yˆ i  βˆ 1  βˆ 2 Xi
s’interprète comme un
estimateur de E(Yi X)  β1  β2 Xi .
Définition
Dans le MRLS, on appelle résidus de
l’estimation Moindres Carrées, les variables
aléatoires notés εˆ 1 , εˆ 2 , ..., εˆ 3 et définies par

εˆ i  Yi - Yˆ i , i  1,...,n.

εˆ i  Yi - Yˆ i
Remarque
s’interprète  Yi X . un
ε i  Yi  Ecomme
estimateur de
Propriété
Dans le MRLS, on a
n n

 εˆ
i1
i  0 et  εˆ X
i1
i i  0.

Preuve : (exercice)
Théorème (Décomposition de la régression)
Dans le MRLS, on a

 Y  Y        
n n n
2 2 2
i Yˆi  Y ˆ
Yi  Yi . (V)
i 1 i 1 i 1

Preuve : (Exercice).
Remarque
L’égalité (V) est une décomposition des
variations des Yi en la somme des variations
de Ŷi et des variations des ˆi.
Définitions et notation n
 On appelle le terme  Yi  Y  variation
2

i 1
totale, ou somme des carrés totaux (SCT).

  variation
n
2
On Yˆi  Y
appelle le terme i 1
expliquée, ou somme des carrés expliqués
(SCE).
n

appelle le terme 
ε̂ i2
On variations
i1
résiduelles, ou somme des carrés des résidus
(SCR).
On peut donc ré-énoncer le théorème de
décomposition de régression de la façon
suivante :

Dans le MRLS on a SCT = SCE + SCR


Le coefficient de détermination
De l’égalité (V), on peut construire un estimateur de
la capacité des variables expliquatives à déterminer le
niveau de la variable dépendante.
Définition
Dans le MRLS, on appelle coefficient de
détermination de la régression, et on note R2 le
nombre définie par
 ˆ Y 
n


2
Y i
2 SCE i 1
R   n
SCT
 Y  2
i Y
i 1
Remarques
 R2 en anglais est dit R-squared

On peut montrer facilement que 0≤ R2


≤1.
 R2 s’interprète comme une proportion.

 L’égalité (V) nous permet d’obtenir


2 SCR
R  1
SCT
Interprétation de R2
 Le coefficient de détermination R 2
mesure la qualité d’ajustement.
 Lorsque les ŷi sont très proches des y i

(et donc les i sont proches de 0), on a


R2  1 : l’ajustement est de bonne
qualité;

 au contraire, lorsque les erreurs i sont


très importantes, on a R2  0 :
l’ajustement est de mauvaise qualité.
Autres interprétations seront traité dans cas reg. multiple
1.4 Estimation des variances
1.4.1 Estimation de la variance des  i

Propriété
Dans le MRLS, si les paramètres 1 et 2 sont
identifiés, on a
 n 2 
E
 
 i1
 i X   (n  2) 2 .

Preuve : à faire comme exercice.


Corollaire
Dans le MRLS, la variable aléatoire ˆ 2 définie
par
n
1
2
ˆ 
n2 
i1
i
ˆ 2

est un estimateur sans biais de 2.


(On a Eˆ 2

X   2
)
1.4.2 Estimation de la variance des
estimateurs Moindres Carrées
Propriété
Dans le MRLS, si les paramètres 1 et 2 sont
identifiés, les variables aléatoires Vˆ (βˆ 1 ) et Vˆ (βˆ 2 )
définies par  2 
ˆ (ˆ X )  ˆ 2  1 
V
X 
1 n 

n
 ( X i  X )2 
i 1 

ˆ (ˆ X )  ˆ 2
et V 2

n
( X i  X )2
i 1

ˆ ) et V(β
ˆ )
sont des estimateurs sans biais de V(β1 2
--
Chapitre 2 : Modèle à une équation
linéaire avec plusieurs
variable explicatives.

OU
(modèle de régression linéaire à plusieurs variables)
OU
(modèle de régression linéaire multiple : MRLM)

--
 Introduction : définition, interprétation et
notations.
Estimation des paramètres.

Valeurs ajustés. Résidus.

Estimation des variances.

Inférence : Tests d’hypothèses sur les


paramètres.
Tests de significativité.
--
2.1 Définition du modèle et
interprétation
On appelle modèle de régression (linéaire) à p
variables le modèle statistique qui s’écrit

Yi  β0  β1Xi1 β2 Xi2    βp Xip ε i , i  1,... ,n.

dans lequel les conditions suivantes sont vérifiées.


Cp 1. E(ε i X)  0, i  1, ,n

 0 si i  j
Cp 2.  
Cov ε i , ε j X   i, j  1, ,n
σ 2 si i  j

avec X  (X11 , X12 , , X1p , X 21


-- , , X np )
Remarques

• ε i  Yi  E Yi X  , i  1,... ,n.

• E(Yi X)  E(Yi Xi1 , Xi2 , , Xip )


 β 0  β1Xi1 β2 Xi2    βp Xip

--
Formulation matricielle du MRLM

On peut écrire le MRLM sous forme matricielle

Y=X+

 Y1  1 X11 X12  X1p   ε1   β0 
       
Y  1 X X2p  ε  β 
 2  21 X 22 
  2  1
Y   , X  , ε
 
et β   
1   
       
       
 Yn  1 Xn1 Xn2  Xnp   εn   βp 
(n, p 1)

--
On peut redéfinir le MRLM par

• Y=X+

• Sous les deux conditions


Cp 1 . E(ε X)  0

Cp 2. V ε X    n
2

où I n désigne la matrice identité d’ordre n.


--
Remarque
Puisque la matrice X est non aléatoire (constante),
nous pouvons lâcher les hypothèses
Cp 1 . E(ε X)  0 Cp 1 . E ε   0
 contre 
 
Cp 2.
 V ε X   σ n
2
Cp 2.
 V  ε   σ 2Ιn

--
2.2 Estimation du modèle

L’objectif est d’estimer  et σ2.

Deux estimateurs seront traités :

 Estimateur des moindres carrées

 Estimateur de maximum de
vraisemblance.
--
2.2.1 Estimation par les Moindres Carrés
La méthode des moindres carrés consiste à
minimiser en , l’expression

’ = (Y-X)’(Y-X).

La solution fournit l’estimateur

βˆ  (X' X)1 X' Y.

(X’X est matrice carrée d’ordre (p+1))


--
Propriétés de l’estimateur β̂
Théorème
L’estimateur βˆ  (X' X)1 X' Y est sans biais.

Démonstration (voir le poly. Page 42).

Théorème
La matrice de variance-covariance de
l’estimateur β̂ est
ˆ 2
V ( )    ( X ' X ) 1

Démonstration (voir le poly. Page 43).


--
Théorème (de Gauss-Markov)
L’estimateur des moindres carrés est le
meilleur (au sens de la plus petite variance)
estimateur linéaire sans biais de .
Démonstration (voir le poly. Page 43).

--
Estimation de la variance  2

Théorème
Soit e  Y - X̂ , alors E(e' e)  (n  p - 1)σ 2ε.
Démonstration (voir le poly. Page 44).

De ce théorème nous pouvons construire un


estimateur sans biais de  2 qui est

e' e
σˆ 2ε 
n  p -1
La quantité n-p-1 est appelée nombre de degré de
liberté. --
Estimation de la variance de β̂
Nous avons d’après les résultats précédents

e' e
V(βˆ )  σ 2ε (X' X)1 et σˆ 2ε 
n  p -1

Donc un estimateur de V(βˆ ) sera


ˆ ˆ ˆ 2
V(β)  σ ε (X' X) 1

e' e
 (X' X)1
n  p -1
--
Remarques
 V(βˆ ) et V
ˆ (βˆ ) sont deux matrices carrées
d’ordre (p+1).

 Un résumé des propriétés de l’estimateur


(MCO) de  et de σ2 sont donnée dans le
tableau 4.1 page 45 du polycopie.

--
2.2.2 Estimation par le maximum du
vraisemblance
Pour construire cette méthode, nous
faisons sur les variables i les hypothèses
suivantes :
H1: Les variables aléatoires i sont
supposées indépendantes.
H2: Les variables aléatoires i sont
supposées de loi normale de moyennes
nulles et de variances σ2
ε
~ 
N 0 , Iσ 2
--
ε 
Comme Y=X+,

Y~N(X, In.σ2)

La méthode du maximum de
vraisemblance consiste à estimer le
paramètre par l’estimateur qui maximise
la densité de Y.

La densité de Y  voir la page 45 du poly.


--
MMV : méthode de maximum de vraisemblance

La solution ce problème (MMV) de


maximisation pour  est la même que la
solution des moindres carrées, et vaut :

βˆ  (X' X)1 X' Y


L’estimateur du maximum de
vraisemblance de σ2 est donné par

1 ˆ ˆ e' e
σˆ 2ε MV  (Y  Xβ)'(Y  Xβ) 
n n
L’estimateur est biaisé.
σ̂ 2ε MV
--
2.2.3 Propriétés des estimateurs dans cas
de normalités des résidus
Si Y=X+ est modèle linéaire (MRLM)
avec des résidus normaux :

1. 
βˆ  N β , (X' X)-1 σ 2ε 
ˆ2
(n - p - 1)σ e' e
2. ε
   n2p-1
σ2
ε σ2
ε

ˆ X' X ˆ 2
3. (β  β)' 2
(β  β)   p 1
σε --
Application des Modèles
de régression linéaires

Estimation de modèles non linéaires

f
Certains modèles non linéaires peuvent
êtres estimés par la méthode MCO
après une transformation bien choisie.
Modèle non linéaire
Esti
mat
i on
Linéarisation

du M
NL
Estimation du
modèle linéaire

C O
M
Modèle de régression
linéaire
--
Exemple:
la fonction de production Cobb-Douglas
Q=.L.K

Q : la quantité produite
L : la quantité de travail
K : le stock du capital
et ,  et  sont des paramètres à estimer

On peut écrire
log(Q)=log()+ .log(L)+ .log(K)
--
Ainsi, si on définit :
Y=log(Q)
X1=log(L)
X2=log(K),

et si on estime le modèle linéaire :


Y=0 + 1X1 + 2X2+,

on obtiendra des estimateurs des


coefficients:
ˆ  exp(ˆ0 ), ˆ  ˆ1 , ˆ  ˆ2
--
2.3 Inférence dans le modèle de
régression

2.3.1 Intervalle de confiance pour un


coefficient

2.3.2 Test des hypothèses sur les


coefficients

--
2.3.1 Intervalle de confiance pour un
coefficient
Considérons le MRLM

Yi  β0  β1Xi1 β2 Xi2    βp Xip ε i , i  1,... ,n.

On peut montrer que la statistique

βˆ j  β j Loi
 t n-p-1
σˆ (βˆ )
j

où tn-p-1 est une v.a d’une distribution de


Student à n-p-1 degrés-- de liberté.
1 -   IP(- n-p-1;  t n  p 1   n  p 1; )

βˆ j  β j
 1 -   IP(- n-p-1;    n  p 1; )
σˆ (βˆ )
j

 1 -   IP(βˆ j -  n-p-1; σˆ (βˆ j )  β j  βˆ j   n  p 1; σˆ (βˆ j ))

Propriété : Un intervalle de confiance au


niveau 1- pour la vraie valeur inconnue
d’un coefficient j est donnée par :
 βˆ -
j n-p-1;
ˆ
σ (βˆ ) ; βˆ  
j -- j n  p 1;
ˆ
σ (βˆ )
j 
Relation entre t et 
t1-/2;n :le quantile d’ordre 1-/2 d’une
v.a de Student de n degrés de
liberté.
n; :une valeur qui vérifier l’équation

1-   IP(- n;  t n   n; )

On a
t1-/2;n = n;
--
Illustration
Dans l’exemple des maisons, nous
choisissons le modèle :

PRIX = 0 + 1 MAISON + 2 AGE + 

Nous avons estimé les paramètres 0 ,


1 et 2 en utilisant le logiciel.

--
Et on a obtenu : (Logiciel SPSS)
Coefficients (a)
Unstandardized
Model Coefficients t-statistic Sig. (p-value)
B Std. Error
(Constant) 7,96620503 4,35298327 1,830056431 0,079190822
MAISON 23,3092672 1,87797091 12,41194265 3,47206E-12
AGE -0,13405371 0,07391879 -1,813526717 0,081773654

(a): Dépendent Variable: PRIX

Au niveau de confiance 0,95 , on utilise


la valeur 28-2-1;5%=2,060 on a :
--
Pour 1 :
(23,31-2,06x1,88 ; 23,31+2,06x1,88)
= (19,44 ; 27,18)
Pour 2 :
( -0,13-2,06x0,07 ; -0,13+2,06x0,07 )
= (-0,27 ; 0,01)

Exercice:
trouver un intervalle de confiance au
niveau 0,95 pour 0.
--
2.3.2.1 Test d’un seul coefficient de
régression
On considère le modèle linéaire :

Yi  β0  β1Xi1 β2 Xi2    βp Xip ε i , i  1,... ,n.

On souhaite réaliser un test concernant


la ‘‘ vraie ’’ valeur d’un coefficient j :

la vraie valeur de ce coefficient j


est-elle ou non égale au nombre a ?
--
On formule les hypothèses à confronter

 H 0 :  j  a (hyp. nulle)
(*) (hyp. alternative)
 H 1 :  j  a
Généralisation : nous pouvons proposer
pour chaque j le test suivant:

 H 0 :  j   j0

 H 1 :  j   j0 .
Pour simplifier, on utilise pour la suite (*)
--
Rappel: Erreurs liées au test
d’hypothèses
Une fois que la règle de décision est bien
définie, deux types d’erreurs peuvent
apparaître :

Conclusion du test
rejet de H0 non-rejet de H0
erreur de 1ère
j = a : H0 vraie pas d’erreur
espèce
réalité
erreur de 2ème
j  a : H1 vraie pas d’erreur
--
espèce
On définit la probabilité de commettre les
différentes erreurs :

= ℙ(RH0 | H0 vrai): probabilité de commettre


l’erreur de première espèce
= risque de première espèce

= ℙ(RH1 | H1 vrai): probabilité de commettre


l’erreur de deuxième espèce
= risque de deuxième espèce

--
Supposons que  est fixé. On a

 = IP[RH0 | H0 est vraie]

Si H0 est vraie, cela signifie que la vraie


valeurs de j est a et que

βˆ j  a Loi
 tn-p-1
σˆ (βˆ )
j

--
On a donc
  IP [ RH0 H0 est vraie]

 ˆ a
β Loi 
ˆ  a  s*
 IP  β
j
 t n-p-1 
j
 ˆ (β
σ ˆ ) 
 j 

 βˆ j  a βˆ j  a Loi 
 s* s*
1    IP     tn-p-1 
 σˆ (βˆ j ) σˆ (βˆ j ) σˆ (βˆ j ) σˆ (βˆ j ) 
 

 s* s* 
 IP   t n-p-1  
 σˆ (βˆ j ) ˆ (βˆ j ) 
σ
 
--
On a donc :
s*
 τ n  p 1;α  s*  τ n  p 1;α σˆ(βˆ j )
σˆ(βˆ j )

En remplaçant dans la règle de décision :


on rejette H0 au profit de H1 lorsque

βˆ j  a  τ n  p 1;α σˆ(βˆ j )

C’est-à-dire lorsque
βˆ j  a
 τ n  p 1;α
σˆ(βˆ )
j
--
 H 0 :  j  a
Règle de décision : 
 H 1 :  j  a
βˆ j  a
Si  τ n  p 1;α alors on rejette H0 au
ˆ
σˆ(β )
j profit de H1:
Le coefficient j est
significativement
différent de a.
βˆ j  a
Si  τ n  p 1;α alors on ne rejette pas H0
σˆ(βˆ )
j
au profit de H1:
Le coefficient j n’est pas
significativement
différent de a.
--
Cas particulier (important) où a=0 :
 H 0 :  j  0

 H 1 :  j  0

La quantité βˆ j  0 βˆ j
T  
σˆ(βˆ j ) σˆ(βˆ j )

est appelée statistique T (t-statistic).

Cette quantité est calculée par des


logiciels économétriques
--
 H 0 :  j  0
Règle de décision : 
 H 1 :  j  0

Si T  τ n  p 1;α alors on rejette H0 au


profit de H1:
Le coefficient j est
significatif.

Si T  τ n  p 1;α alors on ne rejette pas H0


au profit de H1:
Le coefficient j n’est pas
significatif.
--
Utilisation des p-value.
Beaucoup de logiciels comme SPSS, TSP…
permettent de réaliser le test précédent
sans avoir consulter les tables statistiques

Ils fournissent une probabilité associée à


la statistique T qu’on appelle probabilité
critique ou degré de signification (Anglais:
p-value).
Cette proba. correspond à * : risque de
première espèce « frontière » entre RH 0 et
ne pas rejeter H0. --
 H 0 :  j  0
Règle de décision : 
 H 1 :  j  0

Si p  value   alors on rejette H0 au


profit de H1:
Le coefficient j est
significatif.

Si p  value   alors on ne rejette pas H0


au profit de H1:
Le coefficient j n’est pas
significatif.
--
Exemple :
Nous reprenons l’exemple des maisons et
nous considérons et le modèle (1):

PRIX=0 + 1 MAISON + 2 AGE+ 3TERRAIN + 

Pour réaliser un test de signification sur


les coefficient 1, 2 et 3 nous utilisons le
tableau suivant :

Nous choisissons un risque =5%.


--
Coefficients T Sig.
i Ecart-type
(Constant) 8,056468647 5,06807284 1,58965131 0,12500137
MAISON 23,37426274 2,59956968 8,99158922 3,7558E-09
AGE -0,135139675 0,0809466 -1,66949162 0,10801397
TERRAIN -0,023044784 0,62267848 -0,03700912 0,97078385

Var. Dépendante: PRIX

Pour  1 :
 3,75E-09 < 0,05 et  1 est significatif;
Pour  2 :
 0,108 > 0,05 et  2 n’est pas significatif;
Pour  3 :
 0,96 > 0,05 et--  3 n’est pas significatif;
Le test
 H 0 :  2  0

 H1 :  2  0

nous amène à ne pas rejeter H0 au profit


de H1 (pour =5%).
Ceci signifie que le modèle:

PRIX=0 + 1 MAISON + 3TERRAIN + 

est préférable au modèle de départ (1).


--
Le test
 H 0 :  3  0

 H1 :  3  0

nous amène à ne pas rejeter H0 au profit


de H1 (pour =5%). Ceci signifie que le
modèle:

PRIX=0 + 1 MAISON + 2 AGE + 

est préférable au modèle de départ (1).


--
Rien de cela ne nous permet de conclure
que le modèle :

PRIX = 0 + 1 MAISON + 

est meilleur que le modèle de départ.

Pour affirmer cela, il faut tester les


hypothèses de type :

H0: 2=3=0
--
Interprétation

 Le coefficient 1 est significatif quelque


soit le niveau  ( car 3,75E-09 ≈ 0) .
La variable MAISON est très
pertinente.

 Concernant 2: si on accepte un risque


de 1ère espèce d’au moins 10,8%, on
considère que le coefficient est significatif
et que la variable AGE est pertinente pour
expliquer le PRIX.
--
 Par contre, pour TERRAIN, il faudrait
accepter d’être prêt à se tromper dans au
moins 97% des cas pour considérer que le
coefficient est significatif!

En général :
 Plus la p-value est grande, plus ont croit
que H0 est vraie.

 Plus elle est petite, plus on est tenté de


rejeter H0.
--
Remarque
Il faut être prudent pour interpréter les
statistique T.

Il ne faut pas forcément supprimer du


modèle la variable dont le coefficient n’est
pas significatif :
on peut avoir de très bonnes raisons
économiques pour conserver la variable,
même si son impact semble faible.

--
Tests d’hypothèses unilatéraux
des sur un seul coefficient.

--
I. Considérons le test
 H 0 :  j  a

 H 1 :  j  a
Règle de décision :

Si βˆ j  a alors on rejette H 0 au
 τ n  p 1;2α
ˆ
σˆ(β )
j profit de H1.

βˆ j  a
Si ˆ
 τ n  p 1;2α alors on ne rejette pas
σˆ(β )
j
H0 au profit de H1
--
II. Considérons le test
 H 0 :  j  a

 H 1 :  j  a
Règle de décision :

βˆ j  a
Si ˆ
 τ n  p 1;2α alors on rejette H 0 au
σˆ(β )
j
profit de H1.

βˆ j  a
Si  τ n  p 1;2α alors on ne rejette pas
σˆ(βˆ )
j
H0 au profit de H1
--
2.3.2.2 Test de signification globale du
modèle de régression
On considère le modèle linéaire :

Yi  β0  β1Xi1 β2 Xi2    βp Xip ε i , i  1,... ,n.

Les hypothèses à tester s’écrivent :

 H 0 : 1   2  ...   p  0

 H1 : au moins un des coefficient  j est non nul.

--
Propriété
Si l’hypothèse H0 est vraie, alors la
statistique :
SCE n  p  1
F  .
SCR p

Suit une loi de Fisher-Snedecor Fp;n-p-1.

Sur cette base, on peut construire la règle


de décision :

--
 H 0 : 1   2  ...   p  0

 H 1 : au moins un des coefficient  j est non nul.
Règle de décision:

SCE n  p  1
Si F   F p ; n  p 1;1 ,
SCR p

alors on rejette H0 au profit de H1;

SCE n  p  1
Si F   F p ; n  p 1;1 ,
SCR p

alors on ne rejette pas H0 au profit de H1;


--
On présente le calcul de F dans un tableau
ANOVA (ANalysis Of Variance) qui fait
apparaître différents termes de l’équation
de l’analyse de la variance :

Moy. des
source SC dl carrés (MC) F

SCE SCE n  p  1
Régression SCE p MCE  F 
p SCR p

Résidus SCR n-p-1 MCR  SCR


n  p 1

TOTAL SCTO n-1


--
Exemple:
Pour le modèle :
PRIX = 0 + 1 MAISON + 2 AGE + 

les hypothèses à tester s’écrivent :


H 0 : 1   2  0


 H1 : 1  0 ou  2  0.

--
Sommes Moy. des
des carrés dl som. carrés F

Régression 4719,294311 2 2359,647156 85,091733

Résidus 693,2656888 25 27,73062755

Total 5412,56 27

On voit que F= 85,09. Pour un niveau =5%,


cette quantité est à comparer avec F 2,28-2-
1;95%=3,39.

On a 85,09>3,39 et on rejette H 0 au profit de H1.


--
On aurait tiré la même conclusion sans
consulter les tables statistiques en notons
que la probabilité critique vaut ≈0.

le modèle :

PRIX = 0 + 1 MAISON + 2 AGE + 

est donc globalement significatif.

--
2.3.2.3 Test de comparaison de deux
modèles emboîtés
Définition (modèles emboîtés)
On dit que deux modèles sont emboîtés
si
 ils sont relatifs à la même variables
dépendantes,
et si
 Les variables explicatives de l’un
figurent toutes parmi les variables
explicatives de l’autre.
--
Exemple
le modèle :
PRIX=0 + 1 MAISON + 
est emboîté dans le modèle
PRIX=0 + 1 MAISON + 2 AGE+ 3TERRAIN + 

Pour comparer ces deux modèles, il faut


réaliser le test de :

H 0 :  2  3  0


 H1 :  2  0 ou  3  0.
--
De manière plus générale, le problème est
de comparer le modèle de régression
multiple comportant p variable
explicative:

Y  β0  β1X1 β2 X2    βp Xp ε,

avec un modèle plus simple en


supprimant q variables explicatives Xi1, Xi2,
…, Xiq.
--
On teste donc :


H 0 :  i1   i 2  ...   iq  0

 H1 : au moins un des coefficient  i1 ,  i 2 ,...,  iq est non nul.

Notons
 SCRG la somme des carrés des résidus
du ‘grand’ modèle,
 SCRP la somme des carrés des résidus
du ‘petit’ modèle.
--
Propriété
Si l’hypothèse H0 est vraie, alors la
statistique :
SCR P  SCR G n  p  1
F 
SCR G q
Suit une loi de Fisher-Snedecor Fq;n-p-1.

Sur cette base, on peut construire la règle


de décision suivante : --

H 0 :  i1   i 2  ...   iq  0

 H1 : au moins un des coefficient  i1 ,  i 2 ,...,  iq est non nul.

Règle de décision:

SCR P  SCRG n  p  1
Si F    Fq;n  p 1;1 ,
SCRG q

alors on rejette H0 au profit de H1;

SCRP  SCRG n  p  1
Si F    Fq;n  p 1;1 ,
SCRG q

alors on ne rejette pas H0 au profit de H1;


--
Interprétation
Lorsqu’on rejette H0 au profit de H1, cela
signifie qu’on juge que le ‘petit’ modèle
n’est pas préférable au ‘grand’.

Illustration
Reprenons l’exemple des maisons
précédent et testons


H 0 :  2  3  0


 H1 :  2  0 ou  3  0.
--
En utilisant les tableaux ANOVA des deux
modèles, nous avons obtenu :
SCRG=693,226, SCRP=784,468

Pour =5%, on obtient F2,28-3-1;0,95 = 3,40.

On a
784,468  693,226 28  3  1
F   1,579  3,40
693,226 2

On ne rejette donc pas H0 au profit de H1 : on


préfère le petit modèle au grand.
--
2.4 Intervalle de prédiction

--
On considère le modèle:

Yi  β0  β1Xi1 β2 Xi2    βp Xip ε i , i  1,... ,n.

Dès qu’on a estimé les coefficients j, on


peut calculer des prévisions
correspondants au valeurs de notre choix
pour les variables explicatives :

--
ˆ β
ˆ β
Y ˆ X βˆ X β
ˆ X
i 0 1 i1 2 i2 p ip

βˆ 
 0
ˆ 
 β1 

 1, Xi1 , , Xip   
 
ˆ 
β 
 P

 Xiβ
ˆ

--
Rappelons que L’erreur de prévision

ei  Yi  Yi  Yi  Xi βˆ
ˆ
vérifie :
E(ei)=0 et V(ei)=2(1+Xi’.(X’.X)-1.Xi)

où 2=V(i).

Sous l’hypothèse de normalité des résidus


(ei)i=1,…,n, on a

 2
ei ~ Ν 0, σ (1  Xi ’.(X’.X) .Xi )
--
-1

Avec un niveau de confiance 1-, on écrit:

1 -   IP  -   σ 1  Xi ’.(X’.X) -1.Xi  ei    σ 1  Xi ’.(X’.X) -1.Xi 


 

La vraie valeur Yi qu’on cherche à prédire se


situe donc avec une probabilité 1- dans
l’intervalle :

 X  ˆ -  σ 1  X ’.(X’.X)-1.X ; X  ˆ   σ 1  X ’.(X’.X)-1.X 
 i  i i i  i i
 

La mise en œuvre de cette formule est facilitée


par l’utilisation d’un logiciel spécialisé (SPSS,…).
--
2.4 Les modèles de régression
linéaires:
cas de variables qualitatives.

--
Les variables qualitatives peuvent être
utilisées dans le cadre de la modélisation
économétrique :

-comme variables explicatives;


-comme variables endogène, à condition
d’utiliser des techniques adaptées qui font
l’objet de cours approfondis.

--
2.4 Codage et mise en œuvre
Il faut coder ces variables pour les
intégrer dans les formules des moindres
carrés ordinaires.

On utilise un codage binaire (codage 0/1)


Chaque valeur possible de la variable
qualitative va être à l’origine d’une
variable binaire (de Bernoulli).
--
Exemple
Supposons que nous disposons d’un
échantillon d’habitants d’une certaine ville
et considérons la variable qualitative CSP
dont 6 les valeurs possibles sont:

Ouvrier
Employé
Indépendant
Chômeur
Retraité
autre
--
Nous pouvons construire 6 variable
binaires:

1 si l'individu est ouvrier


 
1 si l'individu est employé
B1   B2  

0 sinon 
0 sinon

 
1 si l'individu est chômeur
1 si l' individu est indépendan t B4  
B3  
 sinon 
0 sinon
0


1 si l'individu est retraité 1 si l'individu est autre

B5   B6  

0 sinon 
0 sinon

--
Par exemple, si l’individu observé est
retraité, nous avons:
B1=0, B2=0, B3=0, B4=0, B5=1, B6=0

En général, pour chaque individu, on


a:
B1+B2+B3+B4+B5+B6=1

Ceci à une conséquence importante pour


l’utilisation des Bi comme variables
explicatives dans un modèle de régression
--
Si nous voulons respecter l’hypothèse
d’indépendance des variables explicatives
(qui assurent l’inversibilité de la matrice
X’X), nous ne pouvons pas les mettre
ensemble dans le modèle.

Ceci n’est pas un problème puisque l’info


est entièrement connue dès qu’on dispose
des valeurs de 5 d’entre elles.

--
Lorsqu’on utilise une variable qualitative
comme variable explicative dans un
modèle de régression, il faut utiliser un
codage binaire et intégrer dans le modèle
un nombre de variable binaires égal au
nombre de valeurs (modalités) de la
variable qualitative moins une.

--

Vous aimerez peut-être aussi