Vous êtes sur la page 1sur 23

2020

L’essentiel du cours
l’économétrie en Licence 3
Economie/Gestion

benatick2017@outlook.com

Monnet Benoit Patrick GBAKOU


Maître de conférences Agrégé,
Université Felix Houphouët
Boigny, Cocody-Abidjan
30/04/2020
Introduction Générale

Chapitre 1 : Le modèle linéaire multiple et moindres carrés

I. La régression linéaire multiple


I.1 Une présentation générale du modèle de régression linéaire
Le modèle de régression linéaire multiple permet d’étudier la relation entre une variable
dépendante (ou variable expliquée) y et une ou plusieurs variables explicatives x1, x2, …,xK
( c’est-à-dire les facteurs qui expliquent y). La forme générique du modèle de régression
linéaire est :
y = f(x1, x2, …,xK) + ε
et nous supposons que la fonction f(.) est une fonction linéaire, c’est à dire une combinaison
linéaire des variables explicatives. Ainsi, on a
y= x1 β1+ x2 β2 +…+xK βK + ε
Les variables explicatives sont également appelées des variables indépendantes ou des
regresseurs. La fonction f(x1, x2, …,xK) est appelée l’équation de régression de la population
de y sur x1, x2, …xK.
Par exemple, si nous souhaitons mesurer les effets du prix du bien riz(p_riz), du prix des
autres biens alimentaires (p_alim) et du revenu (rev) sur la demande du bien riz (d_riz) des
ménages, une spécification du modèle de demande de riz pourrait être de la forme suivante :
d_riz= β1+ p_riz× β2+p_alim×β3 +rev×β4 + ε
où x1 est fixé à 1 pour tenir compte d’un niveau autonome ou incompressible de la demande
de riz. β1 est appelé le terme constant du modèle de régression.
ε est le terme d’erreur ou une perturbation aléatoire. Comment expliquer la présence de la
perturbation ?
- Certains facteurs explicatifs de y sont omis du modèle ; (par exemple, la taille du
ménage dans notre exemple de consommation de riz).
- Dans un modèle empirique (c’est-à-dire un modèle sur des données statistiques), il y a
probablement des erreurs de mesure sur les variables (par exemple, il est souvent
difficile de collecter des données précises sur la consommation et le revenu véritables
des ménages en raison des oublis et de la volonté de dissimulation.
Supposons que nous disposons d’un échantillon de n observations (par exemple n ménages).
Pour chaque observation i de cet échantillon, nous supposons que la valeur yi est générée par
le processus :
yi= xi1 β1+ xi2 β2 +…+ xiK βK + εi
Ainsi, la valeur observée de y de l’observation i est la somme de deux composantes : une
partie déterministe (xi1 β1+ xi2 β2 +…+ xiK βK) et une partie aléatoire εi.
Quels sont les objectifs de la régression ? (i) Estimer les paramètres inconnus du modèle ;
(ii) Utiliser les données pour étudier la validité des propositions (résultats) de la théorie
économique et ; (iii) Utiliser le modèle pour prédire la variable y.
Pour atteindre ces objectifs, plusieurs hypothèses doivent être faites, notamment sur le
processus stochastique ayant conduit aux données.
I.2 Les hypothèses du modèle de régression linéaire
I.2.1 la linéarité du modèle de régression
Les n observations (i=1,...,n) de y peuvent être empilées dans un vecteur Y (n×1) comme
suit :

y1

[]
Y = y2

yn

De même, les n observations sur les K facteurs explicatifs peuvent être empilés
x11 x 12 ⋯ x1 K
x x ⋯x
[ ]
dans une matrice X(n×K) telle que X = 21 22 2 K . Et également les n
⋮ ⋮⋮
x n 1 x n 2 ⋯ xnK
observations sur la perturbation forment un vecteur ε tel que
ε1

[]
ε = ε2

εn

L’hypothèse H1 de linéarité: yi = xi1 β1+ xi2 β2 +…+ xiK βK + εi dit que la relation entre y et x1,
β1
β
x2, …xK est linéaire. Sous la forme matricielle. H1 devient : Y = Xβ+ ε, avec β= 2 , le

βK
vecteur des paramètres du modèle de dimension (K×1). Le plus souvent, on pose que la
[]
première colonne de X est formée de 1 (colonne unitaire), afin d’introduire un terme constant
dans le modèle.
Par convention de notation pour une observation i, on écrit :

y i= X 'i β +ε i
'
avec X i =[ xi 1 xi 2 ⋯ x iK ], le vecteur des valeurs observées des variables explicatives de
l’observation i.
Des formes de linéarité souvent utilisées en pratique
a) Le modèle Log-linéaire (ou Log-Log)

Le modèle suivant y i=α xiβ2 xiβ3 e ε n’est pas linéaire, mais il peut être transformé en un
2 3 i

modèle linéaire grâce à une transformation logarithme népérien. On a ainsi :


ln y i=a+ β 2 ln x i 2+ β3 ln x i 3+ ε i, où a=lnα

Le modèle log-linéaire est appelée une forme fonctionnelle à élasticité constante. Par
exemple, L’élasticité de y par rapport à x 2 est égale à β 2. Ainsi si est β 2 positif, on dit qu’une
augmentation de x 2 de 1% entrainerait une augmentation de β 2% de y, toutes choses égales
par ailleurs.
b) Le modèle semi-log
Le modèle semi-log est souvent utilisé dans les modèles de croissance :
On a ainsi :
ln y t =β 1+ β2 x t 2+ ⋯+ β K xtK + δt+ ε t
δest le taux de croissance autonome (non expliquée par le modèle lui-même). Alors
que, par exemple, quand x2 change d’une unité, cela entrainerait un changement de β 2
% de y, citerus paribus.

I.2.2 La matrice X est de plein rang


L’hypothèse H2 dit qu’il n’existe pas de relation exacte entre les variables
explicatives. Autrement dit, la matrice X est de plein rang colonne. Les colonnes de X
sont linéairement indépendantes et le nombre d’observations n est supérieure ou égale
au nombre de paramètres K dans le modèle.

Simplement dit, il ne sera pas possible de faire un modèle de régression avec très peu
d’observations et un nombre relativement grand de variables explicatives.

I.2.3 Exogénéité des variables explicatives


La perturbation est supposée avoir une valeur espérée conditionnelle nulle à chaque
observation. Ce qui s’écrit : E ( ε i|x j 1 , x j 2 , ⋯ , x jK )=0 . Autrement dit, l’espérance de la
perturbation conditionnelle aux réalisations des variables explicatives est nulle. Ainsi, les
variables explicatives n’interviennent pas dans la prédiction de ε i.

Cela peut s’écrire également E ( ε i| X )=0. Et pour les n observations, cela donne

E ( ε 1|X )

L’espérance
[ ]
E ( ε| X )= E ( ε 2|X ) =0

E ( ε n|X )
non conditionnelle de ε iest également nulle :
E ( ε i )=E X [ E ( ε i|X ) ]=E X [ 0 ] =0. En effet, pour chaque ε i,
Cov ⌈ E ( ( ε i| X ) ) , X ⌉=Cov [ ε i , X ] et l’hypothèse 3 suppose que Cov [ ε i , X ] =0 pour tout
i.
Notons que dans un modèle sans terme constant, supposer que E ( ε i )=0 est fortement
problématique.
De plus, comme Y = Xβ+ ε, l’hypothèse 3 implique que :
E ( Y |X )=Xβ+ E ( ε|X ) =Xβ
Ainsi, la régression de y sur X est l’espérance conditionnelle.

I.2.4 Les perturbations non sphériques


L’hypothèse H4 dit que la variance des perturbations est une constante (on parle alors
d’homoscédasticité) et que la covariance des perturbations est nulle (on parle
d’absence d’autocorrelation).
var ( ε i|X ) =E ( ε 2i| X ) =σ 2, pour tout i=1,..., n (homoscédasticité)
Cov ( ε i , ε j|X )=E ( ( ε i −E ( ε i ) )( ε j−E ( ε j ) )| X )=E ( ε i ε j|X ) =0, pour tout i≠ j (absence
d’autocorrelation)
L’absence d’autocorrélation signifie que les perturbations ne sont pas corrélées (elles sont
indépendantes). Cela ne signifie pas que les observations yi et yj ne soient pas corrélées. Cette
hypothèse énonce que les écarts des observations par rapport à leurs moyennes ne sont pas
corrélées.

ε1 ε 21 ε 1 ε 2 ⋯ ε 1 ε n
' ε
[] [ ] ε ε ε2 ⋯ ε ε
Comme nous avons, ε ε = 2 [ ε 1 ε 2 ⋯ ε n ]= 2 1 2 2 n

εn
⋮ ⋮⋮ ⋮
ε n ε 1 ε n ε 2 ⋯ ε 2n

La matrice de variance-covariance conditionnelle des perturbations est donnée par :

E ( ε 21| X ) E ( ε 1 ε 2|X ) ⋯ E ( ε 1 ε n| X )

[ 2
Var ( ε|X )=E ( ε ε | X )= E ( ε 2 ε 1|X ) E ( ε 2|X ) ⋯ E ( ε 2 ε n| X )
'

⋮ ⋮ ⋮⋮
E ( ε n ε 1|X ) E ( ε n ε 2|X ) ⋯ E ( ε 2n| X )
]
σ 20 ⋯ 0

[ ] 2
¿ 0 σ ⋯ 0 =σ 2 I

0 0 ⋯ σ2

où I est la matrice identité de dimension (n×n).


A partir de la formule de la décomposition de la variance (qui sera présentée en classe), il est
aisé d’obtenir la matrice de variance covariance non conditionnelle des perturbations :

Var ( ε )=E [Var ( ε| X ) ] +Var [ E ( ε|X ) ]=E ( σ 2 I ) +Var ( 0 )=σ 2 I


Les perturbations qui ne sont pas homoscédastiques (donc elles sont
hétéroscédastiques) et qui sont autocorrélées sont dites des perturbations sphériques.

I.2.5 Le processus générateur des données


Hypothèses H5 dit que la matrice X peut être fixe ou aléatoire. Cette hypothèse signifie que
X peut être un mélange de constantes et de variables aléatoires et que la moyenne et la
variance de ε i sont indépendantes de tous les éléments de X.
I.2.6 Distribution normale
Les perturbations sont distribuées selon la loi normale, d’espérance nulle et de variance
constante. Quand on ajoute la normalité de la distribution aux hypothèses 3 et 4, on a

ε|X N [ 0 , σ 2 I ]
I.2.7 L’indépendance
Tout au long des hypothèses précédentes, nous avons supposé sournoisement trois types
d’indépendance :

(i) L’indépendance par la moyenne, E ( ε i| X )=0. Elle suppose que les variations des
perturbations ne sont pas expliquées par celles des variables explicatives.
(ii) L’indépendance statistique. Etant donné que nous avons supposé que les
perturbations ne sont pas corrélées entre elles (donc elles sont indépendantes à
travers leur moyenne), l’hypothèse de leur normalité (conditionnelle) suppose
qu’elles sont statistiquement indépendantes. Ce qui constitue une hypothèse plus
forte que celle d’indépendance par la moyenne.
(iii) L’indépendance linéaire des colonnes de la matrice X. Pour la modélisation, cette
notion implique que si les variables ne varient pas de façon indépendante, il est
impossible de les inclure dans le modèle de régression linéaire.

II) Les moindres carrés


Nous présentons ici la méthode d’estimation des paramètres la plus utilisée en plus d’être une
référence dans la littérature.
II.1 La régression des moindres carrés
Dans le modèle de régression linéaire (relation stochastique),
'
y i=β 1 + x i 2 β 2+ ⋯+ x iK β K + ε i=X i β +ε i

( β 1 , β 2 , ⋯ β K ) sont des paramètres de population et le vecteur β est le vecteur des paramètres


de population. Leurs estimateurs ( β^ 1 , ^β2 , ⋯ ^β K ) '= ^β sont fondés sur un échantillon de données.
Il en est de même de la perturbation ε i dont l’estimation ε^ i est fondée sur cet échantillon. ε^ i
'
est appelé le résidu. En outre, la régression de la population est E ( y i|X i ) =X i β, dont
l’estimateur est notée ^y i= X 'i β.
^
La perturbation de l’observation i est donnée par : ε i= y i−X 'i β et le résidu correspondant est :
ε^ i= y i−X 'i ^β. Ces définitions nous permettent alors de voir que :

y i= X 'i β +ε i=X ,i ^β+ ε^ i

Dans la méthode des moindres carrés, le vecteur de coefficients est celui qui minimise la
somme des carrés des résidus (voir la démonstration en classe). Cette méthode consiste en
fait à choisir ^β de sorte que la droite d’ajustement X 'i ^β soit proche des points observés.

Pour trouver ^β , commençons par choisir un vecteur de coefficients estimés ^β 0 et posons alors
n
' ' 2
la somme des carrés des résidusS ( ^β 0 ) =ε^ 0 ε^ 0 =∑ ( y i −X i ^β0 ) .
i=1

'
Minβ^ S ( β^ 0 ) =^ε '0 ^ε 0=( Y −X ^β 0 ) ( Y − X β^ 0 )
0

^β01 ε^ 01
En effet, ^β 0=

Développons
[] []
^β02

^β 0 K

la
ε^
, ε^ 0= 02  ; ε^ 0i = y i−X 'i ^β 0 et ε^ 0=Y − X β^ 0

^ε 0 n

dernière expression, on a
' ' ' ' ' ' ' ' ' '
S ( ^β 0 ) =( Y −X ^β0 ) ( Y −X ^β 0 ) =( Y − ^β 0 X )( Y − X ^β0 ) =Y Y −Y X β^ 0 − ^β0 X Y + ^β 0 X X ^β 0

or Y ' X β^ 0 est la transposée de ^β '0 X ' Y et est un scalaire (une matrice de dimension 1×1). Par
' ' ' '
conséquent, on a S ( ^β 0 ) =Y Y −2Y X ^β 0+ β^ 0 X X ^β0 .

∂ S ( ^β 0)
La condition nécessaire d’un minimum est =−2 X ' Y +2 X ' X ^β 0=0
∂β^
0

Ce résultat vient de ce que β^ '0 X ' X ^β 0 est une somme qui comprend les carrés des coefficients
∂ A, x
dans ^β 0 et pour toute matrice A, =A
∂x
La condition nécessaire fournit ainsi ce que l’on appelle (dans la littérature) les équations
normales des moindres carrés : X ' X ^β=X ' Y,

Si X ' X admet un inverse, étant donnée l’hypothèse de plein rang de X, alors


^β=( X ' X )−1 X ' Y

Plusieurs logiciels d’économétrie (Eviews, SAS, SPSS, Stata, etc.) rendent aisé le calcul de ^β
à partir de données.

∂2 S ( β^ )
En outre, on a '
=2 X ' X
^
∂ β∂ β ^

Ainsi, ^β est la solution si 2 X ' X est une matrice définie positive.


Quand X ne contient que le terme constant et une seule variable explicative x, on a le modèle
de régression linéaire simple y i=β 1 + β 2 x i +ε i i=1,…,n. On montrera que :
n

∑ ( x i−x́ ) ( y i− ý )
^β 2= i=1 et ^β 1= ý− β^ 2 x́
n
2
∑ ( xi −x́ )
i=1

Exemple numérique
Considérons un échantillon de données en coupe transversale des producteurs d’anacarde de
la région du Worodougou pour l’année 2019. Le Tableau suivant résume quelques
informations collectées sur 20 planteurs d’anacarde.
Tableau 5 :
Nom du Numéro du Quantité produite Heures travaillées à Capital utilisé
producteur producteur (i) (Q) en Kg la semaine (L) (K) en milliers de
Fcfa
Adjoumnani 1 10372 16 3880
Alassane 2 4082 19 3400
Brahima 3 11385 14 4330
Boukari 4 14500 14 3900
Diomandé 5 15906 21 4290
Dosso 6 3299 29 2110
Drissa 7 5705 16 3690
Doukouré 8 4504 22 3180
Diakité 9 5104 22 3220
Daouda 10 3667 24 2750
Fofana 11 3955 19 3430
Fofié 12 3984 30 2120
Gogoh 13 4010 18 3600
Gondo 14 5886 16 3600
Konaté 15 6342 17 3740
Kouakou 16 4389 28 1800
Koné 17 4187 21 2650
Konan 18 11497 12 4840
Kouassi 19 13466 12 4720
Traoré 20 3829 14 3830

L’objectif est d’estimer la fonction de production de type Cobb-douglas suivante :

Q i= A Lαi K δi .

où A,α, δ sont des paramètres.


Une spécification de l’équation économétrique de la production d’anacarde à partir de cette
fonction de production est alors

Qi= A Lαi K δi e ε .i

où ε i est le terme d’erreur ou la perturbation


Une transformation logarithmique népérienne de cette dernière équation permet d’obtenir une
spécification log-linéaire de la production d’anacarde comme suit :
log ( Q i ) =a+αLog ( Li ) +δLog ( K i) + ε i

où a=Log(A)
Pour estimer ce modèle, nous commençons d’abord par transformer toutes nos variables du
Tableau 5 sous la forme Log. Ensuite, nous pouvons utiliser la formule des équations
normales pour retrouver les estimateurs. Il est tout aussi possible d’utiliser la formule du
vecteur des paramètres estimés.
La matrice des variables explicatives y compris le terme constant est alors donnée par

X= [1 2.772589 8.263591
1 2.944439 8.131531
1 2.639057 8.373322
1 2.639057 8.268732
1 3.044523 8.364042
1 3.367296 7.654443
1 2.772589 8.213382
1 3.091043 8.064636
1 3.091043 8.077137
1 3.178054 7.919356
1 2.944439 8.140316
1 3.401197 7.659172
1 2.890372 8.188689
1 2.772589 8.188689
1 2.833213 8.226841
1 3.332205 7.495542
1 3.044523 7.882315
1 2.484907 8.48467
1 2.484907 8.459564
1 2.639057 8.25062]
X est de dimension (20*3)
et
X’X= [20 58.367099 162.30659
58.367099 171.7837 472.40126
162.30659 472.40126 1318.5537]
(X’X) est une matrice symétrique de dimension (3×3).
Y= [8.263591
8.131531
8.373322
8.268732
8.364042
7.654443
8.213382
8.064636
8.077137
7.919356
8.140316
7.659172
8.188689
8.188689
8.226841
7.495542
7.882315
8.48467
8.459564
8.25062
X’Y= [162.30659
472.40126
1318.5537].
(X’Y) est de dimension (3*1)
Ainsi, en appliquant la formule des équations normales, on a
20 58.367099162.30659 a^ 162.30659
[ 58.367099171.7837 472.40126
162.30659 472.401261318.5537 ][ ] [
α^ = 472.40126
δ^ 1318.5537 ]
Ce qui fournit le système d’équations suivant :
^
20 a^ +58.367099 α^ + 162.30659 δ=162.30659

{ ^
58.367099 a^ +171.7837 α^ +472.40126 δ=472.40126
162.30659 a^ +472.40126 α^ + 1318.5537 δ^ =1318.5537

La résolution de ce système d’équations permet d’obtenir les coefficients estimés du modèle

a^ =−2.241178

{ α^ =−0.0156444
^
δ=1.3551
'
L’estimateur de la régression de la population E ( y i|X i ) =X i β est ainsi donné par
^
log ( Qi ) =−2.241178−0.0156444 log ( Li ) +1.3551 log ( K i ).

On a aussi
log ( Q i ) =−2.241178−0.0156444 log ( Li ) +1.3551 log ( K i ) + ε^ i

Les coefficients étant des élasticités dans la spécification Log-linéaire, on a l’élasticité de la


production de l’anacarde par rapport au capital qui est -0,016. Cette élasticité est inférieure à
1 en valeur absolu. Par conséquent, la production d’anacarde est inélastique par rapport au
capital. En revanche, la production est élastique par rapport aux heures travaillées puisque
l’élasticité est de 1,35.
Néanmoins, cette interprétation peut être sujette à caution ou est précipitée puisque nous
n’avons pas effectué au préalable des tests statistiques de ces hypothèses.

On analysera la régression en termes de projection (en classe).

II.2 La qualité de l’ajustement et analyse de variance


Etant donné que les valeurs ajustées de la régression (simplement dit, les valeurs estimées de
y à partir de la droite de régression) sont fondées sur les valeurs des variables explicatives,
alors une question importante restante est celle de savoir si la variation des variables
explicatives constitue un bon indicateur de prédiction pour la variation de y. Une mesure de la
qualité de l’ajustement de la droite de régression repose alors sur la décomposition de la
variation totale de la variable dépendante y. Cette variation totale de y est définie en termes
d’écart par rapport à sa moyenne : c’est la somme des carrés des écarts, communément
n
' 2
0
appelée la somme totale des carrés et notée STC. STC=∑ ( y i− ý ) =Y M Y
i=1

où M 0 est une matrice idempotente de dimension n×n qui transforme les observations en
1
0 1 1
[]
écarts aux moyennes de l’échantillon. M =I − II ' , avec l= et I est la matrice identité de

dimension n×n.
n ⋮
1

On montrera en classe que STC se décompose en la somme des carrés expliquée par la
régression (SCE) et la somme des carrés des résidus (SCR), STC = SCR+SCE.

Y = X ^β+ ε^
Premultiplios cette equation par M 0 . Ce qui donne M 0 Y =X ^β + ε^

Une mesure de la qualité de l’ajustement de la droite de régression est :


Coefficient de détermination R2=SCE/STC=1−SCR/ STC . Il est compris entre 0 et 1.
Au total, l’analyse de variance se présente comme suit dans un tableau :
Source Degré de liberté Moyenne
quadratique (carré
moyen)
Régression SCE= ^β ' X ' Y −n ý 2 K-1 (où K prend en SCE / ( K −1 )
compte le terme
constant du modèle)
Résidu SCR=ε^ ' ε^ n-K S2=SCR / ( n−K ),
L’estimateur sans
biais de la variance
des perturbations σ 2
Total STC=Y ' Y −n ý 2 n-1 STC/ ( n−1 )
2
Coefficient de détermination R =SCE/STC=1−SCR/ STC

Par exemple, si R2=0,9 , alors le modèle de régression explique 90% de la variation totale de
y.
Néanmoins, l’un des problèmes majeurs liés à l’utilisation de R2 pour juger de la qualité d’un
ajustement  est que R2 ne décroit jamais quand une variable supplémentaire est ajoutée à la
régression. On serait donc tenter de rajouter des variables au modèle jusqu’à ce que R2
atteigne sa limite supérieure, à savoir 1. Afin de remédier à ce problème, on a recours au
coefficient de détermination ajusté (par rapport aux degrés de liberté).

2 SCR / ( n−K ) n−1


Coefficient de détermination ajusté Ŕ =1− =1− ( 1−R2 )
STC/ ( n−1 ) n−K
Ŕ2 peut diminuer lorsqu’une variable supplémentaire est ajoutée à l’ensemble des variables
explicatives. Ŕ2 peut même être négatif.

Etant donné que Ŕ2 prend en compte une correction liée à la reduction de degrés de liberté
tout en refletant des ameliorations de l’ajustement, il est possible de choisir la spécification
du modèle de régression qui maximise Ŕ2. Par conséquent, Ŕ2servira en pratique à choisir la
meilleure spécification parmi plusieurs spécifications possibles d’un même modèle de
régression. Certains chercheurs estiment que Ŕ2 ne corrige pas assez la perte de degré de
liberté. D’autres solutions ont été suggérées dans la littérature pour comparer des
spécifications d’un modèle :

Le critère d’information d’Akaike : AIC ( K )=ln ( SCRn )+ 2nK


SCR K ln(n)
Le critère d’information bayésien : BIC ( K )=ln (
n )
+
n

Le critère d’information bayésien correspond au critère d’information de Schwartz (SIC). Par


conséquent le BIC et le SIC seront utilisés indifféremment ensuite. La meilleure spécification
sera celle qui présentera AIC ou BIC minimum.
Il y a un second problème important lié à l’utilisation de R2 pour juger de la qualité de
l’ajustement. Ce problème concerne le terme constant de la régression. En fait, 0 ≤ R 2 ≤ 1,
quand le modèle contient un terme constant. En absence du terme constant, R2=1−SCR/ STC
est imprévisible, il peut même être négatif. Quand R2=SCE /STC , il peut même être
supérieur à 1.
Tableau 5Bis : Calculs des éléments de l’analyse de variance

i Qi Li Ki log ( Qi ) log ( Li ) log ( K i ) ^


log ( Qi ). Résidu
(1) (2) (3) (4) (5) (6) (8)=(4)-
(7)
(7)
1 10372 16 3880 9.25 2.77 8.26 8.91 0.34
2 4082 19 3400 8.31 2.94 8.13 8.73 -0.42
3 11385 14 4330 9.34 2.64 8.37 9.06 0.28
4 14500 14 3900 9.58 2.64 8.27 8.92 0.66
5 15906 21 4290 9.67 3.04 8.36 9.05 0.62
6 3299 29 2110 8.1 3.37 7.65 8.08 0.02
7 5705 16 3690 8.65 2.77 8.21 8.85 -0.2
8 4504 22 3180 8.41 3.09 8.06 8.63 -0,22
9 5104 22 3220 8.53 3.09 8.07 8.66 -0.13
10 3667 24 2750 8.20 3.18 7.92 8.44 -0.24
11 3955 19 3430 8.28 2.94 8.14 8.74 -0.46
12 3984 30 2120 8.29 3.40 7.66 8.08 0.21
13 4010 18 3600 8.30 2.89 8.19 8.81 -0.51
14 5886 16 3600 8.68 2.77 8.19 8.81 -0.13
15 6342 17 3740 8.75 2.83 8.23 8.86 -0.11
16 4389 28 1800 8.39 3.33 7.49 7.86 0.53
17 4187 21 2650 8.34 3.04 7.88 8.39 -0.05
18 11497 12 4840 9.35 2.48 8.48 9.22 0.13
19 13466 12 4720 9.51 2.48 8.46 9.18 0.33
20 3829 14 3830 8.25 2.64 8.25 8.9 -0.65

Moyenne de LogQ = 8.7105


Suite Tableau
2
i Résidu log ( Q i ) −log´( Q )
au carré
( log ( Q ) −log´( Q ))
i

ε^ 2i
(9) (10) (11)
1 0.1156 0.5395
2 0.1764 -0.4005
3 0.0784 0.3495
4 0.4356
5 0.3844
6 0.0004
7 0.04
8 0.0484
9 0.0169
10 0.0576
11 0.2116
12 0.0441
13 0.2601
14 0.0169
15 0.0121
16 0.2809
17 0.0025
18 0.0169
19 0.1089
20 0.4225
Tota
l

III. Propriétés de l’estimateur des moindres carrés dans un échantillon fini


Les propriétés d’un estimateur représentent la manière dont il se comporte lorsqu’il est
appliqué à un échantillon de données. On s’intéresse principalement à la distribution de cet
estimateur. Pour bien comprendre cela, on imagine disposer d’un très grand nombre
d’échantillons tirés à partir d’une même population initiale, et qu’on puisse calculer à partir
de chacun de ses échantillons un estimateur du même paramètre de la population.
III.1 Estimateur sans biais
Tout d’abord, on s’attend à ce qu’un estimateur soit sans biais, c’est-à-dire que son espérance
soit égale au "vrai" paramètre. L’absence de biais signifie qu’en moyenne, un estimateur
évalue correctement le paramètre de la population en question : il ne sera pas
systématiquement trop haut ni trop bas. Maintenant au cas où le tirage de l’échantillon est
unique, on imagine un « échantillonnage répété » de la population et on caractérise le
comportement de « l’échantillon des échantillons ». On montrera en classe que : E ( ^β|X ) =β
et E ( ^β )= β. Autrement dit, ^β est un estimateur linéaire sans biais de β.

Deux sources de biais des estimateurs des moindres carrés sont souvent développées dans la
littérature : (i) l’omission de variables explicatives pertinentes importantes et l’utilisation des
variables explicatives non pertinentes (voir le développement en class).
III.2 variance de l’estimateur des moindres carrés
Si les variables explicatives peuvent être considérées comme non stochastiques, alors, on peut
obtenir la variance d’échantillonnage de l’estimateur des moindres carrées en utilisant X
comme une matrice de constantes.
Alternativement, X peut être stochastique, pourvu que l’analyse lui soit conditionnelle. On
montrera alors (en classe) que la matrice de variance-covariance (ou simplement matrice de
covariance) de l’estimateur des moindres carrés est donnée par :

var ( ^β 1| X ) cov ( β^ 1 , β^ 2|X ) ⋯ cov ( ^β 1 , ^β K| X )


^ ^

[ ^ ^ ^
V =Var ( β^|X )=σ ( X X ) = cov ( β 2 , β1|X ) var ( β 2|X ) ⋯ cov ( β 2 , β K |X ) x
2 ' −1

⋮ ⋮⋮ ⋮
cov ( β^ K , ^β1|X ) cov ( ^β K , ^β 2| X ) ⋯ var ( ^β K |X )
]
V est une matrice symétrique de dimension (K×K)

Quand X ne contient que le terme constant et une seule variable explicative x, on


montrera que :
σ2 1 x́ 2
var ( ^β 2| X ) = n

∑ ( x i− x́ )
i=1

− x́
2  ;
[
var ( ^β 1| X )=σ 2 +
n n

∑ ( x i−x́ )2
i=1
] et,

cov ( β^ 1 , β^ 2|X ) = n

∑ ( x i−x́ )2
i=1

Par conséquent, pour la classe des estimateurs linéaires, on a le théorème suivant (voir
démonstration en classe) :
Théorème de Gauss-Markov : Dans un modèle classique de régression linéaire où X
désigne la matrice des variables explicatives, l’estimateur des moindres carré ^β est
l’estimateur linéaire sans biais de variance minimale de β. Pour n’importe quel
vecteur de constantes w, l’estimateur linéaire sans biais de variance minimale de w ' β
est w ' ^β , où ^β est l’estimateur des moindres carrés.

En prenant en compte les variables explicatives stochastiques, on a :

Théorème de Gauss-Markov : Dans un modèle classique de régression linéaire, ^β


est l’estimateur linéaire sans biais de variance minimale de βque X soit stochastique
ou non, pourvu que les hypothèses du modèle soient vérifiées.
Pour faire de l’inférence statistique, c’est à dire pour pouvoir tester des hypothèses sur
les paramètres ou construire des intervalles de confiance, nous avons besoin de
−1
l’estimation de Var ( β^| X ) =σ 2 ( X ' X ) . Ce qui revient tout d’abord à une estimation de
la variance des perturbations σ 2. On montrera en classe qu’un estimateur sans biais
(non conditionnellement) de σ 2 est :
n

∑ ε^ 2i
SCR
S2= i=1 =
n−K n−K
La racine carrée de S2 est S et est appelée l’écart-type de la régression.
−1
Nous pouvons maintenant calculer l’estimateur de Var ( ^β| X ) =σ 2 ( X ' X ) . Comme :

^ =Var . Est . ( ^β| X ) =S 2 ( X ' X )−1


V
Par ailleurs, nous avons supposé que ε a une distribution normale multivariée. Alors nous
verrons (en classe) que ^β| X a une distribution normale multivariée N [ β , σ 2 ( X ' X ) ] et ;
−1

chaque paramètre estimée ^β k ( k=1 , ⋯ , K ) a une distribution normale univariée


[
N β k , var ( ^β k|X ) . ]
III.3 Propriétés asymptotiques de l’estimateur des moindres carrés
On montrera (en classe) que :

X' X
(a) ^β converge (en probabilité) vers β, si converge (en probabilité) vers une matrice
n
définie positive Q.
Les hypothèses vues plus haut (H1 à H4) sont très contraignantes pour les modèles de séries
temporelles incluant des tendances temporelles, des polynômes et des variables ayant une
tendance. Par conséquent, on utilisera des hypothèses plus faibles sur X, appelées conditions
de Grenander
Conditions de données régulières de Grenander

(i) Pour chaque colonne de X, notée X k, si d 2nk = X 'k X k , alors lim ¿n →∞ d 2nk =+ ∞¿, donc
X kne dégénère pas en une séquence de zéros. La somme des carrés continue à
augmenter avec la taille de l’échantillon. Aucune variable ne dégénère en une
séquence de zéros.
(ii) lim ¿n →∞ x 2ik /d2nk =0 ¿ pour tout i=1,…, n. Cette condition dit qu’aucune
observation ne doit dominer la somme des carrés d 2nk = X 'k X k et que quand n → ∞,
les observations individuelles deviennent moins importantes.
(iii) Soit Rn la matrice de corrélation des colonnes de X, excepté le terme constant.
Alors lim ¿n →∞ Rn =C ¿, une matrice définie positive. Cette condition garantit
l’hypothèse de plein rang de X.
2
σ
[ ]
(b) ^β a une distribution normale asymptotique N β , Q −1 , si { ε i } sont indépendamment
n
distribués, de moyenne nulle et de variance finie σ 2 et si x ik vérifie les conditions de
1 −1
Grenander. En pratique, l’estimation Q par ( X ' X ) et de σ 2par S2 est nécessaire.
−1
n
Par ailleurs, notons que si les regresseurs ont de bonnes propriétés et si les observations sont
indépendantes, alors le théorème central limite implique que la normalité asymptotique de
l’estimateur des moindres carrés ne dépend pas de celle des perturbations.
(c) on montre que la matrice de covariance asymptotique de ^β est
2 ' −1
Var . Asy . Est .( ^β)=S ( X X )
III.4 Efficacité asymptotique de l’estimateur des moindres carrés
Définition : Un estimateur est asymptotiquement efficace s’il est convergent,
asymptotiquement normal et de matrice de covariance asymptotique inférieure à celle de tout
estimateur convergent et asymptotiquement normal.
III.5 Estimation par Moindres carrés ou maximum de vraisemblance ?
Nous avons vu que la distribution asymptotique normale de ^β est fondée sur le théorème
central limite (de Lindeberg-Feller), même si les perturbations n’ont pas une distribution
normale. Ce qui peut laisser penser que l’hypothèse de normalité des perturbations n’est pas
nécessaire. Néanmoins, elle a une utilité indéniable. En effet, si les perturbations sont
normalement distribuées, l’estimateur des moindres carrés est identique à l’estimateur du
maximum de vraisemblance (MV) ; Toutefois, l’estimateur des moindres carrés est
asymptotiquement efficace parmi les estimateurs convergents et asymptotiquement normaux
(théorème de la borne de Cramér-Rao).
Au total, selon les deux théorèmes, l’estimateur des moindres carrés est le plus efficace dans
la classe des estimateurs. Néanmoins ces deux théorèmes diffèrent en ce sens que par le
théorème de Gauss-Markov, l’estimateur des moindres carrés est linéaire et sans biais ; alors
que pour le second, l’estimateur MV est fondé sur la distribution normale des perturbations,
est convergent et est asymptotiquement normale.
Rappelons que le théorème de Gauss-Markov est un résultat pour échantillon fini, alors que
pour Cramer-Rao c’est une propriété asymptotique (grands échantillons).

IV Hypothèse de normalité et inférence statistique

Nous avons vu plus haut que ^β| X a une distribution normale multivariée N [ β , σ 2 ( X ' X ) ] et ;
−1

chaque paramètre estimée ^β k ( k=1 , ⋯ , K ) a une distribution normale univariée


N [ β k , var ] ( ^β k| X ). Nous utilisons pour la suite la normalité asymptotique de l’estimateur.

IV.1 Tester une hypothèse sur un coefficient

β^ k − βk
Il est aisé d’établir que la statistique t k = a une distribution de Student t à (n-K)
√ v^ar ( ^β |X )
k

var ( ^β k| X ) est l’estimateur de la variance de ^β k .Nous pouvons utiliser t k


degrés de liberté, où ^
pour tester les hypothèses ou pour construire des intervalles de confiance de chaque élément
de β.
Un test habituel est de tester qu’un paramètre de la population β k est non nul. Ce qui donne :
l’hypothèse nulle H0  : β k =0 contre l’hypothèse alternative H1 : β k ≠ 0

β^ k
La statistique du test devient alors : t k =
√ v^ar ( ^β |X )
k

Règle de décision du test : si |t k|>t α / 2, β k est dit statistiquement significatif au seuil de


α %, où α est le seuil de significativité choisi et t α / 2 est la valeur critique de la
distribution de t à (n-K) degrés de liberté. Par contre si si |t k|<t α / 2, β k est dit
statistiquement non significatif au seuil de α %.

En général, on teste H0 : β k = β́ k contre H1 : β k ≠ β́ k , où β́ k est un nombre réel choisi (par
β^ k − β́k
exemple, 1). La statistique du test est t k =
v^ √
ar ( ^β k|X )

La règle de décision du test t peut également être établie en utilisant la probabilité critique
(ou pvalue), notée p. p= prob ( t >|t k|) ×2. Si p>α, alors on ne peut rejeter H0. En revanche si,
p<α, alors rejeter H0.
IV.2 Intervalle de confiance d’un coefficient

β^ k − βk
Un intervalle de confiance de β k est basé sur t k = et il peut être construit de la
√ ar ( ^β k|X )
v^
manière suivante :

[ √
prob ^β k −t α / 2 × ^ √
var ( ^β k|X ) ≤ β k ≤ ^β k +t α /2 × v^ ]
ar ( ^β k| X ) =1−α

où (1−α ) est appelé le seuil de confiance désiré et t α / 2 est la valeur critique de la distribution
de t à (n-K) degrés de liberté. Ce qui permet d’obtenir l’intervalle de confiance de β k .
De manière importante, si les perturbations n’ont pas une distribution normale, les résultats
des sous-sections IV.1 et IV.2 ne sont pas utilisables. Néanmoins, les résultats concernant les
grands échantillons fournissent une alternative, puisque ^β k est asymptotiquement normale
dans ce cas. En effet, dans les grands échantillons, la statistique t k converge de façon normale
même si les perturbations ne sont pas normalement distribuées. Par conséquent pour calculer
l’intervalle de confiance de β k , nous devons utiliser la valeur critique de la distribution
normale ( et non pas celle de la distribution de student).
En pratique si les degrés de liberté (n-K) sont modérément grands, par exemple plus de100,
t k ne sera pas different de la normale standard. Pour des échantillons plus petits, il est
préférable d’utiliser les valeurs critiques dans la table de student plutôt que la table de la
normale standard, même en absence de l’hypothèse de normalité.
IV.2 Tester la significativité de la régression
Une question centrale restante est de savoir si l’équation de régression est globalement
significative. La réponse à cette question passe par un test joint de l’hypothèse que tous les
coefficients excepté le terme constant sont nuls. Autrement dit, nous testons
H0  : β 2=β 3=⋯=β K =0 contre H1  : au moins l’un des β k est non nul

R 2 / ( K −1 )
La statistique du test est donnée par F=
( 1−R2 ) / ( n−K )
F a une distribution de Fisher à (K-1) et (n-K) degrés de liberté si l’hypothèse nulle est vraie
et les perturbations sont normalement distribuées.
La règle de décision du test : si F> F α , le modèle de régression est dit statistiquement
globalement significatif au seuil de α %, où α est le seuil de significativité choisi et F α est la
valeur critique de la distribution de Fisher à (K-1) et (n-K) degrés de liberté. Par contre si
F< F α , le modèle de régression est dit statistiquement non significatif globalement au seuil de
α %. En outre, la règle de décision basée sur la pvalue s’applique comme précédemment.
V. La prédiction
Apres avoir estimé les paramètres d’un modèle, on réalise généralement des prédictions de la
variable expliquée. Il s’agit de calculer les valeurs ajustées (c’est-à-dire les valeurs estimées)
de la variable expliquée à partir du modèle de régression.
V.1 Intervalle de prédiction
Supposons que nous souhaitons prévoir la valeur y 0 associée aux valeurs des regresseurs dans
le vecteur X 0. Cette valeur est y 0= X 0 ' β +ε 0 . Par le théorème de Gauss-Markov,
^y 0= X 0 ' ^β est l’estimateur sans biais de variance minimale de ( y 0| X 0 ) .
'
L’erreur de prédiction est ε^ 0= y 0− ^y 0 =( β− ^β ) X 0 +ε 0 et

La variance de l’erreur de prédiction est


' −1
var ( ε^ 0|X , X 0 ) =var (ε¿¿ 0)+ var [ ( β− ^β ) X 0 ⌈ X , X 0 ¿ ¿=σ 2+ X 0 ' [ σ 2 ( X ' X ) ] X 0

En remplaçant σ 2par S2, la variance de l’erreur de prédiction peut être estimée. L’intervalle de
ar ( ε^ 0| X , X 0 ), où est t α / 2 la valeur critique de la distribution de
prédiction est alors ^y 0 ±t α / 2 × √ v^
t à (n-K) degrés de liberté.
V.1 Prédiction de la variable expliquée (y) lorsque la régression décrit log de y
'
A partir du modèle de régression suivant log ( y i ) =X i β+ ε i, on a
' '

E ( y|X 0 )=E ( exp ( X 0 β + ε 0 )|X 0 )=exp ( X 0 β ) E ( exp ⁡(ε ¿¿ 0) ¿ X 0 )


En général, E ( exp ⁡(ε ¿¿ 0)¿ X 0 ) ≠ exp ¿. Si ε 0 ⌈ X 0 ¿ ¿ a une distribution normale de moyenne
nulle et de variance σ 2, on a E ( exp ⁡(ε ¿¿ 0)¿ X 0 ) =σ 2 /2. Pa conséquent, une prévision de la
moyenne conditionnelle E ( y|X 0 ) pourrait être ^y 0=exp ⁡(X ¿ ¿ 0' β+ S2 /2 .)¿ Cependant, la
fonction de moyenne conditionnelle est-elle une bonne prévision pour l’exposant de la
variable expliquée dans la régression log ?
La médiane conditionnelle pourrait être plus intéressante, en particulier pour une variable
financière telle que le revenu, les dépenses, ou le prix d’un tableau d’art. Si la distribution de
la variable dans la régression log est symétrique (ce qui est le cas lorsque les perturbations
sont normalement distribuées), l’exponentiel sera distribuée de manière asymétrique avec une
longue queue dans la direction positive. Par conséquent la moyenne sera supérieure à la
moyenne. Dans de tels cas, la médiane est souvent un estimateur préféré. Pour estimer la
médiane, nous revenons donc à la prévision ^y 0=exp ⁡(X ¿¿ 0' β) ¿.

Afin éviter l’hypothèse de normalité, Duan (1983) a proposé d’estimer E ( exp ⁡(ε ¿¿ 0)¿ X 0 )
n
1
par h0 = ∑ exp ( ε^ i ), où ε^ i est le résidu des moindres carrés dans la régression d’origine sous
n i=1
forme log. Ainsi, l’estimateur de Duan du prédicteur y 0 est ^y 0=h0 exp ( X 0 ' β^ ).

V.2 Intervalle de prédiction de la variable expliquée (y) lorsque la régression


décrit log de y
'
L’intervalle de prédiction de lny ⌈ X 0 ¿ ¿, dans le modèle log ( y i ) =X i β+ ε i, est donné par 
X 0' ^β ± t α /2 × √ v^
ar ( ε^ 0|X , X 0 ) . C e qui permet d’obtenir l’intervalle de prédiction de y 0 est alors
exp ⁡¿
Il est important de noter que McCullough (1996) a suggéré une technique de bootstrap pour
calculer la variance de l’erreur de prédiction.

V.2 Evaluer l’exactitude de la prédiction


Plusieurs mesures ont été proposées pour évaluer l’exactitude des prédictions ou prévisions.
La plupart évaluent des prévisions a posteriori, c’est-à-dire, les prévisions pour lesquelles les
variables expliquées elles-mêmes ne sont pas obtenues par la prévision ou la prédiction.
Deux mesures sont fondées sur les résidus. Il s’agit de la racine carré de l’erreur quadratique
moyenne (root mean squared error, en abrégé RMSE) et l’erreur absolue moyenne (mean
absolute error, en abrégé MAE).
n n
1 1
RMSE= ∑√
n0 i=1
( y i− ^y i )
2
et MAE= ∑| y − ^y i|
n0 i=1 i

où est n0 le nombre de périodes de prévisions.


Etant donné que ces deux mesures souffrent d’un problème de normalisation (c’est-à-dire, la
multiplication des valeurs de y par n’importe quel facteur multiplie également la mesure par
ce scalaire), certaines mesures indépendantes de ce problème ont été proposées, notamment
2
( 1/n0 ) ∑ ( y i − ^y i )
la statistique U de Theil (1961) : U =
√ i

( 1/n0 ) ∑ y 2i
i

Des valeurs élevées de U indiquent un faible pouvoir de prévision.

Quant à la statistique U de Theil calculé en termes de différenciation de y, elle donne


2
( 1/n0 ) ∑ ( ∆ y i−∆ ^y i )
U=
√ i

( 1/n0 ) ∑ ∆ y2i
i

où ∆ y i = y i− y i−1 et ∆ ^y i =^y i−^y i−1, ou, en différences de pourcentage, ∆ y i =( y i− y i−1 ) / y i−1 et


∆ ^y i =( ^y i−^y i−1 ) / ^y i−1 .

Ces mesures reflètent la capacité du modèle à identifier les points de retournement des
données.
VI. Problème de données
VI.1 la multicolinéarité
Nous avons vu plus haut que le théorème de Gauss-Markov énonce que l’estimateur des
moindres carrés est le meilleur estimateur linéaire sans biais de variance minimale. Toutefois,
cela ne signifie pas que dans l’absolu, l’estimateur des moindres carrés a la plus petite
variance. En effet, plusieurs situation, appelées la multi colinéarité, contredisent l’énoncé du
théorème.
(i) Si les deux variables explicatives sont parfaitement corrélées, alors la variance de
chacun des coefficients de ces variables est infinie ;
(ii) Si les variables sont fortement corrélées, mais pas parfaitement, le modèle de
régression conserve toutes ses propriétés, bien que des problèmes statistiques
potentiellement graves subsistent, notamment :
– Une forte sensibilité des paramètres estimés à de faibles variations des
données ;
– Des coefficients pouvant avoir des écarts types très importants et des niveaux
de significativité faibles, même s’ils sont significatifs jointement avec un R2
élevé ;
– Des coefficients pouvant être du « mauvais » signe ou de grandeur inattendue
En pratique, certaines mesures permettent de savoir quand la multicolinéarité pose problème.
Certains logiciels fournissent le facteur d’inflatin de variance (variance inflation factor, en
abrégé VIF) de chaque coefficient. vif =1/ ( 1−R2k ), où R2k est le coefficient de détermination
dans la régression d’une variable x k sur toutes les autres variables explicatives. Un vif
supérieur à 10 indique qu’il y a des problèmes.
Une autre mesure pour détecter la multicolinéarité est le nombre de conditionnement de X’X.
Elle se définit comme la racine carré du ratio entre la plus grande et la plus petite racine
caractéristique (valeur propre) de X’X. Un ratio d’environ 20 indique qu’il y a des problèmes
(Belssley, Kuh et welsch, 1980).
Plusieurs méthodes ont été proposé pour détecter et résoudre le problème de la
multicolinéarité. S’il provient d’un manque d’informations, alors il faut essayer d’obtenir
plus de données. Cependant, plus d’informations ne signifie pas nécessairement plus de
données. Le remède pratique consiste à supprimer les variables qui posent le problème. Mais
on court le risque de faire une mauvaise spécification. L’usage des outils de diagnostics pour
détecter la multicolinéarité a pu être considéré comme une manière de faire la distinction
entre un mauvais modèle et de mauvaises données.
Certains chercheurs ont suggéré de recourir à l’estimation de pré-test. On commence par
inclure provisoirement dans le modèle de régression la variable qui pose problème. Si sa
statistique t calculée (t-ratio) est suffisamment grande, on la maintient, sinon on l’enlève.
VI.2 les observations manquantes et imputation, erreur de mesure et, valeurs
aberrantes et observations influentes
A developper en classe.
VII Tests d’hypothèse et sélection de modèles

Vous aimerez peut-être aussi