Vous êtes sur la page 1sur 60

Slides Th1b… JFB (version brouillon, prière de ne pas le diffuser)1

Attention aux coquilles - brouillon v30.0

Le processus générateur de données - The Data Generating Process (DGP)

DGPi : DGP i Mj : Modèles j Le Modèle j peut


entreprendre d’expliquer
quoi?

0 DGP0 : y = D0 (?) Pas de travail pour L'univers en entier, mais


l'économétricien, mais du sans grand chose à prouver
«travail» pour les pasteurs,
les prédicateurs et les
philosophes.

1 DGP1 : y = D1 (Xd , φ) Du travail sur la table pour les De nombreuses lois de la


physiciens et les ingénieurs physique déterministes
2 DGP2 : y = D2 (Xd , φ1 , ξ(φ2 )) M2 : y = M (X , θ, ε(δ)) Le DGP2 , et les DGP de
classes inférieures DGP3 et
le DGP4 , et de manière
erronée2 le processus
déterministe DGP1
3 DGP3 : M3 : y = M (X , θ) + ε(δ) DGP3 et DGP4
y = D3 (X d , φ1 ) + ξ(φ2 )
4 DGP4 : y = Xd φ1 + ξ(φ2 ) M4 : y = X θ + ε(δ) DGP4

5 DGP5 : y = ξ(φ2 ) À quoi ça sert! La forme des chocs sans


plus (ce qui est souvent
Expliquer le hasard ?3 utilisé en finance)

1
Sources à compléter….
2
Si nous essayons d'expliquer un processus déterministe avec un processus aléatoire, nous sommes dans les pâquerettes.
3
Certains économétriciens pourraient encore examiner les distributions et montrer un certain intérêt pour la forme de la
distribution des événements. En finance, nous pourrions nous intéresser à la distribution de certaines variables financières.
1
"All models are wrong, but some are useful"
- Citation souvent attribuée à George Box, mais avec incertitude...

Article sur la véracité des modèles de J.D. Sterman


http://web.mit.edu/jsterman/www/All_Models_Are_Wrong_(SDR).pdf

La recherche du ‘’bon modèle’’ ou du ‘’meilleur modèle’’ (ou de la meilleure approximation


comme modèle) peut s’effectuer selon plusieurs approches :

-Estimation de tous le modèles d’une classe

-Approche générale à spécifique (Top-Down)4

-Approche spécifique à générale (Bottom-Up)

-Approche par un modèle structurel avec des fondations théoriques

L’approche standard de modélisation économétrique pseudo-scientifique:


Anatomie de la modélisation économétrique

Source :Gujarati

4
https://en.wikipedia.org/wiki/Top-down_and_bottom-up_design
2
La réalité rencontre les modèles
La réalité consiste en des réalisations de variables observées yi et x ik , que l’on note souvent
n
telles que {yi , x(i ) } ou {(yi , x(i ))}, i = 1,2,..., n .
i =1

Fondamentalement, yi et x ik sont les variables qui représentent les données observées.

En économétrie, les données se présentent typiquement sous 3 types:


Types de données
1-Données en coupes transversales (données en coupe transversale, contemporaines, sans
date) (Cross-section data)
Par exemple, des données transversales peuvent potentiellement être obtenues par
échantillonnage aléatoire ou spécifique. L’échantillonnage peut être biaisé.
yi = x(i ) ' β + εi
Ex. -Les caractéristiques d’individus pour expliquer leurs divers niveaux de risque de défaut.

2-Données de séries temporelles (séries temporelles ou séries chronologiques) (Time-Series


data)
Les données de séries chronologiques s'accumulent historiquement.
Les données macroéconomiques contiennent souvent des erreurs de mesure.
Ex. PIB, chômage, etc…
(Statcan, Fred, ).
yt = x(t ) ' β + εt
Ex. Prévisions du taux d’inflation basées sur des données macroéconomiques.

3-Données du panel ou données longitudinales (Panel data)


Compte des données coupes transversales collectées pour diverses périodes.
yt ,i = x(t,i ) ' β + εt ,i
Ex. Le modèle CAPM sur plusieurs périodes avec divers titres

Il faut également noter que généralement, les données peuvent être continues, discrètes ou
dichotomiques (dummy variable)

Les variables dichotomiques, qualitatives ou liées (prenant des valeurs de 0 ou 1) sont souvent
utilisées pour représenter une caractérisque particulière et binaire.
Ex.
Type de personnalité: compulsif = 1, normal 0
Type de marché: bull (haussier) = 1, bear (baissier) 0.

Autre type de variables qualitatives (de catégories)


Ex. Niveau de risque : 0,1, 2, 3 ,4, 5 (nul, vert, jaune, orange, rouge…)

3
Figure5

Avec ces données, nous essayons de déduire certaines relations causales qui éclaireront
certaines questions que nous nous posons.
Les outils les plus simples sont les graphiques et les coefficients de corrélation.

5
source: https://commentprogresser.com/statistique-variables.html
4
Complément à l’analyse des données

• Un modèle (mathématique ou heuristique) est une représentation simplifiée de la réalité qui nous permet d’expliquer
un phénomène et de faire des prévisions (il est habituellement basé sur des postulats).

• Un postulat est un conditionnement pour simplifier notre représentation du monde (notre modèle ou notre théorie).
Ex. En économie fermée, à court terme, à long terme, en l’absence d’externalités,…

• Une hypothèse représente ce que l’on veut tester, notre interrogation. (Au niveau statistique on ne peut que rejeter
statistiquement une hypothèse, on ne peut pas la confirmer).
Ex. le chômage augmente suite à une hausse de la taxe sur la masse salariale

• Une théorie économique ou financières est un ensemble d’énoncés positifs permettant de comprendre et de prévoir
le comportement des acteurs économiques.

• Variable exogène: variable déterminée hors du modèle.


• Variable endogène: variable déterminée par le modèle.

Le processus typique de la recherche scientifique

5
Corrélation versus causalité6

-Corrélation ‘’théorique’’ : L a corrélation (en probabilités et en statistique) entre deux variables aléatoires ou
statistiques est une notion de liaison linéaire qui contredit leur indépendance.

On écrit généralement la corrélation entre la variable X et la variable Y avec la notation :


cov(X ,Y ) cov(X ,Y )
ρX ,Y =corr(X ,Y ) = =
σX σY var(X ) var(Y )

Une corrélation ‘’théorique’’ ne dit rien sur la direction du lien potentiel entre deux variables, ou même sur la possibilité
que ce lien provienne d’une ou d’autres variables.

X ,Y variables aléatoires indépendentes ⇒ ρX ,Y = 0 (X ,Y non-corrélées théoriquement)


(Attention : On peut avoir des corrélations observées différentes de 0)

IMPORTANT : Une corrélation n’implique pas la causalité dans un sens ou un autre, la causalité est un concept beaucoup
plus strict et difficile à prouver ou à démontrer.
ρX ,Y ≠ 0 (X ,Y corrélées théoriquement) ⇏ X → Y ou Y → X

Par ailleurs, la non-corrélation (même théorique), n’implique pas l’indépendance.


ρX ,Y = 0 (X ,Y non-corrélées théoriquement) ⇏ X ,Y indépendantes

Figure illustrant des simulations à partir de divers coefficients de corrélation

Notez que toutes les simulations de la dernière ligne de la figure ci-haut sont issues de variables théoriquement non-
corrélées, mais qui sont dépendantes de manière non-linéaire (qui ont un lien ou une relation non-linéaire).
Ex. Y = X 2

Il est possible qu’il y ait une relation entre deux variables X et Y , mais que la corrélation soit nulle ρX ,Y = 0 .
Le concept de corrélation est généralement mieux adapté aux relations linéaires.
-Corrélation ‘’empirique’’, échantillonnale ou observée : La corrélation empirique ou observée est une mesure
statistique estimée pour quantifier les variations entre deux variables.

6
Références : Wikipédia
6
En finance et en économie on a généralement des données empiriques (souvent avec erreurs de mesures) basées sur
des échantillons plus ou moins représentatifs.

Pour une population on a le coefficient de corrélation (de Pearson) suivant :


N
N ∑ (x i − x )(yi − y )
∑ (xi − x )(yi − y ) i =1
cov(x , y ) cov(x , y )
rxy = ρˆ(x , y ) = i =1
= N −1 = =
N N N N
var(x ) var(y ) σˆx σˆy
∑ (x i − x )2 ∑ (yi − y )2 ∑ (xi − x )2 ∑ (yi − y )2
i =1 i =1 i =1 i =1
N −1 N −1

IMPORTANT : Une corrélation empirique implique encore moins la causalité.

On ne peut pas impliquer une causalité à partir d’une simple corrélation empirique.
La modélisation économétrique nous aide à tester statistiquement des relations de causalité possibles.

-Causalité : En science, en philosophie et dans le langage courant, la causalité désigne la relation de cause à effet.

Dans un système complexe (comme une économie), il est généralement difficile (voir impossible) d’identifier clairement
une causalité et son sens.

On peut avoir divers scénarios de causalité qui mènent à l’observation d’une corrélation empirique.

Voici divers liens de causalité ( → ) possibles :

1- A qui cause B ( A → B )

2- B qui cause A ( B → A )

3- Une troisième variable C qui affecte A et qui affecte B, montrant ainsi une corrélation empirique entre A et B. Cette
corrélation provient de la variable C.
C → A et C → B
Ex. On peut observer une corrélation entre une hausse des ventes de patins et une hausse des ventes de pneus d’hiver.
L’explication logique est que l’automne (l’arrivé du climat froid) affecte positivement les ventes de patins et les ventes
de pneus d’hiver.

On peut aussi imaginer d’autres scénarios.

4- Le pur fruit du ‘’hasard’’ dû à un échantillon peu représentatif.

5- On aussi pourrait imaginer des effets simultanés ou même de rétroaction (feedback)


A qui affecte B et B qui affecte aussi A ( A B)
Le lien entre la consommation et le PIB est intéressant
La consommation est fonction du PIB, car les gens consomment en fonction de leurs revenus.
Le PIB Y = C + I + G + EX – IM est composé de la consommation C.

7
Exemple de corrélation
On peut observer une corrélation entre la consommation de crème glacée dans les commerces et la température au
Québec.

Causalité probable
A→B
La hausse de la température durant l’été implique (cause) plus de ventes de crème glacée aux cerises.

Par ailleurs, il est peu probable que l’on ait la relation inverse
Une hausse des ventes de crème glacée aux cerises implique (cause) une hausse de la température.
B →A

8
Corrélation entre les températures de certaines régions
67. Central Florida
76. Coastal Washington
92. Central California Coast

CD 92i = βˆ ⋅ CD 76i + αˆ + εˆi CD 92i = βˆ ⋅ CD 67i + α


ˆ + εˆi

9
Corrélation entre la consommation de chocolat et le nombre de prix Nobel

Figure published in Messerli (2012) Chocolate Consumption, Cognitive Function, and Nobel Laureates, New England Journal of
Medicine https://www.nejm.org/doi/full/10.1056/nejmon1211064

Messerli a écrit:
Attention: une corrélation n’est pas une causalité!

Mais le chocolat reste très bon pour le moral!

D’autres variables (phénomènes) peuvent être derrière la


relation observée : système d’éducation, culture, etc...

La relation peut aussi être fallacieuse et le fruit de


données non-représentatives.

10
Afin de tenter d'identifier certains liens de causalité, les économétriciens utilisent des modèles
plus complets.

Le modèle le plus simple utilisera des variables explicatives x ik pour tenter d’expliquer une
variable dépendante d'intérêt yi .

Par rapport aux coefficients de corrélation simples, les outils plus raffinés que nous utilisons
comme les modèles de régression (et leurs estimateurs sous-jacents) pour tenter d'expliquer
les relations empiriques possibles, sont plus précis et particuliers en essayant de représenter
des réalités possibles.

Les modèles nous permettent également de tester de nombreuses théories.

Régression linéaire simple


La régression linéaire simple du type yi = α + β2 x i 2 + εi permet d’estimer les paramètres α et β2 de relations
possibles et de tester statistiquement ces paramètres.

Ex.
Hypothèse nulle : H 0 : β = 0 (la variables x i 2 n’a pas de lien linéaire pour expliquer yi )
Hypothèse alternative : H 1 : β ≠ 0 (Il y a une relation linéaire entre x i 2 et yi )

Régression linéaire multiple


La régression multiple avec K variables explicative
yi = β1 x i1 + β2 x i 2 + ... + +βK x iK + εi

Hypothèse nulle : H 0 : βk = 0 (la variables x k n’a pas de lien linéaire pour expliquer y )
Hypothèse alternative : H 1 : βk ≠ 0 (Il y a une relation linéaire entre x k et y )

11
Le modèle de régression linéaire (multiple)
Considérant que nous aimerions prédire, expliquer ou approximer une variable dépendante yi
en utilisant des variables explicatives (ou variables indépendantes) x 1, x 2 ,..., x K , nous aurons
besoin d'un modèle.

Avant d'examiner des modèles non-linéaires ou des représentations plus complexes de la


réalité, nous allons considérer les modèles linéaires comme notre premier outil et apprendre
pas à pas.

Le modèle de régression linéaire pour une observation particulière i nous donne le modèle
suivant: yi = x i 1β10 + x i 2 β20 + ... + x ik βk0 + ... + x iK βK0 + εi et on a ∀i où i = 1,..., n .

Le modèle de régression linéaire sous forme de matrice complète, a la forme suivante :


y  x ⋯ x1K   β10  ε 
 1  11 x12  1
y  x   0
⋯ x 2K   β2  ε 
 2  21 x 22  2
  =     +  
 ⋮   ⋮ ⋮ ⋱ ⋮   ⋮   ⋮ 
     0  
 yn   xn1 xn 2 ⋯ x nK   βk  ε 
  n×1     K ×1  n  n×1
n×K

Notez que le modèle linéaire pourrait être soit le parfait (le vrai) modèle linéaire qui
représente également le vrai DGP (dans le cas où la réalité correspond au DGP4 ) ou qu'il
pourrait, de manière plus réaliste, n’être qu’une simple approximation linéaire de la réalité en
fonction de nombreux faits, dont certaines considérations plus métaphysiques.

Supposons que l'on veuille déterminer la meilleure prédiction linéaire (ou approximation) de y
en utilisant les variables explicatives x 1, x 2 ,..., x K , nous aurons ainsi besoin de données.

Une alternative souvent utilisée par les statisticiens et économétriciens est de supposer que
les données {(yi , x(i ))}, i = 1,2,..., n sont obtenues par une certaine forme d'échantillonnage
(dans un monde probabiliste fréquentiste et/ou bayesien)7.

7
Extrait de C. Fauré: ''Il y a en effet deux conceptions des probabilités, toutes deux présentes dès les débuts de la mathématisation
du probable. On parle ainsi :
d’une part des probabilités fréquentistes, il s’agit de probabilités dites objectives et a posteriori, visant à dégager les lois
stochastiques de processus aléatoires tendanciels dans des statistiques de fréquence à long terme.
et d’autre part des probabilités bayesiennes, où il s’agit de probabilité subjective, de degré de certitude a priori. On doit
notamment à Condorcet d’avoir présenté les probabilités subjectives comme étant des “raisons de croire”, c’est à dire de présenter
le calcul des probabilités comme relevant d’une théorie de la connaissance plus que d’une théorie de la nature.''
12
On pourrait aussi considérer un monde purement déterministe d’un point de vu réaliste
(comme dans le monde d’Albert Einstein), alors le terme ε reflétera évidemment l’erreur de
notre effort de modélisation et non des chocs aléatoires pures.

Le choix de notre vision du monde (monde purement déterministe vs monde contenant une
partie aléatoire) peut être analogue aux choix des écoles de pensée en mécanique quantique
(pilot wave theory de Louie De Brogly et David Bohm vs l’interprétation de l’école de
Copenhagen de Niels Bohr et Werner Heisenberg).

Nous devrions aussi être humble comme modélisateur face à notre (in)capacité d’expliquer
des phénomènes observés dans un monde empreint de complexité, particulièrement lorsqu’il
s’agit d’expliquer des résultats issus des comportements humains, comme en économie et en
finance où les données sont souvent imparfaites et où l’histoire ne se déroule qu’une seule
fois (impossibilité de faire des expériences contrôlés parfaites…) ou bien lorsque nous
souhaitons expliquer des phénomènes macroscopiques qui sont influencés par des éléments
microscopiques généralement indénombrables.

“Does the flap of a butterfly's wings in Brazil set off a tornado in Texas?”
– Philip Merrilees
(repris par le mathématicien et météorologiste Edward N. Lorenz dans son article de 1972)

13
Selon le domaine dans lequel les modèles de régression sont utilisés, vous pouvez rencontrer
la terminologie alternative suivante.

Terminologie des y et X pour la régression multiple


yi x ik
Variable dépendante Variables indépendantes

Variable expliquée Variables explicatives

Prédictand Prédicteurs

Variable prédite Prédicteurs


Régressand Régresseurs
Réponse Stimulus
Variable endogène Variables exogènes
Variable contrôlée Variable de contrôle

ε : Le vecteur des termes de perturbation, les chocs, les aléas, le bruit (noise) ou terme
d’erreurs (error terme, disturbances)

En anglais…
Terminology of the y and X for multiple regression
yi x ik
Dependent variable Independent variables
Explained variable Explanatory variables
Predictand Predictor
Predicted variable ``
Regressand Regressor
Response Stimulus
Endogenous variable Exogenous variables
Outcome Covariate
Controlled variable Control variable

14
Les variables du modèle de régression linéaire

yi : Tout d'abord, la i -ième observation de la variable dépendante, sera écrite y i .


Comme ce n'est qu'une observation de la variable dépendante y , y i sera un scalaire.
Dans le cas typique, le cadre de régression linéaire, où le terme de perturbation εi suit un
certain processus aléatoire, par de simples propriétés additives y sera également une variable
aléatoire car y = X β + ε .

X n×K : La matrice des variables explicatives ou des régresseurs.

x k : Les vecteurs de variables explicatives x 1, x 2 ,..., x K peuvent être considérées comme non-
stochastiques (déterministes), fixe ou stochastiques.
(Dans le cas où elles sont stochastiques, elles représenteront alors les variables sur lesquelles
le conditionnement sera basé.)
Notez que les variables explicatives peuvent être considérées comme fixes (sur plusieurs
échantillons).

βK0 ×1 : le vecteur des paramètres du modèle

βk0 : le scalaire βk0( ∀k ou k = 1,..., K ) représente le vrai paramètre ou le vrai coefficient


associé avec la k -ième variable explicative x K .
L'indice ''0 '' dans βk0 signifie simplement qu'il s'agit de la `` vraie valeur '' du paramètre
inconnu.
βk0 sera défini plus précisément plus tard, et généralement l'indice ''0 '' sera supprimé lorsque
ce n'est pas nécessaire pour plus de clarté, mais c'est bon à savoir.

Le scalaire βk0 peut aussi représenter le pseudo-vrai paramètre associé avec la k -ième variable
explicative x K , dans ce cas on voit le modèle comme une approximation avec le pseudo-vrai
paramètre βk0 qui correspond à la meilleure approximation de la réalité avec le modèle
approximatif y = X β + ε .

15
ε : Le vecteur des termes de perturbation, les chocs, les aléas, le bruit (noise) ou terme
d’erreurs (error terme, disturbances)

On va souvent supposer que les termes de perturbations suivent un


εi (pour l’observation i) :
certain processus aléatoire non-spéficique ou spécifique (ex : une loi normale, une loi de
Student, processus de Markov AR(1), i.i.d., etc…).
Mais nous n'avons pas besoin de spécifier le processus et de contraindre notre modèle et
notre analyse pour l’instant.
Les assomption A3, A4 et A5 ajouteront des restrictions plus tard.

Dans un monde parfait, mais avec une composante aléatoire, le εn×1 ( εi ∀i = 1,..., n )
représentant le terme de perturbation n'inclurait que du hasard pur né de mère nature.

Étant donné que notre modèle n'est probablement pas parfait (et que l’on aura pas en général
non plus un ajustement parfait) et que nous pouvons imaginer vivre dans un monde purement
déterministe, nous pourrons aussi conceptualiser que les perturbations εi incluent (aussi) des
erreurs de mesure, des erreurs de choix de forme fonctionnelle ou des erreurs résultants de
l'omission de bons régresseurs (erreurs de spécification) parmi d'autres types d’imperfections
de modélisation.

Le terme de perturbation ε reflétera évidemment tout cela, c’est donc un tampon dans notre
effort de modélisation qui va nous laisser une marge d’erreur comme modélisateur; on n’est
pas parfait (omniscient) comme modélisateur et ce ε nous laisse une marge d’erreur dans
notre effort de modélisation.

Lorsque l’on aura estimé β avec un estimateur β̂ quelconque, on aura défini le vecteur de
résidus ε̂ tel que :
εˆ = y − X βˆ
ε̂ : Résidus (residuals), erreurs estimées (estimated errors)

16
Le terme de perturbation εi , également connu sous le nom d’aléas (ou d'erreurs), est la
composante ‘’aléatoire’’ ou manquante non-observée qui explique la différence entre yi (ou
pour le vecteur au complet y ) et la moyenne conditionnelle E (yi x(i ) ) = x(i ) ' β (pour le vecteur
au complet E (y X ) ).

Dans l'espace échantillonnal, sa valeur estimée suivra la différence entre yi et yˆi ≡ x(i ) ' βˆ .
En regardant la ligne SRF (sample regression function), nous pouvons jeter un œil aux termes
de perturbation estimés.
Chacun de ces termes représente la distance entre l'observation des données yi et sa
prédiction yi basée sur la moyenne conditionnelle basée sur x(i ) .

Les résidus (perturbations estimées) εˆi = yi − yˆi = yi − x(i ) ' βˆ sont calculées comme un résidu
(ce qui reste de l’autre côté).

Estimation (SRF :sample regression function X βˆ ) versus population (PRF : population


regression function X β )

Dans la pratique le terme des résidus reflètera la combinaison des erreurs de spécification ou
de modélisation suivantes.

1. Non-linéarités et approximations:
La relation réelle n'est peut-être pas linéaire, mais si tout ce que nous avons est une équation
de modélisation linéaire, il nous manquera à coup sûr quelques caractéristiques importantes
du DGP sous-jacent.
Dans le modèle de régression linéaire, le terme de perturbation captera la non-linéarité mal
modélisée et d’autres erreurs d'approximation.
17
figure8

2. Variables omises:
Il n'est pas réaliste de présumer que le modélisateur inclura toutes les bonnes variables qui
sont dans le vrai DGP et qu'elles seront incorporées via la bonne transformation (ex. loge( x ik ) vs
log2.8 ( x ik )).).
Ce qui n'est pas pris en compte dans le modèle estimé sera projeté dans l'espace orthogonal
au x(i ) et sera capturé dans le terme de perturbation (ou terme d'erreur).
Rappelez-vous qu'en pratique, contrairement aux physiciens et aux ingénieurs, nous avons
généralement affaire au comportement humain et que tous les modèles que nous utilisons
doivent être qualifiés de proxys.
Lorsque nous avons un bon modèle, nous supposons essentiellement que le modèle est à peu
près bon (ou pas si mal). On ne veut pas mesurer des variables latentes non-observables.

3. Bris structuraux et valeurs aberrantes ou extrêmes (outliers): Si la vraie relation change


avec le temps (par exemple, les vrais βt,k ne sont pas constants), un modèle statique sera
intrinsèquement faux et le terme de perturbation capturera ce fait.
Les modèles statiques peuvent en partie corriger cela via des variables dummy, mais cette
solution est généralement imparfaite.
De plus, si un événement de cygne noir (Black Swan) se produit ou si un événement rare est
présent dans l'échantillon, les estimations OLS risquent de surpondérer cet événement et les
résidus le refléteront (ne seront pas représentatifs).
Pour les cas de valeurs extrêmes (outliers), il y a des estimateurs robustes qui performent
mieux qu l’estimateur OLS sous certains aspects.

4. Erreurs de mesure: les données ne sont pas toujours parfaitement collectées; très souvent,
des erreurs statistiques ou comptables sont présentes dans les données. Il existe également de
8
Source: using econometrics
18
nombreuses révisions de données qui peuvent être très surprenantes (ex. Taux de croissance
du PIB et calculs de la dette publique).
Même si les données disponibles sont imparfaites, la relation du vrai DGP peut encore être en
partie capturée par le modèle, mais d'une manière loin d'être parfaite. Par conséquent,
certaines erreurs de données (particulièrement dans les x ik ) seront collectées dans le terme
d'erreur (voir l’error-in-variable model et les TLS (total least square estimator).

5. Mauvaise méthodologie ou mauvaise sélection d'estimateur: Si la mauvaise méthodologie


est choisie ou si le mauvais estimateur est sélectionné (en ce qui concerne la validité des
hypothèses et les propriétés nécessaires), les résidus estimés présenteront une fausse
représentation des véritables perturbations.

6. Erreurs humaines: Chaque modélisateur et praticien a sa propre approche et sélectionnera


des modèles en fonction de ses propres aprioris, les résidus refléterons ses préférences.

7. Erreurs informatiques et de codage: Nous supposons souvent que les ordinateurs sont des
machines parfaites (outre le fait qu'ils sont toujours une source de problèmes dans la vie
quotidienne). En fait, pour le calcul numérique, les ordinateurs sont quelque peu limités; les
approximations et les niveaux de précision des toolbox varient et modifient souvent les
résultats de l'estimation de manière pernicieuse.
Trouver le vecteur multidimensionnel de coefficient dans un problème d'optimisation non
linéaire oblige souvent le modélisateur à se confronter aux limites des algorithmes
d'optimisation et des approximations qui les sous-tendent.
Si les estimations ne sont pas les bonnes, les résidus estimés seront aussi contaminés, de sorte
que tous les tests qui en découlent et toute analyse qui aura lieu à l'avenir sera affectée.
Bien souvent des routines (boîtes noires) préprogrammées sont utilisées et les mises en garde
ne sont pas prises en compte.
Les humains contrôlent l'ordinateur, l'ordinateur fera ce que vous lui demandons de faire; il
est très facile d'oublier une prime ou d'omettre un signe au bon endroit, alors méfiez-vous.

8. Effets imprévisibles: quelle que soit la précision du modèle économique ou financier, dans
la pratique, il y aura très probablement une sorte de perturbation (erreur) qui l'affectera si
nous considérons le monde comme partiellement stochastique. Ces effets seront captés par le
terme de perturbation.

Il existe évidemment de nombreuses sources d'erreurs. C’est pourquoi l’économétricien doit


toujours faire preuve d’une attention obsessionnelle à chaque étape d’un exercice de
modélisation ou de prévision. L’économétricien doit aussi être transparent sur les étapes de
ses efforts de modélisation, et bien divulguez et justifier ses choix.

19
Revenons à la forme du modèle…

Pour une observation particulière i nous aurons le modèle suivant:


yi = β10x i 1 + β20x i 2 + ... + βk0x ik + ... + βK0 x iK + εi
Ou
yi = x i 1β10 + x i 2 β20 + ... + x ik βk0 + ... + x iK βK0 + εi
Évidemment ces équations sont valides ∀i où i = 1,..., n .

Il faut bien noter la linéarité du modèle; le modèle est une fonction linéaire des paramètres
βk0 .

Vous avez peut-être déjà vu ce modèle sous la forme suivante :


yi = β10 + β20x i 2 + ... + x ik βk0 + ... + βK0 x iK + εi

Dans le cas particulier où la variable x1 est une constante, telle que x i1 = 1 ∀i .

Forme vectorielle et matricielle


Si nous empilons toutes les n observations de la variable dépendante ensemble dans un
vecteur colonne, nous obtenons
 y1 
 
y 
y ≡ [yi,1 ] ≡ [yi ] ≡  2  c'est un vecteur colonne nx1
 ⋮ 
y 
 n 
n×1
Nous aurons par ailleurs que la variable explicative xk a la forme suivante (en empilant toutes
les n observations des k -ièmes variables), nous avons:
 x1k 
 
x 
xk ≡  2k  ∀k ou k = 1,..., K chaque xk est un vecteur colonne n × 1
 ⋮ 
x 
 nk 
n×1

 x1k 
 
x 
La matrice X de toutes les colonnes xk ≡  2k  est donné par :
 ⋮ 
x 
 nk 
n×1

20
 x  x  x  x  
  11   12   1k   1K  
x ⋯   x  x  x  x  
 11 x12 x1K    21   22   2k   2K  
x         
 x 22 ⋯ x 2K   ⋮   ⋮   ⋮   ⋮ 
X ≡ [x i,k ] ≡  21  ≡     ⋯ ⋯ 
 ⋮ ⋮ ⋱ ⋮    x i1   x i 2   x ik   x iK  
         
 xn1 xn 2 ⋯ x nK   ⋮   ⋮   ⋮   ⋮ 
         
 x  x  x  x  
  n1   n 2   nk   nK  
 x1 x2 xk xK 
 
 x  x  x  x  
  11   12   1k   1K  
  x  x  x  
  x 21   22   2k   2K  
       
 ⋮   ⋮   ⋮   ⋮  x k est un vecteur colonne de toutes les
= [x1 x2 ⋯ xK ] =     ⋯ ⋯ 
  x i1   x i 2   x ik   x iK   observations pour la k − ième variable
       
 ⋮   ⋮   ⋮   ⋮ 
       
 x  x  x  x  
  n 1   n 2   nk   nK  
 
 
 x(1)'   x
  11 x12 ⋯ x1k ⋯ x1K  } x(1) ' 
 
   x(i ) est un vecteur colonne de toutes les
 
x ' 
 (2)    x 21 x 22 ⋯ x 2k ⋯ x 2K  } x(2) ' 
   variables pour la i − ième observation
 ⋮   ⋮ 
=  
 = 
x '
 (i )    x i1 x i 2 ⋯ x ik ⋯ x iK  } x(i ) ' 
 ⋮     x(i ) ' (avec la transposée)est un vecteur ligne de
   ⋮ 
    toutes les variables pour la i − ième observation
 x(K )'   x x nk ⋯ x nK  } x(n ) ' 
  n 1 x n 2 ⋯  

β représente le vecteur colonne des coefficients ou paramètres, sous la forme vectorielle


 β0 
 1 
 β0 
nous avons β ≡ [βk ,1 ] ≡ [βk ] ≡  2  ≡  β10 β20 ⋯ βK0  ' :
0 0 0
 
 0
 βK 
 
K ×1

Soyez très prudent avec la prime ' .

En général, nous allons négliger de mettre l'indice 0 (pour originel, vrai ou pseudo-vrai).

21
Notez que les éléments de β ( chaque βk ), correspondent à l'effet marginal de diverses
variables x k sur y .

La pente βk (pour des x ik qui ne sont pas constants) exprime ainsi l'effet (conditionnel ou
moyen) du changement des variables indépendantes x ik sur la variable dépendante yi
∂E (yi ∣x (i ) )
= βk
∂x ik

∂yi
À partir de l’expression yi = β10 + β20x i 2 + ... + x ik βk0 + ... + βK0 x iK + εi on a aussi = βk
∂x ik

yi ∂yi ∂E (yi ∣x (i ) )
= βk ou = βk
∂x ik ∂x ik

∂yˆi
β10
et = βˆk
∂x ik

xi2

Avec la notation d’algébre linéaire (de combinaison linéaire), nous sommes heureux d'écrire
y = β10 x1 + β20 x 2 + ... + βK0 x K + ε
Ou
y = x1β10 + x 2 β20 + ... + x K βK0 + ε

En forme extensive, cette combinaison linéaire des variables explicatives ressemble à ceci
 y1   x11   x12   x1K   ε1 
         
y  x  x  x  ε 
 2 = β10  21  + β20  22  + ... + βK0  2K  +  2
 ⋮    ⋮ 
   ⋮   ⋮   ⋮   
y  x  x  x  ε 
 n   n 1   n 2   nK   n 
ou à ceci
 y1   x11   x12   x1K   ε1 
         
y  x  x  x  ε 
 2 =  21  β 0 +  22  β 0 + ... +  2K  β0 +  2
 ⋮   ⋮  1  ⋮  2  ⋮  K  ⋮ 
         
y  x  x  x  ε 
 n   n 1   n 2   nK   n 

22
Dans un contexte où les K paramètres sont inconnus, il s'agit alors d'un système de n
équations et de K inconnus, tels que:
y1 = x 11β10 + x 12 β20 + ... + x 1K βK0 + εi
y 2 = x 21β10 + x 22 β20 + ... + x 2K βK0 + εi
⋮ ⋮ ⋮ ⋮ ⋮
0 0 0
yn = x n 1β1 + x n 2 β2 + ... + x nK βK + εi
Notons qu'il existera une solution à ce système à condition que n ≥ K et que l’assomption A3
tienne.

Sous sa forme compacte, nous obtenons l'expression la plus simple et la plus pratique du
modèle de régression linéaire (ou système d'équation) avec:
y = Xβ + ε

Le modèle de régression linéaire sous forme de matrice complète, a la forme suivante :


y  x ⋯ x1K   β10  ε 
 1  11 x12  1
y  x x 22   0
⋯ x 2K   β2  ε 
 2   
  =  21    + 2
 ⋮   ⋮ ⋮ ⋱ ⋮   ⋮   ⋮ 
     0  
 yn   xn1 xn 2 ⋯ x nK   βk  ε 
  n×1     K ×1  n  n×1
n×K

Pour une observation i en formulation vectorielle


Comme mentionné ci-dessus, pour une observation particulière, nous avons
yi = β10x i 1 + β20x i 2 + ... + βK0 x iK + εi ∀i avec i = 1,..., n

Définissons le vecteur colonne suivant qui inclura l'observation pour chacune des variables
explicatives:
 x i1 
 
 x 

x(i ) ≡ [x i1 x i 2 ⋯ x iK ] ' ≡  i 2  est un vecteur K × 1 des K variables explicatives
 ⋮ 
 
 x iK 

et x(i ) ' = [xi1 xi 2 ⋯x iK ]

Où l'indice entre parenthèses ( i ) est utilisé pour s'assurer que nous ne faisons pas référence
au vecteur colonne xk de taille n × 1 du k-ième régresseur qui empile toutes les observations
 x 1k 
 
x 
pour la k -ième variable xk ≡  2k  .
 ⋮ 
x 
 nk 
n×1
Dans la littérature il y a confusion entre xk et xi , c'est une notation ambigüe mais néanmoins
23
standard; j'ai ainsi ajouté les parenthèses à () pour que tout soit plus clair que l’on parle du
vecteur de l’observation i pour toutes les variables explicatives lorsque l’on utilise x(i ) .

En utilisant la notation vectorielle avec les vecteurs K × 1 de toutes les observations et le


vecteur de paramètres β 0 , nous pouvons écrire l'équation ci-dessus comme suit:
yi = x(i ) ' β 0 + εi ∀i avec i = 1,..., n

Une fois de plus, nous pouvons remarquer que le modèle est une fonction linéaire du vecteur
de paramètres β 0 .
Ici, il est clair tel que y i est exprimé par le produit scalaire9 de x(i ) ' et β 0 .

Les n observations peuvent être simplement écrites sous forme matricielle comme nous
l'avons vu auparavant avec
y = Xβ + ε,
y 
 1
y 
où y =  2  = ( y1 y2 ⋯ yn ) '
 ⋮ 
 
 yn 
 
est n × 1 et on peut maintenant définir
x 
 11 x12 ⋯ x1K 
x 
 21 x 22 ⋯ x 2K 
X=  =  x(1) x(2) ⋯ x(n )  ' ,
 ⋮ ⋮ ⋱ ⋮ 
 
 x n1 x n 2 ⋯ x nK 
 
 x i1 

 x 
On voit que X est une matrice concatène les vecteurs colonnes x(i )  des observations
=  i 2 
 ⋮ 
 
 x iK 
puis qui les transposes.

x '
 (1) 
x '
Notez également que X =  x(1) x(2) …x(n )  ' =  (2)  lorsque nous empilons (concaténons
 
 ⋮ 
 
 x(n ) ' 
 
verticalement) les vecteurs lignes x(i ) ' pour chaque l’observation.

9
dot product, scalar product, inner product ou projection product
https://en.wikipedia.org/wiki/Dot_product
https://fr.wikipedia.org/wiki/Produit_scalaire
24
N.B .: Certains auteurs utilisent une notation alternative et des définitions vectorielles donc
faites très attention!!!!!!!!!!!!!

En utilisant dans le contexte des séries chronologiques, nous aurions t à la place de i , tel
que : yt = x(t ) ' β + εt

25
Les assomptions du modèle de régression linéaire classique (CLRM):
Avant de continuer avec l’algèbre de l'estimateur OLS, énonçons les 5 assomptions les plus
primaires de notre modèle de régression classique.

Voici les assomptions minimales du modèle de régression linéaire classique.

Assomptions 0 (pour le contexte)


A0CLRM: Xn×K est une matrice n x K de régresseurs non-stochastiques (déterministes) et finis
ou
A0CLRM’ : Xn×K est une matrice finie et fixe en échantillons répétés. Cela signifie que dans les
échantillons répétés la matrice X ne change pas si nous en tirons un autre échantillon.

Cela simplifie les démonstrations et la preuve du théorème de Gauss-Markov en permettant


l'utilisation des espérances inconditionnelles (non-conditionnelles) E (⋅) et variances
inconditionnelles (non-conditionnelles) var(⋅) au lieu des espérances conditionnelles E (⋅ | X ) et
des variances conditionnelles10 var(⋅ | X ) .

Cette assomption A0 n'est pas vraiment nécessaire pour obtenir les résultats souhaités (non-
biais de l’estimateur OLS et efficacité de l’estimateur OLS), mais elle est très pratique pour
simplifier les preuves et la notation.

L'assomption servira à établir le contexte dans lequel nous travaillons.

Nous assouplirons cette assomption plus tard et le théorème de Gauss-Markov tiendra


toujours en établissant les résultats de manière conditionnelle à la matrice des régresseurs X .

Par exemple on aura aussi une version où certains des régresseurs seront stochastiques et
issues de processus aléatoires i.i.d (indépendamment et identiquement distribué).

10
Par exemple cela nous permettra de travailler directement avec la variance inconditionnelle
 '
var ( ε ) = E  ( ε − E (ε) )( ε − E (ε) )  = E ( εε ' )
 
au lieu d'avoir à utiliser la loi de la variance totale (Law of Total Variance)
 ' 
var(ε) = E [var(ε∣X )] + var[E (ε∣X )] ou var ( ε∣X ) = E  ( ε − E (ε∣X ) )( ε − E (ε∣X ) ) ∣X  pour
 
calculer la variance inconditionnelle var(ε)
26
Assomption 1 (linéarité)

* A1CLRM: Le modèle a la forme suivante «linéaire dans les paramètres» suivantes:


y = Xβ 0 + ε ou yi = x(i ) ' β 0 + εi ∀i = 1,..., n

Ceci définit et restreint considérablement la classe des modèles considérés (car cela force une
formulation linéaire), mais il simplifie également considérablement les calculs.

y n ×1 ∈ ℝ n est le vecteur de la variable dépendante composé d’éléments finis ( −∞ < yi < ∞ )

X n×K est la matrice des colonnes de régresseurs xk ∈ ℝ n qui sont composés des éléments
finis xik ( −∞ < xik < ∞ )

βK0 ×1 ∈ ℝK est le vecteur de paramètres des coefficients constants (ou paramètres), où le vrai
paramètre réel est fini −∞ < βk0 < ∞ ; l'indice 0 signifie la vraie valeur (le plus souvent
inconnue) ou le vrai paramètre de «Population» ou du DGP que nous aimerions estimer.

εn ×1 ∈ ℝ n est un vecteur de perturbation aléatoire des termes de perturbation ou de choc εi .

Fondamentalement, cette assomption contraint la structure du modèle à une structure


linéaire, c'est une contrainte très restrictive. Toutefois, beaucoup de modèles non-linéaires
peuvent être plus ou moins approximés par des transformations linéaires.

27
Assomption 2 : pas de multicolinéarité parfaire
(pour l'existence βˆOLS et l’identification de β )

Il y a plusieurs façons de présenter cette assomption (on des versions plus directes).

* A2CLRM: - Il n'y a pas de multicolinéarité parfaite entre les colonnes de X. (Cela n'empêche pas
multicolinéarité imparfaite ou la quasi-multicolinéarité).
Cette assomption exclut uniquement une colinéarité parfaite entre des régresseurs x k .

* A2CLRM’: X est une matrice n × K de rank(X ) = K avec n ≥ K . Cela implique aucune


combinaison linéaire parfaite entre les variables explicatives xk de la régression.
Cela pourrait également être indiqué dans les formes suivantes et fournir le même résultat
final (l'existence de l'OLS estimateur):

* A2CLRM’’ : X est une matrice n × K de rang complet avec n ≥ K

* A2CLRM’’’ : Tous les vecteurs colonnes xk de la matrice de régresseurs X sont linéairement


indépendants. Cela signifie que les colonnes de X en peuvent pas être exprimées comme une
combinaison linéaire d'autres colonnes formant la matrice des régresseurs X.

Cela implique également qu'il doit y avoir certaines variations dans les régresseurs x k
(sauf pour un régresseur qui est autorisé à être constant souvent tel que x 1 = ι ).


* A2CLRM’’’’ : La forme quadratique X ' X (produit de X' et X) est une matrice de rang complet
telle que rank (X ' X ) = K .


* A2CLRM’’’’’ : La forme quadratique X ' X (produit de X' et X) est une matrice non singulière
(une matrice régulière).

* A2CLRM’’’’’’ La forme quadratique X ' X (produit de X' et X) est une matrice inversible
( (X ' X )−1 ∃ et est unique ou (X ' X )−1 existe et est unique).

Fondamentalement, cette assomption A2CLRM implique qu’aucune combinaison linéaire


parfaite entre les régresseurs puisse exister.
C'est généralement connu sous le nom d'assomption de non-multicolinéarité parfaite ou
d’absence de multicolinéarité parfaite.

28
Cette assomption implique que (X ' X )−1 existe et donc A1CLRM et une version de A2CLRM
assurent ensemble l'existence et l'unicité de l'estimateur OLS de β donné
par βˆ = (X ' X )−1 X ' y .

Cela nous permet essentiellement de calculer numériquement l'estimateur OLS unique.

Cette assomption est également connue sous le nom de la condition d'identification.

Rappel sur les vecteurs colinéaires ou non-colinéaires…

3 vecteurs colinéaires 2 vecteurs non-colinéaires

On a besoin de 3 vecteurs non-colinéaires pour générer ℝ 3 .

Dans la figure ci-haut les trois vecteurs en bleu sont linéairement indépendants, mais si on
ajoute un des vecteurs ombragés (ou les deux) on a plus l’indépendance linéaire.

29
Assomption 3 : moyenne inconditionnelle ou non-conditionnelle des chocs εi nulle
(pour le non-biais de l'estimateur MCO : E (βˆ) = β 0 )

* A3CLRM : E ( ε ) = 0n×1

ou
A3CLRM’ : E (εi )=0 ∀i = 1,..., n
Il s'agit de l'assomption voulant que la moyenne non-conditionnelle (inconditionnelle) des
termes de perturbations εi soit nulle.

Dans le contexte de régresseurs non-stochastiques, c'est l'assomption la moins restrictive


nécessaire pour obtenir un estimateur OLS sans biais tel que
E (βˆ) = β 0 (avec A1CLRM + A2CLRM + A3CLRM).

Avec A1 à A3 l’estimateur OLS sera non-biaisé

Les assomptions A1 à A3 comprennent le modèle de régression linéaire.

Pour le cas X stochastiques que nous étudirons plus tard…


Notez que plus tard, nous utiliserons la version conditionnelle plus restrictive
A3stochastique : E (ε | X ) = 0 pour travailler dans le cas de régresseurs stochastiques.
Notez que dans ce cas la régression de y sur X représente la moyenne conditionnelle
E (y ∣X ) , qui dans notre cas est aussi E (y ) .
Sans l’assomption de A3stochastique , X β 0 ne serait pas la fonction d’espérance conditionnelle CEF
(conditional expectation fonction).

30
Assomption 4 : Chocs sphériques ou Homoscédasticité et pas d'autocorrélation
(pour que l'estimateur OLS soit BLUE Best Linear Unbiaised Estimator)

* A4CLRM:
1 ⋯ 0 0  σ2 ⋯ 0 0 
   0 
0 1 ⋯ 0  0 σ2 ⋯ 0 
E ( εε ' ) = σ02I n = σ02  =  0 
  
 ⋮ ⋮ ⋱ ⋮   ⋮ ⋮ ⋱ ⋮ 
0 0 ⋯ 1  2

   0 0 ⋯ σ0 
 
avec σ 0 = var(εi ) < ∞ avec la présence de A3CLRM qui implique que E (ε) = 0
2

Cette assomption pourrait également être postulée telle que:


* A4CLRM’:
 σ2 ⋯ 0 0 
 0
 0 σ02 ⋯ 0 

var ( ε ) = σ02I n =  sans recourir à A3CLRM.
 ⋮ ⋮ ⋱ ⋮ 
 
 0 0 ⋯ σ02 
 

Cela indique que les perturbations ont une matrice de covariance non-conditionnelle
sphérique (Les variances de chacun des termes de perturbation individuels sont les mêmes et
il n'y a pas de corrélation (ni de covariance) entre différents les chocs; les éléments hors
diagonale de la matrice de covariance sont nuls).

f (εi , εj ) Exemple d’aléas sphériques

i≠ j

εj εi

31
Un cas plus restrictif serait l’indépendance entre les chocs εi et εj pour tout i ≠ j , mais
cette version très restrictive n’est pas nécessaire pour avoir un estimateur BLUE.

Cette assomption n'est pas nécessaire pour trouver un estimateur sans biais, mais elle est
nécessaire pour que le théorème de Gauss-Markov révéle sa beauté; c'est-à-dire pour vérifier
que l'estimateur βˆOLS soit
βˆOLS = (X ' X )−1 X ' y (avec A1CLRM + A2CLRM + A3CLRM+ A4CLRM) est BLUE (Best Linear Unbiaised
Estimator = le meilleur estimateur linéaire sans biais).

Avec A1, A2, A3 et A4 l’estimateur OLS sera non-biaisé et BLUE

Cela signifie que l'estimateur linéaire OLS βˆOLS (qui transforme les données y linéairement via
κ  n 
 11 κ12 ⋯ κ1n   y1   ∑ i =1 κ1i yi 
κ  
 κ22 ⋯ κ2n   y2   ∑n κ y 
le suivant tel que βˆOLS = (X ' X )−1 X ' y = Κy =  21   =  i =1 2i i 
 ⋮ ⋮ ⋱ ⋮  ⋮   ⋮ 
    
 κK 1 κK 2 ⋯ κKn   yn   n 
    ∑ i =1 κKi yi 
 
est le meilleur estimateur sans biais parmi la classe des estimateurs linéaires.

Cela signifie que l’estimateur OLS a la propriété d'avoir la plus petite variance parmi tous les
estimateurs linéaires sans biais calculé à partir des données.

Avec A1CLRM + A2CLRM + A3CLRM+ A4CLRM l'estimateur linéaire βˆOLS respectera ainsi le théorème de

Gauss-Markov qui montre que var(βˆOLS ) = var ( (X ' X )−1 X ' y ) ≤ var(β )

pour tout autre linéaire estimateur sans biais tel que β = Cy (transformation linéaire des

données) et que E (β ) = β (estimateur non-biaisé).

32
Cette 4-ième assomption peut également être formulée comme deux assomptions distinctes
et complémentaires A4CLRM a)’ et A4CLRM b)’, tels que:
-A4CLRM a)’ : l’homoscédasticité des aléas telle que
var(εi ) = σε2 ∀i = 1,..., n avec σ 02 < ∞

Ceci nous dit qu'il n'y a pas d'hétéroscédasticité (la variance des termes de perturbation εi est
une constante définie et les perturbations sont homoscédastiques).

Avec la présence de la moyenne non-conditionnelle nulle des chocs A3CLRM on pourrait


alternativement seulement énoncer A4CLRM a)’’ E (εi2 ) = σε2 ∀i = 1,..., n pour obtenir une
assomption pratique équivalente.

C'est ce qu'on appelle l'assomption de homoscédasticité (que la variance σ02 est constant).

f (εi ) : Probability Distribution Function pdf of εi under homoskedastic disturbances


Source: Gujarati

33
Notez que les séries chronologiques financières présentent souvent une hétéroscédasticité
conditionnelle (car la variance n'est pas constante dans le temps et varie souvent avec les
éléments de la matrice X ou avec le temps ou avec des retards de variable temporelles), ce
qui viendrait invalider cette assomption A4CLRM conditionnellement.

Dans les exemples suivant A4CLRM ne tient pas à cause de la violation de l’assomption A4CLRM a)’. c’est-à-
dire que l’on a de l’hétéroscédasticité d’une certaine forme.

Figure: Exemple d’hétéroscédasticité


f (εi , εj )

var(εi ) < var(εj )


i≠ j

εj εi

f (εi ) : Probability Distribution Function (pdf) of εi under heteroskedastic disturbances


Source.: Gujarati

34
Lorsque l'hétéroscédasticité est liée (conditionnelle) à une variable x k
(par exemple avec σi2 ≡ var(εi ) = α0 + α1 x i22 )

Exemple d’hétéroscédasticité conditionnelle avec dépendance temporelle

35
- A4CLRM b)’ : L’assomption de non-autocorrélation des aléas telle que
cov(εi , εj ) = 0 ∀i ≠ j ou corr(εi , εj ) = 0, ∀i ≠ j .
Cela indique qu'il n'y a pas d'autocovariance ou d'autocorrélation (pas de corrélation entre les
différents termes de perturbation εi et εj ∀i ≠ j ).

On peut visualiser E ( εε' ) = σ02I sous forme extensive comme:


ε    E (ε ε ) E ( ε1ε2 ) ⋯ E ( ε1εn )   σ2 0 ⋯ 0 
  1    1 1  0 
    
 E ( ε2ε1 ) E ( ε2ε2 ) ⋯ E ( ε2εn ) 
ε  2
 0 σ0 ⋯ 0 
E ( εε' ) = E   2   ε1 ε2 ⋯ εn   =   = 
2
 = σ0 I n
 ⋮   
  ⋮ ⋮ ⋱ ⋮   ⋮ ⋮ ⋱ ⋮ 
       
  εn    E ( εn ε1 ) E ( εn ε2 ) ⋯ E ( εn εn )   0 0 ⋯ σ02 
   
avec σ02 ≡ σε2

Vous rencontrerez également la notation de forme étendue suivante pour var ( ε ) = σ02I n telle
 var ( ε ) cov ( ε , ε ) ⋯ cov ( ε , ε ) 
 1 1 2 1 n 
 
 cov ( ε2, ε1 ) var ( ε2 ) ⋯ cov ( ε2, εn ) 
Var ( ε ) =   = E  (ε − E (ε))(ε − E (ε))' 
 ⋮ ⋮ ⋱ ⋮ 
 
 cov ( εn , ε1 ) cov ( εn,ε2 ) ⋯ var ( εn ) 
 
 E [ε − E (ε )][ε − E (ε )] E[ε − E (ε )][ε − E (ε )] ⋯ E [ε − E (ε )][ε − E (ε )]
 1 1 1 1 1 1 2 2 1 1 n n 
 E [ε − E (ε )][ε − E (ε )] E[ε − E (ε )][ε − E (ε )] ⋯ E [ε − E (ε )][ε − E (ε )]
 2 2 1 1 2 2 2 2 2 2 n n 
= 
 ⋮ ⋮ ⋱ ⋮ 
 
 E [εn − E (εn )][ε1 − E (ε1 )] E[εn − E (εn )][ε2 − E (ε2 )] ⋯ E [εn − E (εn )][εn − E (εn )]
 

 σ2 0 ⋯ 0 
  0 
 
  

'
 2 ⋯ 0 
     0 σ 
 
= E   ε − E ( ε )  ε − E ( ε )   = E ( εε ' ) = 
  0 2
 = σ0 I n with σ02 ≡ σε2
     ⋮ ⋮ ⋱ ⋮ 
   
0  0    
   0 0 ⋯ σ02 
 

Parfois, nous utilisons également l’assomption plus forte de chocs i.i.d. (indépendamment et
identiquement distribués), mais ce serait plus restrictif et inutile pour nous ici.

36
On ne validerait pas A4CLRMb’ si par exemple les chocs suivaient un processus d'autocorrélation
AR (1).
Dans ce cas, on pourrait avoir la formulation AR(1) suivante des chocs: εi = ρεi −1 + υi avec
υi ∼ i.i.d .(0, σv2 )
(généralement, nous utilisons ce genre de processus autorégressifs dans un contexte de série
chronologique).

Exemples de la non-présence de l’assomption A4CLRM due à de l’autocorrélation


(A4CLRMb n’est pas respectée)

Figure: Exemple d’autocorrélation positive


f (εi , εj )

i≠ j

εi

εj

εt Autocorrélation positive εt Autocorrélation négative

t t

37
Cette assomption A4CLRM d’aléas sphérique peut être considérée comme un cas particulier du
cas plus général où les aléas sont non-sphériques tels que
var(ε) = σ02Ω = Σ
en restreignant la matrice structurelle Ω = I à la matrice identité.

Dans d'autres ouvrages, c'est aussi énoncé plus restrictivement comme ε ∼ i.i.d .( 0, σ02 ) , (on
note l’ajout d'indépendance au mixte).

i.i.d . veut dire indépendamment et identiquement distribué, cela signifie que les termes de
perturbation εi sont distribués indépendamment et de manière identique (variance
constante) avec une moyenne de 0 et une variance de σ02 .

Ceci signifie que chaque εi suit une distribution i.i.d.( 0, σ02 ) .

Ici avec notre version la moins restrictive de l’assomption A4CLRM E ( εε ' ) = σ02I n nous n'avons
pas besoin d'indépendance.
Quoi qu'il en soit, cela implique que la vraie variance non-conditionnelle σO2 du εi est la même
(identique) pour tout i tel que var ( εi ) = σ02, ∀ i = 1,…, n

38
Assomption 5 :La normalité des chocs
(pour des tests exacts sur échantillons finis)

(
* A5CLRM: ε ∼ N 0, σ02I )
Ou
* A5CLRM’: εi ∼ N 0, σε2 ( ) ∀i = 1,..., n

C'est l'assomption de normalité du terme de perturbation.

Cette assomption est seulement nécessaire que pour obtenir des distributions de tests simples
et bien connues en échantillons finis; lorsque nous voudrons tester une hypothèse
statistiquement et afin de procéder à l’inférence statistique sur les paramètres ou sur des y j
hors échantillons.

Ceci s'ajoute aux assomptions A3 et A4 concernant les termes des chocs et ajoute plus de
contraintes sur les aléas εi .

C'est une assomption qui n'est pas nécessaire pour que l'estimateur OLS existe ou pour avoir
un «Estimateur sans biais», et pour avoir la validation du théorème de Gauss-Markov d’un
estimateur BLUE.

Néanmoins cette assomption nous permettra de construire des intervalles de confiance et de


tester des hypothèses en utilisant les distributions t et F en petit échantillon.
H0 H0
Ex. Pour une seule restriction linéaire on peut tester la nulle H 0 : βk = βk vs H 1 : βk ≠ βk

Avec le test de student :


(βˆ − βk 0 ) 0
H H
εˆ ' εˆ
t(βˆk ) = k ∼ t(n − K ) lorsque l’on doit estimer la variance σε2 par σˆε2 = avec
ˆ
var(βk ) (n − K )
 
var(βˆk ) = σˆε2ek '(X ' X )−1ek et avec ek ' =  0 ⋯ 0 1 0 ⋯ 0
 
 k −th term 

(βˆ − βk 0 ) 0
H H
Ou via le test Z Z (βˆk ) = k ∼ N (0,1) lorsque l’on connait la variance σε2 .
ˆ
var(βk )

H0 H0
Et pour tester plusieurs restrictions linéaires on peut tester la nulle H 0 : R β = r vs H1 : Rβ ≠ r
−1
( Rβˆ − r ) ' ( R ( X ' X ) )
−1
R' ( Rβˆ − r ) / J H0
Via le test de Fisher typique: F = ∼ F (J , n − K )
σˆ2

39
La minimisation et la dérivation de l'estimateur OLS
En économétrie, nous nous appuyons souvent sur les estimateurs-M (M-Estimators ou les
estimateurs extremum), l'estimateur OLS fait partie de cette classe générale d'estimateurs.
En fait, l'estimateur-M le plus utilisé dans le contexte de la régression est l'estimateur des
moindres carrés ordinaires MCO (ordinary least square OLS).

L'estimateur OLS est défini comme la valeur de β qui minimise la somme des carrés des
perturbations (erreurs):
βˆ = argmin S (β )OLS
β ∈B

Rappel : Normes vectorielles

Définissons une fonction de distance pour les vecteurs.

Une fonction ⋅ : ℝn → ℝ est appelée norme vectorielle si elle possède les 3 propriétés
suivantes:

1. v ≥ 0 pour tout vecteur v ∈ ℝn , et v = 0 si et seulement si v = 0

2. av = a v pour tout vecteur v ∈ ℝn et tout scalaire a ∈ ℝ

3. v + w ≤ v + w pour tous vecteurs v, w ∈ ℝn (c’est l’inégalité triangulaire)

Exemples de diverses normes

a) La norme vectorielle ℓ p (norme p-ième) du vecteur vn×1 est définie telle que:

1/ p
 n   1/ p
I  p p p p p p p p p p
v ≡ v :=  ∑ vi  =  v1 + v2 + v3 + ... + vn = v1 + v2 + v3 + ... + vn
p p  i =1   

40
b) Le cas particulier le plus commun pour nous sera la norme euclidienne ou la norme- ℓ 2
lorsque p = 2

1/ 2
 n 2  1/ 2
I  1/2
 = ( v1 + v2 + v3 + ... + vn ) =
2 2 2 2
v ≡ v :=  ∑ vi 2 v12 + v22 + v 32 + ... + vn2 = ( v ' Iv )
2 2  i =1 

Si on élève la norme euclidienne à la puissance 2 on obtient l’espression qui sera utilisée


comme base du critère OLS.
2 /2
2  n 2 
n
2 2
( )
v
I
2

=  ∑ vi
 i =1
 =


i =1
vi = v12 + v22 + v 32 + ... + vn2 = ( 1/ 2
( v ' Iv ) ) = v ' Iv

L’estimateur OLS sera défini par :


2
βˆOLS = arg min S (β )OLS avec S (β )OLS = ( y − Xβ I
2 ) = (y − Xβ )' I (y − Xβ )
β ∈ℝK

c) La norme- ℓ 1 lorsque p = 1

1/1
 n 1 
n
1
I 
v ≡ v :=  ∑ vi  = ∑ vi = v1 + v2 + v 3 + ... + v 4
1 1  i =1  i =1

L’estimateur LAD : Least (or Minimum) Absolute Distance or error (LAD, MAD, LAE) estimator

βˆLAD = arg min S (β )LAD sera le résultat de la minimisation du critère suivant :


β ∈ ℝK

n
S (β )LAD = ∑ yi − x(i ) ' β = y − Xβ I
1
i =1

d) la norme- ℓ ∞ lorsque p = ∞

I
v ∞
≡ v ∞
:= max vi
1≤i ≤n

41
e) norme- ℓ 2 lorsque p = 2 avec une métrique A

A 1/2
v 2
:= ( v ' Av )

2 2
et la version au carrée qui donne la forme quadratique ( v
A
2 ) := ( ( v ' Av )
1/2
) = v ' Av

Nous utiliserons cette forme pour l’estimateur GLS (Generalised least square) telle que :
2
βˆGLS = arg min S (β )GLS avec S (β )GLS = ( y − Xβ
Σ−1
2 ) = (y − Xβ )' Σ−1(y − Xβ )

Impact de diverses normes…

42
Le critère OLS
On obtient l’estimateur OLS
βˆ = argmin S (β )OLS avec le critére suivant que l’on minimise :
β ∈B

n
S (β )OLS = ∑ εi2 = 1ε12 + 1ε22 + ... + 1εn2
i =1
n
2 2 2 2
= ( y1 − x(1) ' β ) + ( y2 − x(2) ' β ) + ... + ( yn − x(n ) ' β ) = ∑ ( yi − x(i ) ' β )
i =1

ε   1 0 ⋯ 0   ε1 
 1   
ε  0 1 ⋯ 0 ε 
   2 
= ε ' ε =  ε1 ε2 ⋯ εn   2  = ε ' I n ε =  ε1 ε2 ⋯ εn  
  ⋮    ⋮ ⋮ ⋱ ⋮   ⋮ 
 
  0 0 ⋯ 1  
 εn     εn 
 
= ε ' I n ε = ( y − Xβ ) ' I ( y − Xβ )
= y '(y − Xβ ) − (Xβ )'(y − Xβ )
= y ' y − y ' Xβ − β ' X ' y + β ' X ' Xβ
= y ' y − 2y ' Xβ + β ' X ' Xβ puisque y ' Xβ = β ' X ' y
2 2
= y − Xβ = y − Xβ I

La solution du problème de minimisation OLS revient à minimiser la sommes des aléas (ou
‘’erreurs’’) au carré en trouvant le β̂ comme solution du problème βˆ = argmin S (β )OLS
β ∈B

Avec deux régresseurs on aura le graphe suivant pour le critère OLS à minimiser
S (β1 , β2 ) = ε ' ε avec les paramètres β1 et β2

S (β1 , β2 ) = ε ' ε

Source : Hansen 2010

43
Avec 3 régresseurs (le premier étant une constante) on aura l’hyperplan X βˆ suivant dans le
plan yˆi ou yi , x i 2, x i,3 :

44
La minimisation du critère OLS
Pour minimiser le critère OLS
S (β )OLS = y ' y − β ' X ' y − y ' X β + β ' X ' X β
1x 1 1xK Kx 1 1xK KxK
1x 1 1x 1 1x 1
= y'y − 2y'Xβ + β 'X'Xβ = y'y − 2 β ' X'y + β 'X'Xβ
1x 1 1xK KxK 1x 1 1xK Kx 1 KxK
1x 1 1x 1 1x 1 1x 1
z' a a' z z' A z
= y'y − β 'X'y − y'Xβ + β 'X'Xβ

z' a a' z
∂a ' z ∂z ' a
Pour la partie β ' X ' y ou y ' X β on utilise la règle 1 suivante: = =a
∂z ∂z
z' A z
Pour la partie β ' X ' X β on utilise la règle 2 suivante :
∂z ' Az  Az + A ' z = (A + A ')z ∀Am×m
= 
∂z  2Az si A = A ' (A est symétrique)

Nous prenons la dérivée du critère par rapport β , cela nous donnera:


 ∂S (β ) 
 
 ∂β   z' a a' z z' A z 

 1  

∂  y ' y − β ' X ' y − y ' X β + β ' X ' X β 

 ∂S (β ) 


 
∂S (β ) ∂S (β ) 
DβS (β ) ≡ = =  ∂β2  =
∂β β  ∂β
 1  ⋮ 
β   
 2   ∂S (β ) 
∂   
 ⋮   ∂β 
   K  K ×1
 βK 
 
z' a a' z z' A z
a a A
∂(y' y) ∂(− β ' X ' y) ∂(− y ' X β ) ∂(β ' X ' X β )
= + + + = 0K ×1 − X ' y − X ' y + 2 X ' X β
∂β ∂β ∂β ∂β KxK Kx 1 Kx 1
Kx 1

Ou
 ∂S (β ) 
 
 ∂β   a' z z' A z 


 ∂  y ' y − 2 y ' X β + β ' X ' X β 
1 
 ∂S (β )   a A
∂S (β ) ∂S (β )    
Dβ S (β ) ≡ = =  ∂β2  = = 0K ×1 − 2 X ' y + 2 X ' X β
∂β β  ∂β
 1  ⋮  Kx 1 KxK
β    Kx 1
   ∂S (β ) 
∂ 2   
 ⋮   ∂β 
   K  K ×1
 βK 
 

45
La première dérivée égalisée à zéro nous donne la condition du premier ordre (FOC) de notre
problème d'optimisation, où l’on cherche le point minimum de la fonction quadratique S (β )
strictement convexe.

Les conditions de premier ordre CPO (FOC: first order condition) sont données en égalisant la
dérivée première à zéro, ce qui définit l’estimateur OLS:
 ∂S (β ) 
 
 ∂β 
 1 
 ∂S (β ) 
∂S (β ) ∂S (β )  
= =  ∂β2  = −2 X ' y + 2 X ' X βˆOLS = 0K ×1
∂β  
 β1  ⋮  Kx 1 KxK
β    Kx 1
   ∂S (β ) 
∂ 2   
 ⋮   ∂β 
   K  K ×1
 βK 
 

⇒ − X ' y + X ' X βˆOLS = 0K ×1


Kx 1 KxK
Kx 1
⇒ X ' X βˆOLS = X ' y
KxK Kx 1
Kx 1

X ' XβˆOLS = X ' y ⇔ Ax = b

La dernière expression est analogue au système d’équation linéaire Ax = b dans le cas où on a


K équations et K inconnues βˆk .

Le système aura une solution unique étant donné la présence de l’assomption A2 qui implique
−1
l’existence et l’unicité de la matrice inverse ( X ' X ) , car la matrice X ' X est de rang complet
telle que rank ( X ' X ) = K ( X ' X est une matrice carrée régulière ou non-singulière).

Pour solutionner pour βˆOLS , on pré-multiplie ainsi le système d’équation X ' XβˆOLS = X ' y par
−1
l’inverse ( X ' X ) , ceci donne :

X ' XβˆOLS = X ' y


−1 −1
(X ' X) X ' X βˆOLS = ( X ' X ) X ' y
IK
−1
⇒ βˆOLS = ( X ' X ) X ' y
Ceci est l’équation de l’estimateur OLS.
46
Rappel des règles de dérivation par un vecteur

1-Dériver une sommation a ' z = z ' a (un produit scalaire de deux vecteurs) par un vecteur-colonne z

a  z 
 1   1 
a  z 
 2  
Soit am×1 =   et z m×1 =  2  ,
 ⋮   ⋮ 
   
 am   zm 
   

Alors
m
a 'z = ∑ ai z i = a1 z1 + a2 z 2 + ... + am z m = z ' a
i =1

La dérivée est donnée par :


 ∂a ' z   ∂z ' a   ∂(a z + a z + ... + a z ) 
     1 1 2 2 m m 
     ∂z1 
 ∂z 1   ∂z 1  
 ∂(a z + a z + ... + a z ) 
 a 
 1 
 ∂a ' z   ∂z ' a   a 
    1 1 2 2 m m 
∂a ' z   ∂z ' a      2
=  ∂z 2  = =  ∂z 2  = ∂z 2 =  = am×1
∂z  ⋮  ∂z  ⋮     ⋮ 
     ⋮   
 ∂a ' z   ∂z ' a     am 
     ∂(a1 z1 + a2 z 2 + ... + am z m )    m×1
 ∂z   ∂z   
 m  m×1  m  m×1  ∂z m 
 

Pour résumer la règle 1 donne:


∂a ' z ∂z ' a
= =a
∂z ∂z

47
2-Dériver une forme quadratique z ' Az par un vecteur-colonne z

Soit
z  a ⋯ a1m 
 1   11 a12
z  a a22 ⋯ a2m 
 2 
z m×1 =   , Am×m =  21 
 ⋮   ⋮ ⋮ ⋱ ⋮ 
   
 zm   am 1 am 2 ⋯ amm 
   

a ⋯ a1m   z1 
 11 a12
a a22 ⋯ a2m   z 2 

avec la fonction quadratique f (z ) = z ' Az =  z1 z2 ⋯ z m   21  
  ⋮ ⋮ ⋱ ⋮  ⋮ 
  
 am 1 a m 2 ⋯ amm   z m 
  

 m 
 
 ∑ a1i z i 
 a z + a z + ... + a z   i =1 
 11 1 12 2 1m m   m 
 a z + a z + ... + a z     m 
m
⋯ zm   ∑
 2m m   a2i z i = 
=  z1 z2 ⋯ z m   21 1 22 2
 =  z1 z2 
 ∑ z j  ∑ a ji zi 
     i =1  
j =1  i =1
   
 am 1z1 + am 2z 2 + ... + amm z m   m 
   
 ∑ ami z i 
 i =1 

Pour le gradient on a :
 ∂f (z ) 
 
 ∂z 
 1 
 ∂f (z ) 
∂f (z )   ∂z ' Az  Az + A ' z = (A + A ')z ∀Am×m
gradf (z ) = ∇z f (z ) = =  ∂z 2  = = 
  ∂z  2Az si A = A ' (A est symétrique)
 z1   ⋮  
z   
   
∂ 2   ∂f (z ) 
 ⋮   ∂z 
   m  m×1
 zm 
 

pour résumer
∂z ' Az  Az + A ' z = (A + A ')z ∀Am×m
= 
∂z  2Az si A = A ' (A est symétrique)

48
Conditions de deuxième (second) ordre CDO
Pour vérifier qu'il s'agit bien d'un minimum global, il faut s'assurer que la condition suffisante
sur la dérivée de second ordre soit validée.

Fondamentalement, nous avons besoin que la matrice hessienne des dérivées de second ordre
∂2S LS (β ) ∂  ∂S LS (β ) 
H = Dβ2S LS (β ) ≡ ≡ 

′ ′
 = 2X X = 2X I n X
SLS ( β ) ∂ β∂ β ' ∂β '  ∂β 
soit une matrice définie positive.
Puisque le rang de X est égal à K via l’assomption A2 (parce que cela ne fonctionnera pas
autrement), cette matrice est définie positive, car c'est une forme quadratique dans une
matrice définie positive (avec une matrice d'identité d'ordre n).
−1
Par conséquent, l'estimateur βˆOLS = ( X ' X ) X ' y est un minimisateur du critère OLS S (β )OLS .

Lorsque nous insérons les données dans l'estimateur (dans la formule ci-dessus), nous
obtenons les estimations ponctuelles MCO du vrai paramètre, soit l’estimé OLS ou la valeur
calculée de l’estimateur.

Il faut noter qu'un estimateur n'est qu'une règle ou une formule pour calculer des estimations
ou des estimés.

Une fois que nous avons l'estimateur, nous pouvons obtenir les estimations et calculer la
valeur estimée de quelques éléments intéressants.

• Les valeurs ajustées (le fit, l'ajustement ou la prédiction dans l'échantillon) sont données par
le vecteur ɵy = Xβˆ = X ( X ' X )−1 X ' y =  X ( X ' X )−1 X '  y = PX y
 
PX

• Les résidus (erreur estimées) sont donnés par le vecteur :


−1  −1 
εˆ = y − X βˆOLS = y − X ( X ' X ) X ' y =  In − X ( X ' X ) X '  y = M X y
 
MX

On les appelle souvent les résidus (estimés), l'erreur estimée ou les perturbations estimées.

• Notez que l’on a la décomposition orthogonale suivante


ˆ = Xβˆ
y εˆ
 −1   −1 
y = Xβ + ε = Xβˆ + εˆ =  X ( X ' X ) X '  y +  I n − X ( X ' X ) X '  y = PX y + M X y
   
PX MX

Avec PX M X = X (X ' X )−1 X '  I n − X (X ' X )−1 X '  = 0n×n
PX est symétrique ( PX = PX ' ) et idempotente ( PX = PX PX = PX PX PX = ... )
M X est symétrique ( M X = M X ' ) et idempotente ( M X = M X M X = M X M X M X = ... )

49
• De plus, les conditions de premier ordre peuvent être écrites comme
X ' y − X ' Xβˆ = 0
X ' ( y − Xβˆ ) = 0
X′ εˆ = 0

C'est-à-dire que le vecteur des résidus OLS (estimés) ε̂ est orthogonal à la matrice X .
En details on a
X′ εˆn×1 = 0K ×1
K ×n

ˆ 
 x '   ε1 
 1   εˆ 
x '   2  = 0K ×1
 2  
  ⋮ 
 ⋮  
   εˆ 
 x K '   n n×1
 
K ×n

 x ' εˆ 
 1 
 x ' εˆ  = 0
 2  K ×1
 
 ⋮ 
 
 x K ' εˆ 
 
K ×n
  εˆ  
  1 
  εˆ  
   2 
  x11 x 21 ⋯ xn1    
  ⋮ 
   
  εˆn    n 
     
  εˆ    ∑ xi1εˆi 
 x      1    i =1   
  11 x 21 ⋯ xn1    εˆ1    εˆ    n  0
     2     
  x12 x22 ⋯ xn 2    εˆ2  
  x12 x22 ⋯ xn 2      ∑ xi 2εˆi  = 0
   =  ⋮   =  i =1    = 0K ×1
 ⋮  ⋮      
⋮   ⋮
     εˆ  
 x x 2K ⋯ xnK    εˆn    n      
  0  K×1
  1K     n×1  ⋮   n 
 εˆ    ∑
K ×n    xiK εˆi 
 
  1  i =1
  εˆ  
  2 
  x1K x 2K ⋯ xnK    
  ⋮ 
  
  εˆn  
  
Nous examinerons cette condition d'orthogonalité plus attentivement géométriquement plus
tard.

50
Dans le cas où X comprend un terme constant (ex. x1 = ι ), par construction on aura
n
ι ' εˆ =  1 1 ⋯ 1  εˆ = ∑ εˆi =0
 
i =1

Par ailleurs, on a aussi :


2
n
εˆ ' εˆ = ∑ i =1 εˆi ≥ 0.

Si εˆ ' εˆ = 0 , c’est que l’on a un ajustement parfait.

Précisons que cette condition d'orthogonalité X′εˆ = 0 peut également être utilisée dans
d'autres estimateurs comme base (du critère pour) estimer les paramètres inconnus.
Plus précisément, nous pouvons dériver l'estimateur OLS dans le contexte GMM en utilisant la
relation échantionnalle X′ ( y − XβˆGMM ) = 0 analogue à la relation théorique
E  X ′ ε  = E  X ′ ( y − X β )  = 0 .
   

Nous pourrions également noter que l'estimateur OLS est également la solution au problème
du critère des moindres carrés généralisés GLS (Generalised Least Square)
S (β )GLS = ( y − Xβ ) 'W ( y − Xβ ) où W = cI , c'est-à-dire quand la matrice de pondération (la
métrique) W est une matrice diagonale à éléments diagonaux constants, ici c > 0 est une
constante réel positive.

De plus, notez également que l'estimateur MCO peut être présenté dans le cadre de
l'estimateur du maximum de vraisemblance (Maximum Likelihood) ML avec le modèle de
régression linéaire estimé avec une fonction de vraisemblance imposée comme étant une
distribution gaussienne (normale).

51
L'espérance de β̂ : E (βˆ) .
Est-ce un estimateur biaisé ou non-biaisé?

Nous avons l'estimateur OLS


βˆ = ( X ' X )−1 X ' y

On remplace y par le processus générateur des données DGP y = X β 0 + ε donnée par


l’assomption A1, ceci donne :
−1
βˆ = ( X 'X ) X ' ( X β 0 + ε )
−1 −1
= ( X 'X ) X 'X β 0 + ( X 'X ) X 'ε
IK
−1
= β 0 + ( X 'X ) X 'ε

Maintenant, si nous prenons l'espérance avec l'opérateur linéaire d’espérance non-


conditionnelle E (⋅) , nous avons
 −1 
E ( βˆ ) = E  β 0 + ( X 'X ) X ' ε 
 
 −1 
= E  β 0  + E  ( X 'X ) X 'ε 
   

Ici, comme X est fixe avec l’assomption A1, nous n'avons pas besoin de conditionnement,
alors considérons que A3 s'applique de manière non-conditionnelle.

Avec les régresseurs fixes la version de A3 (que nous avons utilisé dans le contexte A0) nous dit
que E  ε  = 0n×1 .
Ceci veut dire que la valeur espérée de manière non-conditionnelle de chaque terme de
perturbation est 0.

À la prochaine étape, nous allons passer l’opérateur espérance non-conditionnel à travers


(X ' X )−1 X ' car X est fixe et par le fait même (X ' X )−1 X ' est une matrice non-aléatoire.

Pour notre estimateur OLS on aura ainsi :


−1
E ( βˆ ) = β 0 + ( X 'X ) X 'E  ε  =
= β0

Nous venons donc de prouver qu'il s'agit d'un estimateur sans biais (unbiased estimator) sous
les hypothèses requises A1CLRM + A2CLRM + A3CLRM.
Nous avons utilisé A0CLRM pour alléger la notation en travaillant de manière non-conditionnelle.

52
On peut aussi travailler pour calculer E ( βˆ ) en faisant les étapes de simplification à l’intérieur
de l’opérateur espérance, tel que :
−1
βˆ = ( X ' X ) X ' y

On prend l’espérance des deux côtés…


 −1 
E  βˆ  = E  ( X ' X ) X ' y 
 
 −1 
= E  ( X ' X ) X ' ( X β 0 + ε )  avec A1CLRM : y = X β 0 + ε
 
 
 −1 −1 
= E  ( X ' X ) X ' X β 0 + ( X ' X ) X ' ε 
 
 IK 
 0 −1 
= E  β + (X ' X ) X ' ε
 
 −1 
= E  β  + E  ( X ' X ) X ' ε 
0
   
0  −1 
= β + E (X ' X ) X ' ε  car β 0 n ' est pas aléatoire
 
−1
= β 0 + ( X ' X ) X ' E  ε  avec A0CLRM : X non − stochastique
−1
= β0 + (X ' X ) X ' 0n×1 avec A3CLRM : E  ε  = 0n×1
= β 0 + 0K ×1
= β0

Ainsi l’estimateur OLS est non-biaisé, car E  βˆ  = β 0 .

53
La variance de β̂ : Var (βˆ)
Afin d’obtenir la matrice de variance-covariance11 de l’estimateur OSL, on procède comme d'habitude en
prenant l'espérance de la forme quadratique d’un vecteur βˆ − E (βˆ) tel que (βˆ − E (βˆ))(βˆ − E (βˆ))' .
On a alors :
 var ( βˆ ) cov ( βˆ1, βˆ2 ) ⋯ cov ( βˆ1, βˆK ) 
 1
 
ˆ  cov ( βˆ2, βˆ1 ) var ( βˆ2 ) ⋯ cov ( βˆ2, βˆK ) 
Var (β ) =  
 ⋮ ⋮ ⋱ ⋮ 
 
 cov ( βˆK , βˆ1 ) cov ( βˆK ,βˆ2 ) ⋯ var ( βˆK ) 
  K ×K
 E [βˆ − E (βˆ )][βˆ − E (βˆ )] E [βˆ − E (β1 )][β2 − E (βˆ2 )] ⋯ E [βˆ1 − E (βˆ1 )][βˆK − E (βˆK )] 
ˆ ˆ
 1 1 1 1 1
 E [βˆ − E (βˆ )][βˆ − E (βˆ )] E [βˆ − E (βˆ2 )][βˆ2 − E (βˆ2 )] ⋯ E [βˆ2 − E (βˆ2 )][βˆK − E (βˆK )] 
 2 2 1 1 2
= 
 ⋮ ⋮ ⋱ ⋮ 
 
 E [βˆK − E (βˆK )][βˆ1 − E (βˆ1 )] E[βˆK ˆ ˆ ˆ ˆ ˆ ˆ
− E (βK )][β2 − E (β2 )] ⋯ E [βK − E (βK )][βK − E (βK )] ˆ
 

= E  (βˆ − E (βˆ))(βˆ − E (βˆ))'  = E  (βˆ − β 0 )(βˆ − β 0 )' 


 
Maintenant on doit écrire (βˆ − E (βˆ)) avec ce que l’on connait (incluant le fait que E (βˆ) = β 0 )

Rappelons-nous que y = Xβ 0 + ε

Nous allons substituer cette égalité E (βˆ) = β 0 dans l’expression de la variance

var(βˆ) = E  (βˆ − E (βˆ))(βˆ − E (βˆ)) '  = E  (βˆ − β0 )(βˆ − β0 ) ' 


 

On sait que le vecteur de contraste entre β̂ et β 0 peut être écrit comme une fonction des aléas ε tel que :
y

βˆ − β0 = (X ' X )−1 X '[X β 0 + ε ] − β 0 = (X ' X )−1 X ' X β 0 + (X ' X )−1 X ' ε − β 0


βˆ I
−1
= (X ' X ) X ' ε
En subtituant on obtient
var(βˆ) = E  ( (X ' X )−1 X ' ε )( (X ' X )−1 X ' ε ) '  = E  ( (X ' X )−1 X ' ε )( ε ' X (X ' X )−1 ) 
   
−1 −1
= (X ' X ) X ' E (εε ')X (X ' X )
= (X ' X )−1 X ' σ02 I n X (X ' X )−1 avec A4CLRM: E (εε ') = σ02 I n
= σ02 (X ' X )−1 X ' I n X (X ' X )−1
= σ02 (X ' X )−1 X ' X (X ' X )−1
IK

= σ02 (X ' X )−1


La variance (matrice de variance-covariance) de l’estimateur β̂ est donnée par:

var(βˆ) = σ02 (X ' X )−1

11 2
Recall that the covariance of a scalar random variable with itself is cov(Y,Y)=E(Y-E(Y))
54
On peut aussi calculer la matrice de variance-covariance de la manière suivante :

var(βˆ) = E  ( βˆ − E (βˆ) )( βˆ − E (βˆ) ) ' 


= E  ( βˆ − β 0 )( βˆ − β 0 ) ' 
 
= E  ( (X ' X ) X ' y − β )( (X ' X )−1 X ' y − β 0 ) ' 
 −1 0
 
= E  ( (X ' X )−1 X '  X β 0 + ε  − β 0 )( (X ' X )−1 X '  X β 0 + ε  − β 0 ) ' 
     
   
  
= E   (X ' X ) X ' X β + (X ' X ) X ' ε − β  (X ' X ) X ' X β + (X ' X ) X ' ε − β  ' 
− 1 0 − 1 0  − 1 0 − 1 0
  
    
 IK IK
= E  ( β 0 + (X ' X )−1 X ' ε − β 0 )( β 0 + (X ' X )−1 X ' ε − β 0 ) ' 
 
= E  ( (X ' X ) X ' ε )( (X ' X ) X ' ε ) ' 
 −1 −1 
 
 −1
= E  (X ' X ) X ' εε ' X (X ' X )  −1 
 
−1   −1
= (X ' X ) X ' E  εε '  X (X ' X )
= (X ' X )−1 X ' E  εε '  X (X ' X )−1
= (X ' X )−1 X ' σ02 I n X (X ' X )−1 avec A4CLRM : E (εε ') = σ02 I n
= σ02 (X ' X )−1 X ' I n X (X ' X )−1
= σ02 (X ' X )−1 X ' X (X ' X )−1
IK
= σ02 (X −1
' X)

On a donc que:
var(βˆ) = σ02 (X ' X )−1

avec A4CLRM: E (εε ') = σ02 I n

‘’Houston we have a problem!’’


On ne connait généralement pas la valeur théorique σ 02 !!!!
Heureusement, il y a une solution.
Nous pourrons construire un estimateur de σ 02 (que l’on notera σˆε2 ) et le brancher dans l’ expression de
var (βˆ)

55
Trouver un estimateur pour σ 02 non-biaisé…

On sait que la matrice M X de taille n × n est orthogonale à X par construction. On sait aussi que M X est
symétrique ( M X = M X ' ) et idempotente ( M X = M X M X = M X M X M X = ... ).

Sachant que εˆ = y − X βˆ , réécrivons l’expression de plusieurs manières différentes.


εˆ = M X εˆ = M X (y − X βˆ) = M X y − M X X βˆ = M X y = M X (X β + ε)
0n×K
= MX X β + MX ε = MX ε
0n×K
n
La trace d’une matrice carrée An×n (somme des terme de la diagonale) est donnée par tr (A) = ∑ aii .
i =1

Ainsi on peut écrire une forme quadratique du vecteur ε̂ de variables aléatoires εˆi telle que:
εˆ ' εˆ = ( M X ε ) ' M X ε = ε ' M X ' M X ε (Ceci est une tentative d’estimateur de σ 02 )
Maintenant prenons l’espérance pour voir s’il est non-biaisé…
E (εˆ ' εˆ) = E (ε ' M X ' M X ε)
= E ( ε ' M X ε)
= E (tr (ε ' M X ε)) en utilisant Tr (c1×1 ) = c1×1
= E (tr (M X εε ')) en utilisant tr(AB ) = tr(BA)
= tr (M X E (εε ')) en utilisant le fait que X soit fixe ou non-stochastique (A0)
= tr (M X E (εε '))
σ02 I

= σ 02tr (M X ) en utilisant le fait que tr(c1×1An×n ) = c1×1 tr(An×n )

Question: qu’est-ce que la trace tr (M X ) de M X ?


tr (M X ) = tr (I n − X (X ' X )−1 X ')
= tr (I n ) − tr (X (X ' X )−1 X ') using tr(A ± B ) = tr(A) ± tr(B )
= n − tr ((X ′X )−1 X ′X ) using tr(AB ) = tr(BA)
= n − tr (I K ) = n − K

Ainsi E (εˆ ' εˆ) = σ02 (n − K )


Ceci donne un estimateur biaisé, mais en le corrigeant en divisant par (n − K ) on obtient un estimateur non-
biaisé de σ 02 tel que :
 εˆ ' εˆ  1 1
E (σˆε2 ) ≡ E  (n − K )σ02 = σ02
 n − K  (n − K ) (
= E εˆ ' εˆ) =
(n − K )
εˆ' εˆ
Avec σˆε2 ≡
n −K

56
εˆ' εˆ
Notez que σˆε2 ≡ est un estimateur non-biaisé du paramètre de population var(εi ) = σ 02 .
n −K
εˆ' εˆ
Notez que l’on peut réécrire σˆε2 ≡ de plusieurs manières telles que :
n −K
εˆ ' εˆ εˆ ' M X ' M X εˆ (y − X βˆ)' M X ' M X (y − X βˆ) y ' MX ' MXy
σˆε2 = σˆ2 = σˆOL
2
S = = = =
n −K n −K n −K n −K
Comme M X X = 0n×K on a
y '[I − X (X ' X )−1 X ']'[I − X (X ' X )−1 X ']y y '[I − X (X ' X )−1 X ')]y y ' MXy
= = =
n −K n −K n −K
(X β + ε)' M X (X β + ε) ε ' MX ε
= =
n −K n −K
σˆε est une forme quadratique de (y − X βˆ) de l’erreur de prévision (de l’ajustement) de y .
2

Malheureusement, même si σˆε2 est un estimateur non-biaisé, il n’est pas optimal en terme de variance, car il
n’est pas à variance minimale dans sa classe.
2
Par ailleurs, l’estimateur de maximum de vraisemblance MLE σˆML de σ 02 possède une variance plus petit que
celui que l’on vient de proposer dans le contexte OLS, l’estimateur du maximum de vraisemblance MLE est
donné par:
2 εˆ ' εˆ (n − K ) εˆ ' εˆ (n − K ) 2
σˆML = = = σˆOLS .
n n (n − K ) n
2 εˆ ' εˆ n
On a ainsi la relation suivante: σˆOLS = = σˆ2
n −K (n − K ) ML

2 (n − K ) 2 2 εˆ ' εˆ
E (σˆML )= σ0 σˆML = K >0
n Ainsi, l’estimateur MLE n est biaisé si

En fait si on a la normalité des aléas on peut montrer que l’on a la relation suivante:
 εˆ ' εˆ  2σ 4   2σ 4
2
var (σˆOL   = 2
> var (σˆM  εˆ' εˆ  =
S ) = var 
 n − K L ) = va r
 n 
 (n − K ) n
2 εˆ ' εˆ
En somme, σˆOLS = n’est pas un estimateur à variance minimale car il n’est pas le fruit de la
n −K
maximisation de la fonction de vraisemblance (likelihood function). On va traîter l’estimateur ML plus tard…

L’estimateur σˆOLS
2
de la variance σ 02 du vrai terme de perturbation que l’on va utiliser dans le contexte OLS
est donnée par
2 εˆ ' εˆ
σˆOLS =
n −K
Notez que c’est un estimateur non-biaisé de σ 02 et il sera amplement adapté pour l’estimation de Var (βˆ) .

Ainsi on peut construire un estimateur de la variance de β̂ , qui est donné par:


εˆ ' εˆ
Var (βˆ) = σˆOLS
2
(X ′X )−1 = (X ′X )−1
n −K
N.B. Notez que la Var (β0 ) = 0K ×K car β0 n’est pas considéré comme stochastique habituellement.

57
Now that we have Var (βˆ) we will be able to build statistical test on the value of the true parameter β0 based
on the sample information content of y . Because ultimately, β̂ is a linear function of y .

To built a valid small sample test, we need to know the distributional properties of the perturbation terms. To do
so we will assume normality later on (in practice you should always test this).
The small sample properties of the OLS estimator in the case of the CLRM
i) Existence : With assumptions A1CLRM and A2CLRM, the OLS estimator β̂ exists for all n≥K and is unique. In
the case where n=K we would have no degree of freedom12, and this would have some implications on testing
and on the expression of the variance.

ii) Unbiasedness : With assumptions A1 CLRM, A2 CLRM and A3 CLRM, the OLS estimator β̂ is an unbiased
estimator of the true parameter of the CLRM β 0 . Unbiasedness tells us that the distribution of β̂ is centered

around the unknown true value of the parameter β 0 .

E ( βˆ ) = β 0 and the bias = E ( βˆ ) − β 0 = 0


As can be depicted in the following figure, for two different estimators θ̂1 and θ̂2 of the true parameter θ ,
sometime there is an arbitrage between bias and minimal variance, and the econometrician must choose
between these two options depending on his objectives.
Probability density of θ̂1 and θ̂2

Source: Gujarati

iii) Efficiency: With assumption A1 CLRM to A4 CLRM we can achieve the efficiency property. This means that β̂
will be the best in class Best Linear Unbiased Estimator (BLUE). This is proven by the proof of the stochastic
regressor version of the Gauss-Markov Theorem. We do not need A0 CLRM to prove this.
But if we add the assumption A0 that the regressors are non-stochastic, we get the more classic fixed
regressors Gauss-Markov Theorem which will be demonstrated in the next pages.
We say that an estimator is optimal or efficient in the class of unbiased estimators if its variance is the smallest
in the class of linear unbiased estimators. The meaning of optimal or efficient intuitively relates to that fact that
with minimal variance the chances of finding the true β 0 are optimized and superior to that of other estimators.

12
In general, the degrees of freedom of an estimate is equal to the number of independent scores (pieces of information) that go
into the estimate minus the number of parameters estimated as intermediate steps in the estimation of the parameter itself (which,
in sample variance, is one, since the sample mean is the only intermediate step).
58
The Gauss-Markov Theorem
Under assumption A1 CLRM to A4 CLRM the OLS is optimal (efficient) in the class of the linear unbiased
estimators. βˆOLS = (X ' X )−1 X ' y is Best Linear Unbiased Estimator B.L.U.E.
−1
Recall that the Var ( βˆ ) = σ02 X 'X( )
And that the OLS estimator is a linear function of the regressand y
c  y   n 
 11 c12 ⋯ c 1n   1 

∑ i =1
c1iyi 

⌣ c c ⋯ c    ∑n c y 
 21 22 2n   y 2   another linear unbiased estimator of β 0
Let us have β = Cy =     =  i =1 2i i
 ⋮ ⋮ ⋱ ⋮  ⋮  ⋮ 
    
 cK 1 cK 2 ⋯ cKn   yn   n 
    ∑ i =1 cKiyi 
 

( 0
β = Cy = C X β + ε = CX β + C ε )
0

⌣ ⌣
Since we imposed that β be unbiased if we take the expectation of β we get

E ( β ) =CX β 0 + E (C ε ) = CX β 0
Furthermore, since we have imposed “unbiasedness” we must have that CX = I in order to get

E ( β ) =β0

Now let us look at the variance of β
⌣  ⌣ ⌣ ⌣ ⌣ '
Var ( β ) = E  ( β − E ( β ) ) ( β − E ( β ) ) 
 
⌣ ⌣
(
= E  β −β 0
)( 0 
β − β ' )
 

= E C ε (C ε ) '  since β − β 0 = CX β 0 + C ε − β 0 = C ε
= E C εε 'C '  = CE  εε ' C ' = C σ02 I nC ' = σ02 CI nC ' = σ02CC '
−1
Now let us with some guidance impose that we have a matrix D such that D = C − X 'X ( ) X'
Pre-multiplying y with D we get
−1 ⌣
Dy = Cy − ( X ' X ) X 'y = β − βˆ
−1 ⌣
Let us now substitute C = D + X 'X ( ) X ' into the equation of Var ( β ) and expand the expression
⌣  

( −1 −1
Var ( β ) = σ02 CC ' = σ02  D + ( X ' X ) X ' D + ( X ' X ) X ' '  )(
)
 − 1 −1 −1 −1 
= σ02  DD '+ DX ( X ' X ) + ( X ' X ) X ' D '+ ( X 'X ) X ' X ( X ' X ) 
 
 −1 −1 −1 −1 
= σ02  DD '+ 0 ( X ' X ) + ( X ' X ) 0 + ( X ' X ) X ' X ( X ' X ) 
 
Since DX = 0 as well as it’s transpose. This is shown by the fact that we know that CX = I and that
−1
[D + ( X ' X ) X ']X = I K .
−1
This tells us that since ( X ' X ) X ' X = I , we must have that DX = 0K ×K for this equality to hold.
 −1  −1
Let’s see that: DX = C − X 'X

( ) X '  X = CX − ( X 'X ) X 'X = I K − I K = 0K ×K


59
Finally we get
⌣  −1  −1 −1
Var ( β ) = σ02  DD '+ ( X 'X )  = σ02 DD '+ σ02 ( X 'X ) ≥ σ02 ( X 'X ) = var (βˆ)
 
var (βˆ)

Or
⌣  −1  −1
var ( β ) − var (βˆ) = σ02  DD '+ ( X 'X )  − σ02 ( X 'X ) = σ02 DD ' ≥ 0K ×K
 
⌣ var (βˆ)
var ( β )

And this states that the estimator β cannot have a smaller variance than the OLS estimator. Hence the OLS
estimator is optimal and is equal to the Maximum Likelihood estimator (which is well known to be efficient in
that setting).
Because DD ' is a matrix quadratic form, for any estimator such that D ≠ 0 that estimator will not exhibit the
B.L.U.E. small sample property. Basically to be B.L.U.E., you have to the equal to the OLS estimator.

60

Vous aimerez peut-être aussi