Académique Documents
Professionnel Documents
Culture Documents
1
Sources à compléter….
2
Si nous essayons d'expliquer un processus déterministe avec un processus aléatoire, nous sommes dans les pâquerettes.
3
Certains économétriciens pourraient encore examiner les distributions et montrer un certain intérêt pour la forme de la
distribution des événements. En finance, nous pourrions nous intéresser à la distribution de certaines variables financières.
1
"All models are wrong, but some are useful"
- Citation souvent attribuée à George Box, mais avec incertitude...
Source :Gujarati
4
https://en.wikipedia.org/wiki/Top-down_and_bottom-up_design
2
La réalité rencontre les modèles
La réalité consiste en des réalisations de variables observées yi et x ik , que l’on note souvent
n
telles que {yi , x(i ) } ou {(yi , x(i ))}, i = 1,2,..., n .
i =1
Il faut également noter que généralement, les données peuvent être continues, discrètes ou
dichotomiques (dummy variable)
Les variables dichotomiques, qualitatives ou liées (prenant des valeurs de 0 ou 1) sont souvent
utilisées pour représenter une caractérisque particulière et binaire.
Ex.
Type de personnalité: compulsif = 1, normal 0
Type de marché: bull (haussier) = 1, bear (baissier) 0.
3
Figure5
Avec ces données, nous essayons de déduire certaines relations causales qui éclaireront
certaines questions que nous nous posons.
Les outils les plus simples sont les graphiques et les coefficients de corrélation.
5
source: https://commentprogresser.com/statistique-variables.html
4
Complément à l’analyse des données
• Un modèle (mathématique ou heuristique) est une représentation simplifiée de la réalité qui nous permet d’expliquer
un phénomène et de faire des prévisions (il est habituellement basé sur des postulats).
• Un postulat est un conditionnement pour simplifier notre représentation du monde (notre modèle ou notre théorie).
Ex. En économie fermée, à court terme, à long terme, en l’absence d’externalités,…
• Une hypothèse représente ce que l’on veut tester, notre interrogation. (Au niveau statistique on ne peut que rejeter
statistiquement une hypothèse, on ne peut pas la confirmer).
Ex. le chômage augmente suite à une hausse de la taxe sur la masse salariale
• Une théorie économique ou financières est un ensemble d’énoncés positifs permettant de comprendre et de prévoir
le comportement des acteurs économiques.
5
Corrélation versus causalité6
-Corrélation ‘’théorique’’ : L a corrélation (en probabilités et en statistique) entre deux variables aléatoires ou
statistiques est une notion de liaison linéaire qui contredit leur indépendance.
Une corrélation ‘’théorique’’ ne dit rien sur la direction du lien potentiel entre deux variables, ou même sur la possibilité
que ce lien provienne d’une ou d’autres variables.
IMPORTANT : Une corrélation n’implique pas la causalité dans un sens ou un autre, la causalité est un concept beaucoup
plus strict et difficile à prouver ou à démontrer.
ρX ,Y ≠ 0 (X ,Y corrélées théoriquement) ⇏ X → Y ou Y → X
Notez que toutes les simulations de la dernière ligne de la figure ci-haut sont issues de variables théoriquement non-
corrélées, mais qui sont dépendantes de manière non-linéaire (qui ont un lien ou une relation non-linéaire).
Ex. Y = X 2
Il est possible qu’il y ait une relation entre deux variables X et Y , mais que la corrélation soit nulle ρX ,Y = 0 .
Le concept de corrélation est généralement mieux adapté aux relations linéaires.
-Corrélation ‘’empirique’’, échantillonnale ou observée : La corrélation empirique ou observée est une mesure
statistique estimée pour quantifier les variations entre deux variables.
6
Références : Wikipédia
6
En finance et en économie on a généralement des données empiriques (souvent avec erreurs de mesures) basées sur
des échantillons plus ou moins représentatifs.
On ne peut pas impliquer une causalité à partir d’une simple corrélation empirique.
La modélisation économétrique nous aide à tester statistiquement des relations de causalité possibles.
-Causalité : En science, en philosophie et dans le langage courant, la causalité désigne la relation de cause à effet.
Dans un système complexe (comme une économie), il est généralement difficile (voir impossible) d’identifier clairement
une causalité et son sens.
On peut avoir divers scénarios de causalité qui mènent à l’observation d’une corrélation empirique.
1- A qui cause B ( A → B )
2- B qui cause A ( B → A )
3- Une troisième variable C qui affecte A et qui affecte B, montrant ainsi une corrélation empirique entre A et B. Cette
corrélation provient de la variable C.
C → A et C → B
Ex. On peut observer une corrélation entre une hausse des ventes de patins et une hausse des ventes de pneus d’hiver.
L’explication logique est que l’automne (l’arrivé du climat froid) affecte positivement les ventes de patins et les ventes
de pneus d’hiver.
7
Exemple de corrélation
On peut observer une corrélation entre la consommation de crème glacée dans les commerces et la température au
Québec.
Causalité probable
A→B
La hausse de la température durant l’été implique (cause) plus de ventes de crème glacée aux cerises.
Par ailleurs, il est peu probable que l’on ait la relation inverse
Une hausse des ventes de crème glacée aux cerises implique (cause) une hausse de la température.
B →A
8
Corrélation entre les températures de certaines régions
67. Central Florida
76. Coastal Washington
92. Central California Coast
9
Corrélation entre la consommation de chocolat et le nombre de prix Nobel
Figure published in Messerli (2012) Chocolate Consumption, Cognitive Function, and Nobel Laureates, New England Journal of
Medicine https://www.nejm.org/doi/full/10.1056/nejmon1211064
Messerli a écrit:
Attention: une corrélation n’est pas une causalité!
10
Afin de tenter d'identifier certains liens de causalité, les économétriciens utilisent des modèles
plus complets.
Le modèle le plus simple utilisera des variables explicatives x ik pour tenter d’expliquer une
variable dépendante d'intérêt yi .
Par rapport aux coefficients de corrélation simples, les outils plus raffinés que nous utilisons
comme les modèles de régression (et leurs estimateurs sous-jacents) pour tenter d'expliquer
les relations empiriques possibles, sont plus précis et particuliers en essayant de représenter
des réalités possibles.
Ex.
Hypothèse nulle : H 0 : β = 0 (la variables x i 2 n’a pas de lien linéaire pour expliquer yi )
Hypothèse alternative : H 1 : β ≠ 0 (Il y a une relation linéaire entre x i 2 et yi )
Hypothèse nulle : H 0 : βk = 0 (la variables x k n’a pas de lien linéaire pour expliquer y )
Hypothèse alternative : H 1 : βk ≠ 0 (Il y a une relation linéaire entre x k et y )
11
Le modèle de régression linéaire (multiple)
Considérant que nous aimerions prédire, expliquer ou approximer une variable dépendante yi
en utilisant des variables explicatives (ou variables indépendantes) x 1, x 2 ,..., x K , nous aurons
besoin d'un modèle.
Le modèle de régression linéaire pour une observation particulière i nous donne le modèle
suivant: yi = x i 1β10 + x i 2 β20 + ... + x ik βk0 + ... + x iK βK0 + εi et on a ∀i où i = 1,..., n .
Notez que le modèle linéaire pourrait être soit le parfait (le vrai) modèle linéaire qui
représente également le vrai DGP (dans le cas où la réalité correspond au DGP4 ) ou qu'il
pourrait, de manière plus réaliste, n’être qu’une simple approximation linéaire de la réalité en
fonction de nombreux faits, dont certaines considérations plus métaphysiques.
Supposons que l'on veuille déterminer la meilleure prédiction linéaire (ou approximation) de y
en utilisant les variables explicatives x 1, x 2 ,..., x K , nous aurons ainsi besoin de données.
Une alternative souvent utilisée par les statisticiens et économétriciens est de supposer que
les données {(yi , x(i ))}, i = 1,2,..., n sont obtenues par une certaine forme d'échantillonnage
(dans un monde probabiliste fréquentiste et/ou bayesien)7.
7
Extrait de C. Fauré: ''Il y a en effet deux conceptions des probabilités, toutes deux présentes dès les débuts de la mathématisation
du probable. On parle ainsi :
d’une part des probabilités fréquentistes, il s’agit de probabilités dites objectives et a posteriori, visant à dégager les lois
stochastiques de processus aléatoires tendanciels dans des statistiques de fréquence à long terme.
et d’autre part des probabilités bayesiennes, où il s’agit de probabilité subjective, de degré de certitude a priori. On doit
notamment à Condorcet d’avoir présenté les probabilités subjectives comme étant des “raisons de croire”, c’est à dire de présenter
le calcul des probabilités comme relevant d’une théorie de la connaissance plus que d’une théorie de la nature.''
12
On pourrait aussi considérer un monde purement déterministe d’un point de vu réaliste
(comme dans le monde d’Albert Einstein), alors le terme ε reflétera évidemment l’erreur de
notre effort de modélisation et non des chocs aléatoires pures.
Le choix de notre vision du monde (monde purement déterministe vs monde contenant une
partie aléatoire) peut être analogue aux choix des écoles de pensée en mécanique quantique
(pilot wave theory de Louie De Brogly et David Bohm vs l’interprétation de l’école de
Copenhagen de Niels Bohr et Werner Heisenberg).
Nous devrions aussi être humble comme modélisateur face à notre (in)capacité d’expliquer
des phénomènes observés dans un monde empreint de complexité, particulièrement lorsqu’il
s’agit d’expliquer des résultats issus des comportements humains, comme en économie et en
finance où les données sont souvent imparfaites et où l’histoire ne se déroule qu’une seule
fois (impossibilité de faire des expériences contrôlés parfaites…) ou bien lorsque nous
souhaitons expliquer des phénomènes macroscopiques qui sont influencés par des éléments
microscopiques généralement indénombrables.
“Does the flap of a butterfly's wings in Brazil set off a tornado in Texas?”
– Philip Merrilees
(repris par le mathématicien et météorologiste Edward N. Lorenz dans son article de 1972)
13
Selon le domaine dans lequel les modèles de régression sont utilisés, vous pouvez rencontrer
la terminologie alternative suivante.
Prédictand Prédicteurs
ε : Le vecteur des termes de perturbation, les chocs, les aléas, le bruit (noise) ou terme
d’erreurs (error terme, disturbances)
En anglais…
Terminology of the y and X for multiple regression
yi x ik
Dependent variable Independent variables
Explained variable Explanatory variables
Predictand Predictor
Predicted variable ``
Regressand Regressor
Response Stimulus
Endogenous variable Exogenous variables
Outcome Covariate
Controlled variable Control variable
14
Les variables du modèle de régression linéaire
x k : Les vecteurs de variables explicatives x 1, x 2 ,..., x K peuvent être considérées comme non-
stochastiques (déterministes), fixe ou stochastiques.
(Dans le cas où elles sont stochastiques, elles représenteront alors les variables sur lesquelles
le conditionnement sera basé.)
Notez que les variables explicatives peuvent être considérées comme fixes (sur plusieurs
échantillons).
Le scalaire βk0 peut aussi représenter le pseudo-vrai paramètre associé avec la k -ième variable
explicative x K , dans ce cas on voit le modèle comme une approximation avec le pseudo-vrai
paramètre βk0 qui correspond à la meilleure approximation de la réalité avec le modèle
approximatif y = X β + ε .
15
ε : Le vecteur des termes de perturbation, les chocs, les aléas, le bruit (noise) ou terme
d’erreurs (error terme, disturbances)
Dans un monde parfait, mais avec une composante aléatoire, le εn×1 ( εi ∀i = 1,..., n )
représentant le terme de perturbation n'inclurait que du hasard pur né de mère nature.
Étant donné que notre modèle n'est probablement pas parfait (et que l’on aura pas en général
non plus un ajustement parfait) et que nous pouvons imaginer vivre dans un monde purement
déterministe, nous pourrons aussi conceptualiser que les perturbations εi incluent (aussi) des
erreurs de mesure, des erreurs de choix de forme fonctionnelle ou des erreurs résultants de
l'omission de bons régresseurs (erreurs de spécification) parmi d'autres types d’imperfections
de modélisation.
Le terme de perturbation ε reflétera évidemment tout cela, c’est donc un tampon dans notre
effort de modélisation qui va nous laisser une marge d’erreur comme modélisateur; on n’est
pas parfait (omniscient) comme modélisateur et ce ε nous laisse une marge d’erreur dans
notre effort de modélisation.
Lorsque l’on aura estimé β avec un estimateur β̂ quelconque, on aura défini le vecteur de
résidus ε̂ tel que :
εˆ = y − X βˆ
ε̂ : Résidus (residuals), erreurs estimées (estimated errors)
16
Le terme de perturbation εi , également connu sous le nom d’aléas (ou d'erreurs), est la
composante ‘’aléatoire’’ ou manquante non-observée qui explique la différence entre yi (ou
pour le vecteur au complet y ) et la moyenne conditionnelle E (yi x(i ) ) = x(i ) ' β (pour le vecteur
au complet E (y X ) ).
Dans l'espace échantillonnal, sa valeur estimée suivra la différence entre yi et yˆi ≡ x(i ) ' βˆ .
En regardant la ligne SRF (sample regression function), nous pouvons jeter un œil aux termes
de perturbation estimés.
Chacun de ces termes représente la distance entre l'observation des données yi et sa
prédiction yi basée sur la moyenne conditionnelle basée sur x(i ) .
Les résidus (perturbations estimées) εˆi = yi − yˆi = yi − x(i ) ' βˆ sont calculées comme un résidu
(ce qui reste de l’autre côté).
Dans la pratique le terme des résidus reflètera la combinaison des erreurs de spécification ou
de modélisation suivantes.
1. Non-linéarités et approximations:
La relation réelle n'est peut-être pas linéaire, mais si tout ce que nous avons est une équation
de modélisation linéaire, il nous manquera à coup sûr quelques caractéristiques importantes
du DGP sous-jacent.
Dans le modèle de régression linéaire, le terme de perturbation captera la non-linéarité mal
modélisée et d’autres erreurs d'approximation.
17
figure8
2. Variables omises:
Il n'est pas réaliste de présumer que le modélisateur inclura toutes les bonnes variables qui
sont dans le vrai DGP et qu'elles seront incorporées via la bonne transformation (ex. loge( x ik ) vs
log2.8 ( x ik )).).
Ce qui n'est pas pris en compte dans le modèle estimé sera projeté dans l'espace orthogonal
au x(i ) et sera capturé dans le terme de perturbation (ou terme d'erreur).
Rappelez-vous qu'en pratique, contrairement aux physiciens et aux ingénieurs, nous avons
généralement affaire au comportement humain et que tous les modèles que nous utilisons
doivent être qualifiés de proxys.
Lorsque nous avons un bon modèle, nous supposons essentiellement que le modèle est à peu
près bon (ou pas si mal). On ne veut pas mesurer des variables latentes non-observables.
4. Erreurs de mesure: les données ne sont pas toujours parfaitement collectées; très souvent,
des erreurs statistiques ou comptables sont présentes dans les données. Il existe également de
8
Source: using econometrics
18
nombreuses révisions de données qui peuvent être très surprenantes (ex. Taux de croissance
du PIB et calculs de la dette publique).
Même si les données disponibles sont imparfaites, la relation du vrai DGP peut encore être en
partie capturée par le modèle, mais d'une manière loin d'être parfaite. Par conséquent,
certaines erreurs de données (particulièrement dans les x ik ) seront collectées dans le terme
d'erreur (voir l’error-in-variable model et les TLS (total least square estimator).
7. Erreurs informatiques et de codage: Nous supposons souvent que les ordinateurs sont des
machines parfaites (outre le fait qu'ils sont toujours une source de problèmes dans la vie
quotidienne). En fait, pour le calcul numérique, les ordinateurs sont quelque peu limités; les
approximations et les niveaux de précision des toolbox varient et modifient souvent les
résultats de l'estimation de manière pernicieuse.
Trouver le vecteur multidimensionnel de coefficient dans un problème d'optimisation non
linéaire oblige souvent le modélisateur à se confronter aux limites des algorithmes
d'optimisation et des approximations qui les sous-tendent.
Si les estimations ne sont pas les bonnes, les résidus estimés seront aussi contaminés, de sorte
que tous les tests qui en découlent et toute analyse qui aura lieu à l'avenir sera affectée.
Bien souvent des routines (boîtes noires) préprogrammées sont utilisées et les mises en garde
ne sont pas prises en compte.
Les humains contrôlent l'ordinateur, l'ordinateur fera ce que vous lui demandons de faire; il
est très facile d'oublier une prime ou d'omettre un signe au bon endroit, alors méfiez-vous.
8. Effets imprévisibles: quelle que soit la précision du modèle économique ou financier, dans
la pratique, il y aura très probablement une sorte de perturbation (erreur) qui l'affectera si
nous considérons le monde comme partiellement stochastique. Ces effets seront captés par le
terme de perturbation.
19
Revenons à la forme du modèle…
Il faut bien noter la linéarité du modèle; le modèle est une fonction linéaire des paramètres
βk0 .
x1k
x
La matrice X de toutes les colonnes xk ≡ 2k est donné par :
⋮
x
nk
n×1
20
x x x x
11 12 1k 1K
x ⋯ x x x x
11 x12 x1K 21 22 2k 2K
x
x 22 ⋯ x 2K ⋮ ⋮ ⋮ ⋮
X ≡ [x i,k ] ≡ 21 ≡ ⋯ ⋯
⋮ ⋮ ⋱ ⋮ x i1 x i 2 x ik x iK
xn1 xn 2 ⋯ x nK ⋮ ⋮ ⋮ ⋮
x x x x
n1 n 2 nk nK
x1 x2 xk xK
x x x x
11 12 1k 1K
x x x
x 21 22 2k 2K
⋮ ⋮ ⋮ ⋮ x k est un vecteur colonne de toutes les
= [x1 x2 ⋯ xK ] = ⋯ ⋯
x i1 x i 2 x ik x iK observations pour la k − ième variable
⋮ ⋮ ⋮ ⋮
x x x x
n 1 n 2 nk nK
x(1)' x
11 x12 ⋯ x1k ⋯ x1K } x(1) '
x(i ) est un vecteur colonne de toutes les
x '
(2) x 21 x 22 ⋯ x 2k ⋯ x 2K } x(2) '
variables pour la i − ième observation
⋮ ⋮
=
=
x '
(i ) x i1 x i 2 ⋯ x ik ⋯ x iK } x(i ) '
⋮ x(i ) ' (avec la transposée)est un vecteur ligne de
⋮
toutes les variables pour la i − ième observation
x(K )' x x nk ⋯ x nK } x(n ) '
n 1 x n 2 ⋯
En général, nous allons négliger de mettre l'indice 0 (pour originel, vrai ou pseudo-vrai).
21
Notez que les éléments de β ( chaque βk ), correspondent à l'effet marginal de diverses
variables x k sur y .
La pente βk (pour des x ik qui ne sont pas constants) exprime ainsi l'effet (conditionnel ou
moyen) du changement des variables indépendantes x ik sur la variable dépendante yi
∂E (yi ∣x (i ) )
= βk
∂x ik
∂yi
À partir de l’expression yi = β10 + β20x i 2 + ... + x ik βk0 + ... + βK0 x iK + εi on a aussi = βk
∂x ik
yi ∂yi ∂E (yi ∣x (i ) )
= βk ou = βk
∂x ik ∂x ik
∂yˆi
β10
et = βˆk
∂x ik
xi2
Avec la notation d’algébre linéaire (de combinaison linéaire), nous sommes heureux d'écrire
y = β10 x1 + β20 x 2 + ... + βK0 x K + ε
Ou
y = x1β10 + x 2 β20 + ... + x K βK0 + ε
En forme extensive, cette combinaison linéaire des variables explicatives ressemble à ceci
y1 x11 x12 x1K ε1
y x x x ε
2 = β10 21 + β20 22 + ... + βK0 2K + 2
⋮ ⋮
⋮ ⋮ ⋮
y x x x ε
n n 1 n 2 nK n
ou à ceci
y1 x11 x12 x1K ε1
y x x x ε
2 = 21 β 0 + 22 β 0 + ... + 2K β0 + 2
⋮ ⋮ 1 ⋮ 2 ⋮ K ⋮
y x x x ε
n n 1 n 2 nK n
22
Dans un contexte où les K paramètres sont inconnus, il s'agit alors d'un système de n
équations et de K inconnus, tels que:
y1 = x 11β10 + x 12 β20 + ... + x 1K βK0 + εi
y 2 = x 21β10 + x 22 β20 + ... + x 2K βK0 + εi
⋮ ⋮ ⋮ ⋮ ⋮
0 0 0
yn = x n 1β1 + x n 2 β2 + ... + x nK βK + εi
Notons qu'il existera une solution à ce système à condition que n ≥ K et que l’assomption A3
tienne.
Sous sa forme compacte, nous obtenons l'expression la plus simple et la plus pratique du
modèle de régression linéaire (ou système d'équation) avec:
y = Xβ + ε
Définissons le vecteur colonne suivant qui inclura l'observation pour chacune des variables
explicatives:
x i1
x
x(i ) ≡ [x i1 x i 2 ⋯ x iK ] ' ≡ i 2 est un vecteur K × 1 des K variables explicatives
⋮
x iK
Où l'indice entre parenthèses ( i ) est utilisé pour s'assurer que nous ne faisons pas référence
au vecteur colonne xk de taille n × 1 du k-ième régresseur qui empile toutes les observations
x 1k
x
pour la k -ième variable xk ≡ 2k .
⋮
x
nk
n×1
Dans la littérature il y a confusion entre xk et xi , c'est une notation ambigüe mais néanmoins
23
standard; j'ai ainsi ajouté les parenthèses à () pour que tout soit plus clair que l’on parle du
vecteur de l’observation i pour toutes les variables explicatives lorsque l’on utilise x(i ) .
Une fois de plus, nous pouvons remarquer que le modèle est une fonction linéaire du vecteur
de paramètres β 0 .
Ici, il est clair tel que y i est exprimé par le produit scalaire9 de x(i ) ' et β 0 .
Les n observations peuvent être simplement écrites sous forme matricielle comme nous
l'avons vu auparavant avec
y = Xβ + ε,
y
1
y
où y = 2 = ( y1 y2 ⋯ yn ) '
⋮
yn
est n × 1 et on peut maintenant définir
x
11 x12 ⋯ x1K
x
21 x 22 ⋯ x 2K
X= = x(1) x(2) ⋯ x(n ) ' ,
⋮ ⋮ ⋱ ⋮
x n1 x n 2 ⋯ x nK
x i1
x
On voit que X est une matrice concatène les vecteurs colonnes x(i ) des observations
= i 2
⋮
x iK
puis qui les transposes.
x '
(1)
x '
Notez également que X = x(1) x(2) …x(n ) ' = (2) lorsque nous empilons (concaténons
⋮
x(n ) '
verticalement) les vecteurs lignes x(i ) ' pour chaque l’observation.
9
dot product, scalar product, inner product ou projection product
https://en.wikipedia.org/wiki/Dot_product
https://fr.wikipedia.org/wiki/Produit_scalaire
24
N.B .: Certains auteurs utilisent une notation alternative et des définitions vectorielles donc
faites très attention!!!!!!!!!!!!!
En utilisant dans le contexte des séries chronologiques, nous aurions t à la place de i , tel
que : yt = x(t ) ' β + εt
25
Les assomptions du modèle de régression linéaire classique (CLRM):
Avant de continuer avec l’algèbre de l'estimateur OLS, énonçons les 5 assomptions les plus
primaires de notre modèle de régression classique.
Cette assomption A0 n'est pas vraiment nécessaire pour obtenir les résultats souhaités (non-
biais de l’estimateur OLS et efficacité de l’estimateur OLS), mais elle est très pratique pour
simplifier les preuves et la notation.
Par exemple on aura aussi une version où certains des régresseurs seront stochastiques et
issues de processus aléatoires i.i.d (indépendamment et identiquement distribué).
10
Par exemple cela nous permettra de travailler directement avec la variance inconditionnelle
'
var ( ε ) = E ( ε − E (ε) )( ε − E (ε) ) = E ( εε ' )
au lieu d'avoir à utiliser la loi de la variance totale (Law of Total Variance)
'
var(ε) = E [var(ε∣X )] + var[E (ε∣X )] ou var ( ε∣X ) = E ( ε − E (ε∣X ) )( ε − E (ε∣X ) ) ∣X pour
calculer la variance inconditionnelle var(ε)
26
Assomption 1 (linéarité)
Ceci définit et restreint considérablement la classe des modèles considérés (car cela force une
formulation linéaire), mais il simplifie également considérablement les calculs.
X n×K est la matrice des colonnes de régresseurs xk ∈ ℝ n qui sont composés des éléments
finis xik ( −∞ < xik < ∞ )
βK0 ×1 ∈ ℝK est le vecteur de paramètres des coefficients constants (ou paramètres), où le vrai
paramètre réel est fini −∞ < βk0 < ∞ ; l'indice 0 signifie la vraie valeur (le plus souvent
inconnue) ou le vrai paramètre de «Population» ou du DGP que nous aimerions estimer.
27
Assomption 2 : pas de multicolinéarité parfaire
(pour l'existence βˆOLS et l’identification de β )
Il y a plusieurs façons de présenter cette assomption (on des versions plus directes).
* A2CLRM: - Il n'y a pas de multicolinéarité parfaite entre les colonnes de X. (Cela n'empêche pas
multicolinéarité imparfaite ou la quasi-multicolinéarité).
Cette assomption exclut uniquement une colinéarité parfaite entre des régresseurs x k .
Cela implique également qu'il doit y avoir certaines variations dans les régresseurs x k
(sauf pour un régresseur qui est autorisé à être constant souvent tel que x 1 = ι ).
⇒
* A2CLRM’’’’ : La forme quadratique X ' X (produit de X' et X) est une matrice de rang complet
telle que rank (X ' X ) = K .
⇒
* A2CLRM’’’’’ : La forme quadratique X ' X (produit de X' et X) est une matrice non singulière
(une matrice régulière).
* A2CLRM’’’’’’ La forme quadratique X ' X (produit de X' et X) est une matrice inversible
( (X ' X )−1 ∃ et est unique ou (X ' X )−1 existe et est unique).
28
Cette assomption implique que (X ' X )−1 existe et donc A1CLRM et une version de A2CLRM
assurent ensemble l'existence et l'unicité de l'estimateur OLS de β donné
par βˆ = (X ' X )−1 X ' y .
Dans la figure ci-haut les trois vecteurs en bleu sont linéairement indépendants, mais si on
ajoute un des vecteurs ombragés (ou les deux) on a plus l’indépendance linéaire.
29
Assomption 3 : moyenne inconditionnelle ou non-conditionnelle des chocs εi nulle
(pour le non-biais de l'estimateur MCO : E (βˆ) = β 0 )
* A3CLRM : E ( ε ) = 0n×1
ou
A3CLRM’ : E (εi )=0 ∀i = 1,..., n
Il s'agit de l'assomption voulant que la moyenne non-conditionnelle (inconditionnelle) des
termes de perturbations εi soit nulle.
30
Assomption 4 : Chocs sphériques ou Homoscédasticité et pas d'autocorrélation
(pour que l'estimateur OLS soit BLUE Best Linear Unbiaised Estimator)
* A4CLRM:
1 ⋯ 0 0 σ2 ⋯ 0 0
0
0 1 ⋯ 0 0 σ2 ⋯ 0
E ( εε ' ) = σ02I n = σ02 = 0
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 ⋯ 1 2
0 0 ⋯ σ0
avec σ 0 = var(εi ) < ∞ avec la présence de A3CLRM qui implique que E (ε) = 0
2
Cela indique que les perturbations ont une matrice de covariance non-conditionnelle
sphérique (Les variances de chacun des termes de perturbation individuels sont les mêmes et
il n'y a pas de corrélation (ni de covariance) entre différents les chocs; les éléments hors
diagonale de la matrice de covariance sont nuls).
i≠ j
εj εi
31
Un cas plus restrictif serait l’indépendance entre les chocs εi et εj pour tout i ≠ j , mais
cette version très restrictive n’est pas nécessaire pour avoir un estimateur BLUE.
Cette assomption n'est pas nécessaire pour trouver un estimateur sans biais, mais elle est
nécessaire pour que le théorème de Gauss-Markov révéle sa beauté; c'est-à-dire pour vérifier
que l'estimateur βˆOLS soit
βˆOLS = (X ' X )−1 X ' y (avec A1CLRM + A2CLRM + A3CLRM+ A4CLRM) est BLUE (Best Linear Unbiaised
Estimator = le meilleur estimateur linéaire sans biais).
Cela signifie que l'estimateur linéaire OLS βˆOLS (qui transforme les données y linéairement via
κ n
11 κ12 ⋯ κ1n y1 ∑ i =1 κ1i yi
κ
κ22 ⋯ κ2n y2 ∑n κ y
le suivant tel que βˆOLS = (X ' X )−1 X ' y = Κy = 21 = i =1 2i i
⋮ ⋮ ⋱ ⋮ ⋮ ⋮
κK 1 κK 2 ⋯ κKn yn n
∑ i =1 κKi yi
est le meilleur estimateur sans biais parmi la classe des estimateurs linéaires.
Cela signifie que l’estimateur OLS a la propriété d'avoir la plus petite variance parmi tous les
estimateurs linéaires sans biais calculé à partir des données.
Avec A1CLRM + A2CLRM + A3CLRM+ A4CLRM l'estimateur linéaire βˆOLS respectera ainsi le théorème de
⌣
Gauss-Markov qui montre que var(βˆOLS ) = var ( (X ' X )−1 X ' y ) ≤ var(β )
⌣
pour tout autre linéaire estimateur sans biais tel que β = Cy (transformation linéaire des
⌣
données) et que E (β ) = β (estimateur non-biaisé).
32
Cette 4-ième assomption peut également être formulée comme deux assomptions distinctes
et complémentaires A4CLRM a)’ et A4CLRM b)’, tels que:
-A4CLRM a)’ : l’homoscédasticité des aléas telle que
var(εi ) = σε2 ∀i = 1,..., n avec σ 02 < ∞
Ceci nous dit qu'il n'y a pas d'hétéroscédasticité (la variance des termes de perturbation εi est
une constante définie et les perturbations sont homoscédastiques).
C'est ce qu'on appelle l'assomption de homoscédasticité (que la variance σ02 est constant).
33
Notez que les séries chronologiques financières présentent souvent une hétéroscédasticité
conditionnelle (car la variance n'est pas constante dans le temps et varie souvent avec les
éléments de la matrice X ou avec le temps ou avec des retards de variable temporelles), ce
qui viendrait invalider cette assomption A4CLRM conditionnellement.
Dans les exemples suivant A4CLRM ne tient pas à cause de la violation de l’assomption A4CLRM a)’. c’est-à-
dire que l’on a de l’hétéroscédasticité d’une certaine forme.
εj εi
34
Lorsque l'hétéroscédasticité est liée (conditionnelle) à une variable x k
(par exemple avec σi2 ≡ var(εi ) = α0 + α1 x i22 )
35
- A4CLRM b)’ : L’assomption de non-autocorrélation des aléas telle que
cov(εi , εj ) = 0 ∀i ≠ j ou corr(εi , εj ) = 0, ∀i ≠ j .
Cela indique qu'il n'y a pas d'autocovariance ou d'autocorrélation (pas de corrélation entre les
différents termes de perturbation εi et εj ∀i ≠ j ).
Vous rencontrerez également la notation de forme étendue suivante pour var ( ε ) = σ02I n telle
var ( ε ) cov ( ε , ε ) ⋯ cov ( ε , ε )
1 1 2 1 n
cov ( ε2, ε1 ) var ( ε2 ) ⋯ cov ( ε2, εn )
Var ( ε ) = = E (ε − E (ε))(ε − E (ε))'
⋮ ⋮ ⋱ ⋮
cov ( εn , ε1 ) cov ( εn,ε2 ) ⋯ var ( εn )
E [ε − E (ε )][ε − E (ε )] E[ε − E (ε )][ε − E (ε )] ⋯ E [ε − E (ε )][ε − E (ε )]
1 1 1 1 1 1 2 2 1 1 n n
E [ε − E (ε )][ε − E (ε )] E[ε − E (ε )][ε − E (ε )] ⋯ E [ε − E (ε )][ε − E (ε )]
2 2 1 1 2 2 2 2 2 2 n n
=
⋮ ⋮ ⋱ ⋮
E [εn − E (εn )][ε1 − E (ε1 )] E[εn − E (εn )][ε2 − E (ε2 )] ⋯ E [εn − E (εn )][εn − E (εn )]
σ2 0 ⋯ 0
0
'
2 ⋯ 0
0 σ
= E ε − E ( ε ) ε − E ( ε ) = E ( εε ' ) =
0 2
= σ0 I n with σ02 ≡ σε2
⋮ ⋮ ⋱ ⋮
0 0
0 0 ⋯ σ02
Parfois, nous utilisons également l’assomption plus forte de chocs i.i.d. (indépendamment et
identiquement distribués), mais ce serait plus restrictif et inutile pour nous ici.
36
On ne validerait pas A4CLRMb’ si par exemple les chocs suivaient un processus d'autocorrélation
AR (1).
Dans ce cas, on pourrait avoir la formulation AR(1) suivante des chocs: εi = ρεi −1 + υi avec
υi ∼ i.i.d .(0, σv2 )
(généralement, nous utilisons ce genre de processus autorégressifs dans un contexte de série
chronologique).
i≠ j
εi
εj
t t
37
Cette assomption A4CLRM d’aléas sphérique peut être considérée comme un cas particulier du
cas plus général où les aléas sont non-sphériques tels que
var(ε) = σ02Ω = Σ
en restreignant la matrice structurelle Ω = I à la matrice identité.
Dans d'autres ouvrages, c'est aussi énoncé plus restrictivement comme ε ∼ i.i.d .( 0, σ02 ) , (on
note l’ajout d'indépendance au mixte).
i.i.d . veut dire indépendamment et identiquement distribué, cela signifie que les termes de
perturbation εi sont distribués indépendamment et de manière identique (variance
constante) avec une moyenne de 0 et une variance de σ02 .
Ici avec notre version la moins restrictive de l’assomption A4CLRM E ( εε ' ) = σ02I n nous n'avons
pas besoin d'indépendance.
Quoi qu'il en soit, cela implique que la vraie variance non-conditionnelle σO2 du εi est la même
(identique) pour tout i tel que var ( εi ) = σ02, ∀ i = 1,…, n
38
Assomption 5 :La normalité des chocs
(pour des tests exacts sur échantillons finis)
(
* A5CLRM: ε ∼ N 0, σ02I )
Ou
* A5CLRM’: εi ∼ N 0, σε2 ( ) ∀i = 1,..., n
Cette assomption est seulement nécessaire que pour obtenir des distributions de tests simples
et bien connues en échantillons finis; lorsque nous voudrons tester une hypothèse
statistiquement et afin de procéder à l’inférence statistique sur les paramètres ou sur des y j
hors échantillons.
Ceci s'ajoute aux assomptions A3 et A4 concernant les termes des chocs et ajoute plus de
contraintes sur les aléas εi .
C'est une assomption qui n'est pas nécessaire pour que l'estimateur OLS existe ou pour avoir
un «Estimateur sans biais», et pour avoir la validation du théorème de Gauss-Markov d’un
estimateur BLUE.
(βˆ − βk 0 ) 0
H H
Ou via le test Z Z (βˆk ) = k ∼ N (0,1) lorsque l’on connait la variance σε2 .
ˆ
var(βk )
H0 H0
Et pour tester plusieurs restrictions linéaires on peut tester la nulle H 0 : R β = r vs H1 : Rβ ≠ r
−1
( Rβˆ − r ) ' ( R ( X ' X ) )
−1
R' ( Rβˆ − r ) / J H0
Via le test de Fisher typique: F = ∼ F (J , n − K )
σˆ2
39
La minimisation et la dérivation de l'estimateur OLS
En économétrie, nous nous appuyons souvent sur les estimateurs-M (M-Estimators ou les
estimateurs extremum), l'estimateur OLS fait partie de cette classe générale d'estimateurs.
En fait, l'estimateur-M le plus utilisé dans le contexte de la régression est l'estimateur des
moindres carrés ordinaires MCO (ordinary least square OLS).
L'estimateur OLS est défini comme la valeur de β qui minimise la somme des carrés des
perturbations (erreurs):
βˆ = argmin S (β )OLS
β ∈B
Une fonction ⋅ : ℝn → ℝ est appelée norme vectorielle si elle possède les 3 propriétés
suivantes:
a) La norme vectorielle ℓ p (norme p-ième) du vecteur vn×1 est définie telle que:
1/ p
n 1/ p
I p p p p p p p p p p
v ≡ v := ∑ vi = v1 + v2 + v3 + ... + vn = v1 + v2 + v3 + ... + vn
p p i =1
40
b) Le cas particulier le plus commun pour nous sera la norme euclidienne ou la norme- ℓ 2
lorsque p = 2
1/ 2
n 2 1/ 2
I 1/2
= ( v1 + v2 + v3 + ... + vn ) =
2 2 2 2
v ≡ v := ∑ vi 2 v12 + v22 + v 32 + ... + vn2 = ( v ' Iv )
2 2 i =1
c) La norme- ℓ 1 lorsque p = 1
1/1
n 1
n
1
I
v ≡ v := ∑ vi = ∑ vi = v1 + v2 + v 3 + ... + v 4
1 1 i =1 i =1
L’estimateur LAD : Least (or Minimum) Absolute Distance or error (LAD, MAD, LAE) estimator
n
S (β )LAD = ∑ yi − x(i ) ' β = y − Xβ I
1
i =1
d) la norme- ℓ ∞ lorsque p = ∞
I
v ∞
≡ v ∞
:= max vi
1≤i ≤n
41
e) norme- ℓ 2 lorsque p = 2 avec une métrique A
A 1/2
v 2
:= ( v ' Av )
2 2
et la version au carrée qui donne la forme quadratique ( v
A
2 ) := ( ( v ' Av )
1/2
) = v ' Av
Nous utiliserons cette forme pour l’estimateur GLS (Generalised least square) telle que :
2
βˆGLS = arg min S (β )GLS avec S (β )GLS = ( y − Xβ
Σ−1
2 ) = (y − Xβ )' Σ−1(y − Xβ )
42
Le critère OLS
On obtient l’estimateur OLS
βˆ = argmin S (β )OLS avec le critére suivant que l’on minimise :
β ∈B
n
S (β )OLS = ∑ εi2 = 1ε12 + 1ε22 + ... + 1εn2
i =1
n
2 2 2 2
= ( y1 − x(1) ' β ) + ( y2 − x(2) ' β ) + ... + ( yn − x(n ) ' β ) = ∑ ( yi − x(i ) ' β )
i =1
ε 1 0 ⋯ 0 ε1
1
ε 0 1 ⋯ 0 ε
2
= ε ' ε = ε1 ε2 ⋯ εn 2 = ε ' I n ε = ε1 ε2 ⋯ εn
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
0 0 ⋯ 1
εn εn
= ε ' I n ε = ( y − Xβ ) ' I ( y − Xβ )
= y '(y − Xβ ) − (Xβ )'(y − Xβ )
= y ' y − y ' Xβ − β ' X ' y + β ' X ' Xβ
= y ' y − 2y ' Xβ + β ' X ' Xβ puisque y ' Xβ = β ' X ' y
2 2
= y − Xβ = y − Xβ I
La solution du problème de minimisation OLS revient à minimiser la sommes des aléas (ou
‘’erreurs’’) au carré en trouvant le β̂ comme solution du problème βˆ = argmin S (β )OLS
β ∈B
Avec deux régresseurs on aura le graphe suivant pour le critère OLS à minimiser
S (β1 , β2 ) = ε ' ε avec les paramètres β1 et β2
S (β1 , β2 ) = ε ' ε
43
Avec 3 régresseurs (le premier étant une constante) on aura l’hyperplan X βˆ suivant dans le
plan yˆi ou yi , x i 2, x i,3 :
44
La minimisation du critère OLS
Pour minimiser le critère OLS
S (β )OLS = y ' y − β ' X ' y − y ' X β + β ' X ' X β
1x 1 1xK Kx 1 1xK KxK
1x 1 1x 1 1x 1
= y'y − 2y'Xβ + β 'X'Xβ = y'y − 2 β ' X'y + β 'X'Xβ
1x 1 1xK KxK 1x 1 1xK Kx 1 KxK
1x 1 1x 1 1x 1 1x 1
z' a a' z z' A z
= y'y − β 'X'y − y'Xβ + β 'X'Xβ
z' a a' z
∂a ' z ∂z ' a
Pour la partie β ' X ' y ou y ' X β on utilise la règle 1 suivante: = =a
∂z ∂z
z' A z
Pour la partie β ' X ' X β on utilise la règle 2 suivante :
∂z ' Az Az + A ' z = (A + A ')z ∀Am×m
=
∂z 2Az si A = A ' (A est symétrique)
Ou
∂S (β )
∂β a' z z' A z
∂ y ' y − 2 y ' X β + β ' X ' X β
1
∂S (β ) a A
∂S (β ) ∂S (β )
Dβ S (β ) ≡ = = ∂β2 = = 0K ×1 − 2 X ' y + 2 X ' X β
∂β β ∂β
1 ⋮ Kx 1 KxK
β Kx 1
∂S (β )
∂ 2
⋮ ∂β
K K ×1
βK
45
La première dérivée égalisée à zéro nous donne la condition du premier ordre (FOC) de notre
problème d'optimisation, où l’on cherche le point minimum de la fonction quadratique S (β )
strictement convexe.
Les conditions de premier ordre CPO (FOC: first order condition) sont données en égalisant la
dérivée première à zéro, ce qui définit l’estimateur OLS:
∂S (β )
∂β
1
∂S (β )
∂S (β ) ∂S (β )
= = ∂β2 = −2 X ' y + 2 X ' X βˆOLS = 0K ×1
∂β
β1 ⋮ Kx 1 KxK
β Kx 1
∂S (β )
∂ 2
⋮ ∂β
K K ×1
βK
Le système aura une solution unique étant donné la présence de l’assomption A2 qui implique
−1
l’existence et l’unicité de la matrice inverse ( X ' X ) , car la matrice X ' X est de rang complet
telle que rank ( X ' X ) = K ( X ' X est une matrice carrée régulière ou non-singulière).
Pour solutionner pour βˆOLS , on pré-multiplie ainsi le système d’équation X ' XβˆOLS = X ' y par
−1
l’inverse ( X ' X ) , ceci donne :
1-Dériver une sommation a ' z = z ' a (un produit scalaire de deux vecteurs) par un vecteur-colonne z
a z
1 1
a z
2
Soit am×1 = et z m×1 = 2 ,
⋮ ⋮
am zm
Alors
m
a 'z = ∑ ai z i = a1 z1 + a2 z 2 + ... + am z m = z ' a
i =1
47
2-Dériver une forme quadratique z ' Az par un vecteur-colonne z
Soit
z a ⋯ a1m
1 11 a12
z a a22 ⋯ a2m
2
z m×1 = , Am×m = 21
⋮ ⋮ ⋮ ⋱ ⋮
zm am 1 am 2 ⋯ amm
a ⋯ a1m z1
11 a12
a a22 ⋯ a2m z 2
avec la fonction quadratique f (z ) = z ' Az = z1 z2 ⋯ z m 21
⋮ ⋮ ⋱ ⋮ ⋮
am 1 a m 2 ⋯ amm z m
m
∑ a1i z i
a z + a z + ... + a z i =1
11 1 12 2 1m m m
a z + a z + ... + a z m
m
⋯ zm ∑
2m m a2i z i =
= z1 z2 ⋯ z m 21 1 22 2
= z1 z2
∑ z j ∑ a ji zi
i =1
j =1 i =1
am 1z1 + am 2z 2 + ... + amm z m m
∑ ami z i
i =1
Pour le gradient on a :
∂f (z )
∂z
1
∂f (z )
∂f (z ) ∂z ' Az Az + A ' z = (A + A ')z ∀Am×m
gradf (z ) = ∇z f (z ) = = ∂z 2 = =
∂z 2Az si A = A ' (A est symétrique)
z1 ⋮
z
∂ 2 ∂f (z )
⋮ ∂z
m m×1
zm
pour résumer
∂z ' Az Az + A ' z = (A + A ')z ∀Am×m
=
∂z 2Az si A = A ' (A est symétrique)
48
Conditions de deuxième (second) ordre CDO
Pour vérifier qu'il s'agit bien d'un minimum global, il faut s'assurer que la condition suffisante
sur la dérivée de second ordre soit validée.
Fondamentalement, nous avons besoin que la matrice hessienne des dérivées de second ordre
∂2S LS (β ) ∂ ∂S LS (β )
H = Dβ2S LS (β ) ≡ ≡
′ ′
= 2X X = 2X I n X
SLS ( β ) ∂ β∂ β ' ∂β ' ∂β
soit une matrice définie positive.
Puisque le rang de X est égal à K via l’assomption A2 (parce que cela ne fonctionnera pas
autrement), cette matrice est définie positive, car c'est une forme quadratique dans une
matrice définie positive (avec une matrice d'identité d'ordre n).
−1
Par conséquent, l'estimateur βˆOLS = ( X ' X ) X ' y est un minimisateur du critère OLS S (β )OLS .
Lorsque nous insérons les données dans l'estimateur (dans la formule ci-dessus), nous
obtenons les estimations ponctuelles MCO du vrai paramètre, soit l’estimé OLS ou la valeur
calculée de l’estimateur.
Il faut noter qu'un estimateur n'est qu'une règle ou une formule pour calculer des estimations
ou des estimés.
Une fois que nous avons l'estimateur, nous pouvons obtenir les estimations et calculer la
valeur estimée de quelques éléments intéressants.
• Les valeurs ajustées (le fit, l'ajustement ou la prédiction dans l'échantillon) sont données par
le vecteur ɵy = Xβˆ = X ( X ' X )−1 X ' y = X ( X ' X )−1 X ' y = PX y
PX
On les appelle souvent les résidus (estimés), l'erreur estimée ou les perturbations estimées.
Avec PX M X = X (X ' X )−1 X ' I n − X (X ' X )−1 X ' = 0n×n
PX est symétrique ( PX = PX ' ) et idempotente ( PX = PX PX = PX PX PX = ... )
M X est symétrique ( M X = M X ' ) et idempotente ( M X = M X M X = M X M X M X = ... )
49
• De plus, les conditions de premier ordre peuvent être écrites comme
X ' y − X ' Xβˆ = 0
X ' ( y − Xβˆ ) = 0
X′ εˆ = 0
C'est-à-dire que le vecteur des résidus OLS (estimés) ε̂ est orthogonal à la matrice X .
En details on a
X′ εˆn×1 = 0K ×1
K ×n
ˆ
x ' ε1
1 εˆ
x ' 2 = 0K ×1
2
⋮
⋮
εˆ
x K ' n n×1
K ×n
x ' εˆ
1
x ' εˆ = 0
2 K ×1
⋮
x K ' εˆ
K ×n
εˆ
1
εˆ
2
x11 x 21 ⋯ xn1
⋮
εˆn n
εˆ ∑ xi1εˆi
x 1 i =1
11 x 21 ⋯ xn1 εˆ1 εˆ n 0
2
x12 x22 ⋯ xn 2 εˆ2
x12 x22 ⋯ xn 2 ∑ xi 2εˆi = 0
= ⋮ = i =1 = 0K ×1
⋮ ⋮
⋮ ⋮
εˆ
x x 2K ⋯ xnK εˆn n
0 K×1
1K n×1 ⋮ n
εˆ ∑
K ×n xiK εˆi
1 i =1
εˆ
2
x1K x 2K ⋯ xnK
⋮
εˆn
Nous examinerons cette condition d'orthogonalité plus attentivement géométriquement plus
tard.
50
Dans le cas où X comprend un terme constant (ex. x1 = ι ), par construction on aura
n
ι ' εˆ = 1 1 ⋯ 1 εˆ = ∑ εˆi =0
i =1
Précisons que cette condition d'orthogonalité X′εˆ = 0 peut également être utilisée dans
d'autres estimateurs comme base (du critère pour) estimer les paramètres inconnus.
Plus précisément, nous pouvons dériver l'estimateur OLS dans le contexte GMM en utilisant la
relation échantionnalle X′ ( y − XβˆGMM ) = 0 analogue à la relation théorique
E X ′ ε = E X ′ ( y − X β ) = 0 .
Nous pourrions également noter que l'estimateur OLS est également la solution au problème
du critère des moindres carrés généralisés GLS (Generalised Least Square)
S (β )GLS = ( y − Xβ ) 'W ( y − Xβ ) où W = cI , c'est-à-dire quand la matrice de pondération (la
métrique) W est une matrice diagonale à éléments diagonaux constants, ici c > 0 est une
constante réel positive.
De plus, notez également que l'estimateur MCO peut être présenté dans le cadre de
l'estimateur du maximum de vraisemblance (Maximum Likelihood) ML avec le modèle de
régression linéaire estimé avec une fonction de vraisemblance imposée comme étant une
distribution gaussienne (normale).
51
L'espérance de β̂ : E (βˆ) .
Est-ce un estimateur biaisé ou non-biaisé?
Ici, comme X est fixe avec l’assomption A1, nous n'avons pas besoin de conditionnement,
alors considérons que A3 s'applique de manière non-conditionnelle.
Avec les régresseurs fixes la version de A3 (que nous avons utilisé dans le contexte A0) nous dit
que E ε = 0n×1 .
Ceci veut dire que la valeur espérée de manière non-conditionnelle de chaque terme de
perturbation est 0.
Nous venons donc de prouver qu'il s'agit d'un estimateur sans biais (unbiased estimator) sous
les hypothèses requises A1CLRM + A2CLRM + A3CLRM.
Nous avons utilisé A0CLRM pour alléger la notation en travaillant de manière non-conditionnelle.
52
On peut aussi travailler pour calculer E ( βˆ ) en faisant les étapes de simplification à l’intérieur
de l’opérateur espérance, tel que :
−1
βˆ = ( X ' X ) X ' y
53
La variance de β̂ : Var (βˆ)
Afin d’obtenir la matrice de variance-covariance11 de l’estimateur OSL, on procède comme d'habitude en
prenant l'espérance de la forme quadratique d’un vecteur βˆ − E (βˆ) tel que (βˆ − E (βˆ))(βˆ − E (βˆ))' .
On a alors :
var ( βˆ ) cov ( βˆ1, βˆ2 ) ⋯ cov ( βˆ1, βˆK )
1
ˆ cov ( βˆ2, βˆ1 ) var ( βˆ2 ) ⋯ cov ( βˆ2, βˆK )
Var (β ) =
⋮ ⋮ ⋱ ⋮
cov ( βˆK , βˆ1 ) cov ( βˆK ,βˆ2 ) ⋯ var ( βˆK )
K ×K
E [βˆ − E (βˆ )][βˆ − E (βˆ )] E [βˆ − E (β1 )][β2 − E (βˆ2 )] ⋯ E [βˆ1 − E (βˆ1 )][βˆK − E (βˆK )]
ˆ ˆ
1 1 1 1 1
E [βˆ − E (βˆ )][βˆ − E (βˆ )] E [βˆ − E (βˆ2 )][βˆ2 − E (βˆ2 )] ⋯ E [βˆ2 − E (βˆ2 )][βˆK − E (βˆK )]
2 2 1 1 2
=
⋮ ⋮ ⋱ ⋮
E [βˆK − E (βˆK )][βˆ1 − E (βˆ1 )] E[βˆK ˆ ˆ ˆ ˆ ˆ ˆ
− E (βK )][β2 − E (β2 )] ⋯ E [βK − E (βK )][βK − E (βK )] ˆ
Rappelons-nous que y = Xβ 0 + ε
On sait que le vecteur de contraste entre β̂ et β 0 peut être écrit comme une fonction des aléas ε tel que :
y
11 2
Recall that the covariance of a scalar random variable with itself is cov(Y,Y)=E(Y-E(Y))
54
On peut aussi calculer la matrice de variance-covariance de la manière suivante :
On a donc que:
var(βˆ) = σ02 (X ' X )−1
55
Trouver un estimateur pour σ 02 non-biaisé…
On sait que la matrice M X de taille n × n est orthogonale à X par construction. On sait aussi que M X est
symétrique ( M X = M X ' ) et idempotente ( M X = M X M X = M X M X M X = ... ).
Ainsi on peut écrire une forme quadratique du vecteur ε̂ de variables aléatoires εˆi telle que:
εˆ ' εˆ = ( M X ε ) ' M X ε = ε ' M X ' M X ε (Ceci est une tentative d’estimateur de σ 02 )
Maintenant prenons l’espérance pour voir s’il est non-biaisé…
E (εˆ ' εˆ) = E (ε ' M X ' M X ε)
= E ( ε ' M X ε)
= E (tr (ε ' M X ε)) en utilisant Tr (c1×1 ) = c1×1
= E (tr (M X εε ')) en utilisant tr(AB ) = tr(BA)
= tr (M X E (εε ')) en utilisant le fait que X soit fixe ou non-stochastique (A0)
= tr (M X E (εε '))
σ02 I
56
εˆ' εˆ
Notez que σˆε2 ≡ est un estimateur non-biaisé du paramètre de population var(εi ) = σ 02 .
n −K
εˆ' εˆ
Notez que l’on peut réécrire σˆε2 ≡ de plusieurs manières telles que :
n −K
εˆ ' εˆ εˆ ' M X ' M X εˆ (y − X βˆ)' M X ' M X (y − X βˆ) y ' MX ' MXy
σˆε2 = σˆ2 = σˆOL
2
S = = = =
n −K n −K n −K n −K
Comme M X X = 0n×K on a
y '[I − X (X ' X )−1 X ']'[I − X (X ' X )−1 X ']y y '[I − X (X ' X )−1 X ')]y y ' MXy
= = =
n −K n −K n −K
(X β + ε)' M X (X β + ε) ε ' MX ε
= =
n −K n −K
σˆε est une forme quadratique de (y − X βˆ) de l’erreur de prévision (de l’ajustement) de y .
2
Malheureusement, même si σˆε2 est un estimateur non-biaisé, il n’est pas optimal en terme de variance, car il
n’est pas à variance minimale dans sa classe.
2
Par ailleurs, l’estimateur de maximum de vraisemblance MLE σˆML de σ 02 possède une variance plus petit que
celui que l’on vient de proposer dans le contexte OLS, l’estimateur du maximum de vraisemblance MLE est
donné par:
2 εˆ ' εˆ (n − K ) εˆ ' εˆ (n − K ) 2
σˆML = = = σˆOLS .
n n (n − K ) n
2 εˆ ' εˆ n
On a ainsi la relation suivante: σˆOLS = = σˆ2
n −K (n − K ) ML
2 (n − K ) 2 2 εˆ ' εˆ
E (σˆML )= σ0 σˆML = K >0
n Ainsi, l’estimateur MLE n est biaisé si
En fait si on a la normalité des aléas on peut montrer que l’on a la relation suivante:
εˆ ' εˆ 2σ 4 2σ 4
2
var (σˆOL = 2
> var (σˆM εˆ' εˆ =
S ) = var
n − K L ) = va r
n
(n − K ) n
2 εˆ ' εˆ
En somme, σˆOLS = n’est pas un estimateur à variance minimale car il n’est pas le fruit de la
n −K
maximisation de la fonction de vraisemblance (likelihood function). On va traîter l’estimateur ML plus tard…
L’estimateur σˆOLS
2
de la variance σ 02 du vrai terme de perturbation que l’on va utiliser dans le contexte OLS
est donnée par
2 εˆ ' εˆ
σˆOLS =
n −K
Notez que c’est un estimateur non-biaisé de σ 02 et il sera amplement adapté pour l’estimation de Var (βˆ) .
57
Now that we have Var (βˆ) we will be able to build statistical test on the value of the true parameter β0 based
on the sample information content of y . Because ultimately, β̂ is a linear function of y .
To built a valid small sample test, we need to know the distributional properties of the perturbation terms. To do
so we will assume normality later on (in practice you should always test this).
The small sample properties of the OLS estimator in the case of the CLRM
i) Existence : With assumptions A1CLRM and A2CLRM, the OLS estimator β̂ exists for all n≥K and is unique. In
the case where n=K we would have no degree of freedom12, and this would have some implications on testing
and on the expression of the variance.
ii) Unbiasedness : With assumptions A1 CLRM, A2 CLRM and A3 CLRM, the OLS estimator β̂ is an unbiased
estimator of the true parameter of the CLRM β 0 . Unbiasedness tells us that the distribution of β̂ is centered
Source: Gujarati
iii) Efficiency: With assumption A1 CLRM to A4 CLRM we can achieve the efficiency property. This means that β̂
will be the best in class Best Linear Unbiased Estimator (BLUE). This is proven by the proof of the stochastic
regressor version of the Gauss-Markov Theorem. We do not need A0 CLRM to prove this.
But if we add the assumption A0 that the regressors are non-stochastic, we get the more classic fixed
regressors Gauss-Markov Theorem which will be demonstrated in the next pages.
We say that an estimator is optimal or efficient in the class of unbiased estimators if its variance is the smallest
in the class of linear unbiased estimators. The meaning of optimal or efficient intuitively relates to that fact that
with minimal variance the chances of finding the true β 0 are optimized and superior to that of other estimators.
12
In general, the degrees of freedom of an estimate is equal to the number of independent scores (pieces of information) that go
into the estimate minus the number of parameters estimated as intermediate steps in the estimation of the parameter itself (which,
in sample variance, is one, since the sample mean is the only intermediate step).
58
The Gauss-Markov Theorem
Under assumption A1 CLRM to A4 CLRM the OLS is optimal (efficient) in the class of the linear unbiased
estimators. βˆOLS = (X ' X )−1 X ' y is Best Linear Unbiased Estimator B.L.U.E.
−1
Recall that the Var ( βˆ ) = σ02 X 'X( )
And that the OLS estimator is a linear function of the regressand y
c y n
11 c12 ⋯ c 1n 1
∑ i =1
c1iyi
⌣ c c ⋯ c ∑n c y
21 22 2n y 2 another linear unbiased estimator of β 0
Let us have β = Cy = = i =1 2i i
⋮ ⋮ ⋱ ⋮ ⋮ ⋮
cK 1 cK 2 ⋯ cKn yn n
∑ i =1 cKiyi
⌣
( 0
β = Cy = C X β + ε = CX β + C ε )
0
⌣ ⌣
Since we imposed that β be unbiased if we take the expectation of β we get
⌣
E ( β ) =CX β 0 + E (C ε ) = CX β 0
Furthermore, since we have imposed “unbiasedness” we must have that CX = I in order to get
⌣
E ( β ) =β0
⌣
Now let us look at the variance of β
⌣ ⌣ ⌣ ⌣ ⌣ '
Var ( β ) = E ( β − E ( β ) ) ( β − E ( β ) )
⌣ ⌣
(
= E β −β 0
)( 0
β − β ' )
⌣
= E C ε (C ε ) ' since β − β 0 = CX β 0 + C ε − β 0 = C ε
= E C εε 'C ' = CE εε ' C ' = C σ02 I nC ' = σ02 CI nC ' = σ02CC '
−1
Now let us with some guidance impose that we have a matrix D such that D = C − X 'X ( ) X'
Pre-multiplying y with D we get
−1 ⌣
Dy = Cy − ( X ' X ) X 'y = β − βˆ
−1 ⌣
Let us now substitute C = D + X 'X ( ) X ' into the equation of Var ( β ) and expand the expression
⌣
( −1 −1
Var ( β ) = σ02 CC ' = σ02 D + ( X ' X ) X ' D + ( X ' X ) X ' ' )(
)
− 1 −1 −1 −1
= σ02 DD '+ DX ( X ' X ) + ( X ' X ) X ' D '+ ( X 'X ) X ' X ( X ' X )
−1 −1 −1 −1
= σ02 DD '+ 0 ( X ' X ) + ( X ' X ) 0 + ( X ' X ) X ' X ( X ' X )
Since DX = 0 as well as it’s transpose. This is shown by the fact that we know that CX = I and that
−1
[D + ( X ' X ) X ']X = I K .
−1
This tells us that since ( X ' X ) X ' X = I , we must have that DX = 0K ×K for this equality to hold.
−1 −1
Let’s see that: DX = C − X 'X
( ) X ' X = CX − ( X 'X ) X 'X = I K − I K = 0K ×K
59
Finally we get
⌣ −1 −1 −1
Var ( β ) = σ02 DD '+ ( X 'X ) = σ02 DD '+ σ02 ( X 'X ) ≥ σ02 ( X 'X ) = var (βˆ)
var (βˆ)
Or
⌣ −1 −1
var ( β ) − var (βˆ) = σ02 DD '+ ( X 'X ) − σ02 ( X 'X ) = σ02 DD ' ≥ 0K ×K
⌣ var (βˆ)
var ( β )
⌣
And this states that the estimator β cannot have a smaller variance than the OLS estimator. Hence the OLS
estimator is optimal and is equal to the Maximum Likelihood estimator (which is well known to be efficient in
that setting).
Because DD ' is a matrix quadratic form, for any estimator such that D ≠ 0 that estimator will not exhibit the
B.L.U.E. small sample property. Basically to be B.L.U.E., you have to the equal to the OLS estimator.
60