Académique Documents
Professionnel Documents
Culture Documents
1
Chapitre 1. Introdu tion générale aux bases de l'é onométrie
Etape 1 Construire un modèle testable qui soit justié par la théorie é onomique et qui puisse être
vérié statistiquement ;
Etape 3 Vérier que les é arts entre les observations et les résultats théoriques du modèle ne sont pas
systématiques.
Formalisation de la théorie
Commentaires du s héma
Dans la réalité l'é onomiste part d'une analyse théorique des déterminants de la variable étudiée en
identiant les variables pouvant l'expliquer et le type de relations qu'elles sont sus eptibles d'avoir ave la
variable expliquée. Ces éléments analytiques vont être traduits en une équation mathématique mettant en
relation la variable endogène (variables à expliquer ou régréssande) et ses prin ipales variables expli atives
(régresseurs). En donnant aux variables les valeurs enregistrées dans la réalité, l'é onométrie permet à
la fois de tester la validité du modèle et d'en hirer les paramètres. Elle rend possible la modélisation,
'est à dire la représentation simpliée des phénomènes étudiés, par un ensemble ohérent de relations
mathématiques quantiées. La modélisation est une appro he qui onsiste à approximer la réalité par un
2
1.2. DÉFINITION DE L'ÉCONOMÉTRIE et Démar he é onométrique
modèle plus simple, e qui ne pourra jamais représenter omplètement la réalité dans toute sa omplexité
A son tour la modélisation onstitue un enri hissement important, sous la forme d'une aide à la
dé ision, en rendant possible la simulation, l'optimisation ou la prévision. La maxime du modélisateur
dit que " tous les modèles sont faux, mais ertains sont utiles "
La simulation onsiste à al uler les onséquen es d'un ensemble d'hypothèses représentées par des
valeurs des variables expli atives. La prévision étend et ensemble à des périodes futures. L'optimisation
adopte le hemin inverse et a pour but de déterminer les valeurs optimales de ertaines variables en
fon tion d'obje tifs xés. La plupart des grands entres de dé ision, qu'il s'agisse des banques, des agen es
gouvernementales, des institutions internationales et des grandes entreprises utilisent régulièrement es
te hniques. Les onstru teurs d'avions utilisent les modèles é onomiques pour analyser la demande
a tuelle et future. Les Ministères des Finan es, de l'é onomie ou du plan onstruisent des modèles
Ma ro-é onomiques pour la prévision et pour l'évaluation des politiques é onomiques. Les institutions
non gouvernementales d'aide au développement onstruisent et a tualisent régulièrement des modèles des
grandes régions du monde et des prin ipales é onomies nationales. Par onséquent, pour travailler dans es
institutions, il est indispensable de pouvoir manier les te hniques é onométriques (souvent sophistiquées
et à haut niveau). Il en résulte aussi que pour pouvoir travailler ave es institutions, il faut maîtriser le
langage ommun. : Modèle é onométrique.
En é onométrie, nous pouvons onsidérer un modèle omme une représentation formalisée d'un
phénomène sous forme d'équation dont les variables sont des grandeurs é onomiques.
Son objet est de représenter les traits les plus marquants d'une réalité qu'il her he à styliser. C'est
don l'outil que le modélisateur utilise lorsqu'il her he à omprendre et à expliquer les phénomènes.
Pour e faire, il émet des hypothèses et expli ite des relations. Le modèle est don une représentation
s hématique et partielle d'une réalité naturellement omplexe. Toute la di ulté de la modélisation
onsiste à ne retenir que la ou les représentations intéressantes pour le problème que le modélisateur
her he à expliquer. Ce hoix dépend de la nature du problème, du type de dé ision ou d'étude à ee tuer.
La même réalité peut aussi être formalisée de diverses manières en fon tion des obje tifs. Comme le modèle
ne peut pas tout dé rire, il restera toujours une partie inexpliquée qui sera supposée aléatoire. Le al ul
des probabilités est alors introduit pour prendre en ompte la partie inexpliquée par le modèle. Dans le
domaine de la modélisation, la randomisation est introduite à titre d'hypothèse.
1.2.3 Historique
Premiers développements
Les tentatives de modélisation à partir de données empiriques ont une longue histoire que l'on peut
faire remonter aux "mathémati iens" anglais du XVII ème siè le et auxquels sont atta hés les noms de
William Petty , Gregory King et Charles Devenant . Gregory King her ha par exemple à établir une loi
entre d'une part les dé its des ré oltes de blé et d'autre part les variations du prix du blé . A partir
3
Chapitre 1. Introdu tion générale aux bases de l'é onométrie
du XVIII ème et surtout du XIX ème siè le les é onomistes tentèrent d' établir des lois é onomiques
à l'instar des lois de la physique newtonnienne . Ce projet fut mené en termes s ientiques par Moore
puis par S hultz , Lenoir , Tinbergen et Fris h entre 1914 et 1938 . Les deux grands axes de re her he
furent alors l'estimation d'une loi de demande ( e qui onduisit au problème de l'identi ation ) et elle
des y les é onomiques . Clément Juglar ( 1819 - 1905) fut le premier à utiliser les séries temporelles
pour analyser les y les et fut suivit par Kuznets et Kondratie . Toutefois les théori iens du y le se
limitèrent à l'étude de la périodi ité du y le et ne s'atta hèrent guère à elle de la quanti ation des
relations ausales sous ja entes. Leur apport à l'é onométrie est don resté marginal.
L'é onométrie moderne est née à la n des années 30 et pendant les années 40. Elle est la résultante de
trois phénomènes : le développement de la théorie de l'inféren e statistique à la n du XIX ème siè le ; la
théorie ma roé onomique et la omptabilité nationale qui orent des agrégats obje tivement mesurables
( ontrairement à la mi roé onomie fondée sur l'utilité subje tive ) ; enn, et surtout, la forte demande
de travaux é onométriques, soit de la part d'organismes publi s de prévision et de plani ation, soit
de la part d'entreprises qui ont de plus en plus besoin de modéliser la demande et leur environnement
é onomique général. A partir des années 60 l'introdu tion de l'informatique et des logi iels standardisés
va rendre presque routinière l'utilisation de l'é onométrie.
En simpliant de façon sans doute abusive l'on peut distinguer deux grandes périodes de la re her he
é onométrique moderne. Jusqu'à la n des années 70 l'é onométrie va étudier la spé i ation et la
solvabilité de modèles ma roé onomiques à équations simultanées. Puis à la suite de e que l'on a appelé
la révolution des anti ipations rationnelles et de la ritique de Lu as, la re her he se tournera davantage
vers la mi roé onomie et l'analyse des séries temporelles.
La plus grande partie de la re her he é onométrique améri aine ( ee tuée pour une large part
au sein de la Cowles Commission ) entre 1944 et 1960 porta sur les onditions d'estimation des
modèles ma roé onomiques d'équations simultanées omportant un élément aléatoire . En 1939 Tinbergen
onstruisait un modèle des y les é onomiques omportant 31 équations de omportement de 17 identités
. Cha une des équations était estimée au moyen de la méthode des moindres arrés, e qui, nous le
verrons ne pouvait onduire qu'à des estimations in onsistentes. En 1944 Haavelmo posait les onditions
générales de solvabilité. Entre 1945 et 1950 Klein présentait ses premiers modèles dont la solution était
obtenue par la méthode du maximum de vraisemblan e. En 1949 Koopmans déterminait les onditions de
solvabilité dans le as d'un modèle linéaire. En 1954 Theil introduisait la méthode des doubles moindres
arrés permettant des al uls ee tifs. Toutefois la généralisation des modèles é onométriques à équations
simultanées utilisée pour des modèles prévisionnels se heurta pendant longtemps au manque de moyens
4
1.2. DÉFINITION DE L'ÉCONOMÉTRIE et Démar he é onométrique
informatiques. Le premier modèle utilisé à des ns prévisionnelles fut elui de Klein - Goldberger en
1955. D'autres modèles suivirent à la n des années 50, en parti ulier elui de la Brookings Institution.
Ave l'avan ée des te hniques informatiques les années 60 et le début des années 70 virent une é losion
de modèles ma roé onomiques jouant un rle important dans la prévision. Le modèle dit de Brookings
omprenait ainsi 400 équations. Aprés 1970 furent ommer ialisés des modèles standards omme elui dit
de Wharton. La stabilité relative de l'environnement é onomique jusqu'en 1974 leur assura un ertain
su ès.
L'analyse de la régression
L'importan e des moyens onsa rés à la résolution des problèmes d'identi ation laissa quelque peu
dans l'ombre la re her he sur la orrélation. Le prin ipal obsta le théorique était le traitement de
l'auto orrélation des résidus aléatoires. En 1950 Durbin et Watson élaboraient leur élèbre test du même
nom qui test l'auto orrélation des résidus à l'ordre un. Les années 50 virent d'autre part l'apparition de
modèles à retards é helonnés ave les travaux de Koy k , d'Almon , de Cagan et de Friedman .
La révolution des anti ipations rationnelles et la remise en ause des modèles ma roé ono-
métriques
Les années 70 furent elles de la remise en ause radi ale des modèles ma roé onométriques élaborés
pendant les années 60. Une des raisons vient de e que l'abandon du système de Bretton Woods
puis le quadruplement du prix du pétrole onduisirent à des bouleversements qui ne pouvaient être
anti ipés par les modèles é onométriques. Au niveau théorique il apparut rapidement que les modèles
ma roé onométriques ne possédaient pas de fondations mi roé onomiques susamment solides. En
parti ulier Lu as montra dés 1972 que si les agents forment leurs anti ipations sur une base endogène à
partir de leur expérien e il n'est plus possible de onsidérer que les oe ients stru turels des modèles
ma roé onométriques restent in hangés. Ainsi toute mesure de politique é onomique doit onduire à un
hangement dans le omportement des agents tant au niveau de la onsommation que de l'investissement.
Ce i remet bien évidemment en ause les modèles ma roé onométriques traditionnels qui ne distinguaient
pas les paramètres expliqués par des auses stru turelles de eux expliqués par la réponse aux mesures
de politiques é onomique. Une estimation de es deux types de paramètres a été ee tuée par Lu as et
Sargent qui les obtinrent dire tement omme solutions de modèles d'optimisation dynamique. Sur ette
base la re her he é onométrique des années 80 porta sur les problèmes d'agrégation des préféren es des
agents, d'inégalité dans la répartition de l'information et sur le pro essus d'apprentissage.
5
Chapitre 1. Introdu tion générale aux bases de l'é onométrie
priori des délais. Plus fondamentalement les modèles ma roé onométriques reposaient sur une distin tion
entre variables "endogènes" et "exogènes". Cette distin tion qui suppose une onnaissan e théorique à
priori est rejetée. Cette ritique a onduit à retenir des modèles autorégressifs où n'existe pas à priori
une lassi ation entre variables endogènes et exogènes. La question de l'utilité de tels modèles reste
toutefois ontroversée dans la mesure où ils ne fournissent pas une expli ation stru turelle de l'a tivité
é onomique.
6
Chapitre 2
ESTIMATION PONCTUELLE
X −→ Pθ
Exemple 2.1.1
La taille des N étudiants de troisième année de s ien es é onomiques de distribution normale de
moyenne µ et de varian e σ 2 , N (µ, σ 2 ) et indépendantes, Xi , i = 1, . . . , N ).
2.1.2 Estimateur
On appelle estimateur de θ toute appli ation mesurable Θ̂. C'est une fon tion de variables aléatoires
observables, ne dépendant pas de paramètres in onnus.
Θ̂ : X n :−→ R (2.1)
La Méthode Heuristique ou Méthode des Moments permet d'obtenir les estimateurs suivants. L'espran e
µ = E(X), pour une loi quel onque P (µ), est estimée par la moyenne empirique sous les hypothèses de
la loi des grands nombres.
7
Chapitre 2. ESTIMATION PONCTUELLE
PN
Xi
µ̂ = i=1
= X̄ (2.2)
N
De même si on veut estimer la varian e σ 2 = V (X), on utilise la varian e empirique.
PN
i=1 (Xi − µ̂)2
σ̂ 2 = (2.3)
N
Il existe une méthode systématique de re her he d'estimateur, qui fera l'objet du troisième paragraphe.
2.1.3 Estimation
On appelle estimation de θ, pour un é hantillon x1 , x2 , . . . , xN la valeur
θ̂ = Θ̂(x1 , x2 , . . . , xN ) (2.4)
prise pour une telle fon tion pour des réalisations parti ulières des variables aléatoires.
Exemple 2.1.2
µ̂ = 175; σ̂ 2 = 25
On distingue
telle que
P (X1 = x1 , . . . , Xn = xN ), si X est dis rète ;
L(θ1 , . . . , θk ) = (2.5)
g(x1 , . . . , xN ), si |X| est ontinue.
Par dénition, si les observations sont indépendantes et identiquement distibuées la fon tion de
vraisemblan e de l'é hantillon (x1 , x1 , . . . , xN ) est :
N
Πi=1 P (Xi = xi ), si X est dis rète ;
L(θ1 , . . . , θk ) = (2.6)
ΠNi=1 f (xi ), si X est absolument ontinue.
8
2.2. Fon tion de Vraisemblan e
Note
Les paramètres θi sont i i des paramètres de la vraisemblan e ; en d'autres termes, elle n'est dénie
qu'après l'observation des réalisations des variables ! La vraisemblan e est une notion statistique, tandis
que la densité jointe est une notion de probabilité.
Le ontenu intuitif est don la probabilité que l'é hantillon ait pris les valeurs qu'il a prises !
C2 Les onditions né essaires pour prendre l'espéran e des premières et deuxième dérivées de f (xi |θ)
sont satisfaites.
Alors 2
∂ ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ∂f
IN (θ) = N I1 (θ) = N ∗ E =E
∂θ ∂θ
∂ 2 ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
IN (θ) = −E
∂θ2
∂ ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
IN (θ) = V
∂θ
9
Chapitre 2. ESTIMATION PONCTUELLE
Dénition 2
Un estimateur Θ̂ sans biais est dit e a e s'il vérie
1
V (Θ̂) = (2.10)
IN (θ)
Il est don dans e as, estimateur de varian e, minimale et don elui qui onverge plus vite.
Remarque 1
• On peut interpréter plus lairement la notion d'information au sens de Fisher.
Le meilleur estimateur, le plus e a e parmi les estimateurs sans biais est elui dont la varian e
est la plus faible. La qualité d'un estimateur varie don en fon tion de l'inverse de sa varian e.
En onséquen e on peut appeler l'information ontenue dans l'estimateur Θ̂ la quantité.
1
IΘ̂ (θ) = (2.11)
V (Θ̂)
L'inégalité de RAO-CRAMER exprime don que, pour tout estimateur sans biais Θ̂ :
L'estimateur e a e vériant IΘ̂ = IN (θ) est telle que la quantité d'information qu'il ontient est
égale à elle ontenue dans l'é hantillon.
• L'inégalité pré édente, peut être étendue aux estimateurs biaisés. Si E(Θ̂) = φ(θ) et sous les mêmes
onditions de régularité de L et X indépendant de θ
[ϕ′ (θ)]2
IΘ̂ (θ) ≥ (2.13)
IN (θ̂)
Dénition 3
On appelle estimation du maximum de vraisemblan e la valeur, θ̂ qui maximise pour
un é hantillon donné, la vraisemblan e L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ) ou la log vraisemblan e,
ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ). De ette estimation θ̂ = ϕ(x1 , x2 , . . . , xN ), on déduit l'estimateur du maxi-
mum de vraisemblan e
Θ̂ = ϕ(X1 , . . . , XN )
10
2.3. Méthode du Maximum de vraisemblan e
P (θ1 , . . . , θk )
♠ Si
∂L ∂ 2 L ∂2L
, , ,
∂θi ∂θi2 ∂θi ∂θj2
existent ∀(i, j) ∈ (1, 2, . . . , k)2 , ∀(x1 , x2 , . . . , xN ) ∈ X n ,
∀(θ1 , θ2 , . . . θk ) ∈ Rk
∂ ln L
= 0 (2.14)
∂θ1 θ1 =θ̂1 ,...θk =θ̂k
.. .. ..
. . . (2.15)
∂ ln L
= 0 (2.16)
∂θi θ1 =θ̂1 ,...θk =θ̂k
1. Θ est un ouvert de RK
2. il existe une mesure µ telle que Pθ0 << µ et sa densité f (y; θ0 ) est derivable par rapport θ
11
Chapitre 2. ESTIMATION PONCTUELLE
R
3. θ 7−→ f (y; θ)dµ(y) est dérivable par rapport à θ et
Z Z
∂ ∂f (y; θ)
f (y; θ)dµ(y) = dµ(y)
∂θ ∂θ
On a :
Z
∂ ln l(Y ; θ0 ) ∂ ln f (y; θ0 )
E = f (y; θ0 )dµ(y)
∂θ ∂θ
R ∂f (y;θ0 )
∂θ
= f (y; θ0 )dµ(y)
f (y; θ0 )
Z
∂
= f (y; θ)dµ(y) = 0
∂θ
| {z }
=1∀y
Z
1 ∂ ∂f (y; θ) 1 ∂ ∂f (y; θ)
E = f (y; θ)dµ(y)
f (y; θ) ∂θ′ ∂θ f (y; θ) ∂θ′ ∂θ
Z 2
∂ f (y; θ)
= dµ(y)
∂θ∂θ′
Z
∂2
= f (y; θ)dµ(y) = 0
∂θ∂θ′
| {z }
1∀y
Don la fon tion E ln f (y; θ) est maximale en θ0 . De plus l'inegalité est stri te si pour tout θ autre que
θ0 , ln f (y; θ) 6= ln f (y; θ0 ) sur un ensemble A tel que µ(A) 6= 0.
12
2.3. Méthode du Maximum de vraisemblan e
Proposition 1 θ0 est identiable ssi θ0 est l'unique θ ∈ Θ qui maximise E[ln f (Y ; θ)].
Preuve On a
f (y; θ)
E(ln f (y; θ)) − E(ln f (y; θ)) = E ln
f (y; θ0 )
Comme la fon tion ln est on ave, l'inégalité de Jensen 1 s'applique pour montrer que
f (y; θ) f (y; θ)
E ln ≤ ln E
f (y; θ0 ) f (y; θ0 )
Z
f (y; θ)
= ln f (y; θ0 )dy
f (y; θ0 )
Z
= ln f (y; θ)dy
| {z }
=1∀y
= 0.
Exemple 2.3.1 Une urne ontient 3 boules, qui peuvent être soit rouges, soit blan hes.Le nombre
de boules rouges est in onnu. On tire deux boules sans remise. On obtient deux boules rouges. On
demande d'estimer le nombre de boules rouges que ontient l'urne à l'aide du prin ipe du maiximum
de vraisemblan e.
Solution
La vraisemblan e est donnée dans e as par la probabilité d'obtenir le résultat expérimental (tirage de
2 boules), onsidérée omme fon tion des 4 valeurs possibles du paramètre in onnu (n=0,1,2,3).
L(0) = P (R1 ∩ R2 |n = 0) = 0
L(1) = (R1 ∩ R2 |n = 1) = 0
L(2) = P (R1 ∩ R2 |n = 2)
= P (R2 ∩ R1 |n = 2) ∗ P (R1 |n = 2)
1 2 1
= . =
2 3 3
Don l'estimation est n̂ = 3
1. 1Pour toute fon tion on ave f, Ef (X) ≤ f (EX)
13
Chapitre 2. ESTIMATION PONCTUELLE
Exemple 2.3.2 On demande d'estimer par maximum de vraisemblan e le paramètre p d'une loi bino-
miale B(n, p)
Rappel
Solution
On peut é rire :
n
X
Y = Xi
i=1
où
Xi = 1 Si l'essai i donne un su és
Xi = 0 Sinon
Pn
On observe les réalisations (x1 , . . . , xn ). Le nombre de su ès observé est r = i=1 xi .
On a :
f (x1 , . . . , xn |p) = pr (1 − p)n−r ( ar l'ordre des réalisations est donné)
En onsidérant ette densité omme une fon tion du paramètre in onnu p, on a la fon tion de
vraisemblan e L :
L(p) = pr (1 − p)n−r
Pour maximiser ette fon tion, il est ommmode de maximiser son logarithme. On obtient la
fon tion log-vraisemblan e i-dessous à maximiser :
dl(p) r n−r
= − =0
dp p̂ 1 − p̂
r n−r 1 − p̂ n−r
=⇒ = =⇒ =
p̂ 1 − p̂ p̂ r
1 n r
=⇒ − 1 = − 1 =⇒ p̂ =
p̂ r n
14
2.3. Méthode du Maximum de vraisemblan e
On estime don p par le pour entage de su ès observés. On vérie si on a bien un maximum par
les onditions du se ond ordre :
d2 l(p) r n−r
=− 2 −
dp2 p (1 − p)2
On évalue le hessien au point p̂
d2 l(p) n2 n2 1 1
2
|p=p̂ = − − = −n2 ( + )<0
dp r n−r r n−r
On a bien un maximum.
Exemple 2.3.3 On vous demande d'estimer par maximum de vraisemblan e les paramètres µ et σ 2 de
l'exemple [2.1.1℄ à partir d'un é hantillon aléatoire (Xi , i = 1, . . . , n).
Solution
• Par dénition, la fon tion densité de la loi normale est :
2 −1/2 1 2
fXi (xi ) = (2πσ ) exp − 2 (xi − µ)
2σ
• En vertu de l'indépendan e :
n n
Y Y 1
2
LX (x1 , . . . , xn |µ, σ ) = 2 −n/2
fXi (xi ) = (2πσ ) exp − 2 (xi − µ)2
(2.17)
i=1 i=1
2σ
• En onsidérant la fon tion [5.96℄ omme fon tion des paramètres in onnus, on obtient la fon tion de
vraisemblan e :
n
Y 1
2
L(µ, σ ) = (2πσ ) 2 −n/2
exp − 2 (xi − µ)2
(2.18)
i=1
2σ
n
dl(µ, σ 2 ) n 1 X
= − + (xi − µ̂)2 = 0 (2.21)
dσ 2 2σ̂ 2 2σ̂ 4 i=1
15
Chapitre 2. ESTIMATION PONCTUELLE
Pour vérier que les estimateurs maximisent la log-vraisemblan e on doit montrer que la matri e
Hessienne des dérivées se ondes évaluées aux valeurs estimées est dénie négative ( f ours de Math3
Mr. Ly)
Les dérivées partielles se ondes valent :
∂ 2 l(x, θ) n
= −
∂µ2 σ2
N
∂ 2 l(x, θ) n 1 X
= − − (xi − µ)2
∂(σ 2 )2 (σ 2 )2 (σ 2 )3 i=1
N
∂ 2 l(x, θ) 1 X
= (xi − µ)
∂(σ 2 )∂µ σ 2 i=1
Cette matri e est dénie négative ar toutes ses valeurs propres sont négatives don on a bien un
maximum.
E(θ̂) = θ
Pour un estimateur sans biais, le risque quadratique, est égale à sa varian e. Don pour améliorer un
estimateur,on peut diminuer son biais, ou sa varian e.
On dit qu'un estimateur θ̂2 est préférable à un estimateur θ̂2 si R(θ̂2 , θ) << R(θ̂1 , θ)) pour tout θ.
Exemple 2.4.1 Soit un é hantillon aléatoire (Xi , i = 1, . . . , n) ave E(X) = µ pour tout i et V (Xi ) = σ 2
pour tout i. On va montrer que :
PN
Xi
µ̂ = X̄ = i=1 (2.24)
N
PN
(Xi − X̄)2
s2 = i=1 (2.25)
N −1
sont sans biais.
16
2.4. PROPRIÉTÉS DES ESTIMATEURS
La Varian e
" N
# " N
#
X 2 X
E Xi − X̄ = E Xi2 − 2Xi X̄ + X̄ 2
i=1 i=1
" N N N
#
X X X
= E Xi2 −2 Xi X̄ + X̄ 2
i=1
P
" # ! N
N
X 2 N
X E i=1 Xi2
⇒E Xi − X̄ =E Xi2 −
i=1 i=1
N
et que
N
! N N
X X X
E Xi2 = E(Xi2 ) = (µ2 + σ 2 ) = N (µ2 + σ 2 )
i=1 i=1 i=1
Don
N
! N
X X 2N (N − 1) 2
E Xi2 = E(Xi2 ) = N (σ 2 + µ2 ) + µ
i=1 i=1
2
= N σ 2 + N µ2 + N 2 µ2 − N µ2 = N (σ 2 + N µ2 )
P
N
Don 1
NE i=1 Xi2 = σ 2 + N µ2 , et :
P
" # ! N
N
X 2 N
X E i=1 Xi2
E Xi − X̄ = E Xi2 −
i=1 i=1
N
= N (σ + N µ2 ) − σ 2 − N µ2 = (N − 1)σ 2
2
17
Chapitre 2. ESTIMATION PONCTUELLE
don
Pn
2 (Xi − X̄)2 1
E(s ) = E i
= (N − 1)σ 2
n−1 N −1
= σ2
∂g(θ̂0 ) ∂g(θ̂0 )′
V(θ̂) >> ′
I(θ̂0 )
∂θ ∂θ
D'où en diérentiant :
Z
∂g(θ̂0 ) ∂E ∂f (y; θ0 )
= (θ̂) = θ̂(y) dy
∂θ ∂θ ∂θ′
∂ ln f (Y ; θ0 )
= E θ̂(y)
∂θ′
∂ ln f (y; θ0 )
= Cov θ̂(y),
∂θ′
h i
∂ ln f (Y ;θ0 )
par e que E ∂θ ′ =0
En appliquant l'inégalité de S hwartz 2
−1
∂ ln f (y; θ0 ) ∂ ln f (y; θ0 ) ∂ ln f (y; θ0 )
V(θ̂(y)) − Cov θ̂(y), V Cov , θ̂(y) >> 0
∂θ′ ∂θ′ ∂θ′
on a le résultat annon é.
Dénition 5 Un estimateur sans biais est e a e si sa matri e de varian e- ovarian e atteint la borne
de Rao Cramer.
18
2.4. PROPRIÉTÉS DES ESTIMATEURS
3. La vraie valeur du paramètre θ0 est identiable, i.e. θ0 est l'unique maximum global de
Z
E(ln f (Yi ; θ0 )) = ln f (Yi ; θ0 ))f (Yi ; θ0 ))dµ(y) (2.26)
4. La log-vraisemblan e
N
X
l(y; θ0 ) = f (Yi ; θ0 ) (2.27)
i=1
est ontinue par rapport à θ.
Proposition 3 Sous les onditions de régularité pré édentes, et si Θ est ompa t, il existe une suite
d'estimateurs du maximum de vraisemblan e qui onverge vers θ0 en probabilité.
Preuve
l(y; θ0 ) étant ontinue sur un ompa t, admet un maximum global θ̂. Comme la onvergen e en
probabilité de 1
N l(y; θ0 ) vers E(f (Yi ; θ0 )) est a quise en vertu de la loi forte des grands nombres, et de plus
uniforme en θ, alors θ̂ = argmaxθ N1 l(y; θ0 ) onverge en probabilité vers θ0 = argmaxθ ln f (Yi ; θ0 )
Proposition 4 Sous les onditions de régularité 1-5, si Θ est d'intérieur non vide et si θ0 appartient
a l'intérieur de Θ, alors il existe une suite de maxima lo aux de la log-vraisemblan e onvergeant en
probabilité vers θ0 . Si, de plus la vraisemblan e est dérivable, il existe une suite de solutions des équations
de vraisemblan e qui onverge en probabilité vers θ0 .
Preuve Soit v(θ0 , r) une boule fermée entrée autour de θ0 , de rayon r > 0, et stri tement ontenue dans
Θ. En vertu du théorème pré édent, il existe une suite de solutions θ̃ au problème ontraint :
max l(y; θ)
θ
qui onverge en probabilité vers θ0 . Comme la onvergen e implique que, pour N assez grand, θ̃N se trouve
a l'intérieur de v(θ0 , r), il orrespond bien a un maximum lo al et satisfait les onditions du premier ordre
(équations de vraisemblan e).
Remarque 4 Lorsque Θ est ouvert, la suite onvergente de maxima lo aux peut ne pas être une suite de
maxima globaux.
Proposition 5 Sous les onditions 1-5 de régularité, si Θ est d'intérieur non vide et θ0 appartient a
l'intérieur de Θ , si la log-vraisemblan e l(θ) est deux fois ontinuement diérentiable dans un voisinage
ouvert de θ0 , et si la matri e d'information de Fisher pour une observation :
2
∂ ln f (Yi ; θ)
I(θ0 ) = −E
∂θ∂θ′
19
Chapitre 2. ESTIMATION PONCTUELLE
existe et est inversible, alors une suite θ̂ de maxima lo aux onvergente est telle que
√
N (θ̂ − θ) 7→ N (0, I(θ0 )−1 )
N
1 X ∂ 2 ln f (Yi ; θ)
I(θ̂) = −
N i=1 ∂θ∂θ′
ou en ore
N
1 X ∂ ln f (Yi ; θ) ∂ ln f (Yi ; θ)
I(θ̂) =
N i=1 ∂θ ∂θ′
Preuve (Idée)
θ̂ satisfait les équations de vraisemblan e :
∂l(y, θ̂)
=0
∂θ
D'où
−1
√ 1 ∂ 2 l(y, θ0 ) 1 ∂l(y, θ0 )
N (θ̂ − θ0 ) ≃ √
N ∂θ∂θ′ N ∂θ
Or
N 2
1 ∂ 2 l(y, θ0 ) 1 X ∂ 2 ln l(y, θ0 ) ∂ ln l(y, θ0 )
=− 7−→ −E = I(θ0 )
N ∂θ∂θ′ N i=1 ∂θ∂θ′ ∂θ∂θ′
et de varian e
∂ ln l(yi , θ0 )
V = I(θ0 )
∂θ
√
Il s'ensuit don que N (θ̂ − θ0 ) onverge vers une variable aléatoire normale, entrée, et de varian e :
h√ i
V N (θ̂ − θ0 ) = I(θ0 )−1 I(θ0 )I(θ0 )−1 = I(θ0 )−1
20
2.4. PROPRIÉTÉS DES ESTIMATEURS
1. Le Test de Wald
Le Test de Wald
On onsidère l'hypothèse suivante :
H0 = θ = θ0
H1 = θ 6= θ0
Ainsi
√ √
N (θ̂ − θ)′ Iθ0 N (θ̂ − θ) ∼ χ2 (k) = W
où :
1 ∂l(y; θ)
Iθ0 =
N ∂θ∂θ′ θ0
k le nombre de paramètres.
Ce test est identique au test de Fisher utilisé dans le as des moindres arrés ordinaires. Nous utilisons
la onvergen e uniforme de θ̂ vers θ0 pour obtenir plimIθ̂ = Iθ0 . On réé rit la statistique :
√ √
N (θ̂ − θ)′ Iθ̂ N (θ̂ − θ) ∼ χ2 (k) = W
Maintenant
N
1 ∂l(y; θ) 1 X ∂ ln f (y; θ)
√ = √ θ0 ∼ N (0, I(θ0 ))
N ∂θ θ0 N i=1 ∂θ
21
Chapitre 2. ESTIMATION PONCTUELLE
e qui implique que l'hypothèse nulle peut être testée en utilisant le s ore évalué au point θ0 . La statistique
de LM devient :
′
1 ∂l(y; θ) 1 ∂l(y; θ)
LM = √ I(θ̂)−1 √ ∼ χ2 (k) si N → ∞
N ∂θ N ∂θ
En grand é hantillon on utilise le fait que plimI(θ̂) = I(θ0 ) pour réé rire LM sous H0
′
1 ∂l(y; θ) 1 ∂l(y; θ)
LM = √ I(θ0 )−1
√ ∼ χ2 (k) si N → ∞
N ∂θ N ∂θ
Remarque 5 Le test LM est appelé Multipli ateur de Lagrange par e qu'il est ontruit à partir du
Lagrangien du problème de maximisation sous ontrainte θ = θ0
Lagrangien : l(y; θ) − λ′ (θ − θ0 )
k θ0 k≤k θ∗ k≤k θ̂ k
√ ′ 1 ∂ 2 l(y; θ) √
⇒ −2[l(θ0 ) − l(θ̂)] = N (θ̂ − θ0 ) − |θ ∗ N (θ̂ − θ0 )
N ∂θ∂θ′
On dénit la statistique LR par :
√ √
LR = −2[l(θ0 ) − l(θ̂)] −→ N (θ̂ − θ0 )′ I(θ0 ) N (θ̂ − θ0 ) ∼ χ2 (k)
LM ⇐⇒ W ald ⇐⇒ LR
22
2.4. PROPRIÉTÉS DES ESTIMATEURS
H0 : g(θ0 ) = 0
H1 : g(θ0 ) 6= 0
∂g(θ0 )
où g(θ0 ) : Rp −→ Rr et le rang de ∂θ est r
Test de Wald
Proposition 6 !−1
∂g(θ̂) ∂g ′ (θ̂)
′
W = ng (θ̂) I(θ)−1 g(θ̂) ∼ χ2 (k) sous H0
∂θ ∂θ
∂ 2 f (Y |X;θ
où I = −E ∂θ∂θ ′ et I(θ)−1 son inverse évalué à θ = θ̂
!−1
∂g(θ̂) ∂g ′ (θ̂)
′
W = ng (θ̂) I(θ̂)−1 g(θ̂) ∼ χ2 (k) sous H0 (2.33)
∂θ ∂θ
23
Chapitre 2. ESTIMATION PONCTUELLE
Un test asymptotique qui rejette l'hypothèse nulle ave la probabilité un, quand l'hypothèse
alternative est vraie est appelé un test ohérent. A savoir, un test ohérent a une puissan e
asymptotique égale à 1.
Un argument heuristique est que si l'hypothèse alternative (H1 ) est vraie, au lieu de l'hypothèse
nulle alors : g(θ̂) −→ g(θ0 ). Don
!−1
∂g(θ̂) ∂g ′ (θ̂)
ng ′ (θ̂) I(θ̂)−1 g(θ̂)
∂θ ∂θ
ave In = nI
Une forme tout à fait ommune de l'hypothèse nulle est la restri tion à zéro sur un sous-ensemble
de paramètres, i.e,
H0 : θ 1 = 0
H1 : θ 1 6= 0
alors
−1
I 11 (θ̂) = I11 (θ) − I12 (θ)I22 (θ)−1
par la formule de l'inverse de matri e partitionnée. I 11 (θ̂) est I 11 (θ) évaluée à l'estimateur du
maximum de vraisemblan e.
24
2.5. Test LM ou test du S ore
l'e a ité de l'estimateur en omparaison de l'e.m.v du problème de maximisation sans ontraintes. Nous
résolvons le problème suivant :
max(l(y; θ) sc; g(θ) = 0
∂l(θ̃) ∂g ′ (θ̃)
+ λ̃ = 0 (2.34)
∂θ ∂θ
g ′ (θ̃) = 0 (2.35)
où la solution du problème de maximisation sous ontrainte est le ve teur de multipli ateur de Lagrange.
Le test de LM est fondé sur l'idée que de l'e.m.v suit une distribution asymptotiquement normale.
Proposition 7
1 ∂l(θ̃) ∂l(θ̃)
LM = I(θ̃)−1 (2.36)
n ∂θ′ ∂θ
1 ∂g(θ̃) ∂g(θ̃)
= λ̃ ′
I(θ̃)−1 λ̃ ∼ χ2 (r) sous H0 (2.37)
n ∂θ ∂θ
√ √ ∂g(θ̃) √
ng(θ̂) = ng(θ0 ) + ′
I(θ̃0 ) n(θ̂ − θ0 ) (2.38)
∂θ
√ √ ∂g(θ̃) √
ng(θ̃) = ng(θ0 ) + I(θ̃0 ) n(θ̂ − θ0 ) (2.39)
∂θ′
√ ∂g(θ̃) √
ng(θ̂) = n(θ̂ − θ0 ) (2.40)
∂θ′
∂l(y;θ̂) ∂l(y;θ̃)
En d'autre termes en prenant le développement de Taylor à l'ordre 1 autour de θ0 de ∂θ et ∂θ
De même
1 ∂l(y; θ̃) ∂l(y; θ0 ) √
√ = − I(θ0 ) n(θ̃ − θ0 ) (2.43)
n ∂θ∂ ∂θ
25
Chapitre 2. ESTIMATION PONCTUELLE
Considérant le fait que θ̂ annule le s ore ( ondition du premier ordre de maximisation sans ontrainte du
problème) en prenant la diéren e entre [2.41℄ et [2.43℄ nous obtneons
1 ∂l(y; θ̃) √ √
√ = −I(θ0 ) n(θ̃ − θ̂) = I(θ0 ) n(θ̂ − θ̃) (2.44)
n ∂θ∂
Ainsi
√ 1 ∂l(y; θ̃)
n(θ̂ − θ̃) = I(θ0 )−1 √ (2.45)
n ∂θ
De [2.40℄ et [2.45℄ nous obtenons :
De [2.45℄ on en déduit :
√ ∂g(θ0 ) ∂g ′ (y; θ̃) λ̃
ng(θ̂) = − ′
I(θ0 )−1 √
∂θ ∂θ n
∂g(θ0 ) ∂g ′ (y; θ0 ) λ̃
→ ′
I(θ0 )−1 √ (2.47)
∂θ ∂θ n
p p
si θ̃ → θ0 aussi g(θ̃) → g(θ0 ). Don
′
−1
λ̃ ∂g(θ0 ) −1 ∂g (y; θ0 )
√
√ = ′
I(θ 0 ) ng(θ̂) (2.48)
n ∂θ ∂θ
Par onséquent
−1 !
λ̃ d ∂g(θ0 ) ∂g ′ (y; θ0 )
√ →N 0, ′
I(θ0 )−1 (2.49)
n ∂θ ∂θ
Les statistiques [2.50℄ et [2.51℄ ne sont pas ulitistables dire tement en pratique ar la matri e d'information
dépend du paramètre in onnu θ0 . On évalue ette matri e à θ̃ estimateur obtenu à partir du modèle
ontraint. L'approximation de I(θ0 ) est obtenue par :
n
! n
!
1 X ∂ 2 l(y|x; θ̃) X ∂l(y|x; θ̃) ∂l(y|x; θ̃)
I(θ̃) = − ou
n i=1 ∂θ∂θ′ i=1
∂θ ∂θ′
26
2.5. Test LM ou test du S ore
Remarque 7 Cette expression de la statistique LM fait intervenir les matri es de proje tion. Si on pose
X= [ ∂l(y∂θ
1 |x1 ;θ̃) ∂l(y2 |x2 ;θ̃)
′ , ∂θ ′ , . . . , ∂l(yn∂θ|x′ n ;θ̃) ] et e = [1, 1, . . . , 1]′
LM = e′ X(X ′ X)−1 X ′ e
Si on note Ru2 le oe ient de détermination non entré de la regression de la onstante sur les s ores
alors LM devient :
e′ X(X ′ X)−1 X ′ e
LM = nRu2 =ee ′
e′ e
Ce i est tout à fait un résultat intéressant puisque le al ul de la statistique LM n'est rien d'autre qu'une
régression MCO. Nous régressons la onstante sur les s ores évalués à e.m.v ontraint et al ulons le Ru2
non entré et le multiplions ensuite par le nombre d'observations(n) pour devenir LM statistique.
La statistique LM est aussi asymptotiquement onsistant.
De [2.50℄ et [2.51℄
−1
′ ∂g(θ0 ) ∂g ′ (θ0 )
W = ng (θ̂) I(θ 0 ) g(θ̂) = LM
∂θ′ ∂θ
!−1
′ ∂g(θ̂) ∂g ′ (θ̂)
→ ng (θ̂) I(θ 0 ) g(θ̂)
∂θ′ ∂θ
Test LR
Proposition 8
LR = 2 l(θ̂) − l(θ̃) ∼ χ2 (r) (2.52)
Preuve
Nous onsidérons le développement de Taylor de l(θ̂) etl(θ̃) autour de θ0 . Sous H0 et en ignorant les
termes dominés sto hastiquement nous obtenons :
∂l(θ̂) 1 ∂ 2 l(θ̂)
l(θ̂) = l(θ0 ) + ′
(θ̂ − θ0 ) + (θ̂ − θ0 )′ (θ̂ − θ0 ) (2.53)
∂θ 2 ∂θ∂θ′
1 ∂l(θ̂) √ 1√ 1 ∂ 2 l(θ̂) √
= l(θ0 ) + √ ′
n(θ̂ − θ0 ) + n(θ̂ − θ0 )′ √ n(θ̂ − θ0 ) (2.54)
n ∂θ 2 n ∂θ∂θ′
∂l(θ̂) 1 ∂ 2 l(θ̃)
l(θ̃) = l(θ0 ) + ′
(θ̃ − θ0 ) + (θ̃ − θ0 )′ (θ̃ − θ0 ) (2.55)
∂θ 2 ∂θ∂θ′
2
1 ∂l(θ̃) √ 1√ ′ 1 ∂ l(θ̃)
√
= l(θ0 ) + √ ′
n( θ̃ − θ 0 ) + n( θ̃ − θ 0 ) √ ′
n(θ̃ − θ0 ) (2.56)
n ∂θ 2 n ∂θ∂θ
27
Chapitre 2. ESTIMATION PONCTUELLE
En prenant la diéren e des deux systèmes d'équations i-dessus (2.52-2.53) et (2.54-2.55) multipliée par
2 on obtient :
2
1 ∂l(θ̂) √ 1√ ′ 1 ∂ l(θ̂) √
2 l(θ̂) − l(θ̃) = √ n(θ̂ − θ̃) + n(θ̂ − θ 0 ) √ n(θ̂ − θ0 )
n ∂θ′ 2 n ∂θ∂θ′
√ 1 ∂ 2 l(θ̃) √
− n(θ̃ − θ0 ) n(θ̃ − θ0 )
n ∂θ∂θ′
→ 2n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ0 )
Finalement
LR = (θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) (2.57)
Noter que
(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) = (θ̂ − θ̃)′ I(θ0 )(θ̂ − θ0 )
1 ∂l(θ̂) ∂l(θ̂) 1
= √ ′
I(θ0 )−1 I(θ0 )I(θ0 )−1 √
n ∂θ ∂θ n
1 ∂l(θ̂) ∂l(θ̂)
= I(θ0 )−1 = LM sous H0
n ∂θ′ ∂θ
3. Comme nous venons de le démontrer i-dessus les tests de Wald, LM et LR sont asymptotiquement
équivalents.
28
2.5. Test LM ou test du S ore
yi = xi β + ǫi
n n 1
l(y|x; β, σ 2 ) = − ln(σ 2 ) − ln(2π) − 2 (y − Xβ)′ (y − Xβ)
2 2 2σ
β̂ = (X ′ X)−1 X ′ y
1
σ̂ 2 = (y − Xβ)′ (y − Xβ)
n
On pose
∂g(β̂) ∂g(β̂)
g(β̂) = Rr×p β̂p×r − γ = R; =0
∂β ∂σ 2
La statistique de test de Wald est donné d'après la proposition 6 par :
" ′ #
R R
W = n(Rr×p β̂p×r − γ) ′
I −1
(θ̂) (Rr×p β̂p×r − γ) (2.58)
0 0
1 −1
= (Rr×p β̂p×r − γ)′ R′ (X ′ X)−1 R (Rr×p β̂p×r − γ) ∼ χ2 (r) sous H0 (2.59)
σ2
1 1
σ̃ 2 − σ̂ 2 = (y − X β̃)′ (y − X β̃) − (y − X β̂)′ (y − X β̂)
n n
1 ′
= (X β̃ − X β̂) (X β̃ − X β̂)
n
1 1 −1
= (β̃ − β̂)′ (X ′ X)(β̃ − β̂) = (Rr×p β̂p×r − γ)′ R′ (X ′ X)−1 R (Rr×p β̂p×r − γ)
n n
−1
si β̃ = β̂ + X ′ X)−1 R′ X ′ X)−1 R
29
Chapitre 2. ESTIMATION PONCTUELLE
Don
′ −1
2 2
n(σ̃ − σ̂ ) Rr×p β̂p×r − γ R′ X ′ X)−1 R Rr×p β̂p×r − γ
W = =
σ̂ 2 1 ′
n (y − X β̂) (y − X β̂)
′
−1
Rr×p β̂p×r − γ R′ X ′ X)−1 R Rr×p β̂p×r − γ /r
nr nr
= h i = F
′
(y − X β̂) (y − X β̂) /n − K n − K n − K
D'autre part, le multipli ateur de Lagrange du problème ontraint est donné par :
2 ′ ′ −1 −1
λ̃ = − R X X) R (γ − Rβ̂)
σ2
4 ′ ′ −1 −1
λ̃ ∼ N (0, R X X) R
σ̃ 2
si (γ − Rβ̂) ∼ N 0, σ̃ 2 R′ (X ′ X)−1 R .
σ̃ 2 ′ ′ ′ −1 −1
LM = λ̃ R X X) R λ̃
4
1 −1
= 2
(Rr×p β̂p×r − γ)′ R′ X ′ X)−1 R (Rr×p β̂p×r − γ)
σ
n(σ̃ 2 − σ̂ 2 ) n n n
= = σ̃2
= σ̂2
=
σ̂ 2 1 − 1 + σ̃2 −σ̂2 1 + σ̃2 −σ̂2 1 + (n−k)
rF
Pour al uler la statistique LR on doit al uler la valeur de la log vraisemblan e sous H1 et sous H0
n n 1
Sous H1 : l(θ̂) = − ln(σ̂ 2 ) − ln(2π) − (y − X β̂)′ (y − X β̂)
2 2 2σ̂ 2
n 2 n n 1
= − ln(σ̂ ) − ln(2π) − (y − X β̂)′ (y − X β̂)
2 2 2σ̂ 2 n
n n n 2
= − ln(σ̂ 2 ) − ln(2π) − σ̂
2 2 2σ̂ 2
n n n
= − l(θ̂) − ln(2π) −
2 2 2
n n 1
Sous H0 : l(θ̃) = − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)′ (y − X β̃)
2 2 2σ̃ 2
n n n 1
= − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)′ (y − X β̃)
2 2 2σ̃ 2 n
n n n 2
= − ln(σ̃ 2 ) − ln(2π) − σ̃
2 2 2σ̃ 2
n n n
= − ln(σ̃ 2 ) − ln(2π) −
2 2 2
Ainsi
n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 ))
2 2
30
2.6. Exer i es
n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 )
2 2 2 2
σ̃ 2 σ̃ σ̃ − σ̂ 2
= n(ln = n 1 − 1 + ln = n 1 + ln
σ̂ 2 σ̂ 2 σ̂ 2
rF
= n 1 + ln
n−K
x
≤ ln(1 + x) ≤ x ∀x > −1
1+2
Soit x = ln rF
n−K en appliquant l'inégalité i-dessus on obtient :
LM ≤ LR ≤ W en dimension nie
yi = 6 + ǫi i = 1, . . . , 50 (2.61)
On suppose que haque observation à une fon tion de densité dénie par :
1 1
f (xi ) = exp(− (y − µ2 )) (2.62)
2π 2
H0 : µ = 3 vs H1 : µ = 3
2.6 Exer i es
2.6.1 Exer i e 1
Un é hantillon aléatoire d'observations indépendantes est généré par une fon tion de distribution
i-dessous :
f (y; β) = β exp(−βy) ave β > 0; y > 0
31
Chapitre 2. ESTIMATION PONCTUELLE
P
4. On suppose que n= 100 et yt = 25, al uler la valeur de β̂
H0 : β = β0 = 1
H1 : β 6= β0 = 1
2.6.2 Exer ie 2
La variable ontinue x a une fon tion de densité donnée par :
1 x2
f (x; θ) = √ exp(−
)
2πθ 2θ
−∞ < x < ∞ θ > 0
H0 : θ = 0
H1 : θ 6= 0
F (y; θ1 , θ2 ) = 1 − exp(−θ1 y θ2 )
32
2.6. Exer i es
3. Étudier l'évolution de la fon tion de hasard en fon tion de θ̂1 , puis en fon tion de θ̂2 .
4. On suppose dans ette partie θ̂2 = 1. Le modèle est alors uniquement paramètre par θ̂1 . Le modèle
est-il exponentiel ? Si oui, expli iter une statistique exhaustive.
6. Quel est l'estimateur du maximum de vraisemblan e θ̂1 de θ̂ ? Est-il sans biais, y a-t-il surestimation
ou sous-estimation systématique ?
33
Chapitre 2. ESTIMATION PONCTUELLE
34
Chapitre 3
La loi de la demande :
X = a − bPX
L'obje tif de e hapitre onsiste à estimer les paramètres de régression du modèle (a et b) à des ns
d'analyse ou de prévision. Une telle estimation peut servir à répondre à des questions de politique
é onomique telles :
a) omment faut-il modier les dépenses de l'Etat pour réduire le hmage de x%.
Pour réduire le taux d'ination de y% :
) Une politique de soutien du prix d'un produit agri ole doit-elle prendre en ompte la forme d'un prix
garenti aux produ teurs (et l'a hat de toute produ tion invendue)ou d'un subside à es produ teurs ?
Les oûts respe tifs de es deux politiques alternatives dépendront de l'élasti ité de la demande,
qui peut être estimée à partir des données de X et PX . Les égalités pré édentes ne seront jamais
exa tement vériées par les données sur les diérentes variables des modèles. Pour es raisons on
ajoute un terme d'erreur aléatoire de mesure, d'agrégation à haque modèle. Ces erreurs ne peuvent
être expliquées par un modèle déterministe. Aux fon tions pré édentes, on ajoute un terme d'erreur
aléatoire ut :
La fon tion de onsommation
Ct = a + bYt + ut
35
Chapitre 3. Régression linéaire empirique
La loi de la demande :
X = a − bPX + ut
yt = a + bxt + ut (3.1)
E(ut |xt ) = 0 ∀t
Interprétation
Si ette hypothèse est violée, le terme d'erreur aurait une omposante systématique, qui aurait dû
être in luse dans la partie non aléatoire de l'équation de la régression. Le modèle sera don mal
spé ié.
Interprétation Les erreurs sont de varian e nie et égale à σ 2 . Si telle n'est le as on parle
d'hétéro édasti ité du modèle.
Exemple de modèle de violaation de H2
Modèle de regréssion dont les observations sont des moyennes al ulées à partir des nombres
d'observations diérents. Modèle de séries nan ières.
36
3.1. Des ription du problème et exemples é onomiques
Exemple de violation de H3
Données spatiales, auto orrélation des residus (ut = ρut−1 + νt ). Si es trois hypothèses sont
satisfaites, on dit que le terme d'erreur est un bruit blan , noté BB
Exemple de violation de H4
Ct = a + bYt + ut (3.2)
ave
Yt = Ct + It (3.3)
H5 xt pend au moins deux valeurs diérentes. Si ette hypothèse n'est pas vériée, nous n'aurons pas un
problème de régression : en eet a + bxt serait une onstante et yt = a + bxt + ut serait onstante
à un terme aléatoire. Nous aurions alors un modèle yt = µ + ut ave E(yt ) = µ
Si es diérentes hypothèses sont satisfaites nous her hons les paramètres â et b̂ de la droite de ŷt = â+b̂xt
qui appro hent le mieux la dépendan e entre yt et xt , elle qui s'é arte le moins du nuage de points (xt , yt ).
Les ritères utilisés pour estimer les paramètres de régression (a et b), sont tels qu'il faut en moyenne,
minimiser l'é art entre yt et ŷt . Il faut don que la variable ût = yt − ŷt , les résidus estimés, soit minimale
pour tout t. On retient omme ritères :
min max |ût | (3.4)
â,b̂ t
X
min |ût | (3.5)
â,b̂ t
X
min û2t Critère de la Méthode des moindres arrés (3.6)
â,b̂ t
L'équation [3.7℄ est une hypothèse tandis que [3.8℄ est une identité !
37
Chapitre 3. Régression linéaire empirique
T
∂SCR(â, b̂) X
= −2 yt − â − b̂xt xt = 0 (3.11)
∂ b̂ t=1
Elles impliquent les équations normales suivantes
T
X T
X
yt − T â − b̂ xt = 0 (3.12)
t=1 t=1
T
X T
X
yt xt − T âxt − b̂ x2t = 0 (3.13)
t=1 t=1
â = ȳ − b̂x̄ (3.14)
ave
T T
1X 1X
x̄ = xt et ȳ = yt
T t=1 T t=1
En remplaçant la valeur â, équation [3.14℄, dans [3.13℄, il vient :
T
X
yt − ȳ − b̂(xt − x̄) xt = 0 (3.15)
t=1
ave
(xt − x̄)
ωt = PT 2
t=1 (xt − x̄)
38
3.2. Les Estimateurs des moindres arrés
T
X
ωt = 0
t=1
T
X 1
ωt2 = PT
2
t=1 t=1 (xt − x̄)
T
X
ωt xt = 1
t=1
T
X
zt = 1
t=1
T T
X X 1 2
zt2 = − x̄ω t + x̄2 2
ω
t=1 t=1
T2 T
T T T
! T
!
X
2
X 1 2 X
2
X
2
zt = − x̄ ωt = 0 + x̄ ωt
t=1 t=1
T2 T t=1 t=1
Don
T PT
X 1 x̄2 xt
zt2 = + PT = PT t=1
t=1
T t=1 (xt − x̄)
2 T t=1 (xt − x̄)2
T
X
zt xt = 0
t=1
T
X x̄
zt ωt = PT
t=1 t=1 (xt − x̄)2
Conditions du se ond ordre
La matri e Hessienne doit être dénie positive
!
∂ 2 SCR(a,b) ∂ 2 SCR(a,b)
H= ∂a2
∂ 2 SCR(a,b)
∂a∂b
∂ 2 SCR(a,b)
(3.16)
∂b∂a ∂b2
P
2T 2 P xt
H= P (3.17)
2 xt 2 x2t
∂ 2 SCR(a,b)
∂b2 > 0 et P
2T 2 P xt
|H| = P >0 (3.18)
2 xt 2 x2t
Le hessien étant dénie positif, nous avons bien un minimum.
39
Chapitre 3. Régression linéaire empirique
Demonstration :
X X 2
|H| = 4T x2t − 4 xt
X
x2t = T (σx2 + x̄2 )
1 X X
x̄ = xt =⇒ xt = T x̄
T
Don
X X 2
|H| = 4 ∗ T x2t − 4 ∗ xt = 4(T 2 σx2 + x̄2 − T 2 x̄) = 4 ∗ T 2 σx2 > 0
Exemple
Soient T=5 observations suivantes sur les yt et xt
xt 1 2 3 4 5
yt 2 4 5 7 10
P P P P P
on a xt = 15, yt = 28, x2t = 55, xt yt = 103, yt2 = 194
28 15
â = − 1.9( ) = −0.1
5 5
10
8
6
4
2
1 2 3 4 5
x
y Fitted values
Varian es
La varian e de b̂ se al ule omme suit :
h i
v(b̂) = E b̂ − E(b̂) = E(b̂ − b)2
X
(b̂ − b) = ωt yt
On a alors
hX i2
V (b̂) = E ωt u t
XT T
X −1 X
T
= E ωt2 u2t + ωt ωj u t u j
t=1 t=1 j=t+1
T
X
= ωt2 E(u2t )
t=1
T
X
= σ2 ωt2
t=1
σ2
= PT
t=1 (xt − x̄)2
puisque E(u2t ) = σ 2 et, E(ut uj ) = 0, ∀t 6= j
hX i2
V (â) = E(â − a)2 = E zt ut
T
X
= σ 2
ωt2 par le même argument que pré édemment
t=1
" P #
2 x2t
= σ PT
T t=1 (xt − x̄)2
41
Chapitre 3. Régression linéaire empirique
Covarian e
42
3.2. Les Estimateurs des moindres arrés
e qui implique : P P
â
PT x
P 2t
= P y t
xt xt b̂ xt yt
En notant
1 x1
1 x2
X= .. ..
. .
1 xT
et
â
β̂ =
b̂
on obtient l'é riture matri ielle :
Remarque 9
En multipliant (X ′ X)−1 par σ 2 on trouve la matri e de varian es- ovarian es CV. On peut généraliser
l'é riture matri ielle en ajoutant d'autres variables à X. On obtient le modèle de régression multiple.
On note l'importan e de l'hypothèse de non olinéarité des olonnes de X. Si H5 : xt = α pour tout t,
P
(xt − x̄) = 0, don det(X ′ X) = 0 et les équations normales n'ont pas une solution unique.
On va minimiser ette varian e sous la ontrainte E(b̃) = b et montrer que la solution est ct = ωt ).
Comme la minimisation de V (b̃) est équivalente à elle de V (b̃)/σ 2 le Lagrangien s'é rit :
X X X
L= c2t + λ1 ct + λ2 ct xt − 1
43
Chapitre 3. Régression linéaire empirique
∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
∂L X X X
xt = 2 ct xt + λ1 xt + λ2 x2t = 0
∂ct
P P
En utilisant les ontraintes ct = 0, ct xt = 1
X
T λ1 + λ2 xt = 0
X X
2 + λ1 xt + λ2 x2t = 0
L'inverse de la matri e des oe ients a déjà eté al ulée ((X ′ X)−1 ). On peut don al uler la solution
du système omme :
P 2 P P
λ1 1
Pxt − xt 0 2x̄/ P(xt − x̄2 )
= P =
λ2 T (xt − x̄2 ) − xt T −2 −2/ (xt − x̄2 )
∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
On obtient
x̄ X
2ct = −2 P 2
+ 2f racxt (xt − x̄2 )
(xt − x̄ )
(xt − x̄)
⇒ ct = P = ωt
(xt − x̄2 )
Cette valeur de ct minimise don bien la varian e sous la ontrainte que l'estimateur soit sans biais ar :
∂2L
= 2T > 0
∂c2t
44
3.2. Les Estimateurs des moindres arrés
en vertu de la première équation normale (Se tion 1.3). Nous allons prouver que :
hX i
E u2t = (T − 2)σ 2
et que don
1 X 2
s2 = ut
T −2
est un estimateur sans biais de σ 2 Nous avons :
ût = y − ȳ − −̂b̂xt
= ut − ū + (b − hatb)(xt − x̄)
Alors
X X 2
û2t = ut − ū + (b − b̂)(xt − x̄)
X X X
= (ut − ū)2 + (b − b̂)2 (xt − x̄)2 + 2 (b − b̂)(xt − x̄)(ut − ū)
Mais
X hX iX
(ut − ū + (b − hatb)(xt − x̄)) = (xt − x̄)2 ωt (ut − ū)
X
= (b̂ − b) (xt − x̄)
P P
puisque ωt (ut − ū) = ωt ut = b̂ − b
Don
X X X X
û2t = (ut − ū)2 + (b − b̂)2 (xt − x̄)2 − 2(b − b̂)2 (xt − x̄)2
X X
= (ut − ū)2 − (b − b̂)2 (xt − x̄)2
Et don
hX i
E (u2t = (T − 2)σ 2
Dons P
û2t
σ̂ 2 = s2 =
T −2
45
Chapitre 3. Régression linéaire empirique
On peut interpréter la division par (T-2) de la manière suivante. Nous avions vu que pour obtenir un
estimateur sans biais de la varian e, on devait diviser par T-1 la somme des arrés des déviations par
rapport à la moyenne. Cette division par (T-1) était en fait due à la présen e d'une ondition liant les
déviations par rapport à la moyenne : la somme de es déviations est identiquement nulle. Dans le as
qui nous o upe, nous avons deux onditions liant les résidus à savoir :
X X
ût = 0 et ût xt = 0
soit
SCT = SCE + SCR.
P
En guise d'étape préliminaire, démontrons une formule de al ul ommode pour û2t
Lemme 1
X X
û2t = (yt − ȳ)2 − b̂2 (xt − x̄)2
Preuve
Don
X X X X
û2t = (yt − ȳ)2 − 2b̂ (xt − x̄)(yt − ȳ) + b̂2 (xt − x̄)2
Mais
X X
(xt − x̄)(yt − ȳ) = b̂ (xt − x̄)2
don
X X
û2t = (yt − ȳ)2 − b̂2 (xt − x̄)2
Pour prouver que SCT = SCE + SCR, il sut alors de montrer que :
X X
b̂2 (xt − x̄)2 = ¯2
(ŷt − ŷ)
46
3.2. Les Estimateurs des moindres arrés
et l'on a 0 ≤ R2 ≤ 1. Plus le R2 est pro he de l'unité, plus grand est le pour entage de la varian e totale
expliquée par la régression, et meilleure est don la qualité de l'ajustement. Mentionnons désaprésent une
interprétation statistique plus ne du R2 .
Commentaires
la statistique F̂ , dit de Fisher qui permet de tester la nullité de la pente, b=0, est égale au rapport
entre le arré moyen expliqué par la régression et le arré moyen résiduel. Ce i revient à tester :
H0 : b = 0 ou SCE = 0
vs
H1 : b 6= 0 ou SCE 6= 0
Pour un test de niveau α, on ompare la statistique F̂ à la valeur dépassée ave une probabilité α
par une variable aléatoire distribuée suivant une loi de Fisher à (1,T-2) degrés de libertés. Cette
quantité, notée F(1,T −2,1−α) est le quantile d'ordre (1 − α) de ette loi de Fisher à (1,T-2) degrés
de libertés
SCR est le minimum de la somme des arrés des résidus.
SCE : est la quantité expliquée par la droite de régression par rapport au modèle où l'on ajuste
les données qu'ave une simple moyenne (ȳ), e qui revient à faire une régression sur une droite de
pente nulle.
SCT est utilisée pour le al ul de la varian e empirique.
(T −2)R2
Nous démontrerons, en régression multiple, que si b = 0 i.eSCE = 0, 1−R2 suit le arré d'une loi de
47
Chapitre 3. Régression linéaire empirique
Student ave T-2 degrés de liberté. Ave un seuil de signi ation α ,le R2 sera don "bon" si :
(T − 2)R2
> t2T −2,α/2
1 − R2
ȳ = 5.6
X
(xt − x̄)2 = 10
X
(yt − ȳ)2 = 37.20 = SCT
où les nombres entre parenthèses sont les estimations des é arts-types des oe ients estimés. On
peut aussi les présenter omme :
1.9 xt
ŷt = −0.1 + |{z} (R2 = 0.97)
| {z }
(−0.157) (9.88)
où les nombres entre parenthèses sont les rapports entre les oe ients estimés et les estimations de leurs
é arts-types. On appelle es rapports les rapports t (t-ratios) ; ils nous serviront dans le adre des tests
d'hypothèses.
L'interprétation du R2 est la suivante : 97% des u tautions de yt sont expliquées par elles de xt
Exemple
1.9
tb̂ = = 9.88
0.192
48
3.2. Les Estimateurs des moindres arrés
â et b̂ ne sont que des estimateurs pon tuels de a et de b . Dans ette sous se tion, nous nous intéressons
à la probabilité du type :
où α est une onstante appelée niveau de signi ation. Une telle probabilité doit se lire : "J'ai une
probabilité de 1 − α de ne pas me tromper lorsque j'arme que b est ompris entre binf et bsup ". Les
bornes binf et bsup vont dépendre de b̂ et de sa varian e.
Elles sont don aléatoires, au même titre que b̂ . Elles dépendront aussi de la distribution de b̂ . Si
ette distribution est symétrique autour de b , l'intervalle [binf , bsup ] aura b̂ omme point médian. Ce sera
le plus petit intervalle ayant une probabilité 1 − α de ontenir b . Il nous faut don maintenant spé ier
la distribution de â et b̂, e qui né essite une hypothèse sur la distribution des erreurs ut . Si nous faisons
l'hypothèse de normalité :
H0 : ut ∼ N (0, σ 2 )
P P
â = a + zt ut et b̂ = b + ωt ut et seront normales, puisque e sont alors des ombinaisons linéaires de
variables normales indépendantes. Quelles seront alors les formes de ainf , ≤ asup , binf et ≤ bsup . Si σ 2
etait onnue, nous aurions
b̂ − b â − a
∼ N (0, 1) et ∼ N (0, 1)
σb̂ σâ
σ2 1 x̄
ave σb̂2 = P σâ2 = σ 2 +P
(xt − x̄)2 T (xt − x̄)2
En pratique, σ 2 est in onnue. Que se passe-t-il lorsqu'on rempla e σ 2 par son estimation sans biais ?
P
û2t
s2 = ?
T −2
49
Chapitre 3. Régression linéaire empirique
q b̂−b
σ2 ( P(x 1−x̄)2 ) N
= q Pt 2 =def
ût D
σ2 (T −2)
N est une variable normale réduite. Nous prouverons rigoureusement plus loin que
P 2
ût
σ 2
est une variable χ2 ave T-2 degrés de liberté, indépendante de la variable N. Par dénition, le rapport
N
D est alors une variable Student ave T-2 degrés de liberté
Don :
b̂ − b â − a
∼ tT −2 et, de manière analogue ∼ tT −2
sb̂ sâ
et les intervalles de onan e sont donnés par :
h i
P b̂ − tT −2; α2 sb̂ ≤ b̂ + tT −2; α2 sb̂ = 1 − α
Pour tester :
H0 : b = b 0 ontre H1 : b 6= b0
Ce test n'est pas équivalent à une juxtaposition des deux tests t sur haque oe ient de régression. Une
méthode bivariée s'impose, et nos intervalles de onan e deviennent des ellipses 1 . En pratique, on passe
par la statistique F de Fisher-Snede or. La statistique à onstruire est :
Q/2
Fobs =
s
1. Ce type d'intervalles est développé au hapitre V
50
3.3. Test sur les deux paramètres a et b
ave
h X i
Q = T (â − a0 )2 + 2T x̄(b̂ − b0 ) + x2t (b̂ − b0 )2
Q est toujours positive ou nulle ; elle sera d'autant plus grande que â et b̂ dièrent de a et b . Or, e
sont bien les valeurs élevées d'une statistique F qui onduisent à rejeter l'hypothèse nulle. Par ailleurs,
une valeur élevée de s2 reète une mauvaise qualité de l'ajustement statistique ; il est don logique qu'elle
nous fasse hésiter à rejeter l'hypothèse H0 . En régression multiple, nous démontrerons que si H0 est
vraie, Fobs a la distribution F2,T −2 . On rejettera don H0 si
|γ − αâ − β b̂|
r ∼ tT −2
(β−αx̄)2
s α2 T1 + P (xt −x̄)2
3.3.1 Prévision
Que se passerait-il si nous voulions trouver un intervalle de onan e sur une valeur future yθ de y ? On
parlerait alors d'intervalle de prévision. Supposons par exemple que y soit une fon tion de onsommation,
que nous possédions des données annuelles entre 1960 et 1981 sur la onsommation et le revenu national,
51
Chapitre 3. Régression linéaire empirique
et que nous voulions prédire la onsommation pour l'année 1982, onditionnellement à une proje tion xθ
du revenu national pour 1982. Sous l'hypothèse que le modèle reste in hangé, nous aurons :
yθ = a + bxθ + uθ et
E(yθ − ŷθ ) = 0
H0 : b = 1.2
Pour tester :
H0 : a = −0.15 et b = 2.5
52
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
on onstruit la statistique
1
Fobs = 5(−0.10 + 0.15)2 + 2.5 ∗ 3(−0.10 + 0.15)(1.9 − 2.5)
2(0.37)
1
+ 55(1.9 − 2.5)2
2(0.37)
18.9125/2
= = 25.79
0.37
pour t = 1, . . . , T
Pour prendre un exemple, il est raisonnable de supposer qu'une loi de demande omprenne omme
variable expli ative non seulement le prix PY du bien demandé, mais aussi le prix PX d'un substitut et
le revenu R du onsommateur. Nous aurions alors :
yt = β1 + β2 PXt + β3 PY t + β4 Rt + ǫt (3.21)
Une formulation matri ielle du modèle s'impose. Elle peut s'é rire sous la forme suivante :
y1 1 x12 ... x1k β1 ǫ1
y2 1 x22 ... x2k β2 ǫ2
y3 . . ... ... β3 ǫ3
=
. .
+ (3.22)
. ... ...
.
.
. . . ... ... . .
yT 1 xT 2 ... xT k βT ǫT
où
y est un ve teur T × 1 d'observations sur la variable dépendante
53
Chapitre 3. Régression linéaire empirique
1. H1 : E(ǫ) = 0
2. H2 : E(ǫǫ′ ) = σ 2 IT
3. H3 :X est non aléatoire
4. H4 :rang de X = k < T
L'hypothèse H2 implique que les erreurs sont de même varian e, et non orrélées. Si l'hypothèse H4 n'était
pas satisfaite, il existerait une relation linéaire exa te entre ertaines des olonnes de X. En substituant
ette relation dans l'equation de regression, on pourrait alors supprimer un régresseur. Ce i revient à dire
que le ve teur β ne pourrait pas être estimé de manière unique. Notons que nous ne faisons pas en ore
d'hypothèses sur la forme fon tionnelle de la distribution de ǫ .
β̂ = (X ′ X)−1 X ′ Y (3.25)
Par ailleurs, les onditions de se ond ordre pour un minimum sont satisfaites, puisque
∂ 2 ǫˆ′ ǫ̂
= 2 ∗ (X ′ X) (3.26)
∂β∂β ′
une matri e dénie positive, e qui montre que ǫˆ′ ǫ̂ est onvexe en β̂
2. Rappel de ours sur les dérivées matri ielles :
Soit v ∈ Rk et a ∈ Rk
∂v⊤ a ∂a⊤ v
= =a
∂v ∂v
Soit v ∈ Rk et a ∈ Rk et M une matri e symétrique on a :
∂v⊤ M v
= 2M v
∂v
54
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
Matri e de ovarian e de β̂
Le théorème de Gauss-Markov
Nous allons montrer que β̂ est le plus e a e des estimateurs linéaires de β . Plus pré isément si β̃
est un autre estimateur linéaire sans biais de β 'est-à-dire si E(β̃) = β et β̃ = Ay , les varian es de ses
omposantes ne peuvent être inférieures à elles des omposantes de β̂ .
Démonstration
A = (X ′ X)−1 X ′ + C (3.30)
β̃ = β + Aǫ (3.31)
55
Chapitre 3. Régression linéaire empirique
E(β̃) = E(Aǫǫ′ A′ )
= σ 2 AA′
= σ 2 [(X ′ X)−1 X ′ + C][X(X ′ X)−1 + C ′ ]
= σ 2 [(X ′ X)−1 X ′ X(X ′ X)−1 + (X ′ X)−1 X ′ C ′ + CX(X ′ X)−1 +CC ′ ] (3.32)
| {z } | {z }
(X ′ X)−1 CX = X ′ C ′ = 0
= σ 2 [(X ′ X)−1 + CC ′ ]
= V (β̃) + σ 2 CC ′
Mais les éléments de la diagonale de CC ′ sont des sommes de arrés, don non négatives. Les varian es
des omposantes de β̃ sont don supérieures ou égales aux varian es des omposantes de β̃ .
avons
ǫˆt = (y − X β̂) = Xβ + ǫ − X(X ′ X)−1 X ′ (Xβ + ǫ)
= Xβ + ǫ − Xβ − X(X ′ X)−1 X ′ ǫ
= [IT − X(X ′ X)−1 X ′ ]ǫ |{z}
= Mǫ (3.33)
def
On vérie aisément que M est idempotente et symétrique 3 Alors(ǫˆt ′ ǫˆt ) = (ǫˆt ′ M ′ M ǫˆt ) = (ǫˆt ′ M ǫˆt )
56
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
A partir de ette identité, nous pouvons dénir, dans un modèle ave terme onstant , le oe ient de
détermination omme : ′ 2
SCE SCR X ′ y − (i Ty)
2
R = = 1− = ′ 2 (3.36)
SCT SCT y ′ y − (i Ty)
(ǫˆt ′ ǫˆt )
Comme SCR
T = T est un estimateur biaisé de σ 2 , il est préférable d 'employer le oe ient de
détermination ajusté, déni omme suit :
SCR/T − k T −1 2 k−1
R̄2 = 1 − = R − (3.37)
SCT /T − 1 T −k T −k
qui est, lui, basé sur des estimateurs sans biais des varian es. Si l'on ajoute un régresseurR2, roîtra
toujours (non stri tement) ; e i n'est pas le as pour R̄2 .
Dans un modèle sans terme onstant, la somme des résidus n'est pas né essairement nulle et la
dé omposition pré édente (SCT = SCR + SCE) n'est don plus valable. Le R2 pré édent n'est don pas
né essairement ompris entre 0 et 1. Néanmoins, on a toujours, en vertu du lemme 1 :
ave ŷ = β̂X
. On peut alors dénir :
ŷ ′ ŷ ǫˆt ′ ǫˆt
R∗2 = ′
=1− ′ (3.39)
yy yy
qui est, lui, toujours ompris entre 0 et 1. Ce oe ient R∗2 . peut être utilisé dans tous les as, tant dans
un modèle sans onstante que dans un modèle ave onstante. Mais son interprétation est diérente de
elle du R , omme pré édemment, nous pouvons aussi ajuster e dernier oe ient de détermination
2
57
Chapitre 3. Régression linéaire empirique
ŷ = P Xy est la proje tion orthogonale de y sur l'espa e ve toriel engendré par les olonnes de X.
−
→
X = {Xβ, ∀ ∈ Rk } (3.42)
′
PX = PX (symetrie)
PX PX = PX (idempotente)
→
−
Elle a k valeurs propres égale à 1 (k = dim X ) si les olonnes de X sont linéairement indépendantes et
N-K valeurs propres nulles. Sa tra e est égale à la somme des valeurs propres ou la somme des éléments
diagonaux de PX .
Résidus statistiques
On appelle résidu l'é art et la réalisation yi et la prédi tion yˆi . Le ve teur des résidus :
→
−
ǫ̂ est la proje tion orthogonale sur l'orthogonal de X . On a don bien en parti ulier
X
ǫ̂ ⊥ ŷ ⇐⇒< ǫ̂, ŷ >= ǫ̂′ .ŷ = ǫˆi ′ .yˆi = 0 (3.44)
′
MX = IN − PX = MX MX MX = MX (3.45)
Remarque 10 Si X ontient une onstante (régression ave onstante), alors ǫ̂ est par onstru tion
orthogonal au ve teur unitaire τn = [1, . . . , 1]′
P
ǫ̂ ⊥ τn ⇐⇒< ǫ̂, τn >= ǫ̂′ .τn = ǫˆi = 0
Attention :
P
ǫi dière de zéro si la régression ne ontient pas de onstante. Ainsi don :
( P
N
ǫ̂ ⊥ ŷ ǫˆi ′ .yˆi = 0 1 X ′ 1 X 1 X
⇐⇒ Pi=1
N =⇒ ǫˆi .yˆi ǫˆi . yˆi = cov(ǫˆi ′ .yˆi ) = 0 (3.46)
ǫ̂ ⊥ ŷ i=1 ǫˆi = 0 N N N
Dans le as d'une régression ave une onstante, l'orthogonalité entre le ve teur des résidus et les olonnes
de X implique le fait que la ovarian e empirique entre ǫˆi etyˆi est nulle. Enn ǫˆi ′ = yi − xi β̂ est le résidu
statistique qui est l'analogue du résidu théorique ou perturbation :ǫi = yi − E(yi |xi ) On représente la
dé omposition de y par la gure i-dessous.
58
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
y = Xβ = X1 β1 + X2 β2 + ǫ1 (3.47)
1. Régresser y et les olonnes de X1 sur les olonnes X2 . Sauver les résidus MX1 y et MX2 X1
2. Régresser MX2 y sur MX2 X1 . L'estimateur des MCO du oe ient de ette régression est βˆ2 :
M1 y = M1 X2 β2 + residus (3.49)
59
Chapitre 3. Régression linéaire empirique
Théorème 2 FWL
Preuve
L'estimateur β2 du modèle [3.49℄ est donné par :
On sait que
y = PXy + MX Y (3.51)
ar
M1 X1 = 0; MX M1 = MX X2 = 0 et X2′ M1 MX = 0 (3.54)
on vient de démontrer le premier point du théorème. Pour démontrer le deuxième point du théorème on
prémultiplie l'équation [3.47℄ par la matri e de proje tion M1 = MX1 .
M 1 y = M 1 X2 β + M X y (3.55)
du fait que M1 MX = MX . On on lut que MX y est aussi le terme d'erreur de l'équation [3.55℄. Exemple :
Extension des formules du modèle simple
Supposons que la régression ontient un terme onstant :
N×(K−1)
n , X̃)X̃ = (x̃i ) ∈ R
X = (τ
a0
β0 =
b0
Xβ0 = a0 τn + X̃b0
En appliquant FWL on obtient les estimateurs des MCO de b0 en ee tuant la régression sans terme
¯ :
onstant des variables entrées : ∆y = y − ȳτ et ∆X̃ = X̃ − τ X̃
n n
¯
b̂ = ((∆X̃)′ ∆X̃)−1 ∆y et â = nȳ − b̂X̃ (3.57)
60
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
3.5.3 Problèmes parti uliers : multi olinéarité, biais de spé i ation et va-
riables muettes
Multi olinéarité
1. Comme nous l'avons deja mentionné, l'existen e d'une relation linéaire exa te entre les olonnes
de X nous empê he de déterminer l'estimateur β̂ de manière unique. Ce as est un as extrême de
multi olinéarité. Mais il arrive souvent que ertaines des olonnes de X présentent une dépendan e
linéaire approximative. Les onséquen es de e phénomène sont les suivantes :
un manque de pré ision dans les estimations des βi , se traduisant par de varian es élevées ;
les estimations des βi présenteront souvent des distortions importantes, dues à des raisons
numériques. Le nombre de hires signi atifs des empla ements
- mémoire d'un ordinateur est en eet limité, e qui se traduit par un manque de stabilité des
programmes d'inversion matri ielle, pour des matri es qui sont presque singulières.
Pour illustrer le premier point, reprenons le modèle de régression simple
yt = a + bxt + ut . (3.58)
La multi olinéarité se traduira dans e as par une série d'observations (xt ) presque onstante, 'est
P
-à-dire par xt ≈ x̃ pour tout t. On a alors (xt − x̄)2 ≈ 0 e qui se traduit par une varian e de (b̂)
élevée.
les variables logKt et logLt soient fortement olinéaires. Si l'on sait que les rendements d'é helle
sont onstants α + β = 1 on peut transformer le modèle omme suit :
ou
(logQt − logLt +) = A + α(logKt − logLt ) + ut (3.61)
61
Chapitre 3. Régression linéaire empirique
e qui a don pour eet de supprimer un régresseur. Ce i peut résoudre le problème. Essentielle-
ment, l'information a priori α + β = 1 supplée au défaut d'information présente dans l'é hantillon
(tentative d'estimer trop de paramètres ave trop peu de données). Cette information a priori
peut également prendre une forme sto hastique, non déterministe. C'est le as de la méthode
bayésienne.
et que l'on omette les olonnes de X2 de la liste des régresseurs. On estimerait alors par moindres arrés
le modèle
y = Xβ + u = X1 β1 + u∗ avec u∗ = X2 β2 + u (3.63)
sera biaisé.
Variables muettes
Une variable muette, ou binaire (en anglais : dummy variable ) est une variable du type
Dt = 1 si t ∈ T
(3.65)
0 sinon
ou Ti ⊆ 1, 2, ..., T .
Une telle variable, in luse dans la liste des régresseurs, pourrait par exemple indiquer la présen e ou
l'absen e de guerre, ou lassier des données selon un ritère saisonnier. Pour des données mensuelles, s'il
n'y pas de variations saisonnières à l'intérieur d'un même trimestre, on pourrait poser :
D1t = 1 si t est un mois du premier trimestre, 0 sinon
D2t = 1 si t est un mois du se ond trimestre, 0 sinon
(3.66)
D3t = 1 si t est un mois du troisième trimestre, 0 sinon
D4t = 1 si t est un mois du quatrième trimestre, 0 sinon.
Les quatre olonnes des régresseurs D1 ,D2 ,D3 ,D4 pour les 12 mois d'une année auraient alors la forme
suivante :
1 0 0 0
0 1 0 0
0
(3.67)
0 1 0
0 0 0 1
62
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
Nous ne pourrions pas in lure de onstante dans e modèle, puisque la somme de es quatre ve teurs
est un ve teur unitaire. On aurait alors olinéarité parfaite. Les oe ients des variables Di sont en fait
des onstantes spé iques à haque saison. Une autre possibilité serait d'in lure une onstante, et de
supprimer l'une des variables Di , par exemple D1 . Les oe ients de D2 ,D3 , et D4 mesureraient alors
l'eet relatif des fa teurs saisonniers : les onstantes spé iques seraient β1 , β1 + β2 , β1 + β3 , β1 + β4
plutt que β1 , β2 , β3 et β4 . Notons aussi que les variables muettes permettent la spe i ation de pentes
variables. Si Dt = 1 pour une période de rise, = 0 sinon, et que l'on a des raisons de penser que la
propension marginale à onsommer β dans le modèle :
Ct = α + βYt + ut (3.68)
est diérente en temps de non rise qu'en temps de rise, on pourra estimer les paramètres du modèle :
H : ǫ ∼ N (0, σ 2 I) (3.70)
Ce qui implique que y − Xβ ∼ N (0, σ 2 I). La fon tion de vraisemblan e s'é rit alors :
1 −T T 1
L(βσ 2 ) = (2Πσ 2 )−T /2 exp[ (y −Xβ)′ (y −Xβ)] et log(L) = log(2Π)− σ 2 − 2 (y −Xβ)′ (y −Xβ)
2σ 2 2 2 2σ
(3.71)
Nous avons alors les onditions de premier ordre suivantes :
∂ ln(L) 1 h i
= 2 −2X ′y + 2X ′ X β̂ = 0
∂β 2σ̂
∂ ln(L) T 1 h ′
i
= − + (y − X β̂) (y − X β̂) =0
∂σ 2 σ̂ 2 σ̂ 4
La première ondition implique β̂ = (X ′ X)−1 X ′ y . Cet estimateur est identique a elui des MCO et
est sans biais. En remplaçant β par β̂ dans la se onde ondition et en la multipliant par 2σ 2 ,on obtient
ǫ′ ǫ
σ̂ 2 = (3.72)
T
omme estimateur de maximum de σ 2 par vraisemblan e. Cet estimateur est biaisé . Les onditions du
se ond ordre nous amènent à al uler le Hessien. La matri e Hessienne H s'obtient en dérivant le ve teur
!
1 ′ ′
2σ2 (−2X y + 2X X β̂) (3.73)
−T 1 ′
ˆ2 + ˆ4 ((y − Xβ) (y − Xβ))
σ σ
63
Chapitre 3. Régression linéaire empirique
qui est dénie négative puisque (X ′ X) est dénie positive et σ 2 > 0. Nous avons don bien un maximum.
Exemple numérique
Une asso iation de produ teurs d'oignons voudrait étudier l'inuen e sur la produ tion de d'oignons
par he tare (Y ) des quantités de main-d'oeuvre (X1 ) et d'engrais (X2 ) employées par he tare. Une enquête
est menée hez dix produ teurs d'oignons (i = 1, ..., 10) et l'on postule la forme fon tionnelle suivante :
où ǫi est un terme d'erreur aléatoire satisfaisant nos hypothèses (bruit blan ). Les données de l'é hatillon
sont résumées dans la matri e suivante :
P 2
P P P
P(log(Yt )) (log(Yt )) (log(Yt )) log(X1i ) (log(Y
P t )) log(X2i )
P (log(Y t )) P T log(X 1i ) P (log(X2i ))
=
2
P (log(Y t )) log(X 1i ) P log(X 1i ) log(X 1i ) (log(Y
P t )) log(X 2i )
(log(Yt )) log(X2i ) log(X2i ) log(X1i ) log(X2i ) (log(X2i ))2
19.14 11.8 7.1 4.1
11.8 10 2 2
7.1 2 7 1
4.1 2 1 7
10 2 2
(X ′ X) = 2 7 1
2 1 7
y ′ y = 19.14
11.8
X ′ y = 7.1
4.1
48 12 −12
1
(X ′ X)−1 = 432 12 66 −6
−12 −6 66
1
β̂ = (X ′ X)−1 X ′ y = 0.7
0.2
β̂ ′ X ′ y = 17.59
64
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
ǫˆ′ ǫ̂ 1.75
s2 = T −3 = 10−3 = 0.25
1.75
R2 = 1 − 2 = 0.677
19.34− (11.8)
10
R̄2 = 97 0.677 − 2
7 = 0.585
Les résultats peuvent être résumés de la façon suivante (les estimations des é arts-types se trouvent entre
parenthèses) :
Nous allons montrer que l'estimateur β̂ = (X ′ X)−1 X ′ Y de moindres arrés est un estimateur
onvergent de β dans le modèle lassique Y = Xβ + ǫ sous les hypothèses suivantes :
3. H3 : Le ve teur X des expli atives est non sto hastique de rang K < n).
P
limn→∞ 1 ′
N (X X) = XX une matri e dénie positive.
E(X ′ ǫ) = X ′ E(X ′ ǫ) = 0
hP i PT
T
V (X ′ ǫ) = V t=1 xtk ǫt = σ 2 t=1 x2tk
et
PT
V ( n1 X ′ ǫ) = 1 2
n2 σ t=1 x2tk
x2tk
PT
Mais σ 2 = t=1
n onverge par l'hypothèse H4 vers une limite nie. Don V ( n1 X ′ ǫ) tend vers zéro
quand n tend vers l'inni. On on lut que les omposantes de ( n1 X ′ ǫ) vérient E( n1 X ′ ǫ) = 0.
Ce i montre que p lim( n1 X ′ ǫ) = 0. On a alors :
plimβ̂ = plim[β + (X ′ X)−1 ǫ]
= β + plim[(X ′X)−1 ǫ]
= β + plim[( n1 X ′ X)−1 n1 ǫ]
1
X ′ X)−1 ]plim[ n1 ǫ]
= β + plim[(
P−1 n
= β + XX ×0K×1 = β
65
Chapitre 3. Régression linéaire empirique
Normalité asymptotique
Tous les tests présentes dans les se tions pré édentes supposent la normalité des erreurs. Qu'en est-il
si l'on relâ he ette hypothèse spé ique sur la distribution du ve teur ǫ ? En utilisant le théorème Central
limite on va établir la normalité asymptotique de β̂ . Si la taille l'é hantillon tend vers l'inni, on se base
sur la distribution normale pour onstruire les tests asymptotiques sur le ve teur β .
Remarque 12 En pratique on raisonne, en supposant que σ est onnu pour pouvoir utiliser la loi normale
au lieu de elle de student dans le as ou σ est in onnu.
Théorème 3 Supposons que les hypothèses H1 et H2 soient vériées, et soit αt la t-ieme olonne de la
P
transposée de X (X'). Dénissons le ve teur Zt = ǫt αt et supposons √1n Zt vérie le théorème entral
limite. Alors pour β̂ = (X ′ X)−1 X ′ y :
√ P
(a) dlim n(β̂ − β) ∼ N (0, σ 2 −1 XX
Preuve
P P 2 ′
Notons que E(Zt ) = 0 et V (Zt) = σ 2 α′t αt Par onséquent : lim n1 V (Zt) = σ αt αt =
n−→inf
P−1
XX matri e dénie positive d'après H4 . En vertu du théorème entral limite, on a :
2
σ
√ P P
dlim n(β̂ − β) = √1n Zt ∼ N (0, σ 2 −1
XX
Notons que
√
dlim n(β̂ − β) = ( n1 (X ′ X)−1 √1n X ′ ǫ
√
dlim n(β̂ − β) = ( n1 (X ′ X)−1 dlimX ′ ǫ
P P P−1
et appliquons les résultats i-dessous : ∼ N (0, σ 2 −1XX ( XX ) XX
P
∼ N (0, σ 2 −1XX )
(b) Pour la preuve de la se onde partie du théorème, on rappelle :
SCR = ǫ̂′ ǫ̂) = ǫ̂′ M ǫ̂) = ǫ̂′ [I − X(X ′ X)X ′ ]ǫ̂)
Don
( n1 ǫ′ ǫ) = ( n1 Xǫ′ )( n1 X ′ X)−1 ( n1 X ′ ǫ̂)
P−1
plim( n1 ǫ̂′ ǫ̂) = plim( n1 ǫ′ ǫ) − O1×K XX OK×1 = σ 2
en vertu du théorème de Slutsky et de l'hypothèse du théorème.
y = Xβ + ǫ (3.76)
H1 : E(y) = Xβ
P
H2 : Les erreurs sont non sphériques : V (y) = V (ǫ) = une matri e dénie positive
66
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
H3 : Les régresseurs sont non sto hastiques i.e X est non aléatoire de rang K ssi la matri e (X ′ X)
est de format K × K .
H3 : Multi olinéarité implique que y ∼ N M V (Xβ; Σ) ave
V (y) = Σ = σ 2 Ω (σ 2 suppose onnu)
ou X est une matri e des expli atives de format (n, K) et de rang K, et un ve teur aléatoire appartenant
à RN . On suppose que
E(ǫ) = 0 et V (ǫ) = σ 2 Ω
où Σ est une matri e symétrique dénie positive onnue. Pour montrer que l'estimateur moindre arrés
généralisés est BLUE, il est important de al uler les ra ines de Ω−1 .
On sait qu'il existe une matri e inversible H orthogonale telle que H ′ Ω−1 H = I et, par suite
H ′ H = Ω−1 . En posant y1 = Hy , X1 = HX et ǫ1 = Hǫ le modèle [3.76℄ s'é rit sous la forme équivalente :
y1 = X1 β + ǫ 1 (3.77)
où la matri e β est de format (K, 1) où le résidu ǫ1 satisfait les hypothèses des moindres arrés
ordinaires,soit :
E(ǫ1 ) = 0 et V (ǫ1 ) = σ 2 I .
Propriétés de β̂mcg
E(β̂mcg ) = β V (β̂mcg ) = (X ′ Ω−1 X)−1 (3.79)
Théorème 4 (β̂mcg ) est l'unique estimateur linéaire sans biais de β qui minimise la varian e de
l'estimateur de toute forme linéaire de β .
suit une loi de χ2 de degré de liberté ν = n − K et est indépendante de (βmcg ). On en déduit les tests et
regions de onan e on ernant les omposantes de β omme dans les as d'un modèle satisfaisant aux
hypothèses des moindres arrés ordinaires.
67
Chapitre 3. Régression linéaire empirique
HO : Ω(0) = I ⇔ θ = 0
2. Si on suppose que Ω = Ω(θ), on utilise les résidus des MCO pour obtenir un estimateur onsistant
de θ̂ et Ω̂ = Ω(θ̂) estimateur qui dépend du type d'hétéro édasti ité, de orrélation et ...
On dénit l'estimateur de MCG réalisable par :
β̂mcg−r = (X ′ Ωˆ−1 X)−1 X ′ Ωˆ−1 y
√
n(β̂mcg−r − β̂mcg ) −→ 0
√
n(β̂mcg−r − β) ∼ N (0, V )
ave
2
V = plim(Smcg−r [ n1 X ′ Ω̂−1 X)−1 ]−1 )
3. Si la forme de (Ω(θ̂)) est in onnue, d'autres al uls permettent de al uler la distribution asympto-
tique de
√
n(β̂mcg−r − β) ∼ N (0, D−1 CD−1 )
ave
ave Σ = V (y)D̂ est onsistant. Le problème est de trouver un estimateur onsistant de C sans imposer
des ontraintes sur Σ matri e de varian e ovarian e asymptotique D−1 CD−1 , matri e robuste ave des
restri tions parti ulières sur la distribution hétérogène et on impose la dépendan e des observations.
68
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
Si ρ̂ est un estimateur onvergent de ρ et supposons que lim 1 (X ′ Ω−1 X) = Q soit une matri e
n→lim inf n
dénie positive. Soit H la matri e de transformation telle que H ′ H = Ω−1 , soit [X ′ H ′ ]t la t-ieme olonne
de X ′ H ′ , et supposons que les ve teurs Zt = (Hǫ)t [X ′ H ′ ] vérient le théorème entral limite. On obtient
ˆ
( 1 ρ̂ ... ρn−1
β̂ = (X ′ Ω−1 X)−1 X ′ Ω−1 yet ρ̂ 1 ... ...
les deux estimateurs ˆ ou Ω̂ =
β̂ = (X ′ Ω̂−1 X)−1 X ′ Ω̂−1 y ... ... ...
ρ ˆ
n−1 ... ... 1
Sous les hypothèses additionnelles que :
Preuve
Notons tout d'abord que
√
n(β̂ − β) = ( n1 (X ′ Ω−1 X)−1 X ′ √1n Ω−1 ǫ et que
P
X ′ Ω−1 ǫ = X ′ H ′ Hǫ = Zt
En eet :
√
n(β̂ − β) = 1 ′ −1
n (X Ω X)( n1 X ′ Ω−1 ǫ , dlim 1 ′ −1
nX Ω ǫ ∼ N (0, σ 2 Q)
et don
√
n(β̂ − β) ∼ N 0, σ 2 Q−1
La preuve est exa tement la même que elle de la se tion [3.5℄ et il sut de rempla er y par Hy et X par
ˆ
HX . Comme plimβ̂ = β = plimβ̂ et omme plimΩ̂ = Ω le théorème de Slutsky implique que s2 = σ 2
69
Chapitre 3. Régression linéaire empirique
qt = γ + αlt + βkt + ut
α + β = 1 ⇒ qt = γ + (1 − β)lt + βkt + ut
qt − lt = γ + β(kt − lt ) + ut
2. Pro édure
On dénit βˆc l'estimateur du modèle ontraint et β̂nc l'estimateur du modèle non ontraint.
Théorème 6 Soit
y = Xβ + u
Preuve
Formons le Lagrangien
L(β, λ) = SCR(β) − λ′ (Rβ − c) (3.82)
70
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
λ̂
(X ′ X)−1 − X ′ y + βˆc = −(X ′ X)−1 R′ (3.87)
2
De l'équation [3.87℄ on tire la valeur βˆc qu'on remet dans [3.86℄ pour déterminer
λ̂
= [R(X ′ X)−1 R′ ]−1 (Rβˆnc − c) (3.88)
2
En remplaçant λ̂
2 dans [3.87℄ on obtient :
Premier as
H0 : Rβ = c est vraie Sous H1 − H3 , on sait que βˆnc est sans biais, on a
Propriétés
Sous H1 − H4 et H0 , βnc est sans et plus pré is que l'estimateur βˆnc Autrement dit, l'estimateur est
sans biais et l'on gagne en pré ision lorsque on intègre les ontraintes par H0 . Ce résultat est intuitif : les
ontraintes Rβ = c onstituent un ensemble d'information supplémentaires sur β dont la prise en ompte
réduit l'in ertitude ae tant l'estimation.
Preuve D 'après [3.90℄
En notant
W = (X ′ X)−1 R′ [R(X ′ X)−1 R′ ]−1 R une matri e ertaine (3.92)
On a
β̂c = β̂nc − w(Rβ̂nc − c) (3.93)
71
Chapitre 3. Régression linéaire empirique
Déterminons d'abord que β̂c est un estimateur sans biais sous H1 − H4 et H0 . Ce résultat se déduit
dire tement de l'equation [3.81℄ ar β̂nc est sans biais et, sous H0 on a E(Rβ̂nc ) = RE(β̂nc ) = Rβ =
c. D'où E(β̂c ) = β − W.0 = β
Démontrons maintenant que β̂c est plus pré is que β̂nc sous H1 − H4 et H0 Il s'agit de démontrer
que V (β̂nc ) − V (β̂c ) est une matri e dénie positive, ou V (β̂nc ) et V (β̂c ) sont respe tivement les
varian es de (β̂nc ) et (β̂c )
Puisque β̂nc = (X ′ X)−1 X ′ y = β + (X ′ X)−1 X ′ u, on en déduit de [3.90℄ :
Or sous H0 : Rβ = c. On a don
'est-à-dire
On a don
La dieren e V (βˆnc ) − V (βˆc ) est bien égale a une matri e dénie positive puisqu'elle est de la forme
σ 2 ABA′ 4 qui est une matri e dénie positive.
Deuxieme
as : Rβ 6= 0
Lorsque H0 n'est pas vériée, l'estimateur ontraint βc est biaisé
4. ave A = [(X ′ X)−1 R′ ] et B = [R(X ′ X)−1 R′ ]−1
72
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
Preuve
D'après la ontrainte, on sait que Rβc = c. On en déduit E(Rβc ) = c. Si βc était sans biais, on aurait
E(Rβc ) = Rβ , d'ou Rβ = c. Or ette on lusion ontredit notre hypothèse Rβ 6= 0. Don , βc est biaisé.
73
Chapitre 3. Régression linéaire empirique
74
Chapitre 4
n 4
n(n − 1) X xi − x̄ (n − 1)2
k= −3
(n − 1)(n − 2)(n − 2) i=1 s (n − 2)(n − 3)
Si es indi ateurs sont susamment pro hes de la valeur 0, l'hypothèse de ompatibilité ave la loi normale
ne peut être rejetée. Tout le problème est de quantier e degré de proximité. Il faudrait onnaître la
loi de probabilité de es indi ateurs pour mettre en pla e un test statistique permettant de déterminer
si l'é art est signi atif ou non ; ou tout du moins, al uler les é art-types et utiliser les distributions
asymptotiques pour réaliser le test. Nous détaillerons es pro édures i-dessous.
75
Chapitre 4. Les Tests de bonne spé i ation du modèle
Le test de Jarque-Bera 1 onsiste à tester la symétrie et l'applatissement des queues de la variable étudiée.
Prin ipe
Le test d'asymétrie revient à tester la nullité du skewness :
H01 : γ1 = 0 vs H11 : γ1 6= 0
γ1 n→∞
tγ 1 = q ∼ N (0, 1)
6
n
On en déduit que
n→∞
t2γ1 ∼ χ2 (1)
H02 : γ2 − 3 = 0 vs H22 : γ2 − 3 6= 0
γ2 − 3 n→∞
tγ 2 = q ∼ N (0, 1)
24
n
On en déduit que
n→∞
t2γ2 ∼ χ2 (1)
Si le JB al ulé est supérieur au χ2 (2) au seuil α on rejette H0 , les résidus ne sont pas normaux.
1. JB6 : Stata modules to perform Jarque-Bera test for normality ;LMNGR : Stata module to ompute Jarque-Bera.
76
4.1. Test sur les résidus
Remarque 14 Ce test est toujours moins puissant que le test de D'Agostino .-à-d. il a une propension
plus élevée à on lure à la ompatibilité ave la loi normale. On devrait don toujours préférer e dernier.
Dans la pratique, les é arts de puissan e s'amenuisent à mesure que les ee tifs augmentent. La simpli ité
des al uls, très fa iles à appréhender et à mettre en oeuvre sur des outils simples tels qu'un tableur,
militent en faveur du test de Jarque-Bera. En dimension nie on orrige la JB omme suit
n
JB ∗ = JB ∼ χ2 (2)
n−1
Test de Shapiro-Wilk
Très populaire, le test de Shapiro-Wilk est basé sur la statistique W. En omparaison des autres tests,
il est parti ulièrement puissant pour les petits ee tifs (n ≤ 50). La statistique du test s'é rit :
hP i2
⌊n/2⌋
i=1 ai (xn−i+1 − xi )
W = Pn (4.5)
i=1 (xi − x̄)2
Les valeurs seuils W rit pour diérents risques α et ee tifs n sont lues dans la table de Shapiro-Wilk 2 .
Test de D'Agostino
77
Chapitre 4. Les Tests de bonne spé i ation du modèle
Une première transformation est ee tuée sur le oe ient d'asymétrie. Les al uls su essifs sont les
suivants :
Pn 3
n−1 i=1 xis−x̄
γ̂1 = P 2 3/2
n−1 ni=1 xis−x̄
s
(n − 1)(n − 3)
A = γ̂1
6(n − 2)
(n2 + 27n − 70)(n − 1)(n − 3)
B =
(n − 2)(n + 5)(n + 7)(n + 9)
p
C = 2(B − 1) − 1
√
D = C
1
E =
ln D
A
F = p
2/(C − 1)
p
z1 = E ln F + F 2 + 1
L = 1 −q 2/K
2
1 + H K−4
(1 − 2/9K) − L1/3
Z2 = q
2
9K
z1 et z2 suivent tous deux asymptotiquement une loi normale N (0, 1). La statistique du test est la
ombinaison
K 2 = z12 + z22 ∼ χ2 (2)
L'in ompatibilité de la distribution évaluée ave la loi normale est d'autant plus marquée que la statistique
K 2 prend une valeur élevée. Pour un risque α, la region ritique du test s'e rit :
78
4.1. Test sur les résidus
Pour une meilleure e a ité, nous produisons une estimation de la varian e plus pré ise :
6n(n − 1)
σ12 =
(n + 1)(n − 2)(n − 3)
γ̂1
Sous l'hypothèse nulle de distribution normale, le rapport σ12
suit asymptotiquement une loi N(0, 1). La
région ritique du test s'é rit :
γ̂1
R.C :| |> u1(1−α)
σ12
où u1(1−α) est le quantile d'ordre 1 − α lue dans la table de la loi normale entrée éduite. Il s'agit d'une
distribution asymptotique. Mais e test peut être utilisé pour des ee tifs relativement faibles. On le
onseille généralement pour 8 < n < 5000.
Le test d'hétéro édasti ité revient à tester la nullité des paramètres sauf elui asso ié à la onstante.
La statistique ainsi dénie est : W h = nR2 ∼ χ2 (q) ave q le nombre de paramètres nuls sauf la onstante
i. e q=5 dans notre exemple.
k(k + 1)
q= −1
2
79
Chapitre 4. Les Tests de bonne spé i ation du modèle
y = Xβ + ǫ
ave
E(ǫ) = 0,
E(ǫǫ′ ) = σt2 = h(Zα)
On note Zt = [1, Z1 , . . . , Zp ] ; et α = [α1 , . . . , αp ]. On teste la nullité des p paramètres asso iés aux
variables expli atives responsables de l' hétéro édasti ité.
H0 : α1 = 0, . . . , αp = 0 vs H1 : ∃i; αi 6= 0
3. Sous H0 la moitié de la somme des arés expliqués tend vers hi-deux à p degrés de liberté.
SCE SCE
∼ χ2 (p) Rejet de H0 si > χ2α (p)
2 2
W h = nR2 ∼ χ2 (p)
Remarque 16 Si la taille de l'é hantillon n est assez grande , il existe n-1 auto- ovarian es et auto or-
rélations
γ0 γ1 . . . γn−1 1 ρ1 . . . ρn−1
γ1 γ0 . . . γn−1 ρ1 1 . . . ρn−1
= σ2 (4.7)
V (ǫ) = .. .. .. .. .. .. .. ..
. . . . . . . .
γn−1 γn−2 ... γ0 ρn−1 ρn−2 ... 1
4. Stata : estat hettest : Breus h-Pagan Test
80
4.1. Test sur les résidus
ǫt = ρǫt−1 + et
Une des raisons de l'auto orrélation peut être l'omission par exemple de la dynamique dans la
programmation. En un mot, la non prise en ompte des retards de la variable endogène dans le modèle
par exemple : Soit
yt = β1 + β2 xt + β3 yt−1 + ǫt (4.8)
yt = β1 + β2 xt + ut (4.9)
ave
ut = β3 yt−1 + ǫt (4.10)
ut = β3 β1 + β3 β2 xt−1 + β3 ut − 1 + ǫt (4.13)
On voit bien que l'omission de yt−1 dans le modèle entraîne une auto orrélation des résidus.
et
ǫt = ρǫt−1 + et ave omme hypothèse |ρ| < 1 (4.15)
ave
E(e) = 0; E(ee′ ) = σ 2 In
Xn
β̂ = yt yt−1
i=1
Pn
Le biais de β̂ va dépendre de la limite en probabilité de n−1 i=1 yt−1 ǫt . On donne l'expression de
yt−1 par ré urren e.
yt−1 = ǫt−1 + βǫt−2 + β 2 ǫt−3 + . . . (4.16)
81
Chapitre 4. Les Tests de bonne spé i ation du modèle
Cette plim étant diérente de zéro, don l'estimateur des MCO en présen e d'auto orrélation des résidus
et de retards de la variable endogène est biaisé et iné a e. Dans le as des résidus auto orrélés on utilise
l'estimateur des moindre arrés généralisés. Soit le modèle :
yt = βxt + ǫt (4.18)
et
ǫt = ρǫt−1 + et ave omme hypothèse |ρ| < 1 (4.19)
Pn
yt yt−1
β̂mco = i=1
; V (β̂) = (X ′ X)−1 X ′ ΩX(X ′ X)−1 (4.20)
V (xt )
ave X = [x1 , x2 , ..., xn ] et est la matri e de varian e ovarian e dénie par [4.7℄. En substituant par [4.7℄
dans [4.20℄ on obtient :
Pn Pn
′ −1 ′ ′ −1 σ2 i=2 xt xt−1 i=3 xt xt−2 n−1 x1 xn
β̂ = V (β̂) = (X X) X ΩX(X X) = Pn 2 1 + 2ρ Pn 2 + 2ρ Pn 2 + . . . , +2ρ Pn 2
i=1 xt i=1 xt i=1 xt i=1 xt
(4.21)
On peut aussi dénir l'estimateur des moindres arrés ordinanires qui tient ompte de l'auto orrélation
des résidus :
β̂mcg = (X ′ Ω−1 X)−1 X ′ Ω−1 y; V (β̂mcg ) = (X ′ Ω−1 X)−1 (4.22)
En négligeant le se ond terme de l'équation [4.15℄ et en al ulant le ratio [4.17℄ et [4.15℄ obtient
V (β̂mcg ) 1 − ρ2
= (4.24)
V (β̂mco ) (1 + ρ2 − 2ρr)(1 + 2ρ)
et
ǫt = ρǫt−1 + et
H0 : ρ = 0 vs H1 : ρ 6= 0
82
4.1. Test sur les résidus
Soit
ǫ = y − Xβ = M ǫ; ⇒ V (ǫ̂M ) = σ 2 M ;
Si l'hypothèse nulle est vraie alors, V (ǫ) = σ 2 In . La statistique de Durbin-Waston permet de tester
l'hypothèse H0 .
Test de Durbin-Waston
Le test Durbin-Waston permet de tester l'auto orrélation des résidus à l'ordre 1. On onsidère le
modèle linéaire lassique et on fait les hypothèses suivantes :
a) le modèle doit omporter une onstante ;
b) le modèle ne doit pas omporter le retard de la variable endogène ;
) les résidus doivent suivre une loi normale gaussienne ;
En négligeant le se ond terme de l'équation [4.15℄ et en al ulant le ratio [4.17℄ et [4.15℄ obtient
Pn Pn Pn 2
Pn 2
(ǫ̂ − ǫ̂ )2 i=2 ǫ̂t −2
i=2 ǫ̂t ǫ̂t−1 + i=2 ǫ̂t−1
d= Pnt 2t−1
i=2
= P n 2 (4.25)
i=2 ǫ̂t i=2 t ǫ̂
Quand la taille de l'é hantillon tend vers l'inni(n → ∞) on a :
n
X n
X
ǫ̂2t ≃ ǫ̂2t−1
i=2 i=2
Don Pn
i=2 ǫ̂t ǫ̂t−1
d = 2(1 − ρ̂); ρ̂ = P n 2 (4.26)
i=2 ǫ̂t
La pro édure de test est la suivante :
Test de H0 : ρ = 0 vs H1 : ρ > 0
Comme pour ρ̂, la loi de d dépend des observations ontenues dans Xn×K . Il est don impossible de
dénir de manière générale la loi que suit la statistique d sous l'hypothèse nulle. Durbin et Waston ont
montré, qu'il est possible d'en adrer d par les valeurs prises par deux variables aléatoires, δL et δU . Sous
H0 : (ρ = 0), on pourrait al uler, pour un risque de première α, la valeur d∗α dénie par :
P (d < d∗α ) = α
Remarque 17 En pratique, on ne onnait pas α, mais les bornes asso iées dL,α et UL,α . On dénit
l'en adrement suivant
d∗L,α < d < d∗U,α
83
Chapitre 4. Les Tests de bonne spé i ation du modèle
Test de Wallis
Wallis a fait une extension du test DW à des données ae tées par des saisonnalités. Dans la pratique
on doit désaisonnaliser es données sinon il faut tenir ompte des perturbations qui peuvent onduire à
un pro essus autorégressif d'ordre 4.
ǫt = ρǫt−1 + et ave ; |ρ| < 1
où et est un bruit blan , i.e.et ∼ iid(0, σ 2 )
Dans e as, Wallis a montré que le test de l'hypothèse nulle H0 : ρ = 0 pouvait être onduit par :
P
n(ǫ̂ − ǫ̂ )
d4 = t=5 P t 2 t−4
t=1 nǫ̂t
La pro édure du test est faite sur l'hypothèse que le ve teur X des expli atives est non sto hastique.
On suppose en suite que la taille de l'é hantillon tend vers l'inni. Soit le modèle i-dessous
yt = β1 yt−1 + β2 yt−2 + . . . + βr yt−r + βr+1 xt1 + βr+2 xt2 + . . . + βr+s xt+s + ǫt (4.27)
ǫt = ρǫt−1 + et ; et ∼ N (0, σ 2 )
2. Des résidus estimés on al ul ρ̂. Si le DW est donné par un logi iel on al ule
d
ρ̂ = 1 − (4.29)
2
4. Pour une valeur négative de h, un test unilatéral à gau he peut être utilisé.
Remarque 20
P ′ P−1
Si Z ∼ N (0, I) alors ZZ ′ ∼ N 2 (0, I) = χ2 (n) Si x ∼ N (0, ) ⇒ (x − µ) (x− µ) →
χ2 (n) Si u ∼ χ2 (m) et v ∼ χ2 (n) alors u + v ∼ χ2 (m + n) ;
χ2 (m)/m
χ2 (n)/n ∼ F (m, n)
Si Z ∼ N (0, 1) et v ∼ χ2 (n) alors
Z
p ∼ t(n) et t2 (n) ∼ F (1, n)
v/n
β̂mco = (X ′ X)−1 X ′ y
ave
E(β̂mco ) = β
85
Chapitre 4. Les Tests de bonne spé i ation du modèle
On en déduit que
−1
u = (β̂ − β)′ σ 2 ((X ′ X)−1 (β̂ − β) ∼ χ2 (n − k)
et
v = σ −2 (y − X β̂)′ (y − X β̂) ∼ χ2 (n − k)
H0 : β = β0 vs H1 : β 6= β0
ou en ore
SCE/k
F = ∼ F (k, T − k)
SCR/n − k
X β̂
Si on pose
ye = X(β̂ − β); ⇒ ye′ ye = (β̂ − β)′ (X ′ X)(β̂ − β)
Don tester H0 : β − β0 revient à omparer X β̂ et Xβ0 . La distan e qui sépare les deux ve teurs est
dénie par
SCR ǫ′ MX ǫ
ǫ′ PX ǫ = (β̂X − Xβ0 )′ (β̂X − Xβ0 ) ⇒ σ̂ 2 = =
n−k n−k
On montre que
ǫ′ PX ǫ ǫ′ MX ǫ
F = /
k n−k
On peut généraliser e test dans le as de l'hypothèse
H0 : Rβ = c vs H1 : Rβ 6= c
86
4.2. Tests sur les paramètres
On peut donner une variante du Fisher qui est obtenu à partir des SCR sous H0 et SCRn sous H1
A partir de ette dernière expression du Fisher, on peut le réé rire en fon tion des oe ients de
détermination sous H0 et sous sous H1.
2
(Rnc − Rc2 )/J
F = 2 )/n − k
∼ F (J, n − k)
(1 − Rnc
On en déduit la statistique qui teste la nullité onjointe des paramètres sauf la onstante :
Soit
yt = β0 + β1 x1t + β2 x2t + ldots + βj xjt + ǫt
On veut tester
H0 : β1 = β2 = . . . = βj = 0 vs H1; ∃i tel que βi 6= 0
ŷ2 = X2 β̂1
d = y2 − ŷ2 = y2 − X2 β̂1
87
Chapitre 4. Les Tests de bonne spé i ation du modèle
et
u = d′ {σ 2 [In2 + X2(X1′ X1 )−1 X ′ 2]−1 d} ∼ χ2 (n2 )
On sait que
v = ǫ̂′1 ǫ̂1 /σ 2 ∼ χ2 (n1 − k)
Remarque 22 Dans le as d'une hétéro édasti ité des erreurs e test n'est plus valide
y1 = Xβ + u1 (4.30)
y2 = Xα + u2 = X2 β + X2 (α − β0 ) + u2 = X2 β + γ + u2 (4.31)
où
γ = X2 (α − β0 )
γ=0⇒α=β
H0 : γ = 0 vs H1 : γ 6= 0
88
4.2. Tests sur les paramètres
dˆ′ [V (d)] ˆ
ˆ −1 d/n2
F = ′ ∼ F (n2 , n1 − k)
u1 u1 /(n1 − k)
On peut aussi implémenter la statistique de test en utilisant les régressions sous H0 et sous H1 .
- On régresse y1 sur x1 , ave n1 observation et obtient SCRc = u′1 u1 .
- On régresse la même régression sur (n1 + n2 ) observations : SCRnc
y2 = x2 β2 + ǫ2 ; SCR2 (4.33)
Les équations [4.32℄ et [4.33℄ sont onstruites sous H1 : SCR1 6= SCR2. Sous l'hypothèse de stabilité des
paramètres
H0 : SCR1 = SCR2 où H0 : β1 = β2 = β
Prin ipe
1. On estime les modèles [4.32℄ et [4.33℄ on al ule SCR1 et SCR2 .
Remarque 23 Le test de how suppose que les erreurs sont homo édastiques ; i.e s21 et s22 sont identiques
qui sont des estimateurs sans biais de σ12 et σ22 .
On montre
(n1 − k)s21 (n1 − k)s22
2 ∼ χ2 (n1 − k) et ∼ χ2 (n2 − k)
σ1 σ22
Les deux statistiques étant indépendantes
s21 s22
/ ∼ F (n1 − k; n2 − k)
σ12 σ22
Sous
s21
H0 : σ12 = σ22 ; et ∼ F (n1 − k; n2 − k)
s22
Si on rejette H0 la statistique de Chow n' est plus valide. On utilise la statistique de Wald pour tester le
hangement stru turel.
89
Chapitre 4. Les Tests de bonne spé i ation du modèle
Soient
V̂1 = s21 (X1′ X1 )−1 et V̂2 = s22 (X2′ X2 )−1
Remarque 24 Ce test est identique au test d'Hausman et on rejette H0 si W > χ2 (k) auseuil α.
90
Chapitre 5
Modèles Non-Linéaires
Y = aK α Lβ exp(ǫ) (5.1)
Les oe ients asso iés au logarithme s'interprètent omme des élasti ités du produit en rapport à es
variables.
∆y/y ∂ ln y
exy = =
∆x/x ∂ ln x
Les oe ients des données après la transformation pourront être éstimés par les MCO.
91
Chapitre 5. Modèles Non-Linéaires
où Yt est l'output à la période t , Kt est l'input apital , Lt est l'input travail et ǫt est un ho additionnel
de la produ tion ave E(ǫt |Kt , Lt ) = 0 la moyenne onditionnelle. Les propriètés de la fon tion de la
produ tion (monotonie, on avité) sont satisfaites si A > 0, 0 < δ < 1, 0 < ρ < 1 qui déterminent
l'espa e Θ.
où Rt+1 est le taux de rendement ex-post (1+ taux de rendement issu de l'équation), ct est la
onsommation, β est le fa teur d'é artement, u′ (c) est l'utilité marginal, et It est l'information valable à
la date t. On suppose que la fon tion d'utilité prend la forme suivante
c1−α
u(c) =
1−α
ave −α
ct+1 ct+1
a , Rt+1 ; α, β ≡ Rt+1 .β −1 (5.6)
ct ct
Si xt est un ve teur dont les valeurs sont onnues à l'instant t alors, xt ∈ It et il s'en suit de l'équation
[5.6℄ que
ct+1
E xt .a , Rt+1 ; α, β |It = 0 (5.7)
ct
En prenant l'espéran e onditionnelle des deux otés et en utilisant la Loi des espéren es totales que
EE[(x|It )] = E(x̂), nous obtenons la ondition d'orthoganalité (moyenne nulle E[(g(wt ; θ0 ))] = 0) où
xt
ct+1 β
g(wt ; θ0 ) = xt .a , Rt+1 ; α, β ave wt = ct+1 /ct , θ =
(5.8)
ct α
Rt+1
Un autre modèle fréquemment utilisé en é onomie de la dé ision est le modèle probit ou logit. Ces modèles
permettent de modéliser une variable binaire y qui prend deux valeurs : 1 si la dé ision est favorable 0
sinon. Par exemple la banque dé ide d'a order un rédit à son lient i, (yi = 1 et 0 sinon). Ces modèles
92
5.2. Présentation du modèle non linéaire
sont onstruits à partir des fon tions de répartition de la loi normale Φ(xi β) et la loi Logistique Λ(xi β).
La probabilité onditionnelle de yi pour le ve teur des régresseurs onnus xi donné est dénie par
P (yi = 1|xi , β) = F (x′i β), ,
(5.9)
P (yi = 0|xi , β) = 1 − F (x′i β), .
Comme yi suit une loi de Bernoulli la probalité onditionnelle de la la dé ision est déne par :
Si au une restri tion est faite sur le paramètre β , l'espa e des paramètres Θ ∈ RK . L'estimateur du
maximum de vraisemblan e est un M-estimateur pour l'individu i ave omme ontribution de et individu
à la vraisemblan e la fon tion donnée par
ave Z x′i β 2
1 t
φ(x′i β) = √ exp − dt
−∞ 2π 2
Pour le modèle Logit on obtient :
n
X
l(xi , β) = [ln f (yi = 1|xi , β) = yi ln Λ(x′i β) + (1 − yi )(1 − Λ(x′i β))] (5.14)
i=1
ave
1 exp(x′i β)
Λ(x′i β) = =
1 + exp(−x′i β) 1 + exp(x′i β)
Remarque 25 Dans les modèles linéaires ette surfa e était l'espa e ve toriel S(X) engendré par les
olonnes de la matri e X des expli atives. L'estimateur des moindres arrés ordinaires est unique et
s'obtient en projetant y sur S(X).
Dans le modèle non linéaire la surfa e des solutions est une vatiété de diérentielles de RN dont la
dimension est p.
93
Chapitre 5. Modèles Non-Linéaires
Le ritère des moindres arrés non linéaires (MCNL) onsiste à hoisir pour estimer le ve teur de
paramètres β le point le plus pro he possible, au sens de de la norme eu ludienne, du point y orrespondant
au ve teur y observé.
Dénition 7 Un estimateur des MCNL de β lorsqu'il existe est une variable dont la réalisation
orrespondant à l'observation yt muni de la fon tion de perte L2 (β) est dénie par :
Remarque 26 Pour que l'estimateur β̂ , existe on va supposer que l'espa e Θ est ompa t ; i.e on a un
domaine borné de variation de β , dans e as pour toute réalisation de y , il existe au moins une valeur
de β pour laquelle le minimum est atteint.
On peut aussi supposer que Θ est un onvexe fermé pour assurer l'existen e de β̂
5 9
1 3 7
2
4 6 8
β̂(N LS)
Proposition 9 Tout estimateur des MCNL à l'interieur de Θ est une solution des équations normales
Preuve
94
5.2. Présentation du modèle non linéaire
Tout estimateur par la méthode des moindres arrés est par dénition un ve teur qui minimise la
somme des arrés ssr(β) ou la L(β)
N
∂L(β) ∂SSR(β) X ∂ft (β)
= = −2 (y − f (β)) = 0 j = 1, . . . , K
∂βj β=β̂ ∂βj β=β̂ t=1
∂βj β=β̂
∂ft (β)
ft′ (β) =
∂βj
N
∂SSR(β) X
= −2 (ft′ (β)) ǫt (β) = −2 f ′ (β ⊤ )ǫt (β)
∂βj β=β̂ t=1
Si on se limite uniquement aux onditions du premier ordre, il existe 9 points qui vérient es
onditions (gure [5.1℄). Mais 4 points seulement sont des minima.
L'estimateur β̂MCN L est déni de manière unique qui minimise la fon tion de perte L2 i.e le minimum
global.
Pour trouver le minimum global, il faut hoisir le point de départ qui permet de onverger rapidement
vers e minimum β̂MN L . Si on ne hoisit pas bien le point de départ l'itération diverge et on obtient les
plus petits estimateurs trouvés.
est une forme quadratique des résidus et par un al ul matri iel on trouve le minimum du SSR(β) quel
que soit le point de départ.
Pour le as non linéaire la solution peut ne pas être unique omme le montre la gure [5.2℄ ar
SSR(α̂ − β̂) = SSR(α̂ + β̂).
95
Chapitre 5. Modèles Non-Linéaires
−β̂ +β̂
Le problème de non uni ité du minimum est un problème d'identi ation des paramètres du modèle.
Le ve teur β des paramètres n'est pas identiable par les données, si K est supérieur à n et pas de
solution unique. On a n équations à K in onnues. On peut résoudre e système ave plusieurs valeurs
de β qui vérient le système d'équations normales, e qui peut s'expliquer par la taille restreinte de
l'é hatntillon.
Remarque 28 On peut ren ontrer souvent des problèmes d'identi ation même si K < n, 'est le as
de olinéarité des variables.
Dans le as linéaire e i se traduit par la relation suivante : Xγ = 0.
L'estimateur des moindres arrés n'est plus unique puisque la matri e X ⊤ X est singulière.
X ⊤ β̂ = X ⊤ (β̂ + aγ)
Supposons que
SSR(β) > SSR(β̂)∀β 6= β̂;
alors on peut on lure à un problème d'identi ation qui est dû à un problème de olinéarité des variables.
96
5.2. Présentation du modèle non linéaire
Preuve
Cal ulons la somme des arrés des résidus asso iée au paramètre β̂ + aγ
SSR(β̂ +aγ) = (y −X(β̂ +aγ))⊤ (y −X(β̂ +aγ)) = (y −X β̂ +aXγ)⊤(y −X β̂ +aXγ) = (y −X β̂)⊤ (y −X β̂)
Remarque 29 Si n < K , il peut exister des as où on peut avoir une dépendan e linéaire des expli atives.
Exemple Cas non linéaire
Dans le as de notre modèle la non identia tion est dû à la forme du modèle [5.17℄
Représentation graphique
Dans ette se tion on va onsidérer que la fon tion f (β) = x(β) pour x : RK −→ RN est une fon tion
x(β) générée par une variété qui implique la notion de surfa e.
L'espa e qui ontient la variété à une dimension supérieure elui engendré par les X.
e(β1 )
X(β ∗ )
X(β1 )
e(β3 )
X(β3 )
y = x(β) + ǫ ave
97
Chapitre 5. Modèles Non-Linéaires
i)E(ǫ) = 0
ii)E(ǫǫ⊤ ) = σ2 I
N
X
β̂MCN L = argminβ (SSR(β)) = (et (β))2 : dénition impli ite
t=1
Pour avoir une dénition moins impli ite on utilise l'équation i-dessous :
∂xt
[X(β)]⊤
ti = de format N × K
∂(β)
y
x(β)
Remarque 30 L'estimateur des moindres arrés ordinaires β̂mco est unique puisque on a y = Xβ + ǫ.
Xβ engendre un espa e β(X). La variété ourbée dans le modèle non linéaire devient une droite dans le
as linéaire.
98
5.2. Présentation du modèle non linéaire
PX y = X(β̂)
y
C'est une linéarité de la variété qui rend β̂mco unique dans le as linéaire.
Dans le as linéaire peut se poser aussi le problème d'identi ation. Ce as peut être illustré par la gure
[5.6℄
τ b y
Chaque point du er le est à égale distan e de y qui est le entre du er le et le problème d'identi ation
est dû aux données.
Espa e Paramétrique
Soit
y = α + β2x + ǫ (5.18)
99
Chapitre 5. Modèles Non-Linéaires
Nous avons i i aussi un problème d'identi ation puisque x(α, −β) = x(α, β). Dans les exemples dénis
plus haut l'espa e paramétrique est β ∈ RK et, on peut le réduire dans le as de l'équation [5.18℄ à :
Θ = R × R̄+ .
Si nous onsidérons le sous espa e déni i-avant, le ve teur −β est ex lu par e qu'il n'appartient pas à
l'espa e :
R :] − ∞, +∞[×R̄ :]0; +∞[
Sous et espa e il n'y a pas de problème d'identi ation des paramètres et on peut faire une reparamé-
trisation non linéaire. On pose γ = β 2 et l'équation [5.18℄ devient :
y = α + γx + ǫ (5.19)
H :] − ∞, +∞[×]0; +∞[
Dans e as H
α = α
γ = β2
√
γ = β
0 A
Py
Partie exclue du domaine
Py appartient à la partie ha hurée don on fait une régrssion sur ι le ve teur de la onstante (ve teur
de non négativité de γ
100
5.3. Estimation de la varian e des erreurs : σmcnl
2
SSR(β̂)
2
σnls = (5.20)
n−k
k est le nombre de paramètres estimés qui n'est pas obligatoirement égale au nombre de variables.
Remarque 31 Dans le as du modèle linéaire l'estimateur de la varian e du terme d'erreur est sans
biais.
2
E(σmco ) = σ2 .
Dans le as du modèle non linéaire et estimateur est asymptotiqument sans biais e qui se traduit par la
relation suivante
n
SSR(β̂) 1X
S2 = = et (β̂) et son espéran e est donnée par
n n t=1
n−k 2 k
E(S 2 ) = σ = (1 − )σ 2 .
n n
S 2 est un estimateur biaisé de σ 2 dont le biais est déni par − nk σ 2 . Ce biais s'annule quand n tend vers
l'inni, 'est-à-dire que S 2 est asymptotique sans biais.
L'estimateur σ̂nls
2
est un estimateur sans biais de σ 2 . On peut se demander lequel des deux estimateurs
prèfère-t-on ?
Le biais de S 2 est proportionnel à l'inverse de la taille de l'é hantillon (n−1 ) i.e biai(S 2 ) = (n−1 )
est de l'ordre de (n−1 ), en d'autres termes quand n tend vers l'inni le biais de (S 2 ) est de l'ordre de
(n−1 ).
Rappel
Dénition 9 Soient deux suites de fon tions f (n) et g(n). Si n tend vers l'inni, on dit que
f (n) = (g(n)) s'il existe N , K>0 tels que :
f (n)
∀m > N, < K ⇐⇒ |f (n) < Kg(n)|.
g(n)
k
f (n) = − σ 2 est (n−1 ) et g(n) = n− 1
n
On en déduit que
f (m)
< kσ 2 =⇒ K = kσ 2 + 1; N = 1
g(m)
Autre notation
f (m)
f (n) = ◦[g(n)] =⇒ ∀ǫ > 0, ∃N, telle que ∀m > N, <ǫ
g(m)
101
Chapitre 5. Modèles Non-Linéaires
2
E(σmcnl ) = σ 2 + ◦(n−1 )
2
E(σmcnl − σ 2 ) = ◦(n−1 ) (5.21)
Cette égalité [5.21℄ tend vers zéro, quand n tend vers l'inni et e qui n'est pas le as pour S 2 .
Remarque 32 Le biais de l'estimateur des moindres arrés non linéaires onverge rapidement vers zéro
quand n tend vers l'inni. Le taux de onvergen e de l'espéran e de l'estimateur des moindres arrés non
linéaire E(β̂mcnl ) est supérieur à n−1/2 .
E(β̂mcnl ) = β + ◦(n−1/2 )
E(β̂mcnl − β) = ◦(n−1/2 )
V ar(βols − β) = σ 2 (X ⊤ X)−1
et
√
V ar n(βols − β) = σ 2 (n−1 X ⊤ X)−1 vrai ∀n
On voit bien que le résultat [5.22℄ est une généralisation de la formule i-dessus de V ar(βols )
Remarque 33 Dans le as non linéaire on obtient les mêmes relations en remplaçant X par X(β)
√ −1
V ar n(βols − β) = σ 2 n−1 X ⊤ (β)X(β) vrai si n tend vers l'inni
Les termes de droite et de gau he se rappro hent si n tend vers l'inni. En divisant à gau he par sqrt(n)
et à droite par n−1 on obtient :
−1
V ar β̂ols − β ≡ σ 2 X ⊤ (β)X(β) vrai (5.23)
102
5.4. Test d'hypothèse dans le as MNL
Le résultat [5.23℄ va nous permettre de onstruire nos statistiques de test tels que le t de student, le
Fisher dans le as non linéaire. Les estimateurs des é art-types pour haque βk sont obtenus en prenant
la ra ine arré des éléments de la diagonale de la matri e de varian e ovarian e.
q
−1
σ̂β̂k = σ̂ (X ⊤ (β)X(β))kk
β̂k β̂k
tβ̂k = q = (5.24)
−1 σ̂
σ̂ (X ⊤ (β)X(β))kk β̂k
y = x(β) + ǫ (5.25)
On impose les restri tions suivantes R(β) = 0 et on obtient le modèle non linéaire ontraint
dans l'espa e
RK =⇒ Rr ave r < K.
Le prin ipe onsiste à estimer les deux modèles, un non ontraint et un autre ontraint. On sauve les
résidus respe tifs et on onstruit la statistique de FISHER.
SSRC − SSRnc
F = F (r, n − K). (5.27)
SSRnc /n − K
H0 : β = β0
H1 : β 6= β0
On dént un intervalle de onan e est un intervalle aléatoire onstruit de telle sorte la probabilité que la
vraie valeur de β appartienne à l'intervalle est égale à 1 − α. Le niveau du test est égale à la probabilité
d'un rejet de H0 sous l'hypothèse que H0 est vraie, on l'appelle le risque de première espè e ou niveau
de signi ativité. En d'autres mots l'intervalle de onan e est la probabilité que l'intervalle en adre la
vraie valeur de β .
103
Chapitre 5. Modèles Non-Linéaires
A partir de la valeur de β̂ , on doit trouver le plus petit intervalle qui en adre la vraie valeur de β . Dans
le as d'un seul paramètre on utilise le t de student
β̂ − β0
t(β0 ) =
σ̂β̂2
Si la valeur al ulée du t de student est supérieure à la valeur ritique Cα lue sur la table au seuil α on
rejette H0 :
β̂ − β
Si |t| > Cα = > Cα Rejet de H0. (5.28)
σ̂β̂2
Cette inégalité peu s'é rire en deux inégalités
β̂ − β0 β̂ − β0
− < Cα <
σ̂β̂2 σ̂β̂2
−(β̂ − β0 ) > Cα ⇒ β0 > β̂ + Cα̂ σβ̂ Rejet de H0
h i
P β0 ∈ β̂ − Cα σ̂β̂ ; β̂ + Cα σβ̂ = 1 − α
β̂ − Cα σ̂β β̂ β̂ + Cα σ̂β
L'intrevalle de onan e est un invertvalle aléatoire ar il est onstruit à partir de variables aléatoires
β̂ et σ̂β̂ .
Le niveau du test orrespond à un seuil ritique qui est la probabilité de l'é art entre β̂ et la vraie
valeur de β .
Remarque 34 Plus le niveau de test est faible plus l'intervalle de onan e est grande. Si β0 ∈ IC on
va retenir β = β0 sinon β 6= β0
Soit β̂ = 5 d'é art-type σ̂β̂ = 3 . On suppose que es paramètres sont obtenus à partir d'un é hantillon
de taille 50 et le nombre de pararmètres estimés est 2. Le nombre de degré de liberté est 50-2=48. Au
seuil de alpha de 5% la valeur ritique est égale à 1.6772. On dénit l'intervalle de onan e par :
h i
β̂ − Cα σ̂β̂ ; β̂ + Cα σ̂β̂ = [−.0316726; 10.031673]
104
5.4. Test d'hypothèse dans le as MNL
Si on veut tester :
H0 : β = β0 = 0
H1 : β 6= β0 = 0
à partir de l'intervalle de onan e, on voit bien que la valeur 0 appartient à et intervalle. On ne peut
don rejeter la nullité de β̂ au seuil de 5%.
Pour tester β = β0 on peut aussi utiliser la statistique de student dénie par :
β − β0
t(β0 ) = = 1.666 < 1.677
σ̂β̂
On aboutit à la même on lusion que pré édemment. Si β = 0, la variable asso iée au paramètre β n'a
au un pouvoir expli atif sur y. Dans le as des modèles non linéaires on a pas la même relation entre
relation entre la variable expli ative et les paramètres.
Dans e as on parle de signi ativité des pararmètres et les tests portent sur les valeurs des paramètres.
Remarque 35 Si en pratique plusieurs valeurs ne sont pas signi atives il est di ile de les supprimer
toutes. Par ontre si on a un seul paramère on le supprime.
y = α + β1 x1 + β2 x2 + ǫ (5.29)
y = α + β1 x1 + ǫ (5.30)
La raison de onsidérer une se onde régression est qu'il existe un gain d'e a ité en supprimant la
variable x2 asso iée au paramètre non signi atif β2 .
Dans le modèle ontraint deuxième équation de [5.29℄ x2 n'explique plus y don un nouveau modèle
et une information sur β2 = 0. L'imposition d'une ontrainte apporte une information qui peut entraîner
un gain d'e a ité.
D' où provient le gain e'e aité ?
Pour répondre à ette question, il faut omparer la varian e de β1 al ulée sur les deux modèles.
Il faut montrer que V (β̃1 ) < V (β̂2 pour prouver le gain d'e atité.
Contruisons les matri es de proje tion asso iées à la onstante qui nous permettent d'esimer les
modèles ontraints et non ontraints sans la onstante.
105
Chapitre 5. Modèles Non-Linéaires
Posons ι = [1, . . . , 1]⊤ le ve teur unitaire de la onstante on obtient les formules suivantes :
ι⊤ ι = n
Mι y = β1 Mι x1 + β2 Mι x2 + Mι ǫ (5.31)
Mι y = β1 Mι x1 + Mι ǫ (5.32)
Mι ι = 0
Mι y = y − ȳ
La transforamation par Mι entre les variables et élumine la onstante dans les modèles et par Pι al ul
les moyenne des variables. Posons y ∗ = Mι y et de même x∗ = Mι x les modèles ontraints deviennent :
y∗ = β1 x∗1 + ǫ∗ (5.34)
Nous allons utiliser la transformation qui élumine la variable x2 dans le deuxième modèle Mx2 = I − Px2
y∗ = β1 x∗1 + ǫ∗ (5.36)
V (β̂1 ) = σ 2 (x∗⊤ ∗ −1
1 Mx2 x1 ) (5.37)
V (β̃1 ) = σ 2 (x∗⊤ ∗ −1
1 x1 ) (5.38)
Il faudra montrer que que ette diéren e est semi-dénie positive (sdp). On va utiliser la propriété
suivante. La diérn e de deux matri es symétriques sdp est sdp si et seulement si la diéren e des
opposées à leur inverse est sdp. Il sut don de montrer que
x∗⊤ ∗ ∗⊤ ∗ ∗⊤ ∗ ∗⊤ ∗
1 Mx2 x1 − (x1 x1 ) = x1 (I − Mx2 )x1 = x1 (Px2 )x1
106
5.4. Test d'hypothèse dans le as MNL
qui peut prendre une forme linéaire ou non linéaire. On veut tester l'hypothèse
H0 = β0
H0 6= β0
On utilise un test de Fisher et on se demande pour quelle valeur de β0 H0 est rejetée ou non.
β2
(β̂1, β̂2)
β1
La région de onan e est entrée sur β̂ .
La probabilité pour que l'ellipse ontiennent la vraie valeur de β est égale 1 − α. En faisnt varier β0
on peut her her la valeur de β0 qui permet de rejeter ou non l'lypothèse nulle. Soit
Y = Xβ + ǫ
Métodologie
On obtient un système suivant
H0 : β = β0 = 0 Y = ǫ ⇒ SCRc = Y ⊤ Y
H1 : β 6= β0 = 0 Y = Xβ + ǫ ⇒ SCRnc = Y ⊤ MX Y
107
Chapitre 5. Modèles Non-Linéaires
SCRc − SCRnc n − K
F = (5.40)
SCRnc K
Y ⊤ Y − Y ⊤ MX Y n − K Y ⊤ Y PX Y n − K
= ⊤
= ⊤ (5.41)
Y MX Y K Y MX Y K
Sous H1 le modèle devient [5.39℄
Y = Xβ0 + ǫ
et le Fisher devient
(Y − Xβ0 )⊤ PX (Y − Xβ0 ) n − K
F =
Y ⊤ MX Y K
On rejette l'hypothèse nulle si F (β0 ) > Cα e qui implique que
(Y − Xβ0 )⊤ PX (Y − Xβ0 ) n − K
> Cα
Y ⊤ MX Y K
Cette région dénit une éllipsoide
K
(Y − Xβ0 )⊤ PX (Y − Xβ0 ) > Cα Y ⊤ MX Y
n−K
Pour étudier la forme de la région de onan e il faut regarder la forme quadratique en β0
(Y − Xβ0 )⊤ PX (Y − Xβ0 )
Cette forme quadratique dé rit une ellipse. On rejette H0 si la fon tion quadratique est supérieure au
nombre positif Cα Y ⊤ MX Y n−K .
K
La région de rejet est la zone hors de l'ellipse.
En posant PX Y = X β̂ la forme quadratique
⊤
X(β̂ − β0 ) X(β̂ − β0 ) = (β̂ − β0 )⊤ X ⊤ X(β̂ − β0 )
Dénition 10 La région de onan e est l'ensemble des paramètres qui ne permet pas de rejeter
l'hypothèse nulle si elle- i n'est pas pas rejeter. C'est un espa e paramètrique qui a deux interprétations :
P r(β ∈ RC ) = 1 − α
où α est le niveau i.e la peobabilité de rejeter H0 alors qu'elle est vraie, 'est le risque de première
espè e.
Le seuil dépend de la taille de l'é hantillon et du nombre de restri tions sur les paramètres. Cette
expression représente une ellipse. Si on suppose que β a deux omposantes on peut étudier 3 situations :
108
5.4. Test d'hypothèse dans le as MNL
1. L'intervalle de onan e de β1 .
2. L'intervalle de onan e de β2 .
β2
γ̂
β̂1 β1
Le re tangle répond aux propriétés de la région de onan e. L'empla ement de β̂ est supposée être le
entre de la région de onan e. Les intervalles de onan e de β1 et de β2 sont entrés respe tivement sur
β1 et β2 . Certains points appartiennent aussi bien à l'intervalle de onan e et à la région de onan e.
De la dénition de la région de onan e qui est la plus petite zone qui ontient β̂ , on on lut que la
super ie de la région du re tangle est supérieure à elle de l'ellipse. Don on avantage l'ellipse par rapport
au re tangle. Le point γ̂ sur la gure [5.10℄ n'appartenant pas aux intervalles de onan e de β1 et β2 , les
hyputhèses nulles on ernant les oordonnées de γ seront rejetées. Ce parardoxe est lié au problème de
olinéarité entre les variables (dépendan e linéaire). Si les olonnes de X sont linéairement indépendantes
et s'il existe γ 6= 0, tel queXγ = 0 alors dim(S(X)) < l. Il y a au moins une olonne qui est ombinaison
linéaire des autres olonnes. Soit la matri e X de format n × K si dim S(X) = K e i implique que les
olonnes de X sont linéairement indépendantes sinon on parle de quasi olinéarité (presque dépendan e
linéaire). Les graphiques i-dessous illustrent quelques relations entre X1 et X2 .
109
Chapitre 5. Modèles Non-Linéaires
X2
X1 b) X1
a) X1 et X2 indépendantes
X1
X2
c) x1 et x2 parfaitement colinéaires
Si l'angle entre les deux variables est égale à 90 les deux variables sont indépendantes (g a). Si
l'angle est de 180parfaites olinéarité (g ). La gure (b) illustre la onséquen e d'une variation entre
de l'angle et de X2 . Prenons le as représentatif illusté par la gure [5.12℄
b
X(β)
X2 (β̂2 )
PX y = x1 β̂1 + X2 β̂2
X1 (β̂1 ) X1
Xβ existe et est in onnu et l'empla ement de Py = X β̂ . L'erreur d'estimation est mesurée par X(β̂−β).
Cette erreur est représentée dans un espa e de dimension n et dans haque dire tion. Au une dire tion
est préférée à une autre. On aura un er le entré sur X β̂ g [5.13℄.
110
5.4. Test d'hypothèse dans le as MNL
b
X(β̃)
b
b
X(β̂)
X1
Ce er le est aléatoire par e entré sur X β̂ ar β̂ est aléatoire. Nous obtenons une région de onan e
symétrique. Chaque point du er le est reprsenté par Xβ ave β donné. Supposons que e point est X β̃
e qui entraîne que
X β̂ − X β̃ = X(β̂ − β̃)
La relation kX(β̂ − β0 )k2 = (β̂ − β0 )⊤ X ⊤ X(β̂ − β̃) ≥ seuil dénit l'équation du er le et représente une
région de onan e symétrique pusqu'on suppose que les variations de β sont alétoires et identiques pour
toutes les dire tions.
Soit le modèle
y = x(β) + ǫ
Quelles sont les onséquen es de ette symétrie quand on est passsé dans le as de l'espa e paramé-
trique (g[5.14℄) :
111
Chapitre 5. Modèles Non-Linéaires
X β̂ β̂”
X β̂2
X1β̂1 X1 β1
X1 β̂1 X2 β̂2
β̂1 = β̂2 =
X1 X2
β̂ = (X ⊤ X)−1 X ⊤ z
On passe aussi de β à Xβ d'où une orrespondan e biunivoque entre les représentations. Il s'agit
d'une transformation linéaire ar β est une fon tion linéaire de z. On hoisit un point sur le er le
à partir duquel on onstruit un parallélogramme pour trouver β̂1 et β̂2 et e i pour quelque points.
On aboutit à un espa e elliptique dans l'espa e paramétrique.
Si X1 est orthogonal X2 on a une une région sphérique dans l'espa e paramétrque. Si l'angle entre X1 et
X2 est aigu, l'ellipse a une pente négative. Pl us l'angle est aigu entre X1 et X2 plus l'ellipse est allongée
dans l'espa e paramétrique. Cette allure de l'ellipse traduit la similarité entre X1 et X2 . On illustre e
phénomène par le graphique [5.15℄.
112
5.4. Test d'hypothèse dans le as MNL
Graphe1
β2
β̂
β̂1
β1 < 0 X2
C
X(β)
β1 < 0 0 β2 > 0
β1 > 0 A B X1
β2 < 0
Graphe2
Notes : Les point A et B du graphe 2 indiquent les zones où β2 = 0. L'ellipse devient plus allongée et
min e.
113
Chapitre 5. Modèles Non-Linéaires
X1 β1 X1
X1 6= X2 X1 ≈ X2 X1 ∼
= X2
β̂ σβ̂ t(β̂) β̂ σβ̂ t(β̂) β̂ σβ̂ t(β̂)
1 0.25 4 1 0.5 2 1 1 1
1 0.25 4 1 0.5 2 1 1 1
Plus les variables sont olinéaires plus les é art-types augmentent et les students diminuent. Le tableau
montre que lorsque les deux variables presque oliniéaires leur impa t sur la variable à expliquer devient
nulle. On illustre e résultat dans le graphique i-desous
114
5.4. Test d'hypothèse dans le as MNL
β̂2 β̂
β̂1 β1
Le point A a une valeur plus grande que elle de β2 e qui un implique un gain d'e atité à e point.
Dans la région de non rejet de β2 = 0 , la variable X1 prend tout le pouvoir expli atif de la variation
o- y lique. A l'origine du graphique on ne rejette pas la nullité onjointe des paramètres β1 et β2 .
Remarque 37 Quand les deux variables X1 et X2 sont parfaitement olinéaires (X2 = X1 γ), les
observations de X2 sont proportionnelles aux observations de X1 . Nous n'avons plus d'information
supplémentaire sur la variable X2 . Prenons un exemple en é onomie en prenant omme variable le PIB
et le PNB. Si on onsière es deux variables ommes les expli atives du modèle suivant on a :
y = P N Bβ1 + P IBβ2 + ǫ
La variation du PNB est très distin te de elle du PIB d'où un problème d'identi ation. On peut négliger
l'une ou l'autre variable dans le modèle.
y = P N Bβ1 + ǫ; β2 = 0
ou
y = P IBβ2 + ǫ; β1 = 0
115
Chapitre 5. Modèles Non-Linéaires
Nous sommes dans l'impossibilté de hoisir entre les deux modèles. L'hypothèse à l'origine (β = 0) n'est
pas rejetée.
A ette étape, l'équation normale asso iée à la minimisation de la fon tion obje tif est donnée par :
⊤
(y − f (β i ))Df (β i )(β − β i ) Df (β i ) = 0 (5.43)
Df (β i )⊤ y − f (β i ) = Df (β i )⊤ Df (β i )(β − β i ) (5.44)
Remarque 38 La matri e Df (β i )⊤ Df (β i ) est une matri e symétrique. Si elle est dénie positive, elle
devient inversible et du oup on peut dénir l'expression de (β − β i )
−1
β i+1 = β i + Df (β i )⊤ Df (β i ) Df (β i )⊤ y − f (β i ) (5.45)
Le système d'équations [5.45℄ est le système d'équations normales d'un modèle linéaire.
y ′ = Xθ + ǫ
1. D. Marquardt,  An Algorithm for Least-Squares Estimation of Nonlinear Parameters  , dans SIAM J. Appl.
Math. 11, p. 1963, 431-441 ; ( en ) P. E.
116
5.5. Méthodes d'estimation des modèles non linéaires
L'algorithme de Newton-Raphson est une des méthodes numériques les plus utilisées pour faire de
l'optimisation non linéaire. La méthode repose sur une approximation linéaire à l'ordre un de la fon tion
de régression. C'est une méthode des endante qui repose sur l'approximation de Taylor du gradient à
l'ordre un de la fon tion de perte G(β) ave
∂f (β)
|βi = G(βi ) = 0
∂β
On fait un développement de Taylor à l'ordre un du gradient de la fon tion de perte G(β) dénie par :
∂G(βi )
G(βi+1 ) = G(βi ) + (βi+1 − βi ) = 0 (5.46)
∂β
= G(βi ) + H(βi )(βi+1 − βi = 0 (5.47)
On en déduit :
Remarque 39 A haque étape on doit al uler le gradient G(βi ) et la matri e Hessienne H(βi ) = ∂G(βi )
∂β .
Preuve
SCR(β) ∂f (β)
G(βi ) = = −2
∂β ∂β
Pour démontrer e résulat on utilise les règles de dérivation ve torielle dont quelques unes sont présentées
i-dessous.
117
Chapitre 5. Modèles Non-Linéaires
Soit f (x) une fon tion réelle diérentiable de plusieurs variables, le gradient de f par rapport
à x est : ⊤
∂f ∂f ∂f
Gradf = ∇f = = ,...,
∂x ∂x1 ∂xn
Remarque 40 Pour une fon tion ve torielle p-dimensionnelle de plusieurs variables, le
gradient de f est la matri e réelle
∂fi ∂f
dont la ieme ligne est On obtient la Ja obienne de f en x
∂xj p×n ∂x⊤
⊤
∂fi ∂fi ∂f ∂f
Dx f = Df = = = ⊤
=
∂xj ∂xj ∂x ∂x
Lorsque f est une fon tion deux fois diérentiable,Dx2 f (x) est une matri e Hessienne dont
la (i, j)ieme terme est donné par :
∂2f
= Hessf ou Hess(f )
∂xi ∂xj
∂f X ∂f ∂x ∂x ∂f ∂f ∂x
= × × ou en ore ⊤ = ⊤ ⊤
∂yj i
∂xj ∂xi ∂y j ∂ y ∂ x∂ y
∂2f X X ∂2f ∂ ⊤ x ∂f ∂x X ∂f ∂ 2 x
= × +
∂y∂ ⊤ y j
∂xj ∂xk ∂y ∂x∂ ⊤ x ∂ ⊤ y j
∂xj ∂y∂ ⊤ y
k
∂ 2 (SCR) ∂f ∂ 2 (SCR) ∂f
H(src) = =
∂β∂ ⊤ β ∂β ∂f ∂ ⊤ f ⊤ f
∂ 2 (SCR) X ∂f
= G(β)⊤ ⊤
G(β) − 2
∂f ∂ f ∂β∂ ⊤ β
X ∂f
= −2 G(β)⊤ G(β) − (y − fj (β))
∂β∂ ⊤ β
∂ 2 (SCR)
ave ∂f ∂ ⊤
= 2In
Remarque 41 Cet algorithme onverge rapidement si les onditions initiales sont bien hoisies pour que
la matri e hessienne reste dénie positive et don inversible. Lorsque telle n'est pas le as, on appro he
118
5.6. Propriétés asymptotiques de β̂nls
βi+1 = βi + G(βi )⊤ G(βi ) G(βi )(y − f (β))
E (Hessien(SCR)) = G(βi )⊤ G(βi )
Pour l'etude du omportement asymptotique il est important de pré iser si nous avons la possibilité
d'augmenter le nombre d'observations de plusieurs manières. Nous nous limiterons aux deux régimes
suivants :
soit en xant un nombre ni de valeurs prises par les régresseurs et en répétant l'expérien e m-fois en
une ou plusieurs valeurs, nous parlons de de m-asymptotiques soit en augmentant indénement le nombre
de valeurs distin tes prises par les régresseurs, 'est le as des résultats n asymptotiques.
ave
Théorème 7 Si l'appli ation f (β) est une fon tion ontinue et inje tive sur l'espa e Θ son uni ité
dé oule de l'inje tivité. En divisant la fon tion de perte par la taille n = mk on obtient :
1 1 1X 1 X
SCR(β) = ky − f (β)k2 = k m (yj − ft (β))2 (5.51)
n n k t=1 m j=1
119
Chapitre 5. Modèles Non-Linéaires
Les ǫtj sont des arrés intégrables i.e d'après la loi des grands nombres
m
2 X p.s
((ft (β0 ) − ft (β))) ǫtj −→ 0 f orall1 ≥ t ≥ k
m j=1
m→∞
On en déduit que :
k
1 p.s
X
SCR(β) −→ σ 2 + (ft (β0 ) − ft (β))2 uniformémnt en β
n m→∞
t=1
Soit (etj )1≥t≥k , j ∈ N une réalisation de la suite (ǫtj )1≥t≥k , j ∈ N telle que
m
1 X 2 m→∞ 2
ǫ −→ σ
m j=1 tj ps
en = etj , 1 ≥ t ≥ k; 1 ≥ j ≥ m
Pour tout n, les hypothèses du théorème assurent l'existen e de l'estimateur β̂n minimisant n1 SCR(β(en )).
Pour tout nl = kml telle que la suite (β̂(enl )) onverge vers un point β ′ de Θ. La suite
k
! k
!
1 X 2 1 X 2
ft (β̂nl ) − ft (β̂0 onverge vers ′
ft (β̂ − ft (β̂ quand l tend vers l'inni
k t=1 k t=1
l
On en déduit !
k
1 1 X 2
lim SCR(β̂)(en ) = σ 2 + ft (β̂ ′ − ft (β̂
l→∞ nl k t=1
SCR(β̂(en )) ≥ SCR(β0 )
Don
1 1
lim SCR(β̂)(en ) ≥ lim SCR(β̂0 = σ 2 )
l→∞ nl l→∞ nl
120
5.6. Propriétés asymptotiques de β̂nls
On en déduit que
k
!
1 X 2
ft (β̂ ′ − ft (β0 ) = 0 ⇒ β̂ ′ = β0 d'après l'inje tivité de f.
k t=1
Il existe une et une seule valeur d'adhéren e à la suite β̂n (en ) du ompa t Θ : 'est don la la limite de la
suite β̂n qui onverge presque sûrement et en plus bornée. Elle onverge don uniformément en moyenne
vers β0 et le biais tend vers zéro.
Quelques éléments de Topologie
Dénition 11 Une boule de entre x0 et de rayon ǫ > 0 est l'ensemble :
Dénition 12 Tout ensemble ontenant une boule ouverte de entre x0 est appelé un voisinage de
x0 , noté V (x0 ).
Dénition 13 Un ensemble A est ouvert ssi pour tout point de et ensemble, il existe une boule
ouverte sur e pont et in luse dans A :
Dénition 15 L'intérieur Å d'un ensemble A est le plus grand ensemble ouvert ontenant A
Dénition 16 L'adhéran e (Adh(A)) d'un ensemble est le plus petit ensemble fermé ontenant A.
De façon équvalente, x ∈ Adh(A) ssi toute boule ouverte entrée sur x a une interse tion non vide
ave A :
(x ∈ Adh(A)) ⇐⇒ (∀ǫ > 0, B(x, ǫ) ∩ A 6= Ω
Dénition 17 La frontière de A f r(A) d'un ensemble A est l'interse tion de Adh(A) et deAdh(Ā)
Notes
Un ensemble est ouvert ssi il est égal à son intérieur. Il est fermé ssi il est égal à son adhéran e et
que tout ensemble fermé ontient sa frontière.
Dénition 18 Un sous ensemble de A de Rn est dit ompa t s'il est fermé et borné i.e
Dénition 19 Un sous ensemble A ∈ Rn est dit onvexe si pour tout x, y ∈ A et µ ∈ R, tel que
0 ≤ µ ≤ 1 alors le point
Z = µx + (1 − µ) y ∈ A
121
Chapitre 5. Modèles Non-Linéaires
1. f (β) est une fon tion deux fois ontinument diérentiable pour tout point intérieur.
2. D⊤ f (β)Df (β) onverge uniformément sur un voisinage de β0 vers une matri e symétrique kΓ(β)
dénie positive au point β0 .
Preuve
√
Étudions le omportement du ve teur ( n ∂SCR(β)
∂β quand n tend vers l'inni.
k m
√ ∂SCR(β) 2 X 1 X ∂ft (β0 )
n = √ √ (ytj − ft (β0 )) (ytj − ft (β0 )) (5.52)
∂β k t=1 m j=1 ∂β
k
2 X ∂ft (β0 ) √
= −√ (ytj − ft (β0 )) m(ȳi. − ft (β0 )) (5.53)
k t=1 ∂β
ave
m
1 X
ȳi. = ytj
m j=1
Rappelons que β̃ −→ β0 et oïn ide presque surement à βn quand n tend vers l'inni. Etudions les termes
p
2 X ∂fl (β̃i ) ∂fnl (β̃i )
Aij (m) =
k ∂βi ∂βj
l=1
m→∞ m→∞
Aij (m) −→ β et −→ 2Γij (β0 )
unif. p.s
Dé omposons le terme
k m ∂ 2 f (β̃ )
2 X 1 X l i
Bij = ylr − fj (β̃i )
k t=1 m j=1 ∂βi ∂βj
122
5.6. Propriétés asymptotiques de β̂nls
sous la forme
k
2 X ∂ 2 fl (β̃i ) 1 X 2X ∂ 2 fl (β̃i )
Bij = − × ylr − fj (β̃i ) + (ft (β0 ) − ft (βi )) .
k t=1 ∂βi ∂βj m k ∂βi ∂βj
En tenant ompte de l'hypothèse H3 et la loi forte des grands nombres Bij onverge uniformément en
β et presque sûrement vers la matri e 2Γ(β0 ) et don onverge uniformément en β et presque sûrement
vers la matri e 2Γ(β0 ).
On en déduit que la matri e Gij = Aij (m) + Bij (m). Don la matri e G(m) = Gij est inversible
presque sûrement quand n tend vers l'inni.
!
√ ∂SCR(β0 ) ∂SCR(β̃)
∀ω, ∃M (ω) tel que m > M (ω); n(β̃ − β0 ) = G(m)−1 −
n 1/2 − n−1/2
∂β ∂β
On en déduit
√ m→∞ 1
n(β̃ − β0 ) −→ N (0, σ 2 Γ−1 (β0 ))
L 2
D'après le lemme i-dessous
Lemme 2 Pour toute suite {yt } de variables aléatoires respe tivement non orrélées, equidistribuées,
P
entrées de varian e nie et pour tout ωt des réels est telle que n−1 ωt yt onverge presque sûrement
(respe tivement en probabilité vers 0).
5.6.4 n- onsistant
Théorème 9 On suppose vériées les onditions suivantes :
1. Le vrai paramètre β0 est un point intérieur de l'ensemble ompa t Θ des paramètres in onnues.
L'estimateur des moindres arrés non linéaires est alors fortement n- onsistant et asymptotiquement sans
biais.
Preuve
123
Chapitre 5. Modèles Non-Linéaires
1 1 1
SCR(β) = ky − f (β)k2n = ky − f (β0 ) + f (β0 ) − f (β)k2n
n n n
1
= ky − f (β0 )k2n + 2 < ǫ, +f (β0 ) − f (β) >n +kf (β0 ) − f (β)k2n
n
1X 2 2X 2 1
= nǫ + nǫ + kf (β0 ) − f (β)k2n
n i=1 i n i=1 i n
= a1 (n) + a2 (n, β) + a1 (β, n)
n→∞
a1 (n) −→ σ 2 ; ar les ǫi sont i.i.d
p.s
Pn
Si ωt = (f (β0 ) − f (β)),d'après la ondition 3 du théorème kωt k2n = i=1 ωt2 est uniformément
onvergente sur Θ × Θ
Théorème 10 Soit Θ une partie ompa te de Rp . pour toute suite de variables aléatoire {yi }
indépendantes, non orrélées, identiquement distribuées de varian e nie, et toute suite de fo tion
numériques (gi ) sur Θ tel que < gi (β1 ), gi (β2 ) >n onverge uniformément sur Θ × Θ, la suite
unif.
< gi (β), yi >n −→ 0
p.s
Si on onsidère l'observation yi = f (β0 ) + ǫ et β̂n (ǫ)n la suite des estimations des m nl asso iée à ǫ
et noté β̃ une valeur d'adhéran e de ette suite ; en utilisnat le même raisonnement que dans le as
de m-asympotique on montre β̃ = β0 . Il existe une seule valeur d'adhéran e à la suite β̂n (ǫ)n du
ompa t Θ × Θ qui onverge vers β0 . C'est le même prin ipe que dans le as m-asympotique. On
démontre que β̂nls onvergen e moyenne vers β0 .
124
5.7. Les Régressions Arti ielles
vraie valeur est presque identique à elui de l'estimateur des moindres arrés ordinaires. Une appro he de
voir la relation entre quelques méthodes d'estimation non linéaires et MCO est de formuler la régression
arti ielle qui orrespond à l'estimateur.
La régression arti ielle est une régression dans laquelle la regressande et les régresseurs sont onstruits
omme fon tion des données et des paramètres des modèles non linéaires.
On emploi les régressions arti ielles pour au moins inq raisons :
(i) pour vérier que les onditions du premier ordre du minimum et du maximum sont satisfaites ave
pré ision ;
(iii) pour al uler des statistiques après qu'un modèle ait été estimé sous ontraintes sans avoir besoin
d'estimer le modèle ontraint ;
(v) 'est une appro he utile dans les pro édures d'optimisation numériques dont on fait usage pour
al uler les estimations par moindre arrés non linéaires.
où b est le ve teur des pararamètres in onnus de format k × 1 et "Residuals" est le terme d'erreur.
Remarque 43 La régressande et les régresseurs peuvent être évalués dans [5.56℄ en un point β ∈ Θ.
Les prporiétés de la régression arti ielle dépendent du point d'évaluation de la La régressande et les
regresseurs. On peut aussi évaluer [5.56℄ en un ve teur β parti ulier β́ d'estimateurs n- onsistants. C'est-
√
à-dire si β0 ∈ Θ est la vraie valeur, alors β́ ≈ β0 au taux de n.
Le modèle [5.56℄ est une régression arti ielle ou de Gauss Newton si les onditions suivantes sont
satisfaites :
X(β̂)e(β̂) = 0; (5.57)
125
Chapitre 5. Modèles Non-Linéaires
3. si b́ est le ve teur des estimateurs issus de la regression arti ielle [5.56℄ ave ommande régressande
et régresseur evalué à β́ , alors
β́ + b́ = β̂ + ◦p (n−1/2 )
A tuellement beau oup de régressions arti ielles satisfont la version forte de la ondition 1
Commentaires
La ondition [5.58℄ implique la ondition [5.57℄ mais pas vis versa. Le signe (-) arbitraire dans la
formule[5.58℄ montre que l'estimateur est obtenu en minimisant Q(β) au lieu de le maximiser.
La ondition (2) est é rite pour ertaines régressions arti ielles lassiques et non standard qui la
satisfont.
La ondition (3) la plus intéressante des 3 ferait référn ee à la propriété en un étape. Elle
implique que, si nous al ulons un estimateur en une étape à partir d'un estimateur initial β́ , où l'étape
est donné par le oe ient b́ à partir de la régression arti ielle, nous obtenerons un estimateur qui est
asymptotiquement équivalent à β̂ .
y = x(β) + ǫ (5.59)
On dénit :
X(β) matri e de format n × k des dérivées partielles de x(β) par rapport aux paramètres
126
5.7. Les Régressions Arti ielles
On ee tue ette régression linéaire en évaluant les deux membres de l'équation [5.87℄ en β̂nls du modèle
non linéaire on obtient le modèle à estimer suivant :
Pour simplier l'é riture de l'équation on peut oublier le β̂ dans l'équation [5.61℄
à ause de la ondition d'orthogonalité entre les résidus et les dérivées partielles X̂ ⊤ ê = 0 i.e la somme
des arrés expliquées est nulle.
ave PX̂ ê = 0 ar ve teur des valeurs ajustées de la GNR e qui implique que
ê = MX̂ ê (5.65)
[ nls = SCR
SCR [ GN R en ore σ̂nls
2 2
= σ̂GN R (5.67)
b̄ = (X̄ ⊤ X̄)−1 X̄ ⊤ ē; β̄ est nul si les onditions du premiers sont vériées. (5.68)
127
Chapitre 5. Modèles Non-Linéaires
On en déduit
β̂ (1) = β̂ (0) + b̂(0) estimateur obtnenu par la GNR.
Ce pro essus onverge vers le vrai β̂ si le point de départ est pro he du minimum.
Considérons le modèle linéaire i-dessous
y = Xβ + ǫ
On en déduit
β̂ (1) = β (0) + b̂(0) = β (0) + β̂mco − β (0) = β̂mco
Remarque 45 La GNR en une étape onverge vers l'estimateur des MCO dans le as linéaire : La
deuxième étape de l'itération est dénie par :
128
5.7. Les Régressions Arti ielles
(β (1) − β0 ) est l'é art entre le point initial et la vraie valeur paramétrée. Cet é art doit être borné quand
n tend vers l'inni i.e β (0) → β0 . En général β (0) sera donné par une estimation préliminaire. On parle
√
don de la onvergen e de β (0) vers β0 au taux de onvergen e n.
√
Si n(β (1) − β0 ) = (1) alors
e(β (0) = Xb(0) + res
Pour la deuxième itération on utilise un autre point de départ β́ = β (0) + b(0) appelé estimateur e a e
en une étape. Ce i s'explique par le fait que β́ − β(nls) est très petit et assure le résultat de onvergen e :
√
n(β́ − β̂(nls) ) = ◦(1) i.e tend vers 0 quand n tend vers l'inni
en e sens que
√
as − V ar(β́) = limn→∞ n(β́ − β0 )
il existe une onvergen e su essive et à haque étape on peut ontrler l'é art des estimateurs de la GNR
et de NLS.
p
Preuve de (n)(β́ − βnls = ◦(1)
Soit le modèle suivant
e(β) = X(β)b + res
b̂ = X (0)⊤ X (0) X (0)⊤ e(0)
On démontre que
p n→∞
(n)(β́ − βnls ) 0
129
Chapitre 5. Modèles Non-Linéaires
β́ = β (0) + b̂ = β (0) + X (0)⊤ X (0) X (0)⊤ e(0)
On a montré que
p −1 −1/2 ⊤
(n)(βnls − β (0) ) ∼
= n−1 X0⊤ X0 n X0 ǫ (5.74)
En supprimant des deux tés de l'équation [5.74℄ on retrouve une é riture arithmétique
−1
(βnls − β (0) ) ∼
= X0⊤ X0 X0⊤ ǫ approximation asymptotique (5.75)
Le résultat de l'équation [5.74℄ donne une expression de l'estimateur des moindre arrés non linéaires.
En divisant les deux de [5.74℄ par n−1/2 on trouve
−1
(β̂nls − β (0) ) ∼
= X0⊤ X0 X0⊤ ǫ approximation asymptotique (5.76)
X0 ≃ X(β0 ) = X
β̂ols = (X ⊤ X)−1 X ⊤ y
y = Xβ0 + ǫ
Remarque 46
−1
La multipli ation par n−1 dans X0⊤ X0 transforme l'addition des olonne en moyenne
√ √ √ √
n(β́−β (0) ) = n(β (0) −β0 )+ n X (0)⊤ X (0) X (0)⊤ e(0) = n(β (0) −β0 )+ n−1 X (0)⊤ X (0) −1n−1/2 X (0)⊤ e(0)
(5.77)
On montre que n −1
X (0)⊤
X (0)
−1 est une matri e des moyennes qui tend vers (n −1
X0⊤ X)−1
y = x(β) + ǫ (5.78)
ǫ ∼ iid(0, σ 2 ǫIn )
La matri e X(β)ti de format (n × k) a omme éléments les dérivés de la fon tionnelle x(β) par rapport
aux k paramètres.
∂x(β)
X(β)ti = t = 1, . . . , n i = 1, . . . , k
∂β
e(β) est la régressande. La raison de ette terminologie est la GNR est une régression arti ielle.
130
5.8. Appli ation de GNR
Nous allons dériver la GNR en faisant un développement limité x(β) autour de la vrai valeur β0 de β
k
X ∂x(β)
x(β) ≃ x(β0 ) + (β0 )(βi − β0 ) + R
i=1
∂β
On désigne par
De l'équation [5.83℄ on a :
ave b = β − β0
La régression évaluée en β0 donne un estimateur des moindres arrés arrés ordinaires de la régression
non linéaire. Le pararmètre β0 est estimé par les MCO.On dénit un point de départ β̃ ou point
d'évaluation de notre algorithme. On suppose que
√
n(β̃ − β0 ) = (1)
On a don
√
| n(β̃ − β0 )| < K
Remarque 47 Cette ondition est uniquement valable pour des valeurs déterministes. Pour des valeurs
aléatoires la ondition équivalente est donnée par
√
E(| n(β̃ − β0 )|) < K Espéran e
√
V (| n(β̃ − β0 )|) < L Varian e
On en déduit que
√
n(β̂nls − β0 ) = (1)
131
Chapitre 5. Modèles Non-Linéaires
√
n(β̂nls − β0 ) → N 0; (n−1 X0⊤ X0 )−1
ave X0 = X(β0 ). On obtient une matri e dont les éléments son des moyennes. Don quand n tend vers
l'inni on obtient une moyenne nie. et on obtient une matri e bornée.
√
Ce résultat explique à la fois la onvergen e de l'estimateur puisque en divisant par n on obtient
1
(β̂nls − β0 ) = √
n
f (n) √
= n(β̂nls − β0 ) = (1)
g(n)
On a limn∞ √1
n
0. Comme le rapport est borné don limn∞ (β̂nls − β0 ) 0. On a la ondition de
√
onvergen e n qui dit que le terme d'erreur onverge au même taux vers zéro que √1 .
n
√
On onsidère maintenant un estimateur dont le taux de onvergen e est n
√
n(β̃ − β0 ) = (1)
√
β̃ est estimateur onvergent au taux n.
Remarque 48 On peut trouver un estimateur onvergent mais e a e. La GNR nous permet d'aoir un
estimateur onvergent et e a e de l'estimateur des moindres arés non linéaire.
Pour al uler l'estimateur des moindres arrés non linéaire on onsière le modèle suivant
ẽ = X̃(β̃)b + res
β̃ + b̃ = βnls
ave β̃ le terme orre teur. On onstruit un estimateur équivalent asymptotiquement aux deux estimateurs
égale à :
β́ = b̃ + β̃
On en déduit que
√
n(β̂nls − β̃) = ◦(1)
132
5.8. Appli ation de GNR
Remarque 49
f (n) →
(1) f (n) = ◦(g(n)) ⇔ n→∞0
g(n)
f (n)
(2) f (n) = (g(n)) ⇔ <K
g(n)
La ondition (1) entraîne la ondition (2) et onverge plus vite vers zéro que la ondition (2).
√ √ √
n(β́ − β0 ) = n(β́ − β̂) + n(β̂ − β0 ) = (1)
| {z } | {z }
◦(1) (1)
Remarque 50 Si un suite est bornée si on lui ajoute une suite qui onverge vers 0, la somme reste
bornée.
√ √
lim V ar( n(β̂ − β0 )) = lim V ar( n(β́ − β0 ))
n→∞ n→∞
Posons
√ √ √
n(β́ − β0 ) = n(β́ − β̂) + n(β̂ − β0 )
√ √ √
V ar( n(β́ − β0 )) = V ar n(β̂ − β0 ) + V ar n(β́ − β̂)
h√ √ i
+ E n(β́ − β̂) n(β̂ − β0 )⊤
h√ √ i
+E n(β̂ − β0 ) n(β́ − β̂)⊤
133
Chapitre 5. Modèles Non-Linéaires
On en on lut que
p p
(n)(β́ − β̂) = ◦(1) ⇒ V ar (n)(β́ − β̂) → 0
En appliquant le même raisonnement pour les deux derniers termes on aboutit à la on lusion que les
varian es tendent vers z¯o quand n tend vers l'inni. Don
√ √
lim V ar n(β̂ − β0 ) = lim V ar n(β́ − β0 )
n→∞ n→∞
Remarque 51 L'e a ité de β́ qui s'exprime à partir des limites des varian es nous évite de al uler
de la V ar(β́) puisque on sait que la varian e de β0 est égale à σ0 (X ⊤ X)−1
X(β)⊤ (y − x(β̂)) = 0
Faisons un développement de Taylor autour de β0 pour pouvoir avoir une expression expli ite de β̂
X(β̂) = X(β0 ) + . . .
X0⊤ (ǫ − X0 (β̂ − β0 )) = 0
On a :
n−1/2 ǫ = (n−1 X0⊤ X0 )n−1/2 (β̂ − β0 )
ave
n−1/2 ǫ = ◦(1); (n−1 X0⊤ X0 )n−1/2 = ◦(1); (β̂ − β0 ) = ◦(1)
On obtient
p
(n)(β̂ − β0 ) = (n−1 X0⊤ X0 )−1 n−1/2 X0⊤
β́ = β̃ + b̃ = β̃ + (X̃ ⊤ X̃)−1 X ⊤ ẽ
Preuve :
134
5.8. Appli ation de GNR
p p p
(n)(β́ − β0 ) = (n)(β̃ − β0 ) + (n−1 X̃ ⊤ X̃)−1 (n)X ⊤ ẽ
ave :
n−1 (X̃ ⊤ X̃) = n−1 X0⊤ X0 )
(n−1 X̃ ⊤ n−1/2 X ⊤ X̃)−1 ẽ = n−1 (X̃ ⊤ X0 )−1 (n−1/2 X0⊤ ǫ − (n−1 X0⊤ X0 )n1/2 (β̃ − β0 )
n1/2 (β́ − β0 ) = (n1/21 (β̃ − β0 ) + (n−1 X0⊤ X0 )−1 X0⊤ ǫ − (n1/21 (β̃ − β0 )
D'où
β́ = β̃ + b̃
On obtient deux termes qui tendent vers zéro quand n tend vers l'inni don leur diéren e tendent vers
zéro. Don β́ est onvergent et e a e e qui est démontré par la preuve de l'équivalen e asymptotique.
135
Chapitre 5. Modèles Non-Linéaires
où
µt = ρµt−1 + ǫt ; pro essus AR(1)
H0 : ρ = 0 vs H1 : ρ = 0
Si on reformule y en tenant ompte de la stru ture des résidus en bruit blan on obtient un modèle non
linéaire
yt = Xt β + ρyt−1 + ρXt−1 β + ǫt (5.86)
Le modèle [5.86℄ est un modèle non linéaire qui orrespond au modèle MCO mais ave auto orrélation.
Sous l'hypothèse nulle ρ = 0 on obtient le modèle [5.85℄ et sous H1 on obtient le modèle nonlinéaire
[5.86℄. La pro édure onsiste à faire deux tests. Un test d'absen e d'auto orrélation des résidus, tester
l'auto orrélation et tester la linéarisation sous H1 , la GNR. Les résidus sous H0 sont dénis par
e = Xb + res
ave
e = yt − Xt β + ρyt−1 + ρXt−1 β
ẽt = yt − X(β̃)
Sous H1
.
Zt (β, ρ̃) = [Xt − ρXt−1 ..yt − βXt−1 ]
et sous H0
. .
Zt (β, ρ̃) = [Xt ..yt−1 − β̃Xt−1 ] = [Xt ..ẽt−1 ]
ẽt−1 sont les résidus retardés de la régression sous H0 . La formulation de la régression donne
yt = Xt β + ρyt−1 + ρXt−1 β + ǫt
b̃β β̃ β̃ + bβ
β́ = + =
b̃ρ ρ̃ ρ̃ + bρ
L'estimateur de la matri e de varian e des paramètres tifs est donnée par
σ̃ 2 (X̃ ⊤ X̃)
136
5.9. Test d'auto oréllation des aléas par la GNR
et sous H0 σ̃GN
2
R = σ̂nls et les varian es onvergent n vers la vraie valeur
2
σ̂ 2 → σ̂02
σ̃ 2 → σ̂02
L'équivalen e asymptotique permet de démontrer l'égalité des estimateurs β̂nls et β́ ave omme matri e
de varian e ovarian e σ02 (X0top X0 )−1 et σ̃ 2 (X̃ top X̃)−1 . Les estimateurs asymptotiques des varian es β̂nls
et β́ fournis ar la GNR σ̃ 2 (X̃ top X̃)−1 sont onvergents. On obtient ainsi un seul estimateur qui onverge
vers σ02 (X0top X0 )−1 .
Remarque 53 L'estimateur de la varian e par la GNR, σ̃ 2 (X̃ top X̃)−1 , est un bon estimateur de la
varian e asymptotique de β́ et β̂nls . On peut en déduire le t de student asso ué à ρ par la GNR.
b̃ρ
tρ =
σ̃b̃ρ
qui permet de tester le nullité de ρ. Le test d'auto orrélation des aléas est l'une des appli ations la plus
importante de la GNR.
Exemple 5.9.1 Nous appliquons dans et exemple l'estimation des modèle à hoix dis rets par la GNR
La probabilité onditionnelle de yi pour le ve teur des régresseurs onnus xi donné est dénie par
P (yi = 1|xi , β) = F (x′i β), ,
(5.88)
P (yi = 0|xi , β) = 1 − F (x′i β), .
Comme yi suit une loi de Bernoulli la probalité onditionnelle de la la dé ision est déne par :
E(yi |Ωi ) = P (yi = 1|xi , β) = F (x′i β); ave Omegai une suite d'information. (5.90)
Si au une restri tion est faite sur le paramètre β , l'espa e des paramètres Θ ∈ RK . L'estimateur du
maximum de vraisemblan e est un M-estimateur pour l'individu i ave omme ontribution de et individu
à la vraisemblan e la fon tion donnée par
137
Chapitre 5. Modèles Non-Linéaires
ave Z x′i β 2
1 t
φ(x′i β) = √ exp − dt
−∞ 2π 2
Pour le modèle Logit on obtient :
n
X
l(xi , β) = [ln f (yi = 1|xi , β) = yi ln Λ(x′i β) + (1 − yi )(1 − Λ(x′i β))] (5.94)
i=1
ave
1 exp(x′i β)
Λ(x′i β) = =
1 + exp(−x′i β) 1 + exp(x′i β)
Si on pose f (x) = F ′ (x) la fon tion de densité orrespondante à la fon tion de répartition F(x), les
onditions du premier ordre our maximiser [5.94℄ sont
n
X (yi − F̂i fˆi xij
j = 1, . . . , k (5.95)
i=1 F̂i (1 − F̂i )
où xij est la ij ieme omposante de xi , fˆi ≡ f (x′i β̂) et F̂i ≡ F (x′i β̂).
Il existe plus d'une méthode pour dériver la régression arti ielle qui orrespond au modèle [5.90℄. Le
plus fa ile est de le réé rire sous la forme d'une modèle non linéaire
yi = F (x′i β) + ui (5.96)
Le terme d'erreur ui est non normal et hétéro édastique. Comme yi est une variable de bernoulli de
pr probabilité p donnée par F (x′i β) t de varian e p(1-p), ma varian e de ui est
ependant la GNR n'est pas aopropriée à ause de l'héréo édasti ité de ui . En multipliant les deux membre
de l'équation [5.97℄
par n−1/2 vi on obtient la régression arti ielle
Cette régession a toutes les propriétés des régressions arti ielles. Un élément de la matri e d'information
est donnée par : !
n
1X f (x′i β)
Ijl = plimn→∞ xij xil
n i=1 F (x′i β)(1 − F (x′i β))
il n'est pas di ile de montrer que la régession, [5.99℄ satisfait la ondition (ii). Finalement si [5.99℄
a une stru ture de d'une GNR les arguments utilisés dans ette se tion montrent qu'il satisfait aussi la
ondition (iii) de la propriété en une étape.
138
Table des matières
139
Table des matières
Chapitre 1
Introdu tion générale aux bases de l'é onométrie 1
1.1 CONNAISSANCES PRÉREQUISES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 DÉFINITION DE L'ÉCONOMÉTRIE et Démar he é onométrique . . . . . . . . . . . . . 1
1.2.1 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.2 Démar he é onométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.3 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Chapitre 2
ESTIMATION PONCTUELLE
2.1 É hantillon aléatoire, Estimation, Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 É hantillon aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.2 Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Fon tion de Vraisemblan e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Information au sens de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2 Inégalité de RAO-CRAMER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Méthode du Maximum de vraisemblan e . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Prin ipe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Propriétés élémentaires de la fon tion de vraisemblan e. . . . . . . . . . . . . . . . 11
2.3.3 Identi ation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 PROPRIÉTÉS DES ESTIMATEURS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.3 Tests d'Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.4 Estimateur onvergent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.5 Généralisation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Test LM ou test du S ore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6 Exer i es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.1 Exer i e 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.2 Exer ie 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.3 Exer ie 3 : Analyse de la durée du hmage . . . . . . . . . . . . . . . . . . . . . . 32
Chapitre 3
Régression linéaire empirique
3.1 Des ription du problème et exemples é onomiques . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Le modèle et ses hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.2 Les hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Les Estimateurs des moindres arrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Moments des estimateurs des Moindres Carrés . . . . . . . . . . . . . . . . . . . . 41
3.2.2 Convergen e en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
140
3.2.3 Théorème de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.4 Dé omposition de la varian e : le oe ient de détermination . . . . . . . . . . . . 46
3.2.5 Tableau de d'analyse de la Varian e . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.6 Exemple empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.7 Régression simple, Intervalles de Conan e et Tests d'hypothèses . . . . . . . . . . 49
3.3 Test sur les deux paramètres a et b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.1 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4 Exemple numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 LE MODÈLE DE RÉGRESSION MULTIPLE . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5.1 Les estimateurs de moindres arrés . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.2 Géométrie des MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.3 Problèmes parti uliers : multi olinéarité, biais de spé i ation et variables muettes 61
3.5.4 Estimateurs par maximum de vraisemblan e . . . . . . . . . . . . . . . . . . . . . 63
3.5.5 Propriétés asymtotiques des estimateurs de moindres arrés ordinaires . . . . . . . 65
3.5.6 L'estimateur MCG réalisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.7 Estimation sous ontrainte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Chapitre 4
Les Tests de bonne spé i ation du modèle
4.1 Test sur les résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.1 Test de normalité sur les résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.2 Test d'hétéro édasti ité des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.1.3 Test d'auto orrélation des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2 Tests sur les paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Chapitre 5
Modèles Non-Linéaires
5.1 Introdu tion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.1.1 Quelques modèles non linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2 Présentation du modèle non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2.1 Appro he Géométrique des Moindres Carrés non linéaires MNCL . . . . . . . . . . 94
5.3 Estimation de la varian e des erreurs : 2
σmcnl . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4 Test d'hypothèse dans le as MNL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.1 Intervalles de Conna e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.2 Région de onan e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.5 Méthodes d'estimation des modèles non linéaires . . . . . . . . . . . . . . . . . . . . . . . 116
5.5.1 Méthode de Gauss Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.5.2 Méthode de Newton Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.5.3 Méthode du s ore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6 Propriétés asymptotiques de β̂nls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6.1 Résultats m-asymtotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6.2 Normalité m-asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
141
Table des matières
142