Prézilo Chap1 Econometrie

Chapitre 1
Introdu tion générale aux bases de

l'é onométrie
1.1 CONNAISSANCES PRÉREQUISES

Cours de méthématiques première année
Probabilité, probabilité jointe, Probabilité onditionnelle
Indépenpendan e de deux événements
Théorème de la probabilité totale
Variables aléatoires dis rètes et ontinues
Distribution et densité ( as univarié et multivarié)
Espéran e Mathématique, Varian e et propriétés
Variables aléatoires binomiale et uniforme
Variable Normale : propriétés et emploi des tables
1.2 DÉFINITION DE L'ÉCONOMÉTRIE et Démar he é ono-

métrique
1.2.1 Dénition
L'é onométrie peut être dénie omme l'appli ation des méthodes statistiques à l'étude des phéno-
mènes é onomiques.
Bran he des s ien es é onomiques, elle fournit des méthodes permettant l'établissement des lois
é onomiques, la véri ation d'hypothèses et la quanti ation des relations entre variables et e à partir
des données hirées tirées des observations.
De e fait, l'E onométrie onstitue un omplément indispensable à l'analyse é onomique. Ainsi, toute
re her he en s ien es é onomiques ni toujours par la réalisation des travaux d'é onométrie à un moment
ou un autre. Et 'est pour ette raison que dans tous les pays, la formation des é onomistes suppose
l'a quisition de es te hniques.
1
Chapitre 1. Introdu tion générale aux bases de l'é onométrie
1.2.2 Démar he é onométrique

Plus pré isément la démar he é onométrique omporte trois étapes :
Etape 1 Construire un modèle testable qui soit justié par la théorie é onomique et qui puisse être
vérié statistiquement ;
Etape 2 Estimer les paramètres du modèle ;
Etape 3 Vérier que les é arts entre les observations et les résultats théoriques du modèle ne sont pas
systématiques.
Figure 1.1 S héma de onstrue tion d'un modèle é onométrique

Théorie
Formalisation de la théorie
Confirmation du modèle avec les données

=
Estimation économétrique et tests
Théorie est validée Théorie n’est pas validée
Nouvelles données testées Nouvelle spécification du

modèle
Commentaires du s héma
Dans la réalité l'é onomiste part d'une analyse théorique des déterminants de la variable étudiée en
identiant les variables pouvant l'expliquer et le type de relations qu'elles sont sus eptibles d'avoir ave la
variable expliquée. Ces éléments analytiques vont être traduits en une équation mathématique mettant en
relation la variable endogène (variables à expliquer ou régréssande) et ses prin ipales variables expli atives
(régresseurs). En donnant aux variables les valeurs enregistrées dans la réalité, l'é onométrie permet à
la fois de tester la validité du modèle et d'en hirer les paramètres. Elle rend possible la modélisation,
'est à dire la représentation simpliée des phénomènes étudiés, par un ensemble ohérent de relations
mathématiques quantiées. La modélisation est une appro he qui onsiste à approximer la réalité par un
2
1.2. DÉFINITION DE L'ÉCONOMÉTRIE et Démar he é onométrique
modèle plus simple, e qui ne pourra jamais représenter omplètement la réalité dans toute sa omplexité
A son tour la modélisation onstitue un enri hissement important, sous la forme d'une aide à la
dé ision, en rendant possible la simulation, l'optimisation ou la prévision. La maxime du modélisateur
dit que " tous les modèles sont faux, mais ertains sont utiles "
La simulation onsiste à al uler les onséquen es d'un ensemble d'hypothèses représentées par des
valeurs des variables expli atives. La prévision étend et ensemble à des périodes futures. L'optimisation
adopte le hemin inverse et a pour but de déterminer les valeurs optimales de ertaines variables en
fon tion d'obje tifs xés. La plupart des grands entres de dé ision, qu'il s'agisse des banques, des agen es
gouvernementales, des institutions internationales et des grandes entreprises utilisent régulièrement es
te hniques. Les onstru teurs d'avions utilisent les modèles é onomiques pour analyser la demande
a tuelle et future. Les Ministères des Finan es, de l'é onomie ou du plan onstruisent des modèles
Ma ro-é onomiques pour la prévision et pour l'évaluation des politiques é onomiques. Les institutions
non gouvernementales d'aide au développement onstruisent et a tualisent régulièrement des modèles des
grandes régions du monde et des prin ipales é onomies nationales. Par onséquent, pour travailler dans es
institutions, il est indispensable de pouvoir manier les te hniques é onométriques (souvent sophistiquées
et à haut niveau). Il en résulte aussi que pour pouvoir travailler ave es institutions, il faut maîtriser le
langage ommun. : Modèle é onométrique.
En é onométrie, nous pouvons onsidérer un modèle omme une représentation formalisée d'un
phénomène sous forme d'équation dont les variables sont des grandeurs é onomiques.
Son objet est de représenter les traits les plus marquants d'une réalité qu'il her he à styliser. C'est
don l'outil que le modélisateur utilise lorsqu'il her he à omprendre et à expliquer les phénomènes.
Pour e faire, il émet des hypothèses et expli ite des relations. Le modèle est don une représentation
s hématique et partielle d'une réalité naturellement omplexe. Toute la di ulté de la modélisation
onsiste à ne retenir que la ou les représentations intéressantes pour le problème que le modélisateur
her he à expliquer. Ce hoix dépend de la nature du problème, du type de dé ision ou d'étude à ee tuer.
La même réalité peut aussi être formalisée de diverses manières en fon tion des obje tifs. Comme le modèle
ne peut pas tout dé rire, il restera toujours une partie inexpliquée qui sera supposée aléatoire. Le al ul
des probabilités est alors introduit pour prendre en ompte la partie inexpliquée par le modèle. Dans le
domaine de la modélisation, la randomisation est introduite à titre d'hypothèse.
1.2.3 Historique
Premiers développements
Les tentatives de modélisation à partir de données empiriques ont une longue histoire que l'on peut
faire remonter aux "mathémati iens" anglais du XVII ème siè le et auxquels sont atta hés les noms de
William Petty , Gregory King et Charles Devenant . Gregory King her ha par exemple à établir une loi
entre d'une part les dé its des ré oltes de blé et d'autre part les variations du prix du blé . A partir
3
du XVIII ème et surtout du XIX ème siè le les é onomistes tentèrent d' établir des lois é onomiques
à l'instar des lois de la physique newtonnienne . Ce projet fut mené en termes s ientiques par Moore
puis par S hultz , Lenoir , Tinbergen et Fris h entre 1914 et 1938 . Les deux grands axes de re her he
furent alors l'estimation d'une loi de demande ( e qui onduisit au problème de l'identi ation ) et elle
des y les é onomiques . Clément Juglar ( 1819 - 1905) fut le premier à utiliser les séries temporelles
pour analyser les y les et fut suivit par Kuznets et Kondratie . Toutefois les théori iens du y le se
limitèrent à l'étude de la périodi ité du y le et ne s'atta hèrent guère à elle de la quanti ation des
relations ausales sous ja entes. Leur apport à l'é onométrie est don resté marginal.
La naissan e de l'é onométrie moderne
L'é onométrie moderne est née à la n des années 30 et pendant les années 40. Elle est la résultante de
trois phénomènes : le développement de la théorie de l'inféren e statistique à la n du XIX ème siè le ; la
théorie ma roé onomique et la omptabilité nationale qui orent des agrégats obje tivement mesurables
( ontrairement à la mi roé onomie fondée sur l'utilité subje tive ) ; enn, et surtout, la forte demande
de travaux é onométriques, soit de la part d'organismes publi s de prévision et de plani ation, soit
de la part d'entreprises qui ont de plus en plus besoin de modéliser la demande et leur environnement
é onomique général. A partir des années 60 l'introdu tion de l'informatique et des logi iels standardisés
va rendre presque routinière l'utilisation de l'é onométrie.
En simpliant de façon sans doute abusive l'on peut distinguer deux grandes périodes de la re her he
é onométrique moderne. Jusqu'à la n des années 70 l'é onométrie va étudier la spé i ation et la
solvabilité de modèles ma roé onomiques à équations simultanées. Puis à la suite de e que l'on a appelé
la révolution des anti ipations rationnelles et de la ritique de Lu as, la re her he se tournera davantage
vers la mi roé onomie et l'analyse des séries temporelles.
Les modèles é onométriques d'équations simultanées
La plus grande partie de la re her he é onométrique améri aine ( ee tuée pour une large part
au sein de la Cowles Commission ) entre 1944 et 1960 porta sur les onditions d'estimation des
modèles ma roé onomiques d'équations simultanées omportant un élément aléatoire . En 1939 Tinbergen
onstruisait un modèle des y les é onomiques omportant 31 équations de omportement de 17 identités
. Cha une des équations était estimée au moyen de la méthode des moindres arrés, e qui, nous le
verrons ne pouvait onduire qu'à des estimations in onsistentes. En 1944 Haavelmo posait les onditions
générales de solvabilité. Entre 1945 et 1950 Klein présentait ses premiers modèles dont la solution était
obtenue par la méthode du maximum de vraisemblan e. En 1949 Koopmans déterminait les onditions de
solvabilité dans le as d'un modèle linéaire. En 1954 Theil introduisait la méthode des doubles moindres
arrés permettant des al uls ee tifs. Toutefois la généralisation des modèles é onométriques à équations
simultanées utilisée pour des modèles prévisionnels se heurta pendant longtemps au manque de moyens
4
1.2. DÉFINITION DE L'ÉCONOMÉTRIE et Démar he é onométrique
informatiques. Le premier modèle utilisé à des ns prévisionnelles fut elui de Klein - Goldberger en
1955. D'autres modèles suivirent à la n des années 50, en parti ulier elui de la Brookings Institution.
Ave l'avan ée des te hniques informatiques les années 60 et le début des années 70 virent une é losion
de modèles ma roé onomiques jouant un rle important dans la prévision. Le modèle dit de Brookings
omprenait ainsi 400 équations. Aprés 1970 furent ommer ialisés des modèles standards omme elui dit
de Wharton. La stabilité relative de l'environnement é onomique jusqu'en 1974 leur assura un ertain
su ès.
L'analyse de la régression
L'importan e des moyens onsa rés à la résolution des problèmes d'identi ation laissa quelque peu
dans l'ombre la re her he sur la orrélation. Le prin ipal obsta le théorique était le traitement de
l'auto orrélation des résidus aléatoires. En 1950 Durbin et Watson élaboraient leur élèbre test du même
nom qui test l'auto orrélation des résidus à l'ordre un. Les années 50 virent d'autre part l'apparition de
modèles à retards é helonnés ave les travaux de Koy k , d'Almon , de Cagan et de Friedman .
La révolution des anti ipations rationnelles et la remise en ause des modèles ma roé ono-
métriques
Les années 70 furent elles de la remise en ause radi ale des modèles ma roé onométriques élaborés
pendant les années 60. Une des raisons vient de e que l'abandon du système de Bretton Woods
puis le quadruplement du prix du pétrole onduisirent à des bouleversements qui ne pouvaient être
anti ipés par les modèles é onométriques. Au niveau théorique il apparut rapidement que les modèles
ma roé onométriques ne possédaient pas de fondations mi roé onomiques susamment solides. En
parti ulier Lu as montra dés 1972 que si les agents forment leurs anti ipations sur une base endogène à
partir de leur expérien e il n'est plus possible de onsidérer que les oe ients stru turels des modèles
ma roé onométriques restent in hangés. Ainsi toute mesure de politique é onomique doit onduire à un
hangement dans le omportement des agents tant au niveau de la onsommation que de l'investissement.
Ce i remet bien évidemment en ause les modèles ma roé onométriques traditionnels qui ne distinguaient
pas les paramètres expliqués par des auses stru turelles de eux expliqués par la réponse aux mesures
de politiques é onomique. Une estimation de es deux types de paramètres a été ee tuée par Lu as et
Sargent qui les obtinrent dire tement omme solutions de modèles d'optimisation dynamique. Sur ette
base la re her he é onométrique des années 80 porta sur les problèmes d'agrégation des préféren es des
agents, d'inégalité dans la répartition de l'information et sur le pro essus d'apprentissage.
Vers une é onométrie sans théorie ?

La ritique de Lu as a ouvert la voie à des ritiques plus radi ales et a onduit ertains é onomètres
omme Sims à dénier à la théorie toute pertinen e dans l'estimation des modèles. L'appro he même en
termes d'anti ipations rationnelles est alors rejetée dans la mesure où elle né essite une onnaissan e à
5
priori des délais. Plus fondamentalement les modèles ma roé onométriques reposaient sur une distin tion
entre variables "endogènes" et "exogènes". Cette distin tion qui suppose une onnaissan e théorique à
priori est rejetée. Cette ritique a onduit à retenir des modèles autorégressifs où n'existe pas à priori
une lassi ation entre variables endogènes et exogènes. La question de l'utilité de tels modèles reste
toutefois ontroversée dans la mesure où ils ne fournissent pas une expli ation stru turelle de l'a tivité
é onomique.
6
Chapitre 2
ESTIMATION PONCTUELLE
Problème posé et formalisation

Dans une population dont haque individu est indi é par i ∈ I , on s'intéresse à un ara tère. Ce
ara tère est représenté par une variable aléatoire réelle X sur l'espa e probabilisé (X, T, Pθ ). Le paramètre
θ ∈ R de la loi de probabilité Pθ est in onnu.
On her he à estimer e paramètre in onnu θ 'est-à-dire à déterminer la loi exa te Pθ de X :
X −→ Pθ
2.1 É hantillon aléatoire, Estimation, Estimateur

2.1.1 É hantillon aléatoire
Pour un hoix de données d'individus (x1 , . . . , xN ) ∈ X N sera la suite des réalisations du
ara tère. Pour un hoix quel onque d'individus (X1 , . . . , Xn ), suite de variables aléatoires réelles
indépendantes, par dénition un é hantillon de taille N. En d'autres termes un é hantillon est une suite
de variables aléatoires indépendantes ayant la même distribution (i.i.d.).
Exemple 2.1.1
La taille des N étudiants de troisième année de s ien es é onomiques de distribution normale de
moyenne µ et de varian e σ 2 , N (µ, σ 2 ) et indépendantes, Xi , i = 1, . . . , N ).
2.1.2 Estimateur
On appelle estimateur de θ toute appli ation mesurable Θ̂. C'est une fon tion de variables aléatoires
observables, ne dépendant pas de paramètres in onnus.
Θ̂ : X n :−→ R (2.1)
La Méthode Heuristique ou Méthode des Moments permet d'obtenir les estimateurs suivants. L'espran e
µ = E(X), pour une loi quel onque P (µ), est estimée par la moyenne empirique sous les hypothèses de
la loi des grands nombres.
7
Chapitre 2. ESTIMATION PONCTUELLE
PN
Xi
µ̂ = i=1
= X̄ (2.2)
N
De même si on veut estimer la varian e σ 2 = V (X), on utilise la varian e empirique.
PN
i=1 (Xi − µ̂)2
σ̂ 2 = (2.3)
N
Il existe une méthode systématique de re her he d'estimateur, qui fera l'objet du troisième paragraphe.
2.1.3 Estimation
On appelle estimation de θ, pour un é hantillon x1 , x2 , . . . , xN la valeur
θ̂ = Θ̂(x1 , x2 , . . . , xN ) (2.4)
prise pour une telle fon tion pour des réalisations parti ulières des variables aléatoires.
Exemple 2.1.2
µ̂ = 175; σ̂ 2 = 25
On distingue
• la valeur in onnue et ertaine θ
• la valeur aléatoire, estimateur de θ
• la valeur onnue et ertaine θ̂ , estimation de θ pour un é hantillon observé (x1 , x2 , . . . , xN )
2.2 Fon tion de Vraisemblan e

Soient x1 , . . . , xN des réalisations aléatoires, X1 , . . . , XN . Soit fX (x1 , x1 , . . . , xN |θ1 , . . . , θk ) la densité
jointe des variables aux points (x1 , x1 , . . . , xN ) ; ette densité dépend des paramètres in onnus θ1 , . . . , θk .
Si l'on onsidère ette densité jointe omme une fon tion des paramètres in onnus, on l'appelle fon tion de
vraisemblan e. Ainsi la vraisemblan e de l'é hantillon (x1 , x1 , . . . , xN ) relative au ve teur de paramèrtres
θ est l'appli ation
θ −→ L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ou simplement L(θ1 , . . . , θk )
telle que

P (X1 = x1 , . . . , Xn = xN ), si X est dis rète ;
L(θ1 , . . . , θk ) = (2.5)
g(x1 , . . . , xN ), si |X| est ontinue.
Par dénition, si les observations sont indépendantes et identiquement distibuées la fon tion de
vraisemblan e de l'é hantillon (x1 , x1 , . . . , xN ) est :
N
Πi=1 P (Xi = xi ), si X est dis rète ;
L(θ1 , . . . , θk ) = (2.6)
ΠNi=1 f (xi ), si X est absolument ontinue.
8
2.2. Fon tion de Vraisemblan e
Note
Les paramètres θi sont i i des paramètres de la vraisemblan e ; en d'autres termes, elle n'est dénie
qu'après l'observation des réalisations des variables ! La vraisemblan e est une notion statistique, tandis
que la densité jointe est une notion de probabilité.
Le ontenu intuitif est don la probabilité que l'é hantillon ait pris les valeurs qu'il a prises !
2.2.1 Information au sens de Fisher

Dénition 1
L'information (au sens de Fisher,) ontenue dans un é hantillon (X1 , X2 , . . . , Xn ) relative au ve teur
de paramètre θ est dénie par :
" 2 #
∂ ln L(X1 , . . . , XN |θ
In (θ) = E (2.7)
∂θ

∂ 2 ln L(X1 , . . . , XN |θ
In (θ) = −E (2.8)
∂θ2
Théorème 1
Si le domaine X est indépendant de θ et si L vérie les hypothèses de régularité suivantes (hypothèses
vériées par les lois usuellles, binomiale, poisson, normale, exponentielle,......) :
C1 Les trois premières dérivées de ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) par rapport à θ sont dénies et

ontinues pour presque tout xi et pour tout θ. Cette ondition assure l'existen e d'un ertain
développement de Taylor et d'une varian e nie des dérivées de ln L
C2 Les onditions né essaires pour prendre l'espéran e des premières et deuxième dérivées de f (xi |θ)
sont satisfaites.
C3 Pour toute valeur de θ, ∂ 3 ln f (xi |θ)

∂θj ∂θk ∂θl est inférieure à une fon tion ayant une espéran e nie. Cette
ondition permet de tronquer le développement de Taylor.
Alors 2
∂ ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ∂f
IN (θ) = N I1 (θ) = N ∗ E =E
∂θ ∂θ

∂ 2 ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
IN (θ) = −E
∂θ2

∂ ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
IN (θ) = V
∂θ
2.2.2 Inégalité de RAO-CRAMER

Sous les mêmes hypothèses de régularité de L et X indépendant de θ, un estimateur sans biais vérie
l'inégalité
1
V (Θ̂) ≥ (2.9)
IN (θ)
1
IN (θ) est don la borne inférieure d'un tel estimateur.
9
Dénition 2
Un estimateur Θ̂ sans biais est dit e a e s'il vérie
1
V (Θ̂) = (2.10)
IN (θ)
Il est don dans e as, estimateur de varian e, minimale et don elui qui onverge plus vite.
Remarque 1
• On peut interpréter plus lairement la notion d'information au sens de Fisher.
Le meilleur estimateur, le plus e a e parmi les estimateurs sans biais est elui dont la varian e
est la plus faible. La qualité d'un estimateur varie don en fon tion de l'inverse de sa varian e.
En onséquen e on peut appeler l'information ontenue dans l'estimateur Θ̂ la quantité.
1
IΘ̂ (θ) = (2.11)
V (Θ̂)
L'inégalité de RAO-CRAMER exprime don que, pour tout estimateur sans biais Θ̂ :
IΘ̂ ≤ IN (θ) (2.12)
L'estimateur e a e vériant IΘ̂ = IN (θ) est telle que la quantité d'information qu'il ontient est
égale à elle ontenue dans l'é hantillon.
• L'inégalité pré édente, peut être étendue aux estimateurs biaisés. Si E(Θ̂) = φ(θ) et sous les mêmes
onditions de régularité de L et X indépendant de θ
[ϕ′ (θ)]2
IΘ̂ (θ) ≥ (2.13)
IN (θ̂)
2.3 Méthode du Maximum de vraisemblan e

On suppose que la loi de probabilité de X dépend du ve teur des paramètres in onnus θ.
Dénition 3
On appelle estimation du maximum de vraisemblan e la valeur, θ̂ qui maximise pour
un é hantillon donné, la vraisemblan e L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ) ou la log vraisemblan e,
ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ). De ette estimation θ̂ = ϕ(x1 , x2 , . . . , xN ), on déduit l'estimateur du maxi-
mum de vraisemblan e
Θ̂ = ϕ(X1 , . . . , XN )
2.3.1 Prin ipe

On hoisit omme estimation des paramètres, θi , les valeurs de es paramètres qui maximisent
L(θ1 , . . . , θk ). Dans le as dis ret, on hoisit omme estimation les valeurs des θi qui donnent la plus
grande probabilté d'avoir obtenue le résultat expérimental (x1 , x1 , . . . , xN ).
10
2.3. Méthode du Maximum de vraisemblan e
Dans le as où la loi de X dépend de k paramètres
P (θ1 , . . . , θk )
le prin ipe est le suivant :
♠ Si X ne dépend pas de de θi , ∀i ∈ (1, 2, . . . , k).
♠ Si
∂L ∂ 2 L ∂2L
, , ,
∂θi ∂θi2 ∂θi ∂θj2
existent ∀(i, j) ∈ (1, 2, . . . , k)2 , ∀(x1 , x2 , . . . , xN ) ∈ X n ,
∀(θ1 , θ2 , . . . θk ) ∈ Rk
l'estimation dite du maximum de vraisemblan e
(θ̂1 , θ̂2 , . . . θ̂k ) = (ϕ1 (x1 , x2 , . . . , xN ), . . . , ϕk (x1 , x2 , . . . , xN )
est solution du système
∂ ln L
= 0 (2.14)
∂θ1 θ1 =θ̂1 ,...θk =θ̂k
.. .. ..
. . . (2.15)
∂ ln L
= 0 (2.16)
∂θi θ1 =θ̂1 ,...θk =θ̂k
La matri e M(k,k) engendrée par

∂ 2 ln L
mi,j = est dénie négative
∂θi ∂θj
L'estimateur du maximum de vraisemblan e est

Θ̂ = Θ̂1 , . . . , Θ̂k = (ϕ1 (x1 , x2 , . . . , xN ), . . . , ϕk (x1 , x2 , . . . , xN ))
2.3.2 Propriétés élémentaires de la fon tion de vraisemblan e.

Propriété 1 L'espéran e du s ore ou des dérivées premières est nulle :
!
∂ ln L(θ1 , . . . , θ̂k )
E =0
∂θ
Le s ore est une variable entrée
Preuve On supposera que le modèle est régulier, i.e :
1. Θ est un ouvert de RK
2. il existe une mesure µ telle que Pθ0 << µ et sa densité f (y; θ0 ) est derivable par rapport θ
11
R
3. θ 7−→ f (y; θ)dµ(y) est dérivable par rapport à θ et
Z Z
∂ ∂f (y; θ)
f (y; θ)dµ(y) = dµ(y)
∂θ ∂θ
On a :
Z
∂ ln l(Y ; θ0 ) ∂ ln f (y; θ0 )
E = f (y; θ0 )dµ(y)
∂θ ∂θ
R ∂f (y;θ0 )
∂θ
= f (y; θ0 )dµ(y)
f (y; θ0 )
Z
∂
= f (y; θ)dµ(y) = 0
∂θ
| {z }
=1∀y
Propriété 2 Trois expressions équivalentes de la matri e d'information de Fisher :

∂ ln f (Y ; θ0 )
I(θ0 ) = V
∂θ

∂ ln f (Y ; θ0 ) ∂ ln f (Y ; θ0 )
= E ;
∂θ ∂θ′
2
∂ ln f (Y ; θ0 )
= −E
∂θ∂θ′
Preuve
a) La première égalité est la dénition.
b) La se onde égalité est une onséquen e dire te de la propriété pré édente.
) La troisième égalité vient de e que :

∂ 2 ln f (y; θ) ∂ ∂ ln f (y; θ)
=
∂θ∂θ′ ∂θ′ ∂θ

∂ 1 ∂f (y; θ)
=
∂θ′ f (y; θ) ∂θ

1 ∂f (y; θ) ∂f (y; θ) 1 ∂ ∂f (y; θ)
= − +
f (x; θ)2 ∂θ ∂θ′ f (y; θ) ∂θ′ ∂θ
1 ∂ ln f (y; θ) ∂ ln f (y; θ) 1 ∂ 2 f (y; θ)
= − +
f (x; θ)2 ∂θ ∂θ′ f (y; θ) ∂θ∂θ′
et aussi
Z
1 ∂ ∂f (y; θ) 1 ∂ ∂f (y; θ)
E = f (y; θ)dµ(y)
f (y; θ) ∂θ′ ∂θ f (y; θ) ∂θ′ ∂θ
Z 2
∂ f (y; θ)
= dµ(y)
∂θ∂θ′
Z
∂2
= f (y; θ)dµ(y) = 0
∂θ∂θ′
| {z }
1∀y
Don la fon tion E ln f (y; θ) est maximale en θ0 . De plus l'inegalité est stri te si pour tout θ autre que
θ0 , ln f (y; θ) 6= ln f (y; θ0 ) sur un ensemble A tel que µ(A) 6= 0.
12
Remarque 2 Il peut y avoir plusieurs solutions à l'équation

∂ ln f (y; θ)
E =0
∂θ
mais une seule orrespond au maximum de E (ln f (y; θ)) si le paramètre est identié, et 'est la vraie
valeur du paramètre θ, ( θ0 .)
2.3.3 Identi ation

La fon tion g(θ) du paramètre est identiable ssi pour tout ouple (θ1 , θ2 ) de Θ tel que g(θ1 ) 6= g(θ2 )
et f (y; θ1 ) 6= f (y; θ2 ) sur un ensemble de valeurs de y de mesure µ non nulle.
Proposition 1 θ0 est identiable ssi θ0 est l'unique θ ∈ Θ qui maximise E[ln f (Y ; θ)].
Preuve On a
f (y; θ)
E(ln f (y; θ)) − E(ln f (y; θ)) = E ln
f (y; θ0 )
Comme la fon tion ln est on ave, l'inégalité de Jensen 1 s'applique pour montrer que
f (y; θ) f (y; θ)
E ln ≤ ln E
f (y; θ0 ) f (y; θ0 )
Z
f (y; θ)
= ln f (y; θ0 )dy
f (y; θ0 )
Z
= ln f (y; θ)dy
| {z }
=1∀y
= 0.
Exemple 2.3.1 Une urne ontient 3 boules, qui peuvent être soit rouges, soit blan hes.Le nombre
de boules rouges est in onnu. On tire deux boules sans remise. On obtient deux boules rouges. On
demande d'estimer le nombre de boules rouges que ontient l'urne à l'aide du prin ipe du maiximum
de vraisemblan e.
Solution
La vraisemblan e est donnée dans e as par la probabilité d'obtenir le résultat expérimental (tirage de
2 boules), onsidérée omme fon tion des 4 valeurs possibles du paramètre in onnu (n=0,1,2,3).
L(0) = P (R1 ∩ R2 |n = 0) = 0
L(1) = (R1 ∩ R2 |n = 1) = 0
L(2) = P (R1 ∩ R2 |n = 2)
= P (R2 ∩ R1 |n = 2) ∗ P (R1 |n = 2)
1 2 1
= . =
2 3 3
Don l'estimation est n̂ = 3
1. 1Pour toute fon tion on ave f, Ef (X) ≤ f (EX)
13
Exemple 2.3.2 On demande d'estimer par maximum de vraisemblan e le paramètre p d'une loi bino-
miale B(n, p)
Rappel
n = nombre d'essais indépendants
p = probabilité de su ès lors de haque essais
Y = nombre de su ès est B(n,p)

P (Y = r) = Cnr pr (1 − p)n−r
Solution
On peut é rire :
n
X
Y = Xi
i=1
où
Xi = 1 Si l'essai i donne un su és
Xi = 0 Sinon
Pn
On observe les réalisations (x1 , . . . , xn ). Le nombre de su ès observé est r = i=1 xi .
On a :
f (x1 , . . . , xn |p) = pr (1 − p)n−r ( ar l'ordre des réalisations est donné)
En onsidérant ette densité omme une fon tion du paramètre in onnu p, on a la fon tion de
vraisemblan e L :
L(p) = pr (1 − p)n−r
Pour maximiser ette fon tion, il est ommmode de maximiser son logarithme. On obtient la
fon tion log-vraisemblan e i-dessous à maximiser :
l(p) = log L(p) = r log(p) + (n − r)log(1 − p)
Les onditions du premier ordre donnent :
dl(p) r n−r
= − =0
dp p̂ 1 − p̂
r n−r 1 − p̂ n−r
=⇒ = =⇒ =
p̂ 1 − p̂ p̂ r
1 n r
=⇒ − 1 = − 1 =⇒ p̂ =
p̂ r n
14
On estime don p par le pour entage de su ès observés. On vérie si on a bien un maximum par
les onditions du se ond ordre :
d2 l(p) r n−r
=− 2 −
dp2 p (1 − p)2
On évalue le hessien au point p̂
d2 l(p) n2 n2 1 1
2
|p=p̂ = − − = −n2 ( + )<0
dp r n−r r n−r
On a bien un maximum.
Exemple 2.3.3 On vous demande d'estimer par maximum de vraisemblan e les paramètres µ et σ 2 de
l'exemple [2.1.1℄ à partir d'un é hantillon aléatoire (Xi , i = 1, . . . , n).
Solution
• Par dénition, la fon tion densité de la loi normale est :

2 −1/2 1 2
fXi (xi ) = (2πσ ) exp − 2 (xi − µ)
2σ
• En vertu de l'indépendan e :
n n
Y Y 1
2
LX (x1 , . . . , xn |µ, σ ) = 2 −n/2
fXi (xi ) = (2πσ ) exp − 2 (xi − µ)2
(2.17)
i=1 i=1
2σ
• En onsidérant la fon tion [5.96℄ omme fon tion des paramètres in onnus, on obtient la fon tion de
vraisemblan e :
n
Y 1
2
L(µ, σ ) = (2πσ ) 2 −n/2
exp − 2 (xi − µ)2
(2.18)
i=1
2σ
En prenant le logarithme de [5.97℄ on obtient la log-vraisemblan e :

n
n n 1 X
l(µ, σ 2 ) = ln L(µ, σ 2 ) = − ln(2π) − ln(σ 2 ) − 2 (xi − µ)2 (2.19)
2 2 2σ i=1
qui est à maximiser par rapport à µ et σ 2 .

Les onditions du premier ordre s'é rivent :
n
dl(µ, σ 2 ) 2 X
= (xi − µ̂)2 = 0 (2.20)
dµ 2σ 2 i=1
n
dl(µ, σ 2 ) n 1 X
= − + (xi − µ̂)2 = 0 (2.21)
dσ 2 2σ̂ 2 2σ̂ 4 i=1
En résolvant les équations [5.99℄ et [2.21℄ nous obtenons :

n
1X
µ̂ = xi = x̄ (2.22)
n i=1
n n
1X 1X
σ̂ 2 = (xi − µ̂)2 = (xi − x̄)2 (2.23)
n i=1 n i=1
15
Pour vérier que les estimateurs maximisent la log-vraisemblan e on doit montrer que la matri e
Hessienne des dérivées se ondes évaluées aux valeurs estimées est dénie négative ( f ours de Math3
Mr. Ly)
Les dérivées partielles se ondes valent :
∂ 2 l(x, θ) n
= −
∂µ2 σ2
N
∂ 2 l(x, θ) n 1 X
= − − (xi − µ)2
∂(σ 2 )2 (σ 2 )2 (σ 2 )3 i=1
N
∂ 2 l(x, θ) 1 X
= (xi − µ)
∂(σ 2 )∂µ σ 2 i=1
La matri e Hessienne évaluée aux valeurs des estimateurs devient :

− σ̂n2 0
H= n
0 − (σ̂2 )2
Cette matri e est dénie négative ar toutes ses valeurs propres sont négatives don on a bien un
maximum.
2.4 PROPRIÉTÉS DES ESTIMATEURS

2.4.1 Estimateur sans biais
Dénition 4 Un estimateur θ̂ de θ est dit sans biais si l'espéran e de θ̂ est égale à la vraie valeur θ :
E(θ̂) = θ
Remarque 3 Le risque quadratique d'un estimateur est dénie par :
R(θ̂) = V (θ̂) + (E(θ̂ − θ)2 )
Autre dénition du risque quadratique

Le risque quadratique est :
n o
E (θ̂ − θ)2 = V (θ̂) + biais2
Pour un estimateur sans biais, le risque quadratique, est égale à sa varian e. Don pour améliorer un
estimateur,on peut diminuer son biais, ou sa varian e.
On dit qu'un estimateur θ̂2 est préférable à un estimateur θ̂2 si R(θ̂2 , θ) << R(θ̂1 , θ)) pour tout θ.
Exemple 2.4.1 Soit un é hantillon aléatoire (Xi , i = 1, . . . , n) ave E(X) = µ pour tout i et V (Xi ) = σ 2
pour tout i. On va montrer que :
PN
Xi
µ̂ = X̄ = i=1 (2.24)
N
PN
(Xi − X̄)2
s2 = i=1 (2.25)
N −1
sont sans biais.
16
2.4. PROPRIÉTÉS DES ESTIMATEURS
Démonstration En e qui on erne la moyenne :

Pn
i Xi 1 1
E(µ̂) = E = E(Xi ) = nµ = µ
n n n
La Varian e
" N
# " N
#
X 2 X
E Xi − X̄ = E Xi2 − 2Xi X̄ + X̄ 2
i=1 i=1
" N N N
#
X X X
= E Xi2 −2 Xi X̄ + X̄ 2
i=1 i=1 i=1

" N
#
X
= E Xi2 − N X̄ 2
i=1
P
" # ! N
N
X 2 N
X E i=1 Xi2
⇒E Xi − X̄ =E Xi2 −
i=1 i=1
N
et que
N
! N N
X X X
E Xi2 = E(Xi2 ) = (µ2 + σ 2 ) = N (µ2 + σ 2 )
i=1 i=1 i=1
ar σ 2 = E(Xi2 ) − µ2 et don σ 2 + µ2 = E(Xi2 )

D'autre part
!2  
N
X XN N
X −1 X
N
E Xi = E Xi2 + 2 ∗ Xi Xj 
i=1 i=1 i=1 j=1
N
X N
X −1 X
N
= E(Xi2 ) + 2 E(Xi Xj )
i=1 i=1 j=1
| {z }
N (N −1)/2
Mais E(Xi2 ) = σ 2 + µ2 , et, par l'indépendan e
E(Xi Xj ) = E(Xi )E(Xj ) = µ2
Don
N
! N
X X 2N (N − 1) 2
E Xi2 = E(Xi2 ) = N (σ 2 + µ2 ) + µ
i=1 i=1
2
= N σ 2 + N µ2 + N 2 µ2 − N µ2 = N (σ 2 + N µ2 )
P
N
Don 1
NE i=1 Xi2 = σ 2 + N µ2 , et :
P
" # ! N
N
X 2 N
X E i=1 Xi2
E Xi − X̄ = E Xi2 −
i=1 i=1
N
= N (σ + N µ2 ) − σ 2 − N µ2 = (N − 1)σ 2
2
17
don
Pn
2 (Xi − X̄)2 1
E(s ) = E i
= (N − 1)σ 2
n−1 N −1
= σ2
e qui montre que s2 est sans biais.
Proposition 2 (Inégalite de Fre het-Darmois-Cramer-Rao)

Si θ̂ est un estimateur sans biais de g(θ̂0 ),
∂g(θ̂0 ) ∂g(θ̂0 )′
V(θ̂) >> ′
I(θ̂0 )
∂θ ∂θ
Preuve. La ondition d'estimateur sans biais s'é rit :

Z
g(θ̂0 ) = E(θ̂) = θ̂(y)f (y; θ0 )dy
D'où en diérentiant :
Z
∂g(θ̂0 ) ∂E ∂f (y; θ0 )
= (θ̂) = θ̂(y) dy
∂θ ∂θ ∂θ′

∂ ln f (Y ; θ0 )
= E θ̂(y)
∂θ′

∂ ln f (y; θ0 )
= Cov θ̂(y),
∂θ′
h i
∂ ln f (Y ;θ0 )
par e que E ∂θ ′ =0
En appliquant l'inégalité de S hwartz 2
−1
∂ ln f (y; θ0 ) ∂ ln f (y; θ0 ) ∂ ln f (y; θ0 )
V(θ̂(y)) − Cov θ̂(y), V Cov , θ̂(y) >> 0
∂θ′ ∂θ′ ∂θ′
on a le résultat annon é.
Dénition 5 Un estimateur sans biais est e a e si sa matri e de varian e- ovarian e atteint la borne
de Rao Cramer.
2.4.2 Propriétés asymptotiques

Pour établir les propriétés asymptotiques de l'EMV nous omettrons les variables expli atives Xi . Il est
fa ile d'étendre les résultats au as d'un modèle onditionnel. Soit don un é hantillon de N réalisations
de N variables Y1 , . . . , YN telles que :
1. Les variables Y1 , . . . , YN sont indépendantes de même loi et de densité f (y; θ0 ), θ0 ∈ Θ ⊆ RK
2. E(ln f (y; θ0 )) existe pour tout θ

2. Pour tout ouple de va X et Y, V (Y ) − cov(X, Y )(V (X)−1 cov(X, Y )) >> 0 Pour montrer ette inégalité, on al ule
l'inverse de V [(XY )′ ] par blo et on déduit le résultat de e que (V [(XY )′ ])−1
18
3. La vraie valeur du paramètre θ0 est identiable, i.e. θ0 est l'unique maximum global de
Z
E(ln f (Yi ; θ0 )) = ln f (Yi ; θ0 ))f (Yi ; θ0 ))dµ(y) (2.26)
4. La log-vraisemblan e
N
X
l(y; θ0 ) = f (Yi ; θ0 ) (2.27)
i=1
est ontinue par rapport à θ.
5. La log-vraisemblan e est telle que 1

N l(y; θ0 ) onverge en probabilité vers E(ln f (y; θ0 )) uniformement
en θ au moins sur un voisinage de θ0 . (C'est la ondition qui est généralement la plus di ile a
vérier.)
Proposition 3 Sous les onditions de régularité pré édentes, et si Θ est ompa t, il existe une suite
d'estimateurs du maximum de vraisemblan e qui onverge vers θ0 en probabilité.
Preuve
l(y; θ0 ) étant ontinue sur un ompa t, admet un maximum global θ̂. Comme la onvergen e en
probabilité de 1
N l(y; θ0 ) vers E(f (Yi ; θ0 )) est a quise en vertu de la loi forte des grands nombres, et de plus
uniforme en θ, alors θ̂ = argmaxθ N1 l(y; θ0 ) onverge en probabilité vers θ0 = argmaxθ ln f (Yi ; θ0 )
Proposition 4 Sous les onditions de régularité 1-5, si Θ est d'intérieur non vide et si θ0 appartient
a l'intérieur de Θ, alors il existe une suite de maxima lo aux de la log-vraisemblan e onvergeant en
probabilité vers θ0 . Si, de plus la vraisemblan e est dérivable, il existe une suite de solutions des équations
de vraisemblan e qui onverge en probabilité vers θ0 .
Preuve Soit v(θ0 , r) une boule fermée entrée autour de θ0 , de rayon r > 0, et stri tement ontenue dans
Θ. En vertu du théorème pré édent, il existe une suite de solutions θ̃ au problème ontraint :
max l(y; θ)
θ
qui onverge en probabilité vers θ0 . Comme la onvergen e implique que, pour N assez grand, θ̃N se trouve
a l'intérieur de v(θ0 , r), il orrespond bien a un maximum lo al et satisfait les onditions du premier ordre
(équations de vraisemblan e).
Remarque 4 Lorsque Θ est ouvert, la suite onvergente de maxima lo aux peut ne pas être une suite de
maxima globaux.
Proposition 5 Sous les onditions 1-5 de régularité, si Θ est d'intérieur non vide et θ0 appartient a
l'intérieur de Θ , si la log-vraisemblan e l(θ) est deux fois ontinuement diérentiable dans un voisinage
ouvert de θ0 , et si la matri e d'information de Fisher pour une observation :
2
∂ ln f (Yi ; θ)
I(θ0 ) = −E
∂θ∂θ′
19
existe et est inversible, alors une suite θ̂ de maxima lo aux onvergente est telle que
√
N (θ̂ − θ) 7→ N (0, I(θ0 )−1 )
On estime la matri e d'information de Fisher I(θ0 ) par
N
1 X ∂ 2 ln f (Yi ; θ)
I(θ̂) = −
N i=1 ∂θ∂θ′
ou en ore
N
1 X ∂ ln f (Yi ; θ) ∂ ln f (Yi ; θ)
I(θ̂) =
N i=1 ∂θ ∂θ′
Preuve (Idée)
θ̂ satisfait les équations de vraisemblan e :
∂l(y, θ̂)
=0
∂θ
On fait un développement limité au voisinage de θ0 :
∂l(y, θ̂) ∂l(y, θ0 ) ∂ 2 l(y, θ0 )

≃ + (θ̂ − θ0 ) = 0
∂θ ∂θ ∂θ∂θ′
D'où
−1
√ 1 ∂ 2 l(y, θ0 ) 1 ∂l(y, θ0 )
N (θ̂ − θ0 ) ≃ √
N ∂θ∂θ′ N ∂θ
Or
N 2
1 ∂ 2 l(y, θ0 ) 1 X ∂ 2 ln l(y, θ0 ) ∂ ln l(y, θ0 )
=− 7−→ −E = I(θ0 )
N ∂θ∂θ′ N i=1 ∂θ∂θ′ ∂θ∂θ′
par appli ation de la loi des grands nombres.

De plus
N
1 ∂ 2 l(y, θ0 ) √ 1 X ∂ ln l(y, θ0 )
√ = N −→ N (0, I(θ0 ))
N ∂θ∂θ′ N i=1 ∂θ
par appli ation du théorème entral limite.

∂ ln l(y,θ0 )
En eet les s ores individuels ∂θ sont iid, d'espéran e nulle :

∂ ln l(yi , θ0 )
E =0
∂θ
et de varian e

∂ ln l(yi , θ0 )
V = I(θ0 )
∂θ
√
Il s'ensuit don que N (θ̂ − θ0 ) onverge vers une variable aléatoire normale, entrée, et de varian e :
h√ i
V N (θ̂ − θ0 ) = I(θ0 )−1 I(θ0 )I(θ0 )−1 = I(θ0 )−1
20
2.4.3 Tests d'Hypothèses

Il existe trois tests qui sont onstruits à partir de la méthode du maximum de vraisemblan e qui sont
équivalents asymptotiquement.
1. Le Test de Wald
2. Le Test du multipli ateur de Lagrange (LM) ou test du s ore
3. Le test du Ratio de vraisemblane (test LR)
Le Test de Wald
On onsidère l'hypothèse suivante :
H0 = θ = θ0
H1 = θ 6= θ0
Le test utilise la onvergen e asymptotique de θ̂

√
N (θ̂ − θ0 ) ∼ N (0, I(θ0 ))
Ainsi
√ √
N (θ̂ − θ)′ Iθ0 N (θ̂ − θ) ∼ χ2 (k) = W
où :
1 ∂l(y; θ)
Iθ0 =
N ∂θ∂θ′ θ0
k le nombre de paramètres.
Ce test est identique au test de Fisher utilisé dans le as des moindres arrés ordinaires. Nous utilisons
la onvergen e uniforme de θ̂ vers θ0 pour obtenir plimIθ̂ = Iθ0 . On réé rit la statistique :
√ √
N (θ̂ − θ)′ Iθ̂ N (θ̂ − θ) ∼ χ2 (k) = W
Le test de Wald est onstruit à partir du modèle non ontraint.
Le test du multipli ateur de Lagrange

Le test LM est basé sur le modèle ontraint. On suppose que la vraie valeur θ0 maximise la
vraisemblan e.
N
∂l(y; θ) X ∂ ln f (y; θ)
= =0
∂θ θ0 i=1
∂θ
θ0
Maintenant
N
1 ∂l(y; θ) 1 X ∂ ln f (y; θ)
√ = √ θ0 ∼ N (0, I(θ0 ))
N ∂θ θ0 N i=1 ∂θ
21
e qui implique que l'hypothèse nulle peut être testée en utilisant le s ore évalué au point θ0 . La statistique
de LM devient :
′
1 ∂l(y; θ) 1 ∂l(y; θ)
LM = √ I(θ̂)−1 √ ∼ χ2 (k) si N → ∞
N ∂θ N ∂θ
En grand é hantillon on utilise le fait que plimI(θ̂) = I(θ0 ) pour réé rire LM sous H0
′
1 ∂l(y; θ) 1 ∂l(y; θ)
LM = √ I(θ0 )−1
√ ∼ χ2 (k) si N → ∞
N ∂θ N ∂θ
Remarque 5 Le test LM est appelé Multipli ateur de Lagrange par e qu'il est ontruit à partir du
Lagrangien du problème de maximisation sous ontrainte θ = θ0
Lagrangien : l(y; θ) − λ′ (θ − θ0 )
La ondition du premier ordre par rapport à λ est :

∂l(y; θ)
− λ̂ = 0
∂λ
Sous H0 on a :
∂l(y; θ)
= λ̂ = 0
∂λ
Le test du ratio de Vraisemblan e

Comme dans le as du test LM, il est onstruit sous H0 . On fait un développement de Taylor autour
de θ̂ au se ond ordre :
∂l(y; θ) 1 ∂ 2 l(y; θ)
l(θ0 ) = l(θ̂) + |θ∗ (θ̂ − θ0 ) + (θ̂ − θ0 )′ |θ∗ (θ̂ − θ0 )
∂θ 2 ∂θ∂θ′
par onstru tion, θ∗ est une valeur intermédiaire entre θ̂ et θ0 telle que :
k θ0 k≤k θ∗ k≤k θ̂ k

√ ′ 1 ∂ 2 l(y; θ) √
⇒ −2[l(θ0 ) − l(θ̂)] = N (θ̂ − θ0 ) − |θ ∗ N (θ̂ − θ0 )
N ∂θ∂θ′
On dénit la statistique LR par :
√ √
LR = −2[l(θ0 ) − l(θ̂)] −→ N (θ̂ − θ0 )′ I(θ0 ) N (θ̂ − θ0 ) ∼ χ2 (k)
Remarque 6 Asymptotiquement les trois tests sont équivalents :
LM ⇐⇒ W ald ⇐⇒ LR
2.4.4 Estimateur onvergent

Dénition 6
Un estimateur θ̂N de θ est dit onvergent si et seulement si :
h i
lim P θ̂N − θ = 0∀ǫ > 0; on é rit plimθ̂N = θ
22
2.4.5 Généralisation des tests

Nous supposons toutes les onditions de régularité pour l'existen e, l'homogénéité et la normalité
asymptotique de l'estimateur du maximum de vraisemblan e (e.m.v). Les hypothèses d'intérêt sont
données par :
H0 : g(θ0 ) = 0
H1 : g(θ0 ) 6= 0
∂g(θ0 )
où g(θ0 ) : Rp −→ Rr et le rang de ∂θ est r
Test de Wald
Proposition 6 !−1
∂g(θ̂) ∂g ′ (θ̂)
′
W = ng (θ̂) I(θ)−1 g(θ̂) ∼ χ2 (k) sous H0
∂θ ∂θ

∂ 2 f (Y |X;θ
où I = −E ∂θ∂θ ′ et I(θ)−1 son inverse évalué à θ = θ̂
Preuve Des ara téristiques asymptotiques de e.m.v, nous savons que

√
N (θ̂ − θ0 ) ∼ N (0; I(θ)−1 ) (2.28)
Le développement de Taylor à l'ordre un de g(θ̂) autour de la vraie valeur θ0 nous donne :

∂g(θ̂)
g(θ̂) = g(θ0 ) + (θ̂ − θ0 ) + ◦p (1)
∂θ′
√ ∂g(θ̂) √
n g(θ̂) − g(θ0 ) = n(θ̂ − θ0 ) + ◦p (1) (2.29)
∂θ′
En ombinant [2.28℄ et [2.29℄ on obtient
!
√ ′
∂g(θ̂) −1 ∂g (θ̂)
n g(θ̂) − g(θ0 ) −→ N 0, I(θ) (2.30)
∂θ′ ∂θ
Sous l'hypothèse nulle g(θ0 ) = 0 l'équation [2.30℄ devient :

!
√ ′
∂g(θ̂) −1 ∂g (θ̂)
n g(θ̂) −→ N 0, I(θ) (2.31)
∂θ′ ∂θ
En utilisant la forme quadratique pour des variables normales nous obtenons :

−1
∂g(θ0 ) ∂g ′ (θ0 )
ng ′ (θ̂) I(θ0 )−1 g(θ̂) ∼ χ2 (k) sous H0 (2.32)
∂θ ∂θ
La statistique en [2.32℄ n'est pas utilisable en pratique puisque elle dépend du paramètre in onnu θ0 .
Toutefois, nous pouvons approximer régulièrement les termes dans le ro het en les évaluant par θ̂ . Don ,
!−1
∂g(θ̂) ∂g ′ (θ̂)
′
W = ng (θ̂) I(θ̂)−1 g(θ̂) ∼ χ2 (k) sous H0 (2.33)
∂θ ∂θ
23
Un test asymptotique qui rejette l'hypothèse nulle ave la probabilité un, quand l'hypothèse
alternative est vraie est appelé un test ohérent. A savoir, un test ohérent a une puissan e
asymptotique égale à 1.
Un argument heuristique est que si l'hypothèse alternative (H1 ) est vraie, au lieu de l'hypothèse
nulle alors : g(θ̂) −→ g(θ0 ). Don
!−1
∂g(θ̂) ∂g ′ (θ̂)
ng ′ (θ̂) I(θ̂)−1 g(θ̂)
∂θ ∂θ
onverge vers une valur diérente de 0.

En pré-multipliant une onstante par n, ette onstante tend vers l'inni si n tend vers l'inni, ainsi
W tend vers l'inni quand n tend vers l'inni e qui implique qu'on rejette toujours H0 si H1 est
vraie.
Une autre forme de la statistique de test de Wald est donnée par :
!−1
′ ∂g(θ̂) ∂g ′ (θ̂)
W = g (θ̂) In (θ̂)−1 g(θ̂)
∂θ ∂θ
ave In = nI
Une forme tout à fait ommune de l'hypothèse nulle est la restri tion à zéro sur un sous-ensemble
de paramètres, i.e,
H0 : θ 1 = 0
H1 : θ 1 6= 0
où θ1 est un sous ve teur de format q × 1 ave < p. Alors la statistique de W devient :

−1
W = nθ1′ I 11 (θ̂)) θ1 ∼ χ2 (q) sous H0
où I 11 (θ̂) est le blo supérieur de l'inverse de la matri e de l'information.

I11 (θ) I12 (θ)
I(θ) =
I21 (θ) I22 (θ)
alors
−1
I 11 (θ̂) = I11 (θ) − I12 (θ)I22 (θ)−1
par la formule de l'inverse de matri e partitionnée. I 11 (θ̂) est I 11 (θ) évaluée à l'estimateur du
maximum de vraisemblan e.
2.5 Test LM ou test du S ore

Si le ve teur de paramètres satisfait les restri tions sous forme de g(θ0 ) = 0, in orporant les
informations de la maximisation de la fon tion de probabilité sous ontraintes, alors nous amélioreront
24
2.5. Test LM ou test du S ore
l'e a ité de l'estimateur en omparaison de l'e.m.v du problème de maximisation sans ontraintes. Nous
résolvons le problème suivant :
max(l(y; θ) sc; g(θ) = 0
Les onditions du premier ordre sont :
∂l(θ̃) ∂g ′ (θ̃)
+ λ̃ = 0 (2.34)
∂θ ∂θ
g ′ (θ̃) = 0 (2.35)
où la solution du problème de maximisation sous ontrainte est le ve teur de multipli ateur de Lagrange.
Le test de LM est fondé sur l'idée que de l'e.m.v suit une distribution asymptotiquement normale.
Proposition 7
1 ∂l(θ̃) ∂l(θ̃)
LM = I(θ̃)−1 (2.36)
n ∂θ′ ∂θ
1 ∂g(θ̃) ∂g(θ̃)
= λ̃ ′
I(θ̃)−1 λ̃ ∼ χ2 (r) sous H0 (2.37)
n ∂θ ∂θ
Le développement de Taylor à l'ordre 1 de g(θ̃) et g(θ̂) autour θ0 en négligeant le terme op (1)
√ √ ∂g(θ̃) √
ng(θ̂) = ng(θ0 ) + ′
I(θ̃0 ) n(θ̂ − θ0 ) (2.38)
∂θ
√ √ ∂g(θ̃) √
ng(θ̃) = ng(θ0 ) + I(θ̃0 ) n(θ̂ − θ0 ) (2.39)
∂θ′
De l'équation [2.34℄ et en prenant la diéren e entre [2.38℄ et [2.37℄ on obtient :
√ ∂g(θ̃) √
ng(θ̂) = n(θ̂ − θ0 ) (2.40)
∂θ′
∂l(y;θ̂) ∂l(y;θ̃)
En d'autre termes en prenant le développement de Taylor à l'ordre 1 autour de θ0 de ∂θ et ∂θ
en négligeant le terme op (1) donne :
∂l(y; θ̂) ∂l(y; θ̂0 ) ∂ 2 l(y; θ̂0 )

= + (θ̂ − θ) ⇒
∂θ ∂θ ∂θ∂θ′
1 l(y; θ̂) 1 ∂l(y; θ̂0 ) 1 ∂ 2 l(y; θ̂0 ) √
√ = √ + n(θ̂ − θ) ⇒
n ∂θ n ∂θ n ∂θ∂θ′
1 l(y; θ̂) 1 ∂l(y; θ0 ) √

√ =√ − I(θ0 ) n(θ̂ − θ0 ) (2.41)
n ∂θ n ∂θ
On note d'après la loi forte des grands nombres que
n
1 ∂ 2 l(y; θ̂) 1 X ∂ 2 l(y|x; θ̂0 )
− ′
=− → I(θ0 ) (2.42)
n ∂θ∂θ n i=1 ∂θ∂θ′
De même
1 ∂l(y; θ̃) ∂l(y; θ0 ) √
√ = − I(θ0 ) n(θ̃ − θ0 ) (2.43)
n ∂θ∂ ∂θ
25
Considérant le fait que θ̂ annule le s ore ( ondition du premier ordre de maximisation sans ontrainte du
problème) en prenant la diéren e entre [2.41℄ et [2.43℄ nous obtneons
1 ∂l(y; θ̃) √ √
√ = −I(θ0 ) n(θ̃ − θ̂) = I(θ0 ) n(θ̂ − θ̃) (2.44)
n ∂θ∂
Ainsi
√ 1 ∂l(y; θ̃)
n(θ̂ − θ̃) = I(θ0 )−1 √ (2.45)
n ∂θ
De [2.40℄ et [2.45℄ nous obtenons :
√ ∂g(θ0 ) 1 ∂l(y; θ̃)

ng(θ̂) = ′
I(θ0 )−1 √ (2.46)
∂θ n ∂θ
De [2.45℄ on en déduit :
√ ∂g(θ0 ) ∂g ′ (y; θ̃) λ̃
ng(θ̂) = − ′
I(θ0 )−1 √
∂θ ∂θ n
∂g(θ0 ) ∂g ′ (y; θ0 ) λ̃
→ ′
I(θ0 )−1 √ (2.47)
∂θ ∂θ n
p p
si θ̃ → θ0 aussi g(θ̃) → g(θ0 ). Don
′
−1
λ̃ ∂g(θ0 ) −1 ∂g (y; θ0 )
√
√ = ′
I(θ 0 ) ng(θ̂) (2.48)
n ∂θ ∂θ
De l'équation [2.31℄ sous l'hypothèse nulle

′

√ d ∂g(θ0 ) −1 ∂g (y; θ0 )
ng(θ̂) → N 0, I(θ 0 )
∂θ′ ∂θ
Par onséquent
−1 !
λ̃ d ∂g(θ0 ) ∂g ′ (y; θ0 )
√ →N 0, ′
I(θ0 )−1 (2.49)
n ∂θ ∂θ
En utilisant la forme quadratique des variables gaussiennes nous obtenons

λ̃′ ∂g(θ0 ) ′
−1 ∂g (y; θ0 ) d
I(θ 0 ) λ̃ → χ2 r (2.50)
n ∂θ′ ∂θ
Alternativement une autre forme de la statistique du test est donnée par :

!
′
1 ∂l(θ̃) −1 ∂l (y; θ̃) d
I(θ0 ) → χ2 r (2.51)
n ∂θ′ ∂θ
Les statistiques [2.50℄ et [2.51℄ ne sont pas ulitistables dire tement en pratique ar la matri e d'information
dépend du paramètre in onnu θ0 . On évalue ette matri e à θ̃ estimateur obtenu à partir du modèle
ontraint. L'approximation de I(θ0 ) est obtenue par :
n
! n
!
1 X ∂ 2 l(y|x; θ̃) X ∂l(y|x; θ̃) ∂l(y|x; θ̃)
I(θ̃) = − ou
n i=1 ∂θ∂θ′ i=1
∂θ ∂θ′
26
Si nous hoisissons la deuxième approximation de la matri e d'information, la statistique LM devient :

n n
!−1 n
1 X ∂l(y|x; θ̃) X 1 ∂l(y|x; θ̃) ∂l(y|x; θ̃) X ∂l(y|x; θ̃)
LM =
n i=1 ∂θ′ i=1
n ∂θ ∂θ′ i=1
∂θ
n n
!−1 n
X ∂l(y|x; θ̃) X ∂l(y|x; θ̃) ∂l(y|x; θ̃) X ∂l(y|x; θ̃)
=
i=1
∂θ′ i=1
∂θ ∂θ′ i=1
∂θ
Remarque 7 Cette expression de la statistique LM fait intervenir les matri es de proje tion. Si on pose
X= [ ∂l(y∂θ
1 |x1 ;θ̃) ∂l(y2 |x2 ;θ̃)
′ , ∂θ ′ , . . . , ∂l(yn∂θ|x′ n ;θ̃) ] et e = [1, 1, . . . , 1]′
LM = e′ X(X ′ X)−1 X ′ e
Si on note Ru2 le oe ient de détermination non entré de la regression de la onstante sur les s ores
alors LM devient :
e′ X(X ′ X)−1 X ′ e
LM = nRu2 =ee ′
e′ e
Ce i est tout à fait un résultat intéressant puisque le al ul de la statistique LM n'est rien d'autre qu'une
régression MCO. Nous régressons la onstante sur les s ores évalués à e.m.v ontraint et al ulons le Ru2
non entré et le multiplions ensuite par le nombre d'observations(n) pour devenir LM statistique.
La statistique LM est aussi asymptotiquement onsistant.
De [2.50℄ et [2.51℄
−1
′ ∂g(θ0 ) ∂g ′ (θ0 )
W = ng (θ̂) I(θ 0 ) g(θ̂) = LM
∂θ′ ∂θ
!−1
′ ∂g(θ̂) ∂g ′ (θ̂)
→ ng (θ̂) I(θ 0 ) g(θ̂)
∂θ′ ∂θ
Test LR
Proposition 8

LR = 2 l(θ̂) − l(θ̃) ∼ χ2 (r) (2.52)
Preuve
Nous onsidérons le développement de Taylor de l(θ̂) etl(θ̃) autour de θ0 . Sous H0 et en ignorant les
termes dominés sto hastiquement nous obtenons :
∂l(θ̂) 1 ∂ 2 l(θ̂)
l(θ̂) = l(θ0 ) + ′
(θ̂ − θ0 ) + (θ̂ − θ0 )′ (θ̂ − θ0 ) (2.53)
∂θ 2 ∂θ∂θ′
1 ∂l(θ̂) √ 1√ 1 ∂ 2 l(θ̂) √
= l(θ0 ) + √ ′
n(θ̂ − θ0 ) + n(θ̂ − θ0 )′ √ n(θ̂ − θ0 ) (2.54)
n ∂θ 2 n ∂θ∂θ′
∂l(θ̂) 1 ∂ 2 l(θ̃)
l(θ̃) = l(θ0 ) + ′
(θ̃ − θ0 ) + (θ̃ − θ0 )′ (θ̃ − θ0 ) (2.55)
∂θ 2 ∂θ∂θ′
2
1 ∂l(θ̃) √ 1√ ′ 1 ∂ l(θ̃)
√
= l(θ0 ) + √ ′
n( θ̃ − θ 0 ) + n( θ̃ − θ 0 ) √ ′
n(θ̃ − θ0 ) (2.56)
n ∂θ 2 n ∂θ∂θ
27
En prenant la diéren e des deux systèmes d'équations i-dessus (2.52-2.53) et (2.54-2.55) multipliée par
2 on obtient :
2
1 ∂l(θ̂) √ 1√ ′ 1 ∂ l(θ̂) √
2 l(θ̂) − l(θ̃) = √ n(θ̂ − θ̃) + n(θ̂ − θ 0 ) √ n(θ̂ − θ0 )
n ∂θ′ 2 n ∂θ∂θ′
√ 1 ∂ 2 l(θ̃) √
− n(θ̃ − θ0 ) n(θ̃ − θ0 )
n ∂θ∂θ′
→ 2n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ0 )
+ n(θ̃ − θ0 )′ I(θ0 )(θ̃ − θ0 )

2 p
∂l(θ0 )
du fait que √1
n ∂θ ′
et − n1 ∂∂θ∂θ
l(θ̂)
′ → I(θ0 )
En ontinuant la manipulation algébrique on trouve :

2 l(θ̂) − l(θ̃) = 2n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ0 )
+ n(θ̃ − θ̂ + θ̂ − θ0 )′ I(θ0 )(θ̃ − θ̂ + θ̂ − θ0 )
= 2n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ0 )
+ n(θ̃ − θ̂)I(θ0 )(θ̃ − θ̂) + n(θ̃ − θ̂)′ I(θ0 )(θ̂ − θ0 )
+ n(θ̂ − θ0 )′ I(θ0 )(θ̃ − θ̂) + n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ0 )
= 2n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) + n(θ̂ − θ̃)′ I(θ0 )(θ̂ − θ̃)
− n(θ̂ − θ̃)′ I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃)
= (θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃)
Finalement
LR = (θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) (2.57)
Noter que
(θ̂ − θ0 )′ I(θ0 )(θ̂ − θ̃) = (θ̂ − θ̃)′ I(θ0 )(θ̂ − θ0 )
De l' equation [2.44℄ et [2.57℄ la statistique LR peut s'é rire

√
2 l(θ̂) − l(θ̃) = n(θ̂ − θ̃)′ I(θ0 )(θ̂ − θ̃)
1 ∂l(θ̂) ∂l(θ̂) 1
= √ ′
I(θ0 )−1 I(θ0 )I(θ0 )−1 √
n ∂θ ∂θ n
1 ∂l(θ̂) ∂l(θ̂)
= I(θ0 )−1 = LM sous H0
n ∂θ′ ∂θ
Remarque 8 1. Le al ul de la statistique LR requière deux maximisations de la fon tion de la log

vraisemblan e sous H0 et H1 .
2. LR est aussi asymptotiquement onsistant.
3. Comme nous venons de le démontrer i-dessus les tests de Wald, LM et LR sont asymptotiquement
équivalents.
28
Exemple 2.5.1 Exemple des tests du modèle de régression linéaire

Supposons que le modèle de régression est donné par
yi = xi β + ǫi
ǫi ∼ i.i.N (0, σǫ2
On désire tester les hypothèse suivantes :
H0 : Rr×p βp×r = γ vs H1 : Rr×p βp×r 6= γ
La log vraisemblan e est donnée par :
n n 1
l(y|x; β, σ 2 ) = − ln(σ 2 ) − ln(2π) − 2 (y − Xβ)′ (y − Xβ)
2 2 2σ
La maximisation de la log vraisemblan e nous donne les résultats suivants :
β̂ = (X ′ X)−1 X ′ y
1
σ̂ 2 = (y − Xβ)′ (y − Xβ)
n
La matri e d'information est donné par :

1 ′

I(θ0 ) = 2σ2 (X X) 0
n
0 tσ4
On pose
∂g(β̂) ∂g(β̂)
g(β̂) = Rr×p β̂p×r − γ = R; =0
∂β ∂σ 2
La statistique de test de Wald est donné d'après la proposition 6 par :
" ′ #
R R
W = n(Rr×p β̂p×r − γ) ′
I −1
(θ̂) (Rr×p β̂p×r − γ) (2.58)
0 0
1 −1
= (Rr×p β̂p×r − γ)′ R′ (X ′ X)−1 R (Rr×p β̂p×r − γ) ∼ χ2 (r) sous H0 (2.59)
σ2
Si on note les estimateurs sous H0 de β et de σ 2 respe tivement par β̃ et σ̃ 2 . Alors
1 1
σ̃ 2 − σ̂ 2 = (y − X β̃)′ (y − X β̃) − (y − X β̂)′ (y − X β̂)
n n
1 ′
= (X β̃ − X β̂) (X β̃ − X β̂)
n
1 1 −1
= (β̃ − β̂)′ (X ′ X)(β̃ − β̂) = (Rr×p β̂p×r − γ)′ R′ (X ′ X)−1 R (Rr×p β̂p×r − γ)
n n
−1
si β̃ = β̂ + X ′ X)−1 R′ X ′ X)−1 R
29
Don
′ −1
2 2
n(σ̃ − σ̂ ) Rr×p β̂p×r − γ R′ X ′ X)−1 R Rr×p β̂p×r − γ
W = =
σ̂ 2 1 ′
n (y − X β̂) (y − X β̂)
′
−1
Rr×p β̂p×r − γ R′ X ′ X)−1 R Rr×p β̂p×r − γ /r
nr nr
= h i = F
′
(y − X β̂) (y − X β̂) /n − K n − K n − K
D'autre part, le multipli ateur de Lagrange du problème ontraint est donné par :
2 ′ ′ −1 −1
λ̃ = − R X X) R (γ − Rβ̂)
σ2
Sous H2 le multipli ateur de Lagrange suit une loi normale
4 ′ ′ −1 −1
λ̃ ∼ N (0, R X X) R
σ̃ 2

si (γ − Rβ̂) ∼ N 0, σ̃ 2 R′ (X ′ X)−1 R .
On peut réé rire la statistique LM par :
σ̃ 2 ′ ′ ′ −1 −1
LM = λ̃ R X X) R λ̃
4
1 −1
= 2
(Rr×p β̂p×r − γ)′ R′ X ′ X)−1 R (Rr×p β̂p×r − γ)
σ
n(σ̃ 2 − σ̂ 2 ) n n n
= = σ̃2
= σ̂2
=
σ̂ 2 1 − 1 + σ̃2 −σ̂2 1 + σ̃2 −σ̂2 1 + (n−k)
rF
Pour al uler la statistique LR on doit al uler la valeur de la log vraisemblan e sous H1 et sous H0
n n 1
Sous H1 : l(θ̂) = − ln(σ̂ 2 ) − ln(2π) − (y − X β̂)′ (y − X β̂)
2 2 2σ̂ 2
n 2 n n 1
= − ln(σ̂ ) − ln(2π) − (y − X β̂)′ (y − X β̂)
2 2 2σ̂ 2 n
n n n 2
= − ln(σ̂ 2 ) − ln(2π) − σ̂
2 2 2σ̂ 2
n n n
= − l(θ̂) − ln(2π) −
2 2 2
n n 1
Sous H0 : l(θ̃) = − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)′ (y − X β̃)
2 2 2σ̃ 2
n n n 1
= − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)′ (y − X β̃)
2 2 2σ̃ 2 n
n n n 2
= − ln(σ̃ 2 ) − ln(2π) − σ̃
2 2 2σ̃ 2
n n n
= − ln(σ̃ 2 ) − ln(2π) −
2 2 2
Ainsi
n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 ))
2 2
30
2.6. Exer i es
n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 )
2 2 2 2
σ̃ 2 σ̃ σ̃ − σ̂ 2
= n(ln = n 1 − 1 + ln = n 1 + ln
σ̂ 2 σ̂ 2 σ̂ 2

rF
= n 1 + ln
n−K
Un résultat intéressant peut être obtenu en utilisant l'inégalité suivantes
x
≤ ln(1 + x) ≤ x ∀x > −1
1+2

Soit x = ln rF
n−K en appliquant l'inégalité i-dessus on obtient :
LM ≤ LR ≤ W en dimension nie
Exer i e d'appli ation non orrigé

On onsidère le modèle suivant :
yi = µ + ǫi (2.60)
ave ǫi ∼ N (0, σ 2 ). On simule le modèle [5.17℄ ave µ = 6 et n = 50.
yi = 6 + ǫi i = 1, . . . , 50 (2.61)
On suppose que haque observation à une fon tion de densité dénie par :
1 1
f (xi ) = exp(− (y − µ2 )) (2.62)
2π 2
On veut tester les hypothèse suivantes
H0 : µ = 3 vs H1 : µ = 3
en utilisant les statistiques de Wald et LM.

Construisez es deux tests et on lure au seuil de 5%. Pour notre é hantillon simulé ȳ = 6.19086
2.6 Exer i es
2.6.1 Exer i e 1
Un é hantillon aléatoire d'observations indépendantes est généré par une fon tion de distribution
i-dessous :
f (y; β) = β exp(−βy) ave β > 0; y > 0
1. Cal uler l'espéran e et la varian e de y.
2. Estimer β par la méthode du maximum de vraisemblan e.
3. β est-il un estimateur sans biais, onvergent et e a e ?
31
P
4. On suppose que n= 100 et yt = 25, al uler la valeur de β̂
5. Dériver les propriétés asymptotiques de l'estimateur de β
6. En utilisant les données de 4 tester
H0 : β = β0 = 1
H1 : β 6= β0 = 1
en utilisant la statistique de Wald et LM.
2.6.2 Exer ie 2
La variable ontinue x a une fon tion de densité donnée par :
1 x2
f (x; θ) = √ exp(−
)
2πθ 2θ
−∞ < x < ∞ θ > 0
1. Cal uler l'espéran e et la varian e de x.
2. Estimer θ par la méthode du maximum de vraisemblan e.
3. Montrer que l'estimateur de θ est un estimateur sans biais, onvergent et e a e ;

P 2
4. On suppose que n= 100 et xi = 110, al uler la valeur de θ̂
5. Dériver les propriétés asymptotiques de θ̂
6. En utilisant les données de 4 tester
H0 : θ = 0
H1 : θ 6= 0
en utilisant LR au seuil de 5%.
2.6.3 Exer ie 3 : Analyse de la durée du hmage

On souhaite évaluer et analyser le phénomène du hmage. Pour ela, on dispose de n étudiants
diplmés sur les durées yi ; 1 ≤ x ≤ n pendant lesquelles des étudiants sont restés sans emploi.
On suppose dans la suite que les variables aléatoires orrespondantes (Y i)i∈{1,n} ; sont i.i.d. et suivent
une loi de Weibull de paramètres θ1 et θ2 . On rappelle que ette loi est ontinue sur R+ et admet la
fon tion de répartition pour y > 0
F (y; θ1 , θ2 ) = 1 − exp(−θ1 y θ2 )
On dénit la fon tion de survie par

s(y) = 1 − F (y)
32
2.6. Exer i es
et la fon tion de hasard par

f (y)
h(y) =
s(y)
1. Donner l'expression de la fon tion de hasard du modèle.
2. Quelle est en terme de hmage l'interprétation de la fon tion de hasard ?

- Expliquer alors pourquoi il est important de onsidérer le as parti ulier où ette fon tion est
onstante.
- Pour quelles valeurs des paramètres, la fon tion de hasard est-elle onstante ?
- Quelles sont alors les lois des durées de hmage ?
3. Étudier l'évolution de la fon tion de hasard en fon tion de θ̂1 , puis en fon tion de θ̂2 .
4. On suppose dans ette partie θ̂2 = 1. Le modèle est alors uniquement paramètre par θ̂1 . Le modèle
est-il exponentiel ? Si oui, expli iter une statistique exhaustive.
5. Déterminer le ve teur du s ore et vérier dire tement qu'il est entré.
6. Quel est l'estimateur du maximum de vraisemblan e θ̂1 de θ̂ ? Est-il sans biais, y a-t-il surestimation
ou sous-estimation systématique ?
7. Déterminer la varian e asymptotique de et estimateur θ̂1 .
33
34
Chapitre 3
Régression linéaire empirique
3.1 Des ription du problème et exemples é onomiques

Nous onsidérons une relation linéaire, spé iée par un modèle é onomique. Par exemple :
La fon tion de onsommation
Ct = a + bYt
La loi de la demande :
X = a − bPX
La fon tion de oût total :

CTt = a + bQt
L'obje tif de e hapitre onsiste à estimer les paramètres de régression du modèle (a et b) à des ns
d'analyse ou de prévision. Une telle estimation peut servir à répondre à des questions de politique
é onomique telles :
a) omment faut-il modier les dépenses de l'Etat pour réduire le hmage de x%.
Pour réduire le taux d'ination de y% :
b) ombien une rme doit-elle produire pour maximiser son prot ?
) Une politique de soutien du prix d'un produit agri ole doit-elle prendre en ompte la forme d'un prix
garenti aux produ teurs (et l'a hat de toute produ tion invendue)ou d'un subside à es produ teurs ?
Les oûts respe tifs de es deux politiques alternatives dépendront de l'élasti ité de la demande,
qui peut être estimée à partir des données de X et PX . Les égalités pré édentes ne seront jamais
exa tement vériées par les données sur les diérentes variables des modèles. Pour es raisons on
ajoute un terme d'erreur aléatoire de mesure, d'agrégation à haque modèle. Ces erreurs ne peuvent
être expliquées par un modèle déterministe. Aux fon tions pré édentes, on ajoute un terme d'erreur
aléatoire ut :
La fon tion de onsommation
Ct = a + bYt + ut
35
Chapitre 3. Régression linéaire empirique
La loi de la demande :
X = a − bPX + ut
La fon tion de oût total :

CTt = a + bQt + ut
3.1.1 Le modèle et ses hypothèses

Equation de régression
On onsidère une équation linéaire de la forme :
yt = a + bxt + ut (3.1)
ave : t : l'indi e qui orrespond à une observation parti ulière

yt , s'appelle indiéremment, variable endogène, ou variable dépendante, variable expliquée ou en ore
régressande.
xt , s'appelle indiéremment, variable exoogène, ou variable indépendante, variable expli ative ou en ore
régresseur.
ut : terme d'erreur inobservable ; a et b, sont les paramètres in onnus à estimer, dont les estimateurs
seront notés â et b̂.
3.1.2 Les hypothèses

Les estimateurs â et b̂ dépendent de yt don de ut . Ce sont des variables aléatoires, et nous aurons
besoin des moments de leur distribution. Il faut don faire des hypothèses sur ut .
H1 Résidus sont entrées onditionnellement à xt
E(ut |xt ) = 0 ∀t
Interprétation
Si ette hypothèse est violée, le terme d'erreur aurait une omposante systématique, qui aurait dû
être in luse dans la partie non aléatoire de l'équation de la régression. Le modèle sera don mal
spé ié.
H2 Homo édasti ité :

V (ut ) = σ 2
Interprétation Les erreurs sont de varian e nie et égale à σ 2 . Si telle n'est le as on parle
d'hétéro édasti ité du modèle.
Exemple de modèle de violaation de H2
Modèle de regréssion dont les observations sont des moyennes al ulées à partir des nombres
d'observations diérents. Modèle de séries nan ières.
36
3.1. Des ription du problème et exemples é onomiques
H3 Erreurs non orrélées :

Cov(ut , us ) = 0, ∀t 6= s
Exemple de violation de H3
Données spatiales, auto orrélation des residus (ut = ρut−1 + νt ). Si es trois hypothèses sont
satisfaites, on dit que le terme d'erreur est un bruit blan , noté BB
H4 Les xt sont déterminstes (non aléatoires) :
E(xt ut ) = 0, E(ut |xt ) = 0,
Exemple de violation de H4
Ct = a + bYt + ut (3.2)
ave
Yt = Ct + It (3.3)
où Ct la onsommation au temps t et It linvestissement et Yt le revenu national. En subsistituant

[3.2℄ dans [3.3℄, on nmontre fa ilement que E(Yt ut ) est non nullle.
H5 xt pend au moins deux valeurs diérentes. Si ette hypothèse n'est pas vériée, nous n'aurons pas un
problème de régression : en eet a + bxt serait une onstante et yt = a + bxt + ut serait onstante
à un terme aléatoire. Nous aurions alors un modèle yt = µ + ut ave E(yt ) = µ
Si es diérentes hypothèses sont satisfaites nous her hons les paramètres â et b̂ de la droite de ŷt = â+b̂xt
qui appro hent le mieux la dépendan e entre yt et xt , elle qui s'é arte le moins du nuage de points (xt , yt ).
Les ritères utilisés pour estimer les paramètres de régression (a et b), sont tels qu'il faut en moyenne,
minimiser l'é art entre yt et ŷt . Il faut don que la variable ût = yt − ŷt , les résidus estimés, soit minimale
pour tout t. On retient omme ritères :
min max |ût | (3.4)
â,b̂ t
X
min |ût | (3.5)
â,b̂ t
X
min û2t Critère de la Méthode des moindres arrés (3.6)
â,b̂ t
on peut é rire indiéremment

yt = a + bxt + ut (3.7)
yt = â + b̂xt + ût (3.8)
L'équation [3.7℄ est une hypothèse tandis que [3.8℄ est une identité !
37
3.2 Les Estimateurs des moindres arrés

Nous allons minimiser en â et b̂ la somme des arrés des résidus (SCR) :
T
X T
X 2
SCR(â, b̂) = û2t = yt − â − b̂xt (3.9)
t=1 t=1
Les onditions du premier ordre sont

T
∂SCR(â, b̂) X
= −2 yt − â − b̂xt = 0 (3.10)
∂â t=1
T
∂SCR(â, b̂) X
= −2 yt − â − b̂xt xt = 0 (3.11)
∂ b̂ t=1
Elles impliquent les équations normales suivantes
T
X T
X
yt − T â − b̂ xt = 0 (3.12)
t=1 t=1
T
X T
X
yt xt − T âxt − b̂ x2t = 0 (3.13)
t=1 t=1
En divisant [3.12℄ par T on trouve :
â = ȳ − b̂x̄ (3.14)
ave
T T
1X 1X
x̄ = xt et ȳ = yt
T t=1 T t=1
En remplaçant la valeur â, équation [3.14℄, dans [3.13℄, il vient :
T
X
yt − ȳ − b̂(xt − x̄) xt = 0 (3.15)
t=1
De ette équation on tire la valeur de b̂

PT
(yt − ȳ)xt
b̂ = PTt=1
t=1 (xt − x̄)xt
PT
t=1 (yt − ȳ)(xt − x̄) T ∗ Cov(x, y)
= PT =
t=1 (xt − x̄)
2 T ∗ V (x)
PT
yt xt − T x̄ȳ)
= Pt=1 T 2 2
t=1 (xt − T x̄ )
PT T
(xt − x̄)yt X
= Pt=1 T
= ωt yt
2
t=1 (xt − x̄) t=1
ave
(xt − x̄)
ωt = PT 2
t=1 (xt − x̄)
38
3.2. Les Estimateurs des moindres arrés
Il est fa ile de vérier

T
X
â = zt
t=1
ave
1
zt = − x̄wt
T
Quelques propriètés importantes de de ωt et zt
T
X
ωt = 0
t=1
T
X 1
ωt2 = PT
2
t=1 t=1 (xt − x̄)
T
X
ωt xt = 1
t=1
T
X
zt = 1
t=1
T T
X X 1 2
zt2 = − x̄ω t + x̄2 2
ω
t=1 t=1
T2 T
T T T
! T
!
X
2
X 1 2 X
2
X
2
zt = − x̄ ωt = 0 + x̄ ωt
t=1 t=1
T2 T t=1 t=1
Don
T PT
X 1 x̄2 xt
zt2 = + PT = PT t=1
t=1
T t=1 (xt − x̄)
2 T t=1 (xt − x̄)2
T
X
zt xt = 0
t=1
T
X x̄
zt ωt = PT
t=1 t=1 (xt − x̄)2
Conditions du se ond ordre
La matri e Hessienne doit être dénie positive
!
∂ 2 SCR(a,b) ∂ 2 SCR(a,b)
H= ∂a2
∂ 2 SCR(a,b)
∂a∂b
∂ 2 SCR(a,b)
(3.16)
∂b∂a ∂b2
P
2T 2 P xt
H= P (3.17)
2 xt 2 x2t
∂ 2 SCR(a,b)
∂b2 > 0 et P
2T 2 P xt
|H| = P >0 (3.18)
2 xt 2 x2t
Le hessien étant dénie positif, nous avons bien un minimum.
39
Demonstration :
X X 2
|H| = 4T x2t − 4 xt
X
x2t = T (σx2 + x̄2 )
1 X X
x̄ = xt =⇒ xt = T x̄
T
Don
X X 2
|H| = 4 ∗ T x2t − 4 ∗ xt = 4(T 2 σx2 + x̄2 − T 2 x̄) = 4 ∗ T 2 σx2 > 0
Exemple
Soient T=5 observations suivantes sur les yt et xt
xt 1 2 3 4 5
yt 2 4 5 7 10
P P P P P
on a xt = 15, yt = 28, x2t = 55, xt yt = 103, yt2 = 194
103 − (25 ∗ 28)/5

b̂ = = 1.9
55 − (152 )/5
28 15
â = − 1.9( ) = −0.1
5 5
10
8
6
4
2
1 2 3 4 5
x
y Fitted values
Figure 3.1 Nuage de points et droite régression ŷt = −.1 + 1.9x

40
3.2.1 Moments des estimateurs des Moindres Carrés

Espéran es mathématiques
Nous allons vérier que â et b̂ sont des estimations sans biais de a et b
X X
â = zt yt = zt (a + bxt + ut
X X X
= a zt + b zt xt + zt ut
P
a + 0 + zt ut
X
et E(â) = a + zt E(ut ) = a
X X
b̂ = ωt yt = ωt (a + bxt + ut
X X X
= a ωt + b ωt xt + ωt u t
P
0 + b + ωt u t
X
et E(b̂) = b + ωt E(ut ) = b
Varian es
La varian e de b̂ se al ule omme suit :
h i
v(b̂) = E b̂ − E(b̂) = E(b̂ − b)2
X
(b̂ − b) = ωt yt
On a alors
hX i2
V (b̂) = E ωt u t
 
XT T
X −1 X
T
= E ωt2 u2t + ωt ωj u t u j 
t=1 t=1 j=t+1
T
X
= ωt2 E(u2t )
t=1
T
X
= σ2 ωt2
t=1
σ2
= PT
t=1 (xt − x̄)2
puisque E(u2t ) = σ 2 et, E(ut uj ) = 0, ∀t 6= j
hX i2
V (â) = E(â − a)2 = E zt ut
T
X
= σ 2
ωt2 par le même argument que pré édemment
t=1
" P #
2 x2t
= σ PT
T t=1 (xt − x̄)2
41
Covarian e
Cov(â, b̂) = E(â − a)E(b̂ − b)

" T ! T !#
X X
= E ωt u t zt ut
t=1 t=1
 
XT T X
X T
= E ωt zt u2t + ωt zj u t u j 
t=1 t=1 j6=t
" T # "P T
#
T
X ωt X
= σ2 ωt u t = σ 2 t=1
− x̄ ωt2
t=1
T t=1
2 x̄
= −σ PT
t=1 (xt − x̄)2
La matri e de varian es- ovarian es est données par
 
x2t
P
x̄
V (â) Cov(â, b̂) σ 2 T PT 2 −σ 2 PT 2
CV = = t=1 (x
x̄
t −x̄) t=1 (xt −x̄)
2
 (3.19)
Cov(â, b̂) V (â) −σ 2 PT (x 2
PT σ 2
t=1 t −x̄) t=1 (xt −x̄)
3.2.2 Convergen e en probabilité

On vérie que à l'aide de es moments que plimb̂ = b et plimâ = a
σ2
E b̂ = b et V (b̂) = PT −→ 0 si T → ∞
2
t=1 (xt − x̄)
P
σ 2 x2t /T
E (â) = a et V (â) = PT −→ 0 si T → ∞
2
t=1 (xt − x̄)
x2t
P
sous la ondition que limT →∞ T existe.
E riture Matri ielle du modèle simple

En résumant toutes les observations sur l'équation linéaire yt = a + bxt + ut , il vient
       
y1 1 x1 u1
 y2   1   x2   u2 
       
 ..  =  ..  a +  ..  b +  .. 
 .   .   .   . 
yT 1 xT uT
En regroupant les olonnes des paramètres on obtient
     
y1 1 x1 u1
 y2   1 x2   u 
    a  2 
 ..  =  .. ..  b +  .. 
 .   . .   . 
yT 1 xT uT
Les équations normales peuvent s'é rire :
P P
T â + b̂ xt = y
P P P t
â xt + b̂ x2t = xt yt
42
e qui implique : P P
â
PT x
P 2t
= P y t
xt xt b̂ xt yt
En notant  
1 x1

 1 x2 

X= .. .. 
 . . 
1 xT
et
â
β̂ =
b̂
on obtient l'é riture matri ielle :
(X ′ X)β̂ = X ′ y ⇒ β̂ = ((X ′ X)−1 X ′ y
La matri e inverse peut s'é rire :

P −1 P 2 P !
x2t
P
1 1
PT P x2t = P Pxt − xt
= P T −x̄
xt xt T (xt − x̄)2 − xt T (xt − x̄)2 −x̄ 1
Remarque 9
En multipliant (X ′ X)−1 par σ 2 on trouve la matri e de varian es- ovarian es CV. On peut généraliser
l'é riture matri ielle en ajoutant d'autres variables à X. On obtient le modèle de régression multiple.
On note l'importan e de l'hypothèse de non olinéarité des olonnes de X. Si H5 : xt = α pour tout t,
P
(xt − x̄) = 0, don det(X ′ X) = 0 et les équations normales n'ont pas une solution unique.
3.2.3 Théorème de Gauss-Markov

Nous traiterons le as parti ulier de e théorème. Une généralisation sera faite dans le as de la
régression multiple.
Nous avons démontré que les estimateurs des moindres arrés sont sans biais et onvergents. Sont-ils de
varian es minimale ? La réponse est : oui, dans la lasses des estimateurs sans biais. On parle d'estimateur
BLUE (Best Linear Unbiased Estimator en anglais )
Preuve de ette proposition
Un estimateur linéaire arbitraire de b peut :
X X
b̃ ct y t = ct (a + bxt + ut )
P P
une ondition né essaire et susante pour que E(b̃) = b pour tout ( a, b )est ct = 0 et ct xt = 1.Alors :
2 X 2 X
V (b̃) = E b̃ − b = E ct u t = σ 2 c2t
On va minimiser ette varian e sous la ontrainte E(b̃) = b et montrer que la solution est ct = ωt ).
Comme la minimisation de V (b̃) est équivalente à elle de V (b̃)/σ 2 le Lagrangien s'é rit :
X X X
L= c2t + λ1 ct + λ2 ct xt − 1
43
et les onditions de premier ordre sont don :
∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
Pour éliminer λ1 et λ2 à l'aide des ontraintes, nous pouvons utiliser :
∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
∂L X X X
xt = 2 ct xt + λ1 xt + λ2 x2t = 0
∂ct
P P
En utilisant les ontraintes ct = 0, ct xt = 1
X
T λ1 + λ2 xt = 0
X X
2 + λ1 xt + λ2 x2t = 0
l'é riture sous forme matri ielle des ontraintes donne :

P
PT P x2t ×
λ1
=
0
xt xt λ2 −2
L'inverse de la matri e des oe ients a déjà eté al ulée ((X ′ X)−1 ). On peut don al uler la solution
du système omme :
P 2 P P
λ1 1
Pxt − xt 0 2x̄/ P(xt − x̄2 )
= P =
λ2 T (xt − x̄2 ) − xt T −2 −2/ (xt − x̄2 )
En substituant es valeurs dans
∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
On obtient
x̄ X
2ct = −2 P 2
+ 2f racxt (xt − x̄2 )
(xt − x̄ )
(xt − x̄)
⇒ ct = P = ωt
(xt − x̄2 )
Cette valeur de ct minimise don bien la varian e sous la ontrainte que l'estimateur soit sans biais ar :
∂2L
= 2T > 0
∂c2t
Estimation de la varian e des erreurs

Les varian es et la ovarian e al ulées dans les se tions 1.4.2 et 1.4.3 dépendent du paramètre in onnu
P
σ 2 . Une pro édure naturelle serait de al uler la varian e d'é hantillon T1 (ût − ˆ¯ut2 , et de orriger un
biais éventuel, pour arriver à un estimateur de σ 2 .
P P
En fait, (ût − ˆ¯ut2 = (û2t , ar
X X
ût = (y − â − b̂xt ) = 0 ondition du premier ordre.
44
en vertu de la première équation normale (Se tion 1.3). Nous allons prouver que :
hX i
E u2t = (T − 2)σ 2
et que don
1 X 2
s2 = ut
T −2
est un estimateur sans biais de σ 2 Nous avons :
ût = y − ȳ − −̂b̂xt
= a + bxt + ut − (ȳ − b̂x̄) − b̂xt
= a + bxt + ut − a − bx̄ − ū + b̂x̄ − b̂xt
= ut − ū + (b − hatb)(xt − x̄)
Alors
X X 2
û2t = ut − ū + (b − b̂)(xt − x̄)
X X X
= (ut − ū)2 + (b − b̂)2 (xt − x̄)2 + 2 (b − b̂)(xt − x̄)(ut − ū)
Mais
X hX iX
(ut − ū + (b − hatb)(xt − x̄)) = (xt − x̄)2 ωt (ut − ū)
X
= (b̂ − b) (xt − x̄)
P P
puisque ωt (ut − ū) = ωt ut = b̂ − b
Don
X X X X
û2t = (ut − ū)2 + (b − b̂)2 (xt − x̄)2 − 2(b − b̂)2 (xt − x̄)2
X X
= (ut − ū)2 − (b − b̂)2 (xt − x̄)2
Cal ulons séparément l'espéran e de ha un de es termes.

hX i X
1 X 2 T
E (ut − ū)2 = E u2t − ( ut ) = T σ 2 − σ 2 = (T − 1)σ 2
T T
h X i
E (b̂ − b)2 (xt − x̄)2 = σ 2
Et don
hX i
E (u2t = (T − 2)σ 2
Dons P
û2t
σ̂ 2 = s2 =
T −2
45
On peut interpréter la division par (T-2) de la manière suivante. Nous avions vu que pour obtenir un
estimateur sans biais de la varian e, on devait diviser par T-1 la somme des arrés des déviations par
rapport à la moyenne. Cette division par (T-1) était en fait due à la présen e d'une ondition liant les
déviations par rapport à la moyenne : la somme de es déviations est identiquement nulle. Dans le as
qui nous o upe, nous avons deux onditions liant les résidus à savoir :
X X
ût = 0 et ût xt = 0
3.2.4 Dé omposition de la varian e : le oe ient de détermination

(yt −ȳ)2
P
Nous allons voir que la varian e totale des y ,soit T , peut être dé omposée en une somme de
deux varian es, elle des ŷ (partie expliquée par la régression) et elle des û (partie résiduelle). Ce i nous
permettra de dénir le oe ient de détermination, qui permet de mesurer la qualité de l'ajustement
linéaire. A ette n, nous prouverons que :
X X X
(yt − ȳ)2 = (ŷt −¯ˆy)2 + û2t
soit
SCT = SCE + SCR.
P
En guise d'étape préliminaire, démontrons une formule de al ul ommode pour û2t
Lemme 1
X X
û2t = (yt − ȳ)2 − b̂2 (xt − x̄)2
Preuve
ût = yt − ŷt = yt − â − b̂xt
= (yt − ȳ) − b̂(xt − x̄)
Don
X X X X
û2t = (yt − ȳ)2 − 2b̂ (xt − x̄)(yt − ȳ) + b̂2 (xt − x̄)2
Mais
X X
(xt − x̄)(yt − ȳ) = b̂ (xt − x̄)2
don
X X
û2t = (yt − ȳ)2 − b̂2 (xt − x̄)2
Pour prouver que SCT = SCE + SCR, il sut alors de montrer que :
X X
b̂2 (xt − x̄)2 = ¯2
(ŷt − ŷ)
46
Mais e i est évident ar :

X X
¯2=
(ŷt − ŷ) (â + b̂xt − â − b̂xt )2 = b̂2 (xt − x̄)2
On dénit alors le oe ient de détermination omme :
SCE SCT − SCR SCR

R2 = = =1−
SCT SCT SCT
et l'on a 0 ≤ R2 ≤ 1. Plus le R2 est pro he de l'unité, plus grand est le pour entage de la varian e totale
expliquée par la régression, et meilleure est don la qualité de l'ajustement. Mentionnons désaprésent une
interprétation statistique plus ne du R2 .
3.2.5 Tableau de d'analyse de la Varian e

On omplète l'étude pré édente en onstruisant le tableau d'analyse de la varian e :
Sour e Somme Degrés Carrés F̂

de P
arrés de libertés Pmoyen 2
régression SCE = (ŷt − ȳ)2 1 (ŷt − ȳ)
P 1 P
résiduelle SCR = (yt − ŷ)2 T-2 T −2 P(yt − ŷ)
2 SCE
(T − 2) SCR
P
totale SCT = (yt − ȳ)2 T-1 1
T −1 (yt − ŷ)2
Commentaires
la statistique F̂ , dit de Fisher qui permet de tester la nullité de la pente, b=0, est égale au rapport
entre le arré moyen expliqué par la régression et le arré moyen résiduel. Ce i revient à tester :
H0 : b = 0 ou SCE = 0
vs
H1 : b 6= 0 ou SCE 6= 0
Pour un test de niveau α, on ompare la statistique F̂ à la valeur dépassée ave une probabilité α
par une variable aléatoire distribuée suivant une loi de Fisher à (1,T-2) degrés de libertés. Cette
quantité, notée F(1,T −2,1−α) est le quantile d'ordre (1 − α) de ette loi de Fisher à (1,T-2) degrés
de libertés
SCR est le minimum de la somme des arrés des résidus.
SCE : est la quantité expliquée par la droite de régression par rapport au modèle où l'on ajuste
les données qu'ave une simple moyenne (ȳ), e qui revient à faire une régression sur une droite de
pente nulle.
SCT est utilisée pour le al ul de la varian e empirique.
(T −2)R2
Nous démontrerons, en régression multiple, que si b = 0 i.eSCE = 0, 1−R2 suit le arré d'une loi de
47
Student ave T-2 degrés de liberté. Ave un seuil de signi ation α ,le R2 sera don "bon" si :
(T − 2)R2
> t2T −2,α/2
1 − R2
3.2.6 Exemple empirique

Poursuivons l'exemple de la se tion 1.3. Nous avions trouvé les valeurs â = −0.1 et b̂ = 1.9 On a de
plus :
x̄ = 3
ȳ = 5.6
X
(xt − x̄)2 = 10
X
(yt − ȳ)2 = 37.20 = SCT
SCE = 1.92 ∗ 10 = 3.61 ∗ 10 = 36.1

X
û2t = SCR = 1.10 = SCT − SCE
SCR 1.10
s2 = = = 0.37
T −2 5−2
0.37
s2b̂ = = 0.037
10

1 9
s2â = 0.37 + = 0.403
5 10
(0.37) ∗ 3
s = âb̂ = − − 0.11
10
1.10
R2 = 1 − = 0.97
37.20
Nous pouvons présenter es résultats sous forme de droite de régression :
ŷt = −0.1 + |{z}

1.9 xt (R2 = 0.97)
| {z }
(0.635) (0.192)
où les nombres entre parenthèses sont les estimations des é arts-types des oe ients estimés. On
peut aussi les présenter omme :
1.9 xt
ŷt = −0.1 + |{z} (R2 = 0.97)
| {z }
(−0.157) (9.88)
où les nombres entre parenthèses sont les rapports entre les oe ients estimés et les estimations de leurs
é arts-types. On appelle es rapports les rapports t (t-ratios) ; ils nous serviront dans le adre des tests
d'hypothèses.
L'interprétation du R2 est la suivante : 97% des u tautions de yt sont expliquées par elles de xt
Exemple
1.9
tb̂ = = 9.88
0.192
48
3.2.7 Régression simple, Intervalles de Conan e et Tests d'hypothèses

Tests sur les oe ients individuels
â et b̂ ne sont que des estimateurs pon tuels de a et de b . Dans ette sous se tion, nous nous intéressons
à la probabilité du type :
P rob [binf ≤ b ≤ bsup ] = 1 − α,
où α est une onstante appelée niveau de signi ation. Une telle probabilité doit se lire : "J'ai une
probabilité de 1 − α de ne pas me tromper lorsque j'arme que b est ompris entre binf et bsup ". Les
bornes binf et bsup vont dépendre de b̂ et de sa varian e.
Elles sont don aléatoires, au même titre que b̂ . Elles dépendront aussi de la distribution de b̂ . Si
ette distribution est symétrique autour de b , l'intervalle [binf , bsup ] aura b̂ omme point médian. Ce sera
le plus petit intervalle ayant une probabilité 1 − α de ontenir b . Il nous faut don maintenant spé ier
la distribution de â et b̂, e qui né essite une hypothèse sur la distribution des erreurs ut . Si nous faisons
l'hypothèse de normalité :
H0 : ut ∼ N (0, σ 2 )
P P
â = a + zt ut et b̂ = b + ωt ut et seront normales, puisque e sont alors des ombinaisons linéaires de
variables normales indépendantes. Quelles seront alors les formes de ainf , ≤ asup , binf et ≤ bsup . Si σ 2
etait onnue, nous aurions
b̂ − b â − a
∼ N (0, 1) et ∼ N (0, 1)
σb̂ σâ

σ2 1 x̄
ave σb̂2 = P σâ2 = σ 2 +P
(xt − x̄)2 T (xt − x̄)2
Nous pourrions alors é rire, par exemple,

" #
b̂ − b
P −z α2 ≤ ≤ z α2 =1−α
σb̂
où z α2 est la valeur de la variable normale entrée réduite ayant une probabilité α

2 d'être dépassée.
Nous aurions alors :
h i
P b̂ − z α2 σb̂ ≤ b ≤ b̂ + z α2 σb̂ = 1 − α
Les bornes her hées sont don :
binf = b̂ − z α2 σb̂ ≤ bsup = b̂ + z α2 σb̂
En pratique, σ 2 est in onnue. Que se passe-t-il lorsqu'on rempla e σ 2 par son estimation sans biais ?
P
û2t
s2 = ?
T −2
49
Pour reprendre l'exemple de b̂

b̂ − b b̂ − b
= qP
σb̂ û2t P 1
T −2 (xt −x̄)2
q b̂−b
σ2 ( P(x 1−x̄)2 ) N
= q Pt 2 =def
ût D
σ2 (T −2)
N est une variable normale réduite. Nous prouverons rigoureusement plus loin que
P 2
ût
σ 2
est une variable χ2 ave T-2 degrés de liberté, indépendante de la variable N. Par dénition, le rapport
N
D est alors une variable Student ave T-2 degrés de liberté
Don :
b̂ − b â − a
∼ tT −2 et, de manière analogue ∼ tT −2
sb̂ sâ
et les intervalles de onan e sont donnés par :
h i
P b̂ − tT −2; α2 sb̂ ≤ b̂ + tT −2; α2 sb̂ = 1 − α
Pour tester :
H0 : b = b 0 ontre H1 : b 6= b0
on ne rejettera pas H0 si b ∈ [binf , bsup ]

Pour tester :
H0 : b = b 0 ontre H1 : b > b0
on rejette H0 si b0 < b̂ − tT −2; α2 sb̂ .

Pour tester :
H0 : b = b 0 ontre H1 : b > b0
on rejette H si b0 > b̂ + tT −2; α2 sb̂

Des pro édures analogues sont évidemment valables pour le paramètre â
3.3 Test sur les deux paramètres a et b

Il s'agit i i du test :
H0 : a = a0 et b = b0 ontre H1 : a 6= a0 ou b 6= b0 ou les deux
Ce test n'est pas équivalent à une juxtaposition des deux tests t sur haque oe ient de régression. Une
méthode bivariée s'impose, et nos intervalles de onan e deviennent des ellipses 1 . En pratique, on passe
par la statistique F de Fisher-Snede or. La statistique à onstruire est :
Q/2
Fobs =
s
1. Ce type d'intervalles est développé au hapitre V
50
3.3. Test sur les deux paramètres a et b
ave
h X i
Q = T (â − a0 )2 + 2T x̄(b̂ − b0 ) + x2t (b̂ − b0 )2
Q est toujours positive ou nulle ; elle sera d'autant plus grande que â et b̂ dièrent de a et b . Or, e
sont bien les valeurs élevées d'une statistique F qui onduisent à rejeter l'hypothèse nulle. Par ailleurs,
une valeur élevée de s2 reète une mauvaise qualité de l'ajustement statistique ; il est don logique qu'elle
nous fasse hésiter à rejeter l'hypothèse H0 . En régression multiple, nous démontrerons que si H0 est
vraie, Fobs a la distribution F2,T −2 . On rejettera don H0 si
Fobs > F2,T −2;α
Nous montrerons aussi que F est égale à T −2

2T fois la statistique de Wald pour tester l'hypothèse
H0 : (a, b) = (a0 , b0 ) ontre H0 : (a, b) 6= (a0 , b0 ). Ce i fournit une première justi ation rigoureuse
de l'emploi de ette statistique.
Test sur une ombinaison linéaire des oe ients

Un estimateur sans biais d'une ombinaison linéaire γ = αa + βb
des oe ients a et b est bien sûr :
γ̂ = αâ + β b̂
An de onstruire un intervalle de onan e pour γ , nous devons estimer la varian e de γ̂ :
V (αâ + β b̂) = α2 V (â) + β 2 V (b̂) + 2αβCov(â, b̂)

1 x̄ β2 αβ x̄
= σ 2 α2 +P + P − 2 P
T (xt − x̄)2 (xt − x̄)2 (xt − x̄)2

1 (β − αx̄)2
= σ 2 α2 +P
T (xt − x̄)2
En utilisant le même raisonnement que pré édemment , on peut montrer que :
|γ − αâ − β b̂|
r ∼ tT −2
(β−αx̄)2
s α2 T1 + P (xt −x̄)2
et un intervalle de onan e est don donné par les deux bornes

s
1 (β − αx̄)2
αâ + β b̂ ± tT −2;α/2 s α2 +P
T (xt − x̄)2
3.3.1 Prévision
Que se passerait-il si nous voulions trouver un intervalle de onan e sur une valeur future yθ de y ? On
parlerait alors d'intervalle de prévision. Supposons par exemple que y soit une fon tion de onsommation,
que nous possédions des données annuelles entre 1960 et 1981 sur la onsommation et le revenu national,
51
et que nous voulions prédire la onsommation pour l'année 1982, onditionnellement à une proje tion xθ
du revenu national pour 1982. Sous l'hypothèse que le modèle reste in hangé, nous aurons :
yθ = a + bxθ + uθ et
ŷθ = â + b̂xθ et sera sans biais .
La variable yθ − ŷθ = uθ − (â − a) − (b̂ − b) est normale, de paramètres :
E(yθ − ŷθ ) = 0
V (yθ − ŷθ ) = E(yθ − ŷθ )2
= E(u2θ ) − E((â − a) + (b̂ − b)xθ )2
puisque â et b̂ ne dépendent que de u1 , u2 , . . . , uT ,et que E(ut , uθ ) = 0, t = 1, . . . , T . On a don bien

E(â, uθ ) = E(b̂, uθ ) = 0.
Le premier terme de la somme est égal à σ 2 . Le se ond terme peut être al ulé a l'aide des résultats
de la se tion pré édente, en posant α = 1 et β = xθ . Nous avons don :

1 (xθ − x̄)
E(yθ − ŷθ )2 = σ 2 1 + + P
T (xt − x̄)2
et les bornes de l'intervalle de prévision sont données par

s
1 (xθ − x̄)
ŷθ ± tT −2; α2 s 1+ + P
T (xt − x̄)2
3.4 Exemple numérique

Reprenons l'exemple numérique du pré édent. Nous avons t3;0.025 = 3.
Un intervalle de onan e sur b orrespondant à α = 0.05 sera don donné par :
h √ √ i
1.9 − (3.182) 0.037; 1.9 + (3.182) 0.037 = [1.29, 2.5]
On rejettera don au seuil α = 5%, par exemple, l'hypothèse :
H0 : b = 1.2
mais on ne rejettera pas l'hypothèse :

H0 : b = 1.5
Pour tester :
H0 : a = −0.15 et b = 2.5
ontre H0 : a 6= −0.15 ou b 6= 2.5
52
3.5. LE MODÈLE DE RÉGRESSION MULTIPLE
on onstruit la statistique
1
Fobs = 5(−0.10 + 0.15)2 + 2.5 ∗ 3(−0.10 + 0.15)(1.9 − 2.5)
2(0.37)
1
+ 55(1.9 − 2.5)2
2(0.37)
18.9125/2
= = 25.79
0.37
On a F2,3;0.05 = 9.55 et F2,3;0.01 = 30.82.

On ne rejette don pas H0 pour α = 0.01 , mais on la rejette pour α = 0.05
Un intervalle de onan e sur y0 = E[y|x = 35] a pour bornes :
r
1 (3.5 − 3)2
−0.1 + (1.9)(6) ± (3.182)(0.61) +
5 10
si α = 5.Ce qui donne [5.636,7.464℄. Un intervalle de prévision sur y6 = a + b(6) au niveau de

signi ation α = 0.01 aura pour bornes :
r
1 (6 − 3)2
−0.1 + (1.9)(3.5) ± (5.841)(0.61) 1 − +
5 10
e qui donne [6.175, 16.426]
3.5 LE MODÈLE DE RÉGRESSION MULTIPLE

Les notions présentées dans les se tions pré édentes vont nous permettre de généraliser les résultats
d'un modèle é onométrique possédant un nombre arbitraire de variables expli atives, soit :
yt = β1 + β2 xt2 + . . . , +βk xtk + ǫt (3.20)
pour t = 1, . . . , T
Pour prendre un exemple, il est raisonnable de supposer qu'une loi de demande omprenne omme
variable expli ative non seulement le prix PY du bien demandé, mais aussi le prix PX d'un substitut et
le revenu R du onsommateur. Nous aurions alors :
yt = β1 + β2 PXt + β3 PY t + β4 Rt + ǫt (3.21)
Une formulation matri ielle du modèle s'impose. Elle peut s'é rire sous la forme suivante :
      
y1 1 x12 ... x1k β1 ǫ1
 y2   1 x22 ... x2k   β2   ǫ2 
      
 y3   . . ... ...   β3   ǫ3 
 =
 .   .
 +  (3.22)
   . ... ... 
 .  
 . 

 .   . . ... ...   .   . 
yT 1 xT 2 ... xT k βT ǫT
où
y est un ve teur T × 1 d'observations sur la variable dépendante
53
X est une matri e T × K d'observations sur les variables expli atives

β est un ve teur K × 1 de paramètres in onnus
ǫ est un ve teur T × 1 d'erreurs aléatoires inobservables
Nous faisons les hypothèses suivantes :
1. H1 : E(ǫ) = 0
2. H2 : E(ǫǫ′ ) = σ 2 IT
3. H3 :X est non aléatoire
4. H4 :rang de X = k < T
L'hypothèse H2 implique que les erreurs sont de même varian e, et non orrélées. Si l'hypothèse H4 n'était
pas satisfaite, il existerait une relation linéaire exa te entre ertaines des olonnes de X. En substituant
ette relation dans l'equation de regression, on pourrait alors supprimer un régresseur. Ce i revient à dire
que le ve teur β ne pourrait pas être estimé de manière unique. Notons que nous ne faisons pas en ore
d'hypothèses sur la forme fon tionnelle de la distribution de ǫ .
3.5.1 Les estimateurs de moindres arrés

L'estimateur β̂ de moindres arrés sera obtenu, omme dans le as du modèle simple, en minimisant
la somme des arrés des résidus par rapport au ve teur des paramètres in onnu β . Le ve teur des résidus
est ǫ̂ = Y − X β̂ .
Cette somme de arrés peut don s'é rire :
ǫˆ′ ǫ̂ = (ǫ̂ = Y − X β̂)′ (ǫ̂ = Y − X β̂)
ǫˆ′ ǫ̂ = Y ′ Y − βˆ′ X ′ Y − Y ′ X β̂ + β̂ ′ X ′ X β̂ (3.23)
ǫˆ′ ǫ̂ = Y ′ Y − 2β̂ ′ X ′ Y + βˆ′ X ′ X β̂
En utilisant les règles de la dérivation matri ielle, on obtient 2 :
∂ ǫˆ′ ǫ̂
= −2X ′ Y + 2X ′ X β̂ = 0 (3.24)
∂β
Comme X est de rang K (X ′ X) et dénie positive, don régulière, nous pouvons é rire :
β̂ = (X ′ X)−1 X ′ Y (3.25)
Par ailleurs, les onditions de se ond ordre pour un minimum sont satisfaites, puisque
∂ 2 ǫˆ′ ǫ̂
= 2 ∗ (X ′ X) (3.26)
∂β∂β ′
une matri e dénie positive, e qui montre que ǫˆ′ ǫ̂ est onvexe en β̂
2. Rappel de ours sur les dérivées matri ielles :
Soit v ∈ Rk et a ∈ Rk
∂v⊤ a ∂a⊤ v
= =a
∂v ∂v
Soit v ∈ Rk et a ∈ Rk et M une matri e symétrique on a :
∂v⊤ M v
= 2M v
∂v
54
Moments des estimateurs de moindres arrés Espéran e de β̂
est un estimateur sans biais de β puisque :
E(β̂) = E[(X ′ X)−1 X ′ (Xβ + ǫ)]

= [(X ′ X)−1 (X ′ X) β) + (X ′ X)−1 X ′ ǫ)]
| {z }
1 (3.27)
= E(β) +(X ′ X)−1 X ′ E(ǫ))
| {z } | {z}
β 0
=β
Matri e de ovarian e de β̂
La matri e de ovarian e de β̂ est alors :
V (β̂) = E[(β̂ − β)′ (β̂ − β)]

= E[(X ′ X)−1 X ′ ǫǫ′ X(X ′ X)−1 ]
(X ′ X)−1 X ′ E(ǫǫ′ ) X(X ′ X)−1
| {z } (3.28)
σ2
= σ 2 (X ′ X)−1 X ′ X(X ′ X)−1
= σ 2 (X ′ X)−1
Le théorème de Gauss-Markov
Nous allons montrer que β̂ est le plus e a e des estimateurs linéaires de β . Plus pré isément si β̃
est un autre estimateur linéaire sans biais de β 'est-à-dire si E(β̃) = β et β̃ = Ay , les varian es de ses
omposantes ne peuvent être inférieures à elles des omposantes de β̂ .
V (β˜i ) > V (β̂) i = 1..., K (3.29)
Démonstration
Soit don β̃ = Ay un autre estimateur linéaire de β

. Nous pouvons supposer sans perte de généralité que :
A = (X ′ X)−1 X ′ + C (3.30)
β̃ = [(X ′ X)−1 X ′ + C](Xβ + ǫ

β̃ = (X ′ X)−1 X ′ Xβ + (X ′ X)−1 X ′ ǫ + Cǫ +CXβ
Alors : | {z } | {z } est un estimateur sans biais de β si et seule-
β Aǫ
= β[I + CX] + Aǫ
ment si CX = 0. Nous imposons don ette ondition, qui implique que :
β̃ = β + Aǫ (3.31)
55
La matri e de ovarian e de β̃ est alors :
E(β̃) = E(Aǫǫ′ A′ )
= σ 2 AA′
= σ 2 [(X ′ X)−1 X ′ + C][X(X ′ X)−1 + C ′ ]
= σ 2 [(X ′ X)−1 X ′ X(X ′ X)−1 + (X ′ X)−1 X ′ C ′ + CX(X ′ X)−1 +CC ′ ] (3.32)
| {z } | {z }
(X ′ X)−1 CX = X ′ C ′ = 0
= σ 2 [(X ′ X)−1 + CC ′ ]
= V (β̃) + σ 2 CC ′
Mais les éléments de la diagonale de CC ′ sont des sommes de arrés, don non négatives. Les varian es
des omposantes de β̃ sont don supérieures ou égales aux varian es des omposantes de β̃ .
L'estimation de la varian e des erreurs

P P
Comme pré édemment notre estimateur sans biais sera basé sur (ǫˆt − ǫ)2 = ǫˆt 2 puisque ǫ¯ˆt = 0
(En eet, la première ligne de la matri e (X ′ X) est le ve teur i′ X ave [1, . . . , ] la première omposante
ˆ
du ve teur X ′ y est i′ y . La première équation normale s'é rit alors :i′ Xβ = i′ y,oui′ (y − X β̂) = i′ epsilon =
P ′
ǫˆt = 0. Pour obtenir, omme pré édemment, un estimateur sans biais de σ , al ulons E(ǫˆt ǫˆt ). Nous
2
avons
ǫˆt = (y − X β̂) = Xβ + ǫ − X(X ′ X)−1 X ′ (Xβ + ǫ)
= Xβ + ǫ − Xβ − X(X ′ X)−1 X ′ ǫ
= [IT − X(X ′ X)−1 X ′ ]ǫ |{z}
= Mǫ (3.33)
def
On vérie aisément que M est idempotente et symétrique 3 Alors(ǫˆt ′ ǫˆt ) = (ǫˆt ′ M ′ M ǫˆt ) = (ǫˆt ′ M ǫˆt )
ˆ t ′ M ǫˆt ) puisque(ǫˆt ′ M ǫˆt ) est un s alaire

E(ǫˆt ′ ǫˆt ) = E(ǫˆt ′ M ǫˆt ) = E(trǫ
= E(trM ˆ ǫt ′ ǫˆt ) puisque tr(AB) = tr(BA)
′
= trE(Mˆǫt ǫˆt ) puisque la tra e est une somme
′
= trM E (ǫˆt ǫˆt ) puisque M est non aléatoire (3.34)
2 2 2
= trM σ = σ tr(M I) = σ tr(M )
= trIT = tr(X(X ′ X)−1 X ′ )
= trIT = tr(X(X ′ X)−1 X ′ ) = trIT − trIK = N − K
Alors E(ǫt ′ ǫˆt ) = (N − K)σ 2 et s2 = ǫt

′ ǫˆt N − K est un estimateur sans biais deσ 2 . Par le lemme 1, nous
avons y ′ y = (ǫˆt ′ ǫˆt )β̂ + X ′ y don
(i′ y)2 (i′ y)2

[y ′ y − ] = [(ǫˆt ′ ǫˆt )β̂ + X ′ y − ] (3.35)
T T
'est-à-dire SCT = SCE + SCR.

Il faut bien noter que ette identité n'est valable que dans un modèle ou la somme des résidus est nulle
(i′ ǫ̂ = 0).
Tel sera bien le as lorsque le modèle de régression omporte un terme onstant, puisque i est la première
ligne de X et puisque les équations normales impliquent (X ′ ǫ̂ = 0).
3. Posons PX = X(X ′ X)−1 X ′ et MX = [IT − X(X ′ X)−1 X ′ ] et Px et MX sont des matri es de proje tions symétriques
idempotentes et orthogonales entre elles. Px = Px′ et MX = MX
′ et P 2 = P et M 2 = M ,M × P = 0
x x X X X x
56
A partir de ette identité, nous pouvons dénir, dans un modèle ave terme onstant , le oe ient de
détermination omme : ′ 2
SCE SCR X ′ y − (i Ty)
2
R = = 1− = ′ 2 (3.36)
SCT SCT y ′ y − (i Ty)
(ǫˆt ′ ǫˆt )
Comme SCR
T = T est un estimateur biaisé de σ 2 , il est préférable d 'employer le oe ient de
détermination ajusté, déni omme suit :
SCR/T − k T −1 2 k−1
R̄2 = 1 − = R − (3.37)
SCT /T − 1 T −k T −k
qui est, lui, basé sur des estimateurs sans biais des varian es. Si l'on ajoute un régresseurR2, roîtra
toujours (non stri tement) ; e i n'est pas le as pour R̄2 .
Dans un modèle sans terme onstant, la somme des résidus n'est pas né essairement nulle et la
dé omposition pré édente (SCT = SCR + SCE) n'est don plus valable. Le R2 pré édent n'est don pas
né essairement ompris entre 0 et 1. Néanmoins, on a toujours, en vertu du lemme 1 :
y ′ y = β ′ Xy + (ǫˆt ′ ǫˆt ) = ŷ ′ ŷ + (ǫˆt ′ ǫˆt ) (3.38)
ave ŷ = β̂X
. On peut alors dénir :
ŷ ′ ŷ ǫˆt ′ ǫˆt
R∗2 = ′
=1− ′ (3.39)
yy yy
qui est, lui, toujours ompris entre 0 et 1. Ce oe ient R∗2 . peut être utilisé dans tous les as, tant dans
un modèle sans onstante que dans un modèle ave onstante. Mais son interprétation est diérente de
elle du R , omme pré édemment, nous pouvons aussi ajuster e dernier oe ient de détermination
2
aux nombres de degrés de liberté, omme suit :
ǫˆt ′ ǫˆt /T − k T −1 2 k−1

R̄∗2 = 1 − = R − (3.40)
y ′ y/T − 1 T −k ∗ T −k
Interprétation des oe ients de détermination :

Nous verrons plus loin que R2 est une fon tion monotone de la statistique F à employer pour tester
la nullité de tous les oe ients de régression sauf la onstante.
Nous verrons aussi que R∗2 est une fon tion monotone de la statistique F à employer pour tester la
nullité de tous les oe ients, onstante omprise. On peut montrer que R2 est le arré du oe ient
de orrélation entre les valeurs observées yt et les valeurs yˆt al ulées à l'aide de l'equation de régression
estimée.
3.5.2 Géométrie des MCO

On appelle prédi tion de y
ŷ = [yˆ1 + yˆ2 + ..... + yˆn ]′ = X β̂ = X(X ′ X)−1 y = PX y (3.41)
57
ŷ = P Xy est la proje tion orthogonale de y sur l'espa e ve toriel engendré par les olonnes de X.
−
→
X = {Xβ, ∀ ∈ Rk } (3.42)
PX est la matri e de proje teur orthogonal. Elle est telle
′
PX = PX (symetrie)
PX PX = PX (idempotente)
→
−
Elle a k valeurs propres égale à 1 (k = dim X ) si les olonnes de X sont linéairement indépendantes et
N-K valeurs propres nulles. Sa tra e est égale à la somme des valeurs propres ou la somme des éléments
diagonaux de PX .
Résidus statistiques
On appelle résidu l'é art et la réalisation yi et la prédi tion yî . Le ve teur des résidus :
ǫ̂ = [ǫˆ1 , ǫˆ2 , ǫˆ3 , . . . , ǫˆn ] = y − ŷ = y − PXy = (IN − PX )y = MXy (3.43)
→
−
ǫ̂ est la proje tion orthogonale sur l'orthogonal de X . On a don bien en parti ulier
X
ǫ̂ ⊥ ŷ ⇐⇒< ǫ̂, ŷ >= ǫ̂′ .ŷ = ǫî ′ .yî = 0 (3.44)
MX est le proje teur orthogonal asso ié :
′
MX = IN − PX = MX MX MX = MX (3.45)
Remarque 10 Si X ontient une onstante (régression ave onstante), alors ǫ̂ est par onstru tion
orthogonal au ve teur unitaire τn = [1, . . . , 1]′
P
ǫ̂ ⊥ τn ⇐⇒< ǫ̂, τn >= ǫ̂′ .τn = ǫî = 0
Attention :
P
ǫi dière de zéro si la régression ne ontient pas de onstante. Ainsi don :
( P
N
ǫ̂ ⊥ ŷ ǫî ′ .yî = 0 1 X ′ 1 X 1 X
⇐⇒ Pi=1
N =⇒ ǫî .yî ǫî . yî = cov(ǫî ′ .yî ) = 0 (3.46)
ǫ̂ ⊥ ŷ i=1 ǫî = 0 N N N
Dans le as d'une régression ave une onstante, l'orthogonalité entre le ve teur des résidus et les olonnes
de X implique le fait que la ovarian e empirique entre ǫî etyî est nulle. Enn ǫî ′ = yi − xi β̂ est le résidu
statistique qui est l'analogue du résidu théorique ou perturbation :ǫi = yi − E(yi |xi ) On représente la
dé omposition de y par la gure i-dessous.
58
Figure 3.2 Dé omposition de Y
Remarque 11 La norme au arré de Y est égale à la somme des arrés de MY et PY (Théorème de

Pythagore).
kY k2 = kM Y k2 + kP Y k2 = Y ′ Y = Y ′ M Y + Y ′ Y = SCT = SCE + SCR
Régression Partitionnée : Frish-Waugh

Si X est partionné en deux ve teurs :
XN ×K == (X1N ×K1 , X2N ×K2 ), K = K1 + K2

β1
β=
β2
y = Xβ = X1 β1 + X2 β2 + ǫ1 (3.47)
On obtient βˆ2 en deux étapes :
1. Régresser y et les olonnes de X1 sur les olonnes X2 . Sauver les résidus MX1 y et MX2 X1
2. Régresser MX2 y sur MX2 X1 . L'estimateur des MCO du oe ient de ette régression est βˆ2 :
βˆ2 = X1 MX2 X1 )−1 X1 MX2 y (3.48)
est l'estimateur obtenu à partir du modèle suivant :
M1 y = M1 X2 β2 + residus (3.49)
59
Théorème 2 FWL
1. Les estimateurs du modèle [3.47℄ et [3.49℄ du paramètre β2 sont numériquement identiques
2. Les résidus du modèle [3.47℄ et [3.49℄ sont numériquement identiques.
Preuve
L'estimateur β2 du modèle [3.49℄ est donné par :
βˆ2 == (X1 MX2 X1 )−1 X1 MX2 y (3.50)
On sait que
y = PXy + MX Y (3.51)
Si on premultiplie le modèle [3.47℄ par X2′ M1 on obtient :
X2′ M1 y = X2′ M1 X1 β1 + M1 X2 β2 + X2′ M1 MX y (3.52)
En appliquant les propriétés des matri es de proje tion on a :
X2′ M1 y = M1 X2 βˆ2 (3.53)
ar
M1 X1 = 0; MX M1 = MX X2 = 0 et X2′ M1 MX = 0 (3.54)
on vient de démontrer le premier point du théorème. Pour démontrer le deuxième point du théorème on
prémultiplie l'équation [3.47℄ par la matri e de proje tion M1 = MX1 .
M 1 y = M 1 X2 β + M X y (3.55)
du fait que M1 MX = MX . On on lut que MX y est aussi le terme d'erreur de l'équation [3.55℄. Exemple :
Extension des formules du modèle simple
Supposons que la régression ontient un terme onstant :
N×(K−1)
n , X̃)X̃ = (x̃i ) ∈ R
X = (τ
a0
β0 =
b0
Xβ0 = a0 τn + X̃b0
où τn est un ve teur unitaire de dimension n. On régresse d'abord y sur les olonnes de X̃ et τn :

Pn
τn (τn′ τn )−1 τn′ X̃ = τn n1 i=1 x̃i = τn X̃¯
P n (3.56)
τn (τn′ τn )−1 τn′ X̃ = τn n1 i=1 y˜i = τn ȳ
En appliquant FWL on obtient les estimateurs des MCO de b0 en ee tuant la régression sans terme
¯ :
onstant des variables entrées : ∆y = y − ȳτ et ∆X̃ = X̃ − τ X̃
n n
¯
b̂ = ((∆X̃)′ ∆X̃)−1 ∆y et â = nȳ − b̂X̃ (3.57)
60
3.5.3 Problèmes parti uliers : multi olinéarité, biais de spé i ation et va-
riables muettes
Multi olinéarité
1. Comme nous l'avons deja mentionné, l'existen e d'une relation linéaire exa te entre les olonnes
de X nous empê he de déterminer l'estimateur β̂ de manière unique. Ce as est un as extrême de
multi olinéarité. Mais il arrive souvent que ertaines des olonnes de X présentent une dépendan e
linéaire approximative. Les onséquen es de e phénomène sont les suivantes :
un manque de pré ision dans les estimations des βi , se traduisant par de varian es élevées ;
les estimations des βi présenteront souvent des distortions importantes, dues à des raisons
numériques. Le nombre de hires signi atifs des empla ements
- mémoire d'un ordinateur est en eet limité, e qui se traduit par un manque de stabilité des
programmes d'inversion matri ielle, pour des matri es qui sont presque singulières.
Pour illustrer le premier point, reprenons le modèle de régression simple
yt = a + bxt + ut . (3.58)
Nous avons vu que :

2
V ar(b̂) = P σ
(xt −x̄)2
La multi olinéarité se traduira dans e as par une série d'observations (xt ) presque onstante, 'est
P
-à-dire par xt ≈ x̃ pour tout t. On a alors (xt − x̄)2 ≈ 0 e qui se traduit par une varian e de (b̂)
élevée.
2. La multi olinéarité peut être mesurée en al ulant le rapport λmax

λmin de la plus grande à la plus petite
valeur propre de X ′ X .
3. Pour orriger le problème de multi olinéarité, on peut :

soit ajouter des observations à l'é hantillon quand la hose est possible ; il faut néanmoins que
les observations supplémentaires ne présentent pas de multi olinéarité !
Soit introduire une information a priori. Supposons par exemple que dans la fon tion de
produ tion :
logQt = A + αlogKt + βlogLt + ut (3.59)
les variables logKt et logLt soient fortement olinéaires. Si l'on sait que les rendements d'é helle
sont onstants α + β = 1 on peut transformer le modèle omme suit :
logQt = A + αlogKt + (1 − α)logLt + ut (3.60)
ou
(logQt − logLt +) = A + α(logKt − logLt ) + ut (3.61)
61
e qui a don pour eet de supprimer un régresseur. Ce i peut résoudre le problème. Essentielle-
ment, l'information a priori α + β = 1 supplée au défaut d'information présente dans l'é hantillon
(tentative d'estimer trop de paramètres ave trop peu de données). Cette information a priori
peut également prendre une forme sto hastique, non déterministe. C'est le as de la méthode
bayésienne.
Biais de spe i ation

Examinons maintenant le problème du hoix d'une forme fon tionnelle, 'est-a-dire du hoix de la liste
des regresseurs. Comme nous allons le montrer, l'omission d'une variable expli ative a pour onséquen e,
en général, un biais de l'estimateur β̂ .
Supposons que y soit engendrée par le modèle :
y = Xβ + u = X1 β1 + X2 β2 + u; avec β2 6= 0 et E(u) = 0 (3.62)
et que l'on omette les olonnes de X2 de la liste des régresseurs. On estimerait alors par moindres arrés
le modèle
y = Xβ + u = X1 β1 + u∗ avec u∗ = X2 β2 + u (3.63)
et par onséquent E(u∗ ) = X2 β2 6= 0 L'estimateur :
βˆ1 = (X1′ X1 )−1 X1′ y = β1 + (X1′ X1 )−1 X1′ u∗ (3.64)
sera biaisé.
Variables muettes
Une variable muette, ou binaire (en anglais : dummy variable ) est une variable du type

Dt = 1 si t ∈ T
(3.65)
0 sinon
ou Ti ⊆ 1, 2, ..., T .
Une telle variable, in luse dans la liste des régresseurs, pourrait par exemple indiquer la présen e ou
l'absen e de guerre, ou lassier des données selon un ritère saisonnier. Pour des données mensuelles, s'il
n'y pas de variations saisonnières à l'intérieur d'un même trimestre, on pourrait poser :
D1t = 1 si t est un mois du premier trimestre, 0 sinon
D2t = 1 si t est un mois du se ond trimestre, 0 sinon
(3.66)
D3t = 1 si t est un mois du troisième trimestre, 0 sinon
D4t = 1 si t est un mois du quatrième trimestre, 0 sinon.
Les quatre olonnes des régresseurs D1 ,D2 ,D3 ,D4 pour les 12 mois d'une année auraient alors la forme
suivante :  
1 0 0 0
 0 1 0 0 

 0
 (3.67)
0 1 0 
0 0 0 1
62
Nous ne pourrions pas in lure de onstante dans e modèle, puisque la somme de es quatre ve teurs
est un ve teur unitaire. On aurait alors olinéarité parfaite. Les oe ients des variables Di sont en fait
des onstantes spé iques à haque saison. Une autre possibilité serait d'in lure une onstante, et de
supprimer l'une des variables Di , par exemple D1 . Les oe ients de D2 ,D3 , et D4 mesureraient alors
l'eet relatif des fa teurs saisonniers : les onstantes spé iques seraient β1 , β1 + β2 , β1 + β3 , β1 + β4
plutt que β1 , β2 , β3 et β4 . Notons aussi que les variables muettes permettent la spe i ation de pentes
variables. Si Dt = 1 pour une période de rise, = 0 sinon, et que l'on a des raisons de penser que la
propension marginale à onsommer β dans le modèle :
Ct = α + βYt + ut (3.68)
est diérente en temps de non rise qu'en temps de rise, on pourra estimer les paramètres du modèle :
Ct = α + βDt Yt + c(1 − Dt )Yt ut (3.69)
et β̂ sera l'estimateur de la propension marginale à onsommer en temps de rise, ĉ l'estimateur de ette

propension en temps de paix.
3.5.4 Estimateurs par maximum de vraisemblan e

Nous faisons i i l'hypothèse que le ve teur ǫ à une distribution normale :
H : ǫ ∼ N (0, σ 2 I) (3.70)
Ce qui implique que y − Xβ ∼ N (0, σ 2 I). La fon tion de vraisemblan e s'é rit alors :
1 −T T 1
L(βσ 2 ) = (2Πσ 2 )−T /2 exp[ (y −Xβ)′ (y −Xβ)] et log(L) = log(2Π)− σ 2 − 2 (y −Xβ)′ (y −Xβ)
2σ 2 2 2 2σ
(3.71)
Nous avons alors les onditions de premier ordre suivantes :
∂ ln(L) 1 h i
= 2 −2X ′y + 2X ′ X β̂ = 0
∂β 2σ̂
∂ ln(L) T 1 h ′
i
= − + (y − X β̂) (y − X β̂) =0
∂σ 2 σ̂ 2 σ̂ 4
La première ondition implique β̂ = (X ′ X)−1 X ′ y . Cet estimateur est identique a elui des MCO et
est sans biais. En remplaçant β par β̂ dans la se onde ondition et en la multipliant par 2σ 2 ,on obtient
ǫ′ ǫ
σ̂ 2 = (3.72)
T
omme estimateur de maximum de σ 2 par vraisemblan e. Cet estimateur est biaisé . Les onditions du
se ond ordre nous amènent à al uler le Hessien. La matri e Hessienne H s'obtient en dérivant le ve teur
!
1 ′ ′
2σ2 (−2X y + 2X X β̂) (3.73)
−T 1 ′
ˆ2 + ˆ4 ((y − Xβ) (y − Xβ))
σ σ
63
par rapport au ve teur (β, σ 2 )′ . Ce i donne :

−x′ x 1 ′ ′

σ2 σ4 (−X y + X X β̂) (3.74)
1 ′ −T 1
σ4 (−X y + X ′ X β̂) ′
σ̂4 + σ̂6 ((y − Xβ) (y − Xβ))
En remplaçant β par β̂ = (X ′ X)−1 X ′ y et σ 2 par 1

T ((y − Xβ)′ (y − Xβ))
′
− xσ2x 0K
(3.75)
0K − σT4
qui est dénie négative puisque (X ′ X) est dénie positive et σ 2 > 0. Nous avons don bien un maximum.
Exemple numérique
Une asso iation de produ teurs d'oignons voudrait étudier l'inuen e sur la produ tion de d'oignons
par he tare (Y ) des quantités de main-d'oeuvre (X1 ) et d'engrais (X2 ) employées par he tare. Une enquête
est menée hez dix produ teurs d'oignons (i = 1, ..., 10) et l'on postule la forme fon tionnelle suivante :
log(Yt ) = β1 + β1 log(X1i ) + β3 log(X2i ) + ǫi
où ǫi est un terme d'erreur aléatoire satisfaisant nos hypothèses (bruit blan ). Les données de l'é hatillon
sont résumées dans la matri e suivante :
 P 2
P P P 
P(log(Yt )) (log(Yt )) (log(Yt )) log(X1i ) (log(Y
P t )) log(X2i )

 P (log(Y t )) P T log(X 1i ) P (log(X2i )) 
=
2

P (log(Y t )) log(X 1i ) P log(X 1i ) log(X 1i ) (log(Y
P t )) log(X 2i ) 
(log(Yt )) log(X2i ) log(X2i ) log(X1i ) log(X2i ) (log(X2i ))2
 
19.14 11.8 7.1 4.1
 11.8 10 2 2 
 
 7.1 2 7 1 
4.1 2 1 7
 
10 2 2
(X ′ X) =  2 7 1 
2 1 7
y ′ y = 19.14
 
11.8
X ′ y =  7.1 
4.1
 
48 12 −12
1 
(X ′ X)−1 = 432 12 66 −6 
−12 −6 66
 
1
β̂ = (X ′ X)−1 X ′ y =  0.7 
0.2
β̂ ′ X ′ y = 17.59
ǫˆ′ ǫ̂ = 19.34 − 17.59 = 1.75
64
ǫˆ′ ǫ̂ 1.75
s2 = T −3 = 10−3 = 0.25
1.75
R2 = 1 − 2 = 0.677
19.34− (11.8)
10
R̄2 = 97 0.677 − 2
7 = 0.585
Les résultats peuvent être résumés de la façon suivante (les estimations des é arts-types se trouvent entre
parenthèses) :
log(Yˆt ) = 1 + 0.7 log(X1i ) + 0.2 log(X2i ) + ǫi R¯2 = 0.585
3.5.5 Propriétés asymtotiques des estimateurs de moindres arrés ordinaires

Convergen e
Nous allons montrer que l'estimateur β̂ = (X ′ X)−1 X ′ Y de moindres arrés est un estimateur
onvergent de β dans le modèle lassique Y = Xβ + ǫ sous les hypothèses suivantes :
1. H1 : E(ǫ) = 0 : Les erreurs sont entrées
2. H2 : V (ǫ) = σ2 In : Homo édasti ité des erreurs.
3. H3 : Le ve teur X des expli atives est non sto hastique de rang K < n).
P
limn→∞ 1 ′
N (X X) = XX une matri e dénie positive.
Comme X est non sto hastique on a :
E(X ′ ǫ) = X ′ E(X ′ ǫ) = 0
hP i PT
T
V (X ′ ǫ) = V t=1 xtk ǫt = σ 2 t=1 x2tk
et
PT
V ( n1 X ′ ǫ) = 1 2
n2 σ t=1 x2tk
x2tk
PT
Mais σ 2 = t=1
n onverge par l'hypothèse H4 vers une limite nie. Don V ( n1 X ′ ǫ) tend vers zéro
quand n tend vers l'inni. On on lut que les omposantes de ( n1 X ′ ǫ) vérient E( n1 X ′ ǫ) = 0.
Ce i montre que p lim( n1 X ′ ǫ) = 0. On a alors :


 plimβ̂ = plim[β + (X ′ X)−1 ǫ]
 = β + plim[(X ′X)−1 ǫ]


= β + plim[( n1 X ′ X)−1 n1 ǫ]
1
X ′ X)−1 ]plim[ n1 ǫ]

 = β + plim[(


 P−1 n
= β + XX ×0K×1 = β
65
Normalité asymptotique
Tous les tests présentes dans les se tions pré édentes supposent la normalité des erreurs. Qu'en est-il
si l'on relâ he ette hypothèse spé ique sur la distribution du ve teur ǫ ? En utilisant le théorème Central
limite on va établir la normalité asymptotique de β̂ . Si la taille l'é hantillon tend vers l'inni, on se base
sur la distribution normale pour onstruire les tests asymptotiques sur le ve teur β .
Remarque 12 En pratique on raisonne, en supposant que σ est onnu pour pouvoir utiliser la loi normale
au lieu de elle de student dans le as ou σ est in onnu.
Théorème 3 Supposons que les hypothèses H1 et H2 soient vériées, et soit αt la t-ieme olonne de la
P
transposée de X (X'). Dénissons le ve teur Zt = ǫt αt et supposons √1n Zt vérie le théorème entral
limite. Alors pour β̂ = (X ′ X)−1 X ′ y :
√ P
(a) dlim n(β̂ − β) ∼ N (0, σ 2 −1 XX
(b)Siplim( n1 ǫ′ ǫ) = σ 2 on a plim( n1 ǫ̂′ ǫ̂) = σ 2 ave ǫ̂ = y − X β̂
Preuve
P P 2 ′
Notons que E(Zt ) = 0 et V (Zt) = σ 2 α′t αt Par onséquent : lim n1 V (Zt) = σ αt αt =
n−→inf
P−1
XX matri e dénie positive d'après H4 . En vertu du théorème entral limite, on a :
2
σ
√ P P
dlim n(β̂ − β) = √1n Zt ∼ N (0, σ 2 −1
XX
Notons que
√
dlim n(β̂ − β) = ( n1 (X ′ X)−1 √1n X ′ ǫ
√
dlim n(β̂ − β) = ( n1 (X ′ X)−1 dlimX ′ ǫ
P P P−1
et appliquons les résultats i-dessous : ∼ N (0, σ 2 −1XX ( XX ) XX
P
∼ N (0, σ 2 −1XX )
(b) Pour la preuve de la se onde partie du théorème, on rappelle :
SCR = ǫ̂′ ǫ̂) = ǫ̂′ M ǫ̂) = ǫ̂′ [I − X(X ′ X)X ′ ]ǫ̂)
Don
( n1 ǫ′ ǫ) = ( n1 Xǫ′ )( n1 X ′ X)−1 ( n1 X ′ ǫ̂)
P−1
plim( n1 ǫ̂′ ǫ̂) = plim( n1 ǫ′ ǫ) − O1×K XX OK×1 = σ 2
en vertu du théorème de Slutsky et de l'hypothèse du théorème.
L'estimateur de Aitken de moindres arrés généralisés (MCG)

Si nous relâ hons l'hypothèse d'homo é édasti ité des erreurs (i.e.V (ǫ) = σ 2 In ), nous obtenons une
extension du MCO appelé le modèle de moindres arrés généralisés. On onsidère le modèle
y = Xβ + ǫ (3.76)
H1 : E(y) = Xβ
P
H2 : Les erreurs sont non sphériques : V (y) = V (ǫ) = une matri e dénie positive
66
H3 : Les régresseurs sont non sto hastiques i.e X est non aléatoire de rang K ssi la matri e (X ′ X)
est de format K × K .
H3 : Multi olinéarité implique que y ∼ N M V (Xβ; Σ) ave
V (y) = Σ = σ 2 Ω (σ 2 suppose onnu)
ou X est une matri e des expli atives de format (n, K) et de rang K, et un ve teur aléatoire appartenant
à RN . On suppose que
E(ǫ) = 0 et V (ǫ) = σ 2 Ω
où Σ est une matri e symétrique dénie positive onnue. Pour montrer que l'estimateur moindre arrés
généralisés est BLUE, il est important de al uler les ra ines de Ω−1 .
On sait qu'il existe une matri e inversible H orthogonale telle que H ′ Ω−1 H = I et, par suite
H ′ H = Ω−1 . En posant y1 = Hy , X1 = HX et ǫ1 = Hǫ le modèle [3.76℄ s'é rit sous la forme équivalente :
y1 = X1 β + ǫ 1 (3.77)
où la matri e β est de format (K, 1) où le résidu ǫ1 satisfait les hypothèses des moindres arrés
ordinaires,soit :
E(ǫ1 ) = 0 et V (ǫ1 ) = σ 2 I .
On appelle estimateur de Aitken du modèle [3.77℄ l'estimateur MCO du modèle [3.76℄ :
β̂mcg = (X1′ X1 )−1 X1′ y1 = (X ′ Ω−1 X)−1 X ′ Ω−1 y (3.78)
Propriétés de β̂mcg
E(β̂mcg ) = β V (β̂mcg ) = (X ′ Ω−1 X)−1 (3.79)
Theoreme de Gauss Markov :
Théorème 4 (β̂mcg ) est l'unique estimateur linéaire sans biais de β qui minimise la varian e de
l'estimateur de toute forme linéaire de β .
Remarque 13 Un estimateur sans biais de σ 2 est
kǫˆ1 k2 ǫ̂′ Ω−1 ǫ̂

S2 = = (3.80)
n−K n−K
(n−K)S 2
Si le résidu ǫ est gaussien, (βmcg ) est l'estimateur du maximum de vraisemblan e de β . La v.a.r σ2
suit une loi de χ2 de degré de liberté ν = n − K et est indépendante de (βmcg ). On en déduit les tests et
regions de onan e on ernant les omposantes de β omme dans les as d'un modèle satisfaisant aux
hypothèses des moindres arrés ordinaires.
67
3.5.6 L'estimateur MCG réalisable

Si Ω est in onnu, il existe au moins trois possibilités d'estimer Ω
1. On peut paramétriser la matri e Ω en terme de θ, un ve teur de dimension nie de paramètres

in onnus Ω = Ω(θ) par onstru tion Ω(0) = I . Ce qui onduit au test d'hypothèses
HO : Ω(0) = I ⇔ θ = 0
Si on ne rejette pas H0 au seuil α hoisi alors (βmcg ) = (βmco )
2. Si on suppose que Ω = Ω(θ), on utilise les résidus des MCO pour obtenir un estimateur onsistant
de θ̂ et Ω̂ = Ω(θ̂) estimateur qui dépend du type d'hétéro édasti ité, de orrélation et ...
On dénit l'estimateur de MCG réalisable par :
β̂mcg−r = (X ′ Ωˆ−1 X)−1 X ′ Ωˆ−1 y
√
n(β̂mcg−r − β̂mcg ) −→ 0
√
n(β̂mcg−r − β) ∼ N (0, V )
ave
2
V = plim(Smcg−r [ n1 X ′ Ω̂−1 X)−1 ]−1 )
3. Si la forme de (Ω(θ̂)) est in onnue, d'autres al uls permettent de al uler la distribution asympto-
tique de
√
n(β̂mcg−r − β) ∼ N (0, D−1 CD−1 )
ave
D = plim[ n1 X ′ Ω̂−1 X)−1 ]−1 X = D̂
D = plim[ n1 X ′ Ω̂−1 ΣΩ̂−1 X)−1 ]−1 X = D̂
ave Σ = V (y)D̂ est onsistant. Le problème est de trouver un estimateur onsistant de C sans imposer
des ontraintes sur Σ matri e de varian e ovarian e asymptotique D−1 CD−1 , matri e robuste ave des
restri tions parti ulières sur la distribution hétérogène et on impose la dépendan e des observations.
Proprietes des estimateurs d'AIKEN

Le théorème i-dessous est un as parti ulier d'appli ation au modèle a erreurs autoregressives d'un
théorème plus général s'appliquant à tout estimateur "Aitken-rèalisable". Il montre que si Ω est rempla é
par son estimateur onvergent de ette matri e dans la formule,β̂mcg , on obtient un estimateur de .
β̂mcg−r , qui a la même distribution limite que β̂mcg .
 
1 ρ ... ρn−1
ρ 1 ... ... 
Théorème 5

Soity = Xβ + ǫ, ave E(ǫ) = 0 E(ǫ′ ǫ) = σ 2 Ω = σ 2   X et non
 ... ... ... 
ρn−1 ... ... 1
sto hastique
68
Si ρ̂ est un estimateur onvergent de ρ et supposons que lim 1 (X ′ Ω−1 X) = Q soit une matri e
n→lim inf n
dénie positive. Soit H la matri e de transformation telle que H ′ H = Ω−1 , soit [X ′ H ′ ]t la t-ieme olonne
de X ′ H ′ , et supposons que les ve teurs Zt = (Hǫ)t [X ′ H ′ ] vérient le théorème entral limite. On obtient
 ˆ 
( 1 ρ̂ ... ρn−1
β̂ = (X ′ Ω−1 X)−1 X ′ Ω−1 yet  ρ̂ 1 ... ... 
les deux estimateurs ˆ ou Ω̂ =  
β̂ = (X ′ Ω̂−1 X)−1 X ′ Ω̂−1 y  ... ... ... 
ρ ˆ
n−1 ... ... 1
Sous les hypothèses additionnelles que :
plim( n1 X ′ Ω̂−1 X) = lim n1 (X ′ Ω̂−1 X) = Q

plim( √1n X ′ Ω̂−1 ǫ − X ′ Ω−1 ) = 0
plim( n1 (ǫ′ ǫ) = 0
on a les résultats suivants :

√ √ ˆ
1. dlim n(β̂ − β) = dlim n(β̂ − β) ∼ N (0, σ 2 Q−1
ˆ ˆ
2. plims2 = σ 2 ave s2 = n−k1
(y − X β̂)Ω̂−1 (y − X β̂)
Preuve
Notons tout d'abord que
√
n(β̂ − β) = ( n1 (X ′ Ω−1 X)−1 X ′ √1n Ω−1 ǫ et que
P
X ′ Ω−1 ǫ = X ′ H ′ Hǫ = Zt
On a E(Zt ) = 0 ; d'autre part, omme E(Hǫ)2t = σ 2 et omme

P 2
([X ′ H ′ ]t , [X ′ H ′ ]t ) = lim n1 E(Zt Z ′ t) = ( σn (X ′ Ω−1 X)) = σ 2 Q
P
Par onséquent, en vertu du théorème entral limite, dlim Zt ∼ N (0, σ 2 Q).
Don
√
plim n(β̂ − β) = plim( n1 (X ′ Ω−1 X)dlim( n1 X ′ Ω−1 ǫ et que
∼ N (0, σ 2 (Q)Q−1 ) = N (0, σ 2 Q−1)
En eet :
√
n(β̂ − β) = 1 ′ −1
n (X Ω X)( n1 X ′ Ω−1 ǫ , dlim 1 ′ −1
nX Ω ǫ ∼ N (0, σ 2 Q)
et don
√
n(β̂ − β) ∼ N 0, σ 2 Q−1
Pour démontrer la se onde partie du théorème, notons que la limite en probabilité de

ˆ ˆ
1
n−k (y − X β̂)Ωˆ−1 (y − X β̂) = σ 2
La preuve est exa tement la même que elle de la se tion [3.5℄ et il sut de rempla er y par Hy et X par
ˆ
HX . Comme plimβ̂ = β = plimβ̂ et omme plimΩ̂ = Ω le théorème de Slutsky implique que s2 = σ 2
69
3.5.7 Estimation sous ontrainte

Deux appro hes permettent d'estimer les paramètres du modèle ontraint :
1. Appro he par hangement de variables ;
2. Appli ation dire te de la méthode d'estimation sous ontraintes
1. Intégration dire te des ontraintes dans la pro édure
Si le modèle ontient K variables, si on impose r ontraintes, e i revient à estimer K −r paramètres.

On estime le modèle ontraint ave les variables transformées suivant les ontraintes.
Exemple : Supposons le modèle
qt = γ + αlt + βkt + ut
On suppose des rendements d'é helle onstants α + β = 1 ⇒
α + β = 1 ⇒ qt = γ + (1 − β)lt + βkt + ut
qt − lt = γ + β(kt − lt ) + ut
Ce i revient a estimer deux paramètresβ et γ .
2. Pro édure
Soit y = Xβ + ǫ, on veut estimer e modèle sous la ontrainte Rβ = c ; ave rang(R) = r nombre de

restri tions inférieur à K. On estime un modèle MCO sous ontrainte. Le problème est le suivant :
βc est une solution du problème suivant
min SCR(β) = (y − Xβ)′ (y − Xβ)

sc Rβ = c
On dénit βˆc l'estimateur du modèle ontraint et β̂nc l'estimateur du modèle non ontraint.
Théorème 6 Soit
y = Xβ + u
L'estimateur des moindres arrés ordinaires est déni par :
β̂c = β̂nc − (X ′ X)−1 R′ [R(X ′ X)−1 R′ ]−1 (Rβnc − c) (3.81)
Preuve
Formons le Lagrangien
L(β, λ) = SCR(β) − λ′ (Rβ − c) (3.82)
70
Puisque y ′ Xβ est de format 1 × 1 e qui implique que β ′ X ′ y = y ′ Xβ et le Lagrangien devient :
L(β, λ) = y ′ y.2y ′ Xβ + β ′ (X ′ X)β + β ′ R′ λ = c′ λ) (3.83)

∂L(β, λ)
= −2X ′y + 2(X ′ X)βˆc + R′ λ̂ (3.84)
∂ β̂
∂L(β, λ)
= Rβˆc = c ⇒ −2X ′y + 2(X ′ X)βˆc = −R′ λ̂ (3.85)
∂ λ̂
λ̂
⇒ −X ′ y + (X ′ X)βˆc = −R′ (3.86)
2
En p¯emultipliant les deux membres de l'équation [3.86℄ par (X ′ X)−1
λ̂
(X ′ X)−1 − X ′ y + βˆc = −(X ′ X)−1 R′ (3.87)
2
De l'équation [3.87℄ on tire la valeur βˆc qu'on remet dans [3.86℄ pour déterminer
λ̂
= [R(X ′ X)−1 R′ ]−1 (Rβˆnc − c) (3.88)
2
En remplaçant λ̂
2 dans [3.87℄ on obtient :
βˆc = βˆnc − (X ′ X)−1 [R(X ′ X)−1 R′ ]−1 (Rβˆnc − c) (3.89)
Propriétés de l'estimateur ontraint

On va présenter les propriétés de βˆc sous H0 : Rβ = c
Premier as
H0 : Rβ = c est vraie Sous H1 − H3 , on sait que βˆnc est sans biais, on a
E(Rβˆnc ) = RE(βˆnc ) = Rβ = c (3.90)
Propriétés
Sous H1 − H4 et H0 , βnc est sans et plus pré is que l'estimateur βˆnc Autrement dit, l'estimateur est
sans biais et l'on gagne en pré ision lorsque on intègre les ontraintes par H0 . Ce résultat est intuitif : les
ontraintes Rβ = c onstituent un ensemble d'information supplémentaires sur β dont la prise en ompte
réduit l'in ertitude ae tant l'estimation.
Preuve D 'après [3.90℄
β̂c = β̂nc − (X ′ X)−1 R′ [R(X ′ X)−1 R′ ]−1 (Rβ̂nc − c) (3.91)
En notant
W = (X ′ X)−1 R′ [R(X ′ X)−1 R′ ]−1 R une matri e ertaine (3.92)
On a
β̂c = β̂nc − w(Rβ̂nc − c) (3.93)
71
Déterminons d'abord que β̂c est un estimateur sans biais sous H1 − H4 et H0 . Ce résultat se déduit
dire tement de l'equation [3.81℄ ar β̂nc est sans biais et, sous H0 on a E(Rβ̂nc ) = RE(β̂nc ) = Rβ =
c. D'où E(β̂c ) = β − W.0 = β
Démontrons maintenant que β̂c est plus pré is que β̂nc sous H1 − H4 et H0 Il s'agit de démontrer
que V (β̂nc ) − V (β̂c ) est une matri e dénie positive, ou V (β̂nc ) et V (β̂c ) sont respe tivement les
varian es de (β̂nc ) et (β̂c )
Puisque β̂nc = (X ′ X)−1 X ′ y = β + (X ′ X)−1 X ′ u, on en déduit de [3.90℄ :
β̂c = β + (X ′ X)−1 X ′ u − W (Rβ + R(X ′ X)−1 X ′ u − c) (3.94)
Or sous H0 : Rβ = c. On a don
βˆc = β + (X ′ X)−1 X ′ u − W (Rβ + R(X ′ X)−1 X ′ u − c)
'est-à-dire
β̂c − β = (I − W R)(X ′ X)−1 X ′ u
Comme sous H0 , βˆc est sans biais :



 V (βˆc ) = E[(βˆc − β)(βˆc − β)′ ] = E[((I − W R)(X ′ X)−1 X ′ u)((I − W R)(X ′ X)−1 X ′ u)′ ]

= (I − W R)(X ′ X)−1 X ′ E(uu′ )(X ′ X)−1 X ′ (I − W R)′
2 ′ −1 ′
 = σ (I − W R)(X X) (I − W R)


σ [(X X) − (X X) W R − W R(X ′ X)−1 + W R(X ′ X)−1 W ′ R′ ]
2 ′ −1 ′ −1 ′ ′
En reprenant l'expression développée de W [3.81℄, on onstate que :
W R(X ′ X)−1 = W R(X ′ X)−1 W ′ R′
On a don
V (β̂c ) = σ 2 (X ′ X)−1 ; V (β̂nc ) − σ 2 (X ′ X)−1 W ′ R′

| {z }
D'où
V (βˆnc ) − V (βˆc ) = σ 2 (X ′ X)−1 W ′ R′
En intégrant à nouveau l'expression de W, [3.90℄, on obtient :
V (βˆnc ) − V (βˆc = σ 2 [(X ′ X)−1 R′ ][R(X ′ X)−1 R′ ]−1 [R(X ′ X)−1 ]
La dieren e V (βˆnc ) − V (βˆc ) est bien égale a une matri e dénie positive puisqu'elle est de la forme
σ 2 ABA′ 4 qui est une matri e dénie positive.
Deuxieme
as : Rβ 6= 0
Lorsque H0 n'est pas vériée, l'estimateur ontraint βc est biaisé
4. ave A = [(X ′ X)−1 R′ ] et B = [R(X ′ X)−1 R′ ]−1
72
Preuve
D'après la ontrainte, on sait que Rβc = c. On en déduit E(Rβc ) = c. Si βc était sans biais, on aurait
E(Rβc ) = Rβ , d'ou Rβ = c. Or ette on lusion ontredit notre hypothèse Rβ 6= 0. Don , βc est biaisé.
73
74
Chapitre 4
Les Tests de bonne spé i ation du

modèle
4.1 Test sur les résidus

4.1.1 Test de normalité sur les résidus
La loi normale est ara térisée par un oe ient d'asymétrie et un oe ient d'aplatissement nuls. Il
paraît naturel de al uler es indi ateurs pour se donner une idée, ne serait- e que très approximative,
du rappro hement possible de la distribution empirique ave une gaussienne
n 3
n X xi − x̄
sk =
(n − 1)(n − 2) i=1 s
n 4
n(n − 1) X xi − x̄ (n − 1)2
k= −3
(n − 1)(n − 2)(n − 2) i=1 s (n − 2)(n − 3)
Si es indi ateurs sont susamment pro hes de la valeur 0, l'hypothèse de ompatibilité ave la loi normale
ne peut être rejetée. Tout le problème est de quantier e degré de proximité. Il faudrait onnaître la
loi de probabilité de es indi ateurs pour mettre en pla e un test statistique permettant de déterminer
si l'é art est signi atif ou non ; ou tout du moins, al uler les é art-types et utiliser les distributions
asymptotiques pour réaliser le test. Nous détaillerons es pro édures i-dessous.
Le test de Jarque et Bera

On a supposé dans le hapitre 3 l'hypothèse de noramlité des erreurs pour onstruire les tests. Il est
don utile de vérier la validité de ette hypothèse. Le test de normalité de Jarque-Bera est fondé sur
les oe ients d'asymétrie et d'aplatissement. Il évalue les é arts simultanés de es oe ients ave les
valeurs de référen e de la loi normale. La formulation est très simple par rapport au test D'Agostino, le
prix est une puissan e moindre. Il ne devient réellement intéressant que lorsque les ee tifs sont élevés.
µ3 µ4
Prenons les oe ients d'asymetrie et d'aplatissement de Pearson γ1 = σ3 , γ2 = σ4 la seule diéren e
ave eux de Fisher est que le se ond oe ient n'est pas normalise, .-à-d. γ2 = 3, pour la loi normale.
75
Chapitre 4. Les Tests de bonne spé i ation du modèle
On propose les estimateurs

P 3
n−1 ni=1 xis−x̄
γ̂1 = sk = (4.1)
P 2 3/2
Pn
xi −x̄ 4
n−1 i=1
γ̂2 = k = s
2 (4.2)
Pn xi −x̄ 2
n−1 i=1 s
La loi onjointe de es estimateurs est normale bivariée, on é rit

  q  
6
√ γ̂1 0 n 0
n ∼N ;  q   (4.3)
γ̂2 0 0 24
n
Le test de Jarque-Bera 1 onsiste à tester la symétrie et l'applatissement des queues de la variable étudiée.
H01 : γ1 = 0 et H02 : γ2 − 3 = 0 vs H11 : γ1 6= 0 ou H22 : γ2 − 3 6= 0
Prin ipe
Le test d'asymétrie revient à tester la nullité du skewness :
H01 : γ1 = 0 vs H11 : γ1 6= 0
La statistque de test est donné par :
γ1 n→∞
tγ 1 = q ∼ N (0, 1)
6
n
On en déduit que
n→∞
t2γ1 ∼ χ2 (1)
Le test d'aplatissement teste la nullité de l'ex ès de kurtosis γ2 − 3
H02 : γ2 − 3 = 0 vs H22 : γ2 − 3 6= 0
La statistque de test est donné par :
γ2 − 3 n→∞
tγ 2 = q ∼ N (0, 1)
24
n
On en déduit que
n→∞
t2γ2 ∼ χ2 (1)
La statistique de Jarque et Bera teste simultanément l'asymétrie et l'aplatissement

2
γ̂1 (γ̂2 − 3)2
2 2
JB = tγ1 + tγ2 = n + ∼ χ2 (2) (4.4)
6 24
Si le JB al ulé est supérieur au χ2 (2) au seuil α on rejette H0 , les résidus ne sont pas normaux.
1. JB6 : Stata modules to perform Jarque-Bera test for normality ;LMNGR : Stata module to ompute Jarque-Bera.
76
4.1. Test sur les résidus
Remarque 14 Ce test est toujours moins puissant que le test de D'Agostino .-à-d. il a une propension
plus élevée à on lure à la ompatibilité ave la loi normale. On devrait don toujours préférer e dernier.
Dans la pratique, les é arts de puissan e s'amenuisent à mesure que les ee tifs augmentent. La simpli ité
des al uls, très fa iles à appréhender et à mettre en oeuvre sur des outils simples tels qu'un tableur,
militent en faveur du test de Jarque-Bera. En dimension nie on orrige la JB omme suit
n
JB ∗ = JB ∼ χ2 (2)
n−1
Si n tend vers l'inni JB ∗ est égale à JB
Test de Shapiro-Wilk
Très populaire, le test de Shapiro-Wilk est basé sur la statistique W. En omparaison des autres tests,
il est parti ulièrement puissant pour les petits ee tifs (n ≤ 50). La statistique du test s'é rit :
hP i2
⌊n/2⌋
i=1 ai (xn−i+1 − xi )
W = Pn (4.5)
i=1 (xi − x̄)2
où - xi orrespond à la série des données triées ;

- ⌊n/2⌋ est la partie entière du rapport n/2 ;
-ai sont des onstantes générées à partir de la moyenne et de la matri e de varian e o-varian e des
quantiles d'un é hantillon de taille n suivant la loi normale. Ces onstantes sont fournies dans des tables
spé iques. La statistique W peut don être interprétée omme le oe ient de détermination (le arré
du oe ient de orrélation) entre la série des quantiles générées à partir de la loi normale et les quantiles
empiriques obtenues à partir des données. Plus W est élevé, plus la ompatibilité ave la loi normale est
rédible. La région ritique, rejet de la normalité, s'é rit :
R.C. : W < W crit
Les valeurs seuils W rit pour diérents risques α et ee tifs n sont lues dans la table de Shapiro-Wilk 2 .
Test de D'Agostino
Le test de D'Agostino 3 , onnu également sous l'appellation test K 2 (K-squared) de D'Agostino-

Pearson, est basé sur les oe ients d'asymétrie et d'aplatissement. Lorsque es deux indi ateurs dièrent
simultanément de la valeur de référen e 0, on on lut que la distribution empirique n'est pas ompatible
ave la loi normale. L'enjeu est de onstruire une ombinaison e a e de es indi ateurs.
Transformation du oe ient d'asymétrie
2. http ://www.edu net.edu ation.fr/rn himie/math/beni hou/tables/tshapiro/tshapiro.htm
3. La ommande lmndp de stata permet d'exé uter e test.,NORMTEST
77
Une première transformation est ee tuée sur le oe ient d'asymétrie. Les al uls su essifs sont les
suivants :
Pn 3
n−1 i=1 xis−x̄
γ̂1 = P 2 3/2
s
(n − 1)(n − 3)
A = γ̂1
6(n − 2)
(n2 + 27n − 70)(n − 1)(n − 3)
B =
(n − 2)(n + 5)(n + 7)(n + 9)
p
C = 2(B − 1) − 1
√
D = C
1
E =
ln D
A
F = p
2/(C − 1)
p
z1 = E ln F + F 2 + 1
Transformation du oe ient d'aplatissement

Nous pro édons de manière similaire pour le oe ient d'aplatissement.
n 4
n(n − 1) X xi − x̄ (n − 1)2
k = −3
(n − 1)(n − 2)(n − 3) i=1 s (n − 2)(n − 3)
24n(n − 1)(n − 3)
G =
(n + 1)2 (n + 3)(n + 5)
(n − 2)(n − 3)k
H = √
(n + 1)(n − 1 G)
s
6(n2 − 5n + 2) 6(n + 3)(n + 5)
J =
(n + 7)(n + 9) n(n − 2)(n − 3)
" r #
8 2 4
K = 6+ + 1+ 2
J J J
 
L =  1 −q 2/K 
2
1 + H K−4
(1 − 2/9K) − L1/3
Z2 = q
2
9K
z1 et z2 suivent tous deux asymptotiquement une loi normale N (0, 1). La statistique du test est la
ombinaison
K 2 = z12 + z22 ∼ χ2 (2)
L'in ompatibilité de la distribution évaluée ave la loi normale est d'autant plus marquée que la statistique
K 2 prend une valeur élevée. Pour un risque α, la region ritique du test s'e rit :
R.C. : K 2 > χ21−α (2)
78
Test de symétrie basé sur le oe ient d'asymétrie

Un test de symétrie fondé sur le oe ient d'asymétrie est la première stratégie qui vient à l'esprit. Il
s'agit d'utiliser une partie du test de D'Agostino ou de Jarque-Bera. La statistique du test asymptotique
que nous proposons utilise la première omposante du test de Jarque-Bera :
P 3
n−1 i=1 n xis−x̄
γ̂1 =
P 2 3/2
n−1 i=1 n xis−x̄
Pour une meilleure e a ité, nous produisons une estimation de la varian e plus pré ise :
6n(n − 1)
σ12 =
(n + 1)(n − 2)(n − 3)
γ̂1
Sous l'hypothèse nulle de distribution normale, le rapport σ12
suit asymptotiquement une loi N(0, 1). La
région ritique du test s'é rit :
γ̂1
R.C :| |> u1(1−α)
σ12
où u1(1−α) est le quantile d'ordre 1 − α lue dans la table de la loi normale entrée éduite. Il s'agit d'une
distribution asymptotique. Mais e test peut être utilisé pour des ee tifs relativement faibles. On le
onseille généralement pour 8 < n < 5000.
4.1.2 Test d'hétéro édasti ité des résidus

Le test de White
Ce test ne requiert pas la onnaissan e des variables à l'origine de l'hétéro édasti ité. L'implémentation
de e test se fait à partir d'une régression régulière. Soit X = [x1t , x2t , τ ] un ve teur de variables expli a-
tives plus la onstante. On onstruit une régression auxiliaire à partir : X 2 = [x1t , x2t , τ, x21t , x22t , x1t .x2t ]
La régression auxiliaire est la suivante :
ǫ̂2t = β0 + β1 x1t + β2 x2t + β3 x21t + β4 x22t + β5 x1t .x2t + et (4.6)
Le test d'hétéro édasti ité revient à tester la nullité des paramètres sauf elui asso ié à la onstante.
H0 : β1 = β2 = β3 = β4 = β5 = 0 vs H1 : ∃i, tel que βi 6= 0
La statistique ainsi dénie est : W h = nR2 ∼ χ2 (q) ave q le nombre de paramètres nuls sauf la onstante
i. e q=5 dans notre exemple.
Remarque 15 Pour un modèle de k régresseurs ave la onstante
k(k + 1)
q= −1
2
79
Test de Breush Pagan Godfrey

C'est un test LM 4 onstruit à partir du modèle
y = Xβ + ǫ
ave
E(ǫ) = 0,
E(ǫǫ′ ) = σt2 = h(Zα)
On note Zt = [1, Z1 , . . . , Zp ] ; et α = [α1 , . . . , αp ]. On teste la nullité des p paramètres asso iés aux
variables expli atives responsables de l' hétéro édasti ité.
H0 : α1 = 0, . . . , αp = 0 vs H1 : ∃i; αi 6= 0
1. On estime le modèle yt = xt β + ǫt . On sauve les résidus ǫ̂t = yt − xt β̂ . On al ule la varian e estimée

P 2
ǫ̂t
σǫ2 =
n−k
σt2
2. On régresse la varian e standardisée σ̂
3. Sous H0 la moitié de la somme des arés expliqués tend vers hi-deux à p degrés de liberté.
SCE SCE
∼ χ2 (p) Rejet de H0 si > χ2α (p)
2 2
4. Ou en ore on régresse ǫ̂2t sur Zt. La statistique
W h = nR2 ∼ χ2 (p)
4.1.3 Test d'auto orrélation des résidus

On avait supposé que les résidus ne sont pas auto orrélés i.e Cov(ǫ̂t , ǫ̂s ) = 0 si t 6= s et homo édastiques
Cov(ǫ̂t , ǫ̂s ) = σǫ2 si t=s. Si on relâ he ette hypothèse on dénit le oe ient d'auto orrélation à l'ordre
h par :
Cov(ǫ̂t , ǫ̂t+h ) γ(h)
ρ(h) = p =
V ar(ǫ̂t )V ar(ǫ̂t+h ) γ(0)
ar ǫt sont homo édastiques
Remarque 16 Si la taille de l'é hantillon n est assez grande , il existe n-1 auto- ovarian es et auto or-
rélations
   
γ0 γ1 . . . γn−1 1 ρ1 . . . ρn−1
 γ1 γ0 . . . γn−1   ρ1 1 . . . ρn−1 
 = σ2  (4.7)
   
V (ǫ) =  .. .. .. .. .. .. .. .. 
 . . . .   . . . . 
γn−1 γn−2 ... γ0 ρn−1 ρn−2 ... 1
4. Stata : estat hettest : Breus h-Pagan Test
80
On va supposer que les résidus sont auto orrélés d'ordre 1 :
ǫt = ρǫt−1 + et
Une des raisons de l'auto orrélation peut être l'omission par exemple de la dynamique dans la
programmation. En un mot, la non prise en ompte des retards de la variable endogène dans le modèle
par exemple : Soit
yt = β1 + β2 xt + β3 yt−1 + ǫt (4.8)
Si nous omettons β3 yt−1 dans [4.8℄ nous obtenons :
yt = β1 + β2 xt + ut (4.9)
ave
ut = β3 yt−1 + ǫt (4.10)
En prenant le premier retard de yt tiré de [4.9℄, on obtient
yt−1 = β1 + β2 xt−1 + ut−1 (4.11)
Si on rempla e [4.11℄ dans [4.10℄ on obtient :
ut = β3 (β1 + β2 xt−1 + ut−1 ) + ǫt (4.12)
ut = β3 β1 + β3 β2 xt−1 + β3 ut − 1 + ǫt (4.13)
On voit bien que l'omission de yt−1 dans le modèle entraîne une auto orrélation des résidus.
MCO et auto orrélation des résidus

Soit
yt = βyt−1 + ǫt ave omme hypothèse |β| < 1 (4.14)
et
ǫt = ρǫt−1 + et ave omme hypothèse |ρ| < 1 (4.15)
ave
E(e) = 0; E(ee′ ) = σ 2 In
Xn
β̂ = yt yt−1
i=1
Pn
Le biais de β̂ va dépendre de la limite en probabilité de n−1 i=1 yt−1 ǫt . On donne l'expression de
yt−1 par ré urren e.
yt−1 = ǫt−1 + βǫt−2 + β 2 ǫt−3 + . . . (4.16)
81
Si on multiplie yt−1 par ǫt on obtient :

n
!
X ρ
plim yt−1 ǫt = ρσ 2 + βρ2 σ 2 + β 2 ρ3 σ 2 + . . . = σ 2 (ρ + βρ2 + β 2 ρ3 + . . .) = σ 2 (4.17)
i=1
1 − ρβ
Cette plim étant diérente de zéro, don l'estimateur des MCO en présen e d'auto orrélation des résidus
et de retards de la variable endogène est biaisé et iné a e. Dans le as des résidus auto orrélés on utilise
l'estimateur des moindre arrés généralisés. Soit le modèle :
yt = βxt + ǫt (4.18)
et
ǫt = ρǫt−1 + et ave omme hypothèse |ρ| < 1 (4.19)
L'estimateur des MCO est donné par
Pn
yt yt−1
β̂mco = i=1
; V (β̂) = (X ′ X)−1 X ′ ΩX(X ′ X)−1 (4.20)
V (xt )
ave X = [x1 , x2 , ..., xn ] et est la matri e de varian e ovarian e dénie par [4.7℄. En substituant par [4.7℄
dans [4.20℄ on obtient :
Pn Pn
′ −1 ′ ′ −1 σ2 i=2 xt xt−1 i=3 xt xt−2 n−1 x1 xn
β̂ = V (β̂) = (X X) X ΩX(X X) = Pn 2 1 + 2ρ Pn 2 + 2ρ Pn 2 + . . . , +2ρ Pn 2
i=1 xt i=1 xt i=1 xt i=1 xt
(4.21)
On peut aussi dénir l'estimateur des moindres arrés ordinanires qui tient ompte de l'auto orrélation
des résidus :
β̂mcg = (X ′ Ω−1 X)−1 X ′ Ω−1 y; V (β̂mcg ) = (X ′ Ω−1 X)−1 (4.22)
En tenant ompte de la valeur de Ω , équation [4.7℄, dans [4.17℄ on obtient :

n
!
σǫ2 1 − ρ2 X
V (β̂mcg ) = (X ′ Ω−1 X)−1 = Pn xt xt−1/ Pni=1 x2t −ρ2 (x21 +x2n )/ Pni=1 x2t (4.23)
i=1 x2t 1 + ρ2 − 2ρ2 i=1
En négligeant le se ond terme de l'équation [4.15℄ et en al ulant le ratio [4.17℄ et [4.15℄ obtient
V (β̂mcg ) 1 − ρ2
= (4.24)
V (β̂mco ) (1 + ρ2 − 2ρr)(1 + 2ρ)
Test d'auto orrélation des résidus

Soit
y = Xβ + ǫ
et
ǫt = ρǫt−1 + et
Le test de non auto orrélation revient à tester la nullité de ρ
H0 : ρ = 0 vs H1 : ρ 6= 0
82
Soit
ǫ = y − Xβ = M ǫ; ⇒ V (ǫ̂M ) = σ 2 M ;
Si l'hypothèse nulle est vraie alors, V (ǫ) = σ 2 In . La statistique de Durbin-Waston permet de tester
l'hypothèse H0 .
Test de Durbin-Waston
Le test Durbin-Waston permet de tester l'auto orrélation des résidus à l'ordre 1. On onsidère le
modèle linéaire lassique et on fait les hypothèses suivantes :
a) le modèle doit omporter une onstante ;
b) le modèle ne doit pas omporter le retard de la variable endogène ;
) les résidus doivent suivre une loi normale gaussienne ;
En négligeant le se ond terme de l'équation [4.15℄ et en al ulant le ratio [4.17℄ et [4.15℄ obtient
Pn Pn Pn 2
Pn 2
(ǫ̂ − ǫ̂ )2 i=2 ǫ̂t −2
i=2 ǫ̂t ǫ̂t−1 + i=2 ǫ̂t−1
d= Pnt 2t−1
i=2
= P n 2 (4.25)
i=2 ǫ̂t i=2 t ǫ̂
Quand la taille de l'é hantillon tend vers l'inni(n → ∞) on a :
n
X n
X
ǫ̂2t ≃ ǫ̂2t−1
i=2 i=2
Don Pn
i=2 ǫ̂t ǫ̂t−1
d = 2(1 − ρ̂); ρ̂ = P n 2 (4.26)
i=2 ǫ̂t
La pro édure de test est la suivante :
Test de H0 : ρ = 0 vs H1 : ρ > 0
Comme pour ρ̂, la loi de d dépend des observations ontenues dans Xn×K . Il est don impossible de
dénir de manière générale la loi que suit la statistique d sous l'hypothèse nulle. Durbin et Waston ont
montré, qu'il est possible d'en adrer d par les valeurs prises par deux variables aléatoires, δL et δU . Sous
H0 : (ρ = 0), on pourrait al uler, pour un risque de première α, la valeur d∗α dénie par :
P (d < d∗α ) = α
La dé ision est la suivante : si d < d∗α , on rejette H0.
Remarque 17 En pratique, on ne onnait pas α, mais les bornes asso iées dL,α et UL,α . On dénit
l'en adrement suivant
d∗L,α < d < d∗U,α
Ainsi le test peut être mené de la façon suivante :

Si d < d∗L,α , on sait que d < d∗α . On rejette H0 et on retient l'hypothèse ρ > 0
Si d > d∗L,α , on sait que d > d∗α . On ne rejette pas H0 et on retient l'hypothèse ρ = 0
Si 4 − d∗U,α < d < 4 − d∗L,α le test ne permet pas de on lure.
83
Pro édure du test

Appliquer les MCO au modèle y = Xβ + ǫ. En déduire la valeur de d de la statistique DW .
Pour une valeur du risque de première espè e, α, her her dans une table de DW, les valeurs
ritiques, d∗L,α et d∗u,α
Dé ision Si d < d∗L,α , on rejette H0 . On onsidère ρ > 0. Si d > 4 − d∗L,α on rejette H0 . On onsidère
ρ < 0. Si d∗U,α < d < 4 − d∗u,α , on ne rejette pas H0 . On dé ide que ρ = 0. Si d∗L,α < d < d∗U,α ou
4 − d∗u,α < d < 4 − d∗L,α . Le test ne permet pas de on lure.
Remarque 18 On dénit l'espéran e de Durbin Waston par :

2(k − 1)
E(d) = 2 + ;
n−k
k est le nombre de paramètres à estimer asso ié à X.
Si la valeur d est supérieur à 2 on doit tester H0 . Wallis (1972) à implémenter un test qui permet de
tester l'auto orrélation à l'ordre 4 des réssidus.
Test de Wallis
Wallis a fait une extension du test DW à des données ae tées par des saisonnalités. Dans la pratique
on doit désaisonnaliser es données sinon il faut tenir ompte des perturbations qui peuvent onduire à
un pro essus autorégressif d'ordre 4.

ǫt = ρǫt−1 + et ave ; |ρ| < 1
où et est un bruit blan , i.e.et ∼ iid(0, σ 2 )
Dans e as, Wallis a montré que le test de l'hypothèse nulle H0 : ρ = 0 pouvait être onduit par :
P
n(ǫ̂ − ǫ̂ )
d4 = t=5 P t 2 t−4
t=1 nǫ̂t
Les valeurs ritiques sont implémentés dans Wallis 1972.
Test de Durbin Waston dans un modèle ontenant les retards de yt
La pro édure du test est faite sur l'hypothèse que le ve teur X des expli atives est non sto hastique.
On suppose en suite que la taille de l'é hantillon tend vers l'inni. Soit le modèle i-dessous
yt = β1 yt−1 + β2 yt−2 + . . . + βr yt−r + βr+1 xt1 + βr+2 xt2 + . . . + βr+s xt+s + ǫt (4.27)
ǫt = ρǫt−1 + et ; et ∼ N (0, σ 2 )
La statistique de test est donnée par :

r
n
h = ρ̂ (4.28)
1 − nV (β̂1 )
Pn
i=2 ǫt ǫt−1
ave la taille n de l'é hantillon et V (β̂1 ) la varian e estimée du paramètre asso ié à yt−1 et ρ̂ = P n 2
i=2 ǫt
Pro édure du test

84
4.2. Tests sur les paramètres
1. On estime le modèle [4.27℄ et on al ule V (β̂1 ).
2. Des résidus estimés on al ul ρ̂. Si le DW est donné par un logi iel on al ule
d
ρ̂ = 1 − (4.29)
2
3. On al ule h, si h est supérieur à 1,65, on rejette H0 au seuil α , on on lut en faveur de

l'auto orrélation du premier ordre.
4. Pour une valeur négative de h, un test unilatéral à gau he peut être utilisé.
Remarque 19 Si nV (β̂1 ) ≥ 1 la statistique h ne peut plus être utilisée.

Une pro édure asymptotiquement équivalente est proposée :
1. On estime le modèle [4.21℄, on sauve les résidus.
2. On estime la regression ǫt sur [ǫt−1 , yt−1 , yt−2 , ..., xt1 , ...xts ]
3. Si le oe ient asso ié à ǫt−1 est statistiquement signi atif, on rejette H0 : ρ = 0 vs H1 : ρ 6= 0
4.2 Tests sur les paramètres

Rappels sur les distributions
Soientt
X
x ∼ N 0, ; et Z ∼ N (0, I)
P P P
Soit T une ra ine de telle que T T′ = I ⇒ TT′ =
Remarque 20
P ′ P−1
Si Z ∼ N (0, I) alors ZZ ′ ∼ N 2 (0, I) = χ2 (n) Si x ∼ N (0, ) ⇒ (x − µ) (x− µ) →
χ2 (n) Si u ∼ χ2 (m) et v ∼ χ2 (n) alors u + v ∼ χ2 (m + n) ;
χ2 (m)/m
χ2 (n)/n ∼ F (m, n)
Si Z ∼ N (0, 1) et v ∼ χ2 (n) alors
Z
p ∼ t(n) et t2 (n) ∼ F (1, n)
v/n
Test sur les oe ients

L'estimateur des moindres arrés ordinaires est donnés par
β̂mco = (X ′ X)−1 X ′ y
ave
E(β̂mco ) = β
V (β̂mco ) = σ 2 (X ′ X)−1 si σ 2 est onnu; = s2 (X ′ X)−1 si σ 2 est in onnu.
β̂ ∼ N (β; σ 2 (X ′ X)−1 ) ou β̂ ∼ N (β; s2 ((X ′ X)−1 )
85
On en déduit que
−1
u = (β̂ − β)′ σ 2 ((X ′ X)−1 (β̂ − β) ∼ χ2 (n − k)
et
v = σ −2 (y − X β̂)′ (y − X β̂) ∼ χ2 (n − k)
Les deux statistiques u et v sont linéairement indépendantes. On peut don tester
H0 : β = β0 vs H1 : β 6= β0
La statistique de Fisher qui teste ette hypothèse est dénie par :
(β̂ − β0 )′ (X ′ X)−1 (β̂ − β0 ) (y − X β̂)′ (y − X β̂)

F = /
k n−k
ou en ore
SCE/k
F = ∼ F (k, T − k)
SCR/n − k
Remarque 21 Cette statistique mesure la distan e entre X β̂ et X β̂0
X β̂
Figure 4.1 Représentation géométrique du test de Fisher
Si on pose
ye = X(β̂ − β); ⇒ ye′ ye = (β̂ − β)′ (X ′ X)(β̂ − β)
Don tester H0 : β − β0 revient à omparer X β̂ et Xβ0 . La distan e qui sépare les deux ve teurs est
dénie par
SCR ǫ′ MX ǫ
ǫ′ PX ǫ = (β̂X − Xβ0 )′ (β̂X − Xβ0 ) ⇒ σ̂ 2 = =
n−k n−k
On montre que
ǫ′ PX ǫ ǫ′ MX ǫ
F = /
k n−k
On peut généraliser e test dans le as de l'hypothèse
H0 : Rβ = c vs H1 : Rβ 6= c
ave R une matri e de format (j × k). On en déduit la statistique de Fisher par :
(Rβ̂ − c)′ [R(X ′ X)−1 R]−1 Rβ̂ − c)/(SRC/(n − k))

F = ∼ F (J, n − k)
J
86
On peut donner une variante du Fisher qui est obtenu à partir des SCR sous H0 et SCRn sous H1
(SCRc − SCRnc )/J

F = ∼ F (J, n − k)
SCRnc /n − k
A partir de ette dernière expression du Fisher, on peut le réé rire en fon tion des oe ients de
détermination sous H0 et sous sous H1.
2
(Rnc − Rc2 )/J
F = 2 )/n − k
∼ F (J, n − k)
(1 − Rnc
On en déduit la statistique qui teste la nullité onjointe des paramètres sauf la onstante :
Soit
yt = β0 + β1 x1t + β2 x2t + ldots + βj xjt + ǫt
On veut tester
H0 : β1 = β2 = . . . = βj = 0 vs H1; ∃i tel que βi 6= 0
Sous H0 Rc2 est nulle ar on a au une variable expli ative F devient :

2 2
Rnc /J Rnc n−k
F = 2
= 2
∼ F (J, n − k)
(1 − Rnc )/n − k 1 − Rnc J
Test de stabilité des paramètres

Pour tester la stabilité des paramètres on utilise la statistique de Chow. Nous présentons i i deux
variantes de ette statistique. La première appro he onsiste à étudier la stabilité des paramètres hors
de l'é hantillon d'étude. La deuxième appro he divise l'é hantillon initial en deux sous é hantillons. On
estime les paramètres sur les deux é hantillons et on teste leur stabilité.
Première appro he
On her he à tester la stabilité des paramètres sur hors é hantillon.
Prin ipe
On étudie la stabilité sur deux périodes. On partitionne notre é hantillon en deux sous é hantillons
de taille n1 , n2 .
1. On estime les paramètres du premier é hantillon de taille n1. On obtient
β̂1 = (X1′ X1 )−1 X1′ y.
2. On utilise β̂1 pour obtenir la prédi tion de y2
ŷ2 = X2 β̂1
3. On obtient le ve teur des erreurs estimés
d = y2 − ŷ2 = y2 − X2 β̂1
87
Si y = Xβ + u ave V (u) = σ 2 I , on dénit d = u2 − X2 (β̂1 − β1 )
E(d) = 0; V (d) = σ 2 +n2 +X2 V (β1 )X2′ = σ 2 [In2 + X2(X1′ X1 )−1 X ′ 2]
Nous supposons que

d ∼ N 0, σ 2 [In2 + X2(X1′ X1 )−1 X ′ 2]
et
u = d′ {σ 2 [In2 + X2(X1′ X1 )−1 X ′ 2]−1 d} ∼ χ2 (n2 )
On sait que
v = ǫ̂′1 ǫ̂1 /σ 2 ∼ χ2 (n1 − k)
Les deux statistiques étant indépendates on onstruit F

u/n2
F = ∼ F (n2 , n1 − k).
v/n1 − k
Une valeur élevée de F rejette la stabilité des paramètres hors de l'é hantillon.
Remarque 22 Dans le as d'une hétéro édasti ité des erreurs e test n'est plus valide
Autre méthode de onstru tion Soit
y1 = Xβ + u1 (4.30)
y2 = Xα + u2 = X2 β + X2 (α − β0 ) + u2 = X2 β + γ + u2 (4.31)
où
γ = X2 (α − β0 )
Le oe ient est stable sur la période de prévision si,
γ=0⇒α=β
L'é riture matri ielle du système onstitué de y1 et y2 nous donne :4

y1 X1 0 β u1
= +
y2 X2 In2 γ u2
′
X1 X1 + X2′ X2 X2′
⇒ (X ′ X) =
X2 In2
où In2 est un sous espa e de In . La matri e inverse est donnée par

(X1′ X1 )−1 −(X1′ X1 )−1 X2′
(X ′ X)−1 =
X2 (X1′ X1 )−1 In2 + X2 (X1′ X1 )−1 X2′

β̂ (X1′ X1 )−1 y1 −(X1′ X1 )−1 X2′ X1 y1 + X2 y2 X1′ X1 )−1 y1
⇒ = =
γ̂ X2 (X1′ X1 )−1 In2 + X2 (X1′ X1 )−1 X2′ y2 y2 − X2 X1′ X1 )−1 y1
Le Test de stabilité revient à tester la nullité de γ
H0 : γ = 0 vs H1 : γ 6= 0
88
dˆ′ [V (d)] ˆ
ˆ −1 d/n2
F = ′ ∼ F (n2 , n1 − k)
u1 u1 /(n1 − k)
On peut aussi implémenter la statistique de test en utilisant les régressions sous H0 et sous H1 .
- On régresse y1 sur x1 , ave n1 observation et obtient SCRc = u′1 u1 .
- On régresse la même régression sur (n1 + n2 ) observations : SCRnc
(SCRc − SCRnc )/n2

F = ∼ F (n2 , n1 − k)
SCRnc /(n1 − k)
Deuxième appro he : Test de Chow de hangement

L'é hantillon de départ est divisé en deux sous é hantillons de taille n1 et n2 . Soient les modèles
asso iés dénis par :
y1 = x1 β1 + ǫ1 ; SCR1 (4.32)
y2 = x2 β2 + ǫ2 ; SCR2 (4.33)
Les équations [4.32℄ et [4.33℄ sont onstruites sous H1 : SCR1 6= SCR2. Sous l'hypothèse de stabilité des
paramètres
H0 : SCR1 = SCR2 où H0 : β1 = β2 = β
Le modèle sous H0 est déni par

y = Xβ + ǫ SCR (4.34)
Prin ipe
1. On estime les modèles [4.32℄ et [4.33℄ on al ule SCR1 et SCR2 .
2. On estime [4.35℄, on al ule SCR
3. La statisque de Fisher est donnée par :
(SCR1 + SCR2 − SCR)/k

F = ∼ F (k, n − 2k) (4.35)
SCR/(n − 2k)
Remarque 23 Le test de how suppose que les erreurs sont homo édastiques ; i.e s21 et s22 sont identiques
qui sont des estimateurs sans biais de σ12 et σ22 .
On montre
(n1 − k)s21 (n1 − k)s22
2 ∼ χ2 (n1 − k) et ∼ χ2 (n2 − k)
σ1 σ22
Les deux statistiques étant indépendantes
s21 s22
/ ∼ F (n1 − k; n2 − k)
σ12 σ22
Sous
s21
H0 : σ12 = σ22 ; et ∼ F (n1 − k; n2 − k)
s22
Si on rejette H0 la statistique de Chow n' est plus valide. On utilise la statistique de Wald pour tester le
hangement stru turel.
89
Soient
V̂1 = s21 (X1′ X1 )−1 et V̂2 = s22 (X2′ X2 )−1
Si Cov(β1 , β2 ) = 0 la statistique de Wald est donnée par :
W = (β̂1 − β̂2 )′ (V̂1 + V̂2 )−1 (β̂1 − β̂2 ) ∼ χ2 (k)
Remarque 24 Ce test est identique au test d'Hausman et on rejette H0 si W > χ2 (k) auseuil α.
90
Chapitre 5
Modèles Non-Linéaires
5.1 Introdu tion

L'hypothèse de relation linéaire entre les phénnomènes é onomiques est di ilement a eptable.
Cependant, il semble plus généralement a eptable que l'é onomie ne soit pas linéaire, et la plupart
des variables é onomiques exhibent des relations non linéaires. Les théori iens de l'é onomie sugggèrent
des modèles ave plan her et plafond and swit hing regimes. Les fon tions d'investissement, les fon tions
d'épargnes, les fon tions de produ tions et les ourbes de Phillips sont toujours spé iées sous formes
non linéaires. Parfois la spé ation non linéaire est plutt vague omme la fon tion d'épargne.
5.1.1 Quelques modèles non linéaires

La fon tion de produ tion Cobb Douglas est déni par :
Y = aK α Lβ exp(ǫ) (5.1)
Considérons la fon tion de produ tion Cobb-Douglas.

Si nous observons les valeurs de la produ tion ainsi que de l'emploi du apital physique et du travail,
nous pouvons estimer les valeurs des paramètres, α et β . On peut utiliser la linéarisation de l'équation
en appliquant la transformation logarihmique.
ln Y = ln(a) + α ln(K) + β ln(L) + ǫ (5.2)
Les oe ients asso iés au logarithme s'interprètent omme des élasti ités du produit en rapport à es
variables.
∆y/y ∂ ln y
exy = =
∆x/x ∂ ln x
Les oe ients des données après la transformation pourront être éstimés par les MCO.
91
Chapitre 5. Modèles Non-Linéaires
Fon tion de produ tion CES ave des erreurs additionnellles

La fon tion de produ tion CES est illustrée par :
−1/ρ
Yt = A δKt−ρ + (1 − δ)Lρt exp(ǫt ) (5.3)
où Yt est l'output à la période t , Kt est l'input apital , Lt est l'input travail et ǫt est un ho additionnel
de la produ tion ave E(ǫt |Kt , Lt ) = 0 la moyenne onditionnelle. Les propriètés de la fon tion de la
produ tion (monotonie, on avité) sont satisfaites si A > 0, 0 < δ < 1, 0 < ρ < 1 qui déterminent
l'espa e Θ.
L'équation non linéaire d'Euler de la Consommation

L'équation d'Euler pour le problème d'optimisation de la onsommation domestique au niveau
ma roé onomique lassique est dénie par :

βu′ (ct+1 )
E Rt+1 |It = 1 (5.4)
u′ (ct
où Rt+1 est le taux de rendement ex-post (1+ taux de rendement issu de l'équation), ct est la
onsommation, β est le fa teur d'é artement, u′ (c) est l'utilité marginal, et It est l'information valable à
la date t. On suppose que la fon tion d'utilité prend la forme suivante
c1−α
u(c) =
1−α
et on en déduit l'utilité u′ (c) et l'équation d'Euler devient :

ct+1
E , Rt+1 ; α, β |It = 0 (5.5)
ct
ave −α
ct+1 ct+1
a , Rt+1 ; α, β ≡ Rt+1 .β −1 (5.6)
ct ct
Si xt est un ve teur dont les valeurs sont onnues à l'instant t alors, xt ∈ It et il s'en suit de l'équation
[5.6℄ que
ct+1
E xt .a , Rt+1 ; α, β |It = 0 (5.7)
ct
En prenant l'espéran e onditionnelle des deux otés et en utilisant la Loi des espéren es totales que
EE[(x|It )] = E(x̂), nous obtenons la ondition d'orthoganalité (moyenne nulle E[(g(wt ; θ0 ))] = 0) où
 
xt
ct+1 β
g(wt ; θ0 ) = xt .a , Rt+1 ; α, β ave wt = ct+1 /ct , θ =
  (5.8)
ct α
Rt+1
Un autre modèle fréquemment utilisé en é onomie de la dé ision est le modèle probit ou logit. Ces modèles
permettent de modéliser une variable binaire y qui prend deux valeurs : 1 si la dé ision est favorable 0
sinon. Par exemple la banque dé ide d'a order un rédit à son lient i, (yi = 1 et 0 sinon). Ces modèles
92
5.2. Présentation du modèle non linéaire
sont onstruits à partir des fon tions de répartition de la loi normale Φ(xi β) et la loi Logistique Λ(xi β).
La probabilité onditionnelle de yi pour le ve teur des régresseurs onnus xi donné est dénie par

P (yi = 1|xi , β) = F (x′i β), ,
(5.9)
P (yi = 0|xi , β) = 1 − F (x′i β), .
Comme yi suit une loi de Bernoulli la probalité onditionnelle de la la dé ision est déne par :
P (yi = 1|xi , β) = F (x′i β)yi (1 − F (x′i β))1−yi (5.10)
Si au une restri tion est faite sur le paramètre β , l'espa e des paramètres Θ ∈ RK . L'estimateur du
maximum de vraisemblan e est un M-estimateur pour l'individu i ave omme ontribution de et individu
à la vraisemblan e la fon tion donnée par
ln P (yi = 1|xi , β) = yi ln F (x′i β) + (1 − yi )(1 − F (x′i β)) (5.11)
La log vraisemblan e pour l'ensemble de l'é hantillon est dénie par

n
X
l(xi , β) = [ln f (yi = 1|xi , β) = yi ln F (x′i β) + (1 − yi )(1 − F (x′i β))] (5.12)
i=1
Pour le modèle Probit on a :

n
X
l(xi , β) = [ln f (yi = 1|xi , β) = yi ln Φ(x′i β) + (1 − yi )(1 − Φ(x′i β))] (5.13)
i=1
ave Z x′i β 2
1 t
φ(x′i β) = √ exp − dt
−∞ 2π 2
Pour le modèle Logit on obtient :
n
X
l(xi , β) = [ln f (yi = 1|xi , β) = yi ln Λ(x′i β) + (1 − yi )(1 − Λ(x′i β))] (5.14)
i=1
ave
1 exp(x′i β)
Λ(x′i β) = =
1 + exp(−x′i β) 1 + exp(x′i β)
5.2 Présentation du modèle non linéaire

Dans un modèle de régression non linéaire l'ensemble des valeurs possibles pour la moyenne de y est
la surfa e M = {f (β); β ∈ Θ} de l'espa e RN des observations appelée surfa e des moyennes ou surfa e
des solutions.
Remarque 25 Dans les modèles linéaires ette surfa e était l'espa e ve toriel S(X) engendré par les
olonnes de la matri e X des expli atives. L'estimateur des moindres arrés ordinaires est unique et
s'obtient en projetant y sur S(X).
Dans le modèle non linéaire la surfa e des solutions est une vatiété de diérentielles de RN dont la
dimension est p.
93
Le ritère des moindres arrés non linéaires (MCNL) onsiste à hoisir pour estimer le ve teur de
paramètres β le point le plus pro he possible, au sens de de la norme eu ludienne, du point y orrespondant
au ve teur y observé.
Dénition 7 Un estimateur des MCNL de β lorsqu'il existe est une variable dont la réalisation
orrespondant à l'observation yt muni de la fon tion de perte L2 (β) est dénie par :
L2 (β) = ky − f (β)k2 = SCR(β) (5.15)
Remarque 26 Pour que l'estimateur β̂ , existe on va supposer que l'espa e Θ est ompa t ; i.e on a un
domaine borné de variation de β , dans e as pour toute réalisation de y , il existe au moins une valeur
de β pour laquelle le minimum est atteint.
On peut aussi supposer que Θ est un onvexe fermé pour assurer l'existen e de β̂
5.2.1 Appro he Géométrique des Moindres Carrés non linéaires MNCL

Géométriquement , à haque estimateur de β des MNCL orrespond un point f = f (β̂) de la surfa e
des moyennes. Ce point est le pied de l'orthogonale abaissée de l'observation y à un plan tangent de la
surfa e.
Figure 5.1 Une fon tion somme des arrés
5 9
1 3 7
2
4 6 8
β̂(N LS)
Proposition 9 Tout estimateur des MCNL à l'interieur de Θ est une solution des équations normales
(y − f (β))Df (β) |β=β̂ = 0 (5.16)
Preuve
94
Tout estimateur par la méthode des moindres arrés est par dénition un ve teur qui minimise la
somme des arrés ssr(β) ou la L(β)
N
∂L(β) ∂SSR(β) X ∂ft (β)
= = −2 (y − f (β)) = 0 j = 1, . . . , K
∂βj β=β̂ ∂βj β=β̂ t=1
∂βj β=β̂
On note la matri e des dérivées premières par

∂ft (β)
ft′ (β) =
∂βj
N
∂SSR(β) X
= −2 (ft′ (β)) ǫt (β) = −2 f ′ (β ⊤ )ǫt (β)
∂βj β=β̂ t=1
Pour les onditions du premier ordre on obtient la matri e :
f ′ (β ⊤ )ǫt (β) = 0 ondition d'ortoganilté de ǫt (β) et l'ensemble des olonnes de f ′ (β ⊤ )
Remarque 27 Dans le as du modèle NL le s ore est f ′ (β) = ∂x(β)

∂βk et dans le as linéaire f ′ (β) = X .
Si on se limite uniquement aux onditions du premier ordre, il existe 9 points qui vérient es
onditions (gure [5.1℄). Mais 4 points seulement sont des minima.
L'estimateur β̂MCN L est déni de manière unique qui minimise la fon tion de perte L2 i.e le minimum
global.
Pour trouver le minimum global, il faut hoisir le point de départ qui permet de onverger rapidement
vers e minimum β̂MN L . Si on ne hoisit pas bien le point de départ l'itération diverge et on obtient les
plus petits estimateurs trouvés.
Dans le as du modèle linéaire on n'a pas de problème de points initiaux et
SSR(β) = (y − Xβ)⊤ (y − Xβ)
est une forme quadratique des résidus et par un al ul matri iel on trouve le minimum du SSR(β) quel
que soit le point de départ.
Pour le as non linéaire la solution peut ne pas être unique omme le montre la gure [5.2℄ ar
SSR(α̂ − β̂) = SSR(α̂ + β̂).
95
Figure 5.2 Graphe de non uni ité du minimum
−β̂ +β̂
Le problème de non uni ité du minimum est un problème d'identi ation des paramètres du modèle.
Le ve teur β des paramètres n'est pas identiable par les données, si K est supérieur à n et pas de
solution unique. On a n équations à K in onnues. On peut résoudre e système ave plusieurs valeurs
de β qui vérient le système d'équations normales, e qui peut s'expliquer par la taille restreinte de
l'é hatntillon.
Problème d'identia tion des paramètres par les données

On dit que les paramètres du modèle y = f (β) sont identiés par le modèle si et seulement si
SSR(β) > SSR(β̂) ∀β 6= β̂; minmum global
Remarque 28 On peut ren ontrer souvent des problèmes d'identi ation même si K < n, 'est le as
de olinéarité des variables.
Dans le as linéaire e i se traduit par la relation suivante : Xγ = 0.
L'estimateur des moindres arrés n'est plus unique puisque la matri e X ⊤ X est singulière.
X ⊤ β̂ = X ⊤ (β̂ + aγ)
Supposons que
SSR(β) > SSR(β̂)∀β 6= β̂;
si nous arrivons à démontrer que

SSR(β̂) = SSR(β̂ + aγ)
alors on peut on lure à un problème d'identi ation qui est dû à un problème de olinéarité des variables.
96
Preuve
Cal ulons la somme des arrés des résidus asso iée au paramètre β̂ + aγ
SSR(β̂ +aγ) = (y −X(β̂ +aγ))⊤ (y −X(β̂ +aγ)) = (y −X β̂ +aXγ)⊤(y −X β̂ +aXγ) = (y −X β̂)⊤ (y −X β̂)
ar Xγ = 0 d'après la ondition dénie plus haut.
Remarque 29 Si n < K , il peut exister des as où on peut avoir une dépendan e linéaire des expli atives.
Exemple Cas non linéaire
y = α + β 2 x + ǫ ave SSR(α, β) = SSR(α, −β) (5.17)
Le minimum n'est pas unique quel que soit z = [ι, x].

La non identi ation des paramètres par le modèle n'est pas vrai s'il existe y, z telles que
SSR(y, z, β) > SSR(y, z, β̂) ∀β 6= β̂
Dans le as de notre modèle la non identia tion est dû à la forme du modèle [5.17℄
Représentation graphique
Dans ette se tion on va onsidérer que la fon tion f (β) = x(β) pour x : RK −→ RN est une fon tion
x(β) générée par une variété qui implique la notion de surfa e.
L'espa e qui ontient la variété à une dimension supérieure elui engendré par les X.
Figure 5.3 S héma de l'espa e engendré par les X

e(β2 )
y X
X(β2 )
e(β1 )
X(β ∗ )
X(β1 )
e(β3 )
X(β3 )
Chaque point x orrespond à un β donné. La minimisation de la SSR(β) revient à minimiser les

erreurs et (β)
La forme non linéaire du modèle est illustrée par
y = x(β) + ǫ ave
97
i)E(ǫ) = 0
ii)E(ǫǫ⊤ ) = σ2 I
L'estimateur des moindres arrés non linéaires est déni par
N
X
β̂MCN L = argminβ (SSR(β)) = (et (β))2 : dénition impli ite
t=1
ave et (β) = y − x(β).
Pour avoir une dénition moins impli ite on utilise l'équation i-dessous :

∂xt
[X(β)]⊤
ti = de format N × K
∂(β)
La ondition du premier ordre est une ondtion d'orthogonalité
X ⊤ (β)e(β) = 0 orthoganalité entre les olonnes de X ⊤ (β) et e(β)
L'appli ation de β entraine une variété dans l'espa e.
Figure 5.4 Conditions d'orthogonalité

x
y
x(β)
La minimisation de SSR(β) orrespond géométriquement à trouver le point le plus pro he de y.

Lorsque e point est trouvé on a la ondition d'orthoganalité.
Remarque 30 L'estimateur des moindres arrés ordinaires β̂mco est unique puisque on a y = Xβ + ǫ.
Xβ engendre un espa e β(X). La variété ourbée dans le modèle non linéaire devient une droite dans le
as linéaire.
98
Figure 5.5 Variété du modèle

X(β)
PX y = X(β̂)
y
C'est une linéarité de la variété qui rend β̂mco unique dans le as linéaire.
Dans le as linéaire peut se poser aussi le problème d'identi ation. Ce as peut être illustré par la gure
[5.6℄
Figure 5.6 Problème d'identi ation

τ
τ b y
Chaque point du er le est à égale distan e de y qui est le entre du er le et le problème d'identi ation
est dû aux données.
Espa e Paramétrique
Soit
y = α + β2x + ǫ (5.18)
99
Nous avons i i aussi un problème d'identi ation puisque x(α, −β) = x(α, β). Dans les exemples dénis
plus haut l'espa e paramétrique est β ∈ RK et, on peut le réduire dans le as de l'équation [5.18℄ à :
Θ = R × R̄+ .
Si nous onsidérons le sous espa e déni i-avant, le ve teur −β est ex lu par e qu'il n'appartient pas à
l'espa e :
R :] − ∞, +∞[×R̄ :]0; +∞[
Sous et espa e il n'y a pas de problème d'identi ation des paramètres et on peut faire une reparamé-
trisation non linéaire. On pose γ = β 2 et l'équation [5.18℄ devient :
y = α + γx + ǫ (5.19)
On se demande s'il existe une relation biunivoque entre β 2 x et γx dans l'espa e
H :] − ∞, +∞[×]0; +∞[
Dans e as H
α = α
γ = β2
√
γ = β
Le ve teur qui minimise la somme des arrés résidus sous H est
[α̂, β̂]⊤ argminα,β SSR(α, β) = ky − α − β 2 xk2
Figure 5.7 Domaine de dénition de [5.18℄

y x
0 A
Py
Partie exclue du domaine
Py appartient à la partie ha hurée don on fait une régrssion sur ι le ve teur de la onstante (ve teur
de non négativité de γ
100
5.3. Estimation de la varian e des erreurs : σmcnl
2
5.3 Estimation de la varian e des erreurs : σmcnl

2
Dénition 8 La varian e résiduelle est dénie par
SSR(β̂)
2
σnls = (5.20)
n−k
k est le nombre de paramètres estimés qui n'est pas obligatoirement égale au nombre de variables.
Remarque 31 Dans le as du modèle linéaire l'estimateur de la varian e du terme d'erreur est sans
biais.
2
E(σmco ) = σ2 .
Dans le as du modèle non linéaire et estimateur est asymptotiqument sans biais e qui se traduit par la
relation suivante
n
SSR(β̂) 1X
S2 = = et (β̂) et son espéran e est donnée par
n n t=1
n−k 2 k
E(S 2 ) = σ = (1 − )σ 2 .
n n
S 2 est un estimateur biaisé de σ 2 dont le biais est déni par − nk σ 2 . Ce biais s'annule quand n tend vers
l'inni, 'est-à-dire que S 2 est asymptotique sans biais.
L'estimateur σ̂nls
2
est un estimateur sans biais de σ 2 . On peut se demander lequel des deux estimateurs
prèfère-t-on ?
Le biais de S 2 est proportionnel à l'inverse de la taille de l'é hantillon (n−1 ) i.e biai(S 2 ) = (n−1 )
est de l'ordre de (n−1 ), en d'autres termes quand n tend vers l'inni le biais de (S 2 ) est de l'ordre de
(n−1 ).
Rappel
Dénition 9 Soient deux suites de fon tions f (n) et g(n). Si n tend vers l'inni, on dit que
f (n) = (g(n)) s'il existe N , K>0 tels que :
f (n)
∀m > N, < K ⇐⇒ |f (n) < Kg(n)|.
g(n)
Dans le as de S 2 le biais est
k
f (n) = − σ 2 est (n−1 ) et g(n) = n− 1
n
On en déduit que
f (m)
< kσ 2 =⇒ K = kσ 2 + 1; N = 1
g(m)
Autre notation
f (m)
f (n) = ◦[g(n)] =⇒ ∀ǫ > 0, ∃N, telle que ∀m > N, <ǫ
g(m)
101
Ce résultat nous onduit à préférer la varian e σnls

2
par rapport à S 2 puisque
2
E(σmcnl ) = σ 2 + ◦(n−1 )
2
E(σmcnl − σ 2 ) = ◦(n−1 ) (5.21)
Cette égalité [5.21℄ tend vers zéro, quand n tend vers l'inni et e qui n'est pas le as pour S 2 .
La préféren e de la varian e σmcnl

2
par rapport à S 2 se justie par une question de onvergen e. D'après
la formule [5.21℄ le taux de onvergen e vers la vraie valeur σ 2 de σmcnl
2
est supérieur à elui S 2 .
Remarque 32 Le biais de l'estimateur des moindres arrés non linéaires onverge rapidement vers zéro
quand n tend vers l'inni. Le taux de onvergen e de l'espéran e de l'estimateur des moindres arrés non
linéaire E(β̂mcnl ) est supérieur à n−1/2 .
On peut illustrer ette remarque par le système suivant :
E(β̂mcnl ) = β + ◦(n−1/2 )
E(β̂mcnl − β) = ◦(n−1/2 )
E[n1/2 (β̂mcnl − β) = ◦(1)
On peut étudier le omportement asymptotique de la varian e de l'estimateur β̂mcnl donné par

−1
lim V ar[n1/2 (β̂mcnl − β) = σ 2 lim n−1 X ⊤ (β)X(β) (5.22)
∞ ∞
Pn
La matri e (X ⊤ X)ij = t=1 Xtjtj . Pour démontrer l'équation [5.22℄ on suppose que

lim∞ n−1 X ⊤ (β)X(β) existe et est dénie positive.
On avait montré dans le as du hapitre 3 les résultats suivant on ernant la matri e de varian e
ovarian e de l'estimateur des moindres arrés ordinaires :
V ar(βols − β) = σ 2 (X ⊤ X)−1
et
√
V ar n(βols − β) = σ 2 (n−1 X ⊤ X)−1 vrai ∀n
On voit bien que le résultat [5.22℄ est une généralisation de la formule i-dessus de V ar(βols )
Remarque 33 Dans le as non linéaire on obtient les mêmes relations en remplaçant X par X(β)
√ −1
V ar n(βols − β) = σ 2 n−1 X ⊤ (β)X(β) vrai si n tend vers l'inni
Les termes de droite et de gau he se rappro hent si n tend vers l'inni. En divisant à gau he par sqrt(n)
et à droite par n−1 on obtient :
−1
V ar β̂ols − β ≡ σ 2 X ⊤ (β)X(β) vrai (5.23)
102
5.4. Test d'hypothèse dans le as MNL
Le résultat [5.23℄ va nous permettre de onstruire nos statistiques de test tels que le t de student, le
Fisher dans le as non linéaire. Les estimateurs des é art-types pour haque βk sont obtenus en prenant
la ra ine arré des éléments de la diagonale de la matri e de varian e ovarian e.
q
−1
σ̂β̂k = σ̂ (X ⊤ (β)X(β))kk
On en déduit le t de student par :
β̂k β̂k
tβ̂k = q = (5.24)
−1 σ̂
σ̂ (X ⊤ (β)X(β))kk β̂k
5.4 Test d'hypothèse dans le as MNL

Les tests d'hypothèse nous permettent de valider ou non les restri tions imposées sur les paramètres.
Nons partons d'un modèle non ontraint sur lequel on impose des restri tions sur les paramètres.
Supposons le modèle non ontraint suivant :
y = x(β) + ǫ (5.25)
On impose les restri tions suivantes R(β) = 0 et on obtient le modèle non linéaire ontraint
y = x(γ) + ǫ γ est un ve teur de dimension K-r paramètres (5.26)
dans l'espa e
RK =⇒ Rr ave r < K.
Le prin ipe onsiste à estimer les deux modèles, un non ontraint et un autre ontraint. On sauve les
résidus respe tifs et on onstruit la statistique de FISHER.
SSRC − SSRnc
F = F (r, n − K). (5.27)
SSRnc /n − K
5.4.1 Intervalles de Conna e

Le test d'hypothèse porte sur la vraie valeur de β :
H0 : β = β0
H1 : β 6= β0
On dént un intervalle de onan e est un intervalle aléatoire onstruit de telle sorte la probabilité que la
vraie valeur de β appartienne à l'intervalle est égale à 1 − α. Le niveau du test est égale à la probabilité
d'un rejet de H0 sous l'hypothèse que H0 est vraie, on l'appelle le risque de première espè e ou niveau
de signi ativité. En d'autres mots l'intervalle de onan e est la probabilité que l'intervalle en adre la
vraie valeur de β .
103
Constru tion de l'intervalle de onna e

La loi de β̂ dans le as des modèles NL dénie par :
β̂ =⇒ N (β, σ̂β̂2 ); σ̂β̂2 = σ 2 (X(β)⊤ X(β))
A partir de la valeur de β̂ , on doit trouver le plus petit intervalle qui en adre la vraie valeur de β . Dans
le as d'un seul paramètre on utilise le t de student
β̂ − β0
t(β0 ) =
σ̂β̂2
Si la valeur al ulée du t de student est supérieure à la valeur ritique Cα lue sur la table au seuil α on
rejette H0 :
β̂ − β
Si |t| > Cα = > Cα Rejet de H0. (5.28)
σ̂β̂2
Cette inégalité peu s'é rire en deux inégalités
β̂ − β0 β̂ − β0
− < Cα <
σ̂β̂2 σ̂β̂2
−(β̂ − β0 ) > Cα ⇒ β0 > β̂ + Cα̂ σβ̂ Rejet de H0
(β̂ − β0 ) > Cα ⇒ β0 < β̂ − Cα σ̂β̂ Non Rejet de H0
h i
P β0 ∈ β̂ − Cα σ̂β̂ ; β̂ + Cα σβ̂ = 1 − α
Figure 5.8 Intervalle de Conan e

Rejet Non rejet Rejet
b
β̂ − Cα σ̂β β̂ β̂ + Cα σ̂β
L'intrevalle de onan e est un invertvalle aléatoire ar il est onstruit à partir de variables aléatoires
β̂ et σ̂β̂ .
Le niveau du test orrespond à un seuil ritique qui est la probabilité de l'é art entre β̂ et la vraie
valeur de β .
Remarque 34 Plus le niveau de test est faible plus l'intervalle de onan e est grande. Si β0 ∈ IC on
va retenir β = β0 sinon β 6= β0
Soit β̂ = 5 d'é art-type σ̂β̂ = 3 . On suppose que es paramètres sont obtenus à partir d'un é hantillon
de taille 50 et le nombre de pararmètres estimés est 2. Le nombre de degré de liberté est 50-2=48. Au
seuil de alpha de 5% la valeur ritique est égale à 1.6772. On dénit l'intervalle de onan e par :
h i
β̂ − Cα σ̂β̂ ; β̂ + Cα σ̂β̂ = [−.0316726; 10.031673]
104
Si on veut tester :
H0 : β = β0 = 0
H1 : β 6= β0 = 0
à partir de l'intervalle de onan e, on voit bien que la valeur 0 appartient à et intervalle. On ne peut
don rejeter la nullité de β̂ au seuil de 5%.
Pour tester β = β0 on peut aussi utiliser la statistique de student dénie par :
β − β0
t(β0 ) = = 1.666 < 1.677
σ̂β̂
On aboutit à la même on lusion que pré édemment. Si β = 0, la variable asso iée au paramètre β n'a
au un pouvoir expli atif sur y. Dans le as des modèles non linéaires on a pas la même relation entre
relation entre la variable expli ative et les paramètres.
y = α + βx21 + γx2 + βγx3 + ǫ
Dans e as on parle de signi ativité des pararmètres et les tests portent sur les valeurs des paramètres.
Remarque 35 Si en pratique plusieurs valeurs ne sont pas signi atives il est di ile de les supprimer
toutes. Par ontre si on a un seul paramère on le supprime.
y = α + β1 x1 + β2 x2 + ǫ (5.29)
y = α + β1 x1 + ǫ (5.30)
La raison de onsidérer une se onde régression est qu'il existe un gain d'e a ité en supprimant la
variable x2 asso iée au paramètre non signi atif β2 .
Dans le modèle ontraint deuxième équation de [5.29℄ x2 n'explique plus y don un nouveau modèle
et une information sur β2 = 0. L'imposition d'une ontrainte apporte une information qui peut entraîner
un gain d'e a ité.
D' où provient le gain e'e aité ?
Pour répondre à ette question, il faut omparer la varian e de β1 al ulée sur les deux modèles.
V (β̃1 ) = σ 2 [(X ⊤ X)−1 ]22 ave X = [ι, X1 ]
V (β̂1 ) = σ 2 [Z ⊤ Z)−1 ]22 ave Z = [ι, X1 , X2 ]
Il faut montrer que V (β̃1 ) < V (β̂2 pour prouver le gain d'e atité.
Contruisons les matri es de proje tion asso iées à la onstante qui nous permettent d'esimer les
modèles ontraints et non ontraints sans la onstante.
105
Posons ι = [1, . . . , 1]⊤ le ve teur unitaire de la onstante on obtient les formules suivantes :
ι⊤ ι = n
Pι = ι(ι⊤ ι⊤ )−1 ι⊤ = ιι⊤ ∗ n−1
Mι = I − Pι matri e idenpotente omplémentaire (voir hapitre II)
En transformant les variables du système [5.29℄ par Mι on obtient :
Mι y = β1 Mι x1 + β2 Mι x2 + Mι ǫ (5.31)
Mι y = β1 Mι x1 + Mι ǫ (5.32)
ave les résultats suivants :
Mι ι = 0
Pι y = ιȳ ve teur dont tous les éléments sont égaux à la moyenne
Mι y = y − ȳ
La transforamation par Mι entre les variables et élumine la onstante dans les modèles et par Pι al ul
les moyenne des variables. Posons y ∗ = Mι y et de même x∗ = Mι x les modèles ontraints deviennent :
y∗ = β1 x∗1 + β2 x∗2 + ǫ∗ (5.33)
y∗ = β1 x∗1 + ǫ∗ (5.34)
Nous allons utiliser la transformation qui élumine la variable x2 dans le deuxième modèle Mx2 = I − Px2
Mx2 y ∗ = β1 Mx2 x∗1 + β2 (Mx2 x∗2 = 0) + ǫ∗ (5.35)
y∗ = β1 x∗1 + ǫ∗ (5.36)
On obtient les varian es β̂1 sous les deux modèles :
V (β̂1 ) = σ 2 (x∗⊤ ∗ −1
1 Mx2 x1 ) (5.37)
V (β̃1 ) = σ 2 (x∗⊤ ∗ −1
1 x1 ) (5.38)
Cal ulons la diéren e des deux varian es ;
V (β̂1 ) − V (β̃1 ) = σ 2 (x∗⊤ ∗ −1

1 Mx2 x1 ) − σ 2 (x∗⊤ ∗ −1
1 x1 )
Il faudra montrer que que ette diéren e est semi-dénie positive (sdp). On va utiliser la propriété
suivante. La diérn e de deux matri es symétriques sdp est sdp si et seulement si la diéren e des
opposées à leur inverse est sdp. Il sut don de montrer que

x∗⊤ ∗ ∗⊤ ∗ ∗⊤ ∗ ∗⊤ ∗
1 Mx2 x1 − (x1 x1 ) = x1 (I − Mx2 )x1 = x1 (Px2 )x1
106
Px2 étant idenpotente on a :

(Px2 x∗1 )⊤ (Px2 x∗1 ) = kPx2 x∗1 k2 ≥ 0.
Nous avons bien un gain d'e a ité.
5.4.2 Région de onan e

Soit le modèle suivant
y = x(β) + ǫ (5.39)
qui peut prendre une forme linéaire ou non linéaire. On veut tester l'hypothèse
H0 = β0
H0 6= β0
On utilise un test de Fisher et on se demande pour quelle valeur de β0 H0 est rejetée ou non.
Figure 5.9 Région de onan e
β2
(β̂1, β̂2)
β1
La région de onan e est entrée sur β̂ .
La probabilité pour que l'ellipse ontiennent la vraie valeur de β est égale 1 − α. En faisnt varier β0
on peut her her la valeur de β0 qui permet de rejeter ou non l'lypothèse nulle. Soit
Y = Xβ + ǫ
Métodologie
On obtient un système suivant
H0 : β = β0 = 0 Y = ǫ ⇒ SCRc = Y ⊤ Y
H1 : β 6= β0 = 0 Y = Xβ + ǫ ⇒ SCRnc = Y ⊤ MX Y
107
On onstruit le Fisher asso ié à notre test :
SCRc − SCRnc n − K
F = (5.40)
SCRnc K
Y ⊤ Y − Y ⊤ MX Y n − K Y ⊤ Y PX Y n − K
= ⊤
= ⊤ (5.41)
Y MX Y K Y MX Y K
Sous H1 le modèle devient [5.39℄
Y = Xβ0 + ǫ
et le Fisher devient
(Y − Xβ0 )⊤ PX (Y − Xβ0 ) n − K
F =
Y ⊤ MX Y K
On rejette l'hypothèse nulle si F (β0 ) > Cα e qui implique que
(Y − Xβ0 )⊤ PX (Y − Xβ0 ) n − K
> Cα
Y ⊤ MX Y K
Cette région dénit une éllipsoide
K
(Y − Xβ0 )⊤ PX (Y − Xβ0 ) > Cα Y ⊤ MX Y
n−K
Pour étudier la forme de la région de onan e il faut regarder la forme quadratique en β0
(Y − Xβ0 )⊤ PX (Y − Xβ0 )
Cette forme quadratique dé rit une ellipse. On rejette H0 si la fon tion quadratique est supérieure au
nombre positif Cα Y ⊤ MX Y n−K .
K
La région de rejet est la zone hors de l'ellipse.
En posant PX Y = X β̂ la forme quadratique
⊤
X(β̂ − β0 ) X(β̂ − β0 ) = (β̂ − β0 )⊤ X ⊤ X(β̂ − β0 )
Dénition 10 La région de onan e est l'ensemble des paramètres qui ne permet pas de rejeter
l'hypothèse nulle si elle- i n'est pas pas rejeter. C'est un espa e paramètrique qui a deux interprétations :
1. RC = {β0 ∈ H|H0 : β = β0 } n'est pas rejetée
2. RC est la région la plus petite telle que
P r(β ∈ RC ) = 1 − α
où α est le niveau i.e la peobabilité de rejeter H0 alors qu'elle est vraie, 'est le risque de première
espè e.
Remarque 36 Pour une régression linéaire on a l'expression suivante
(β̂ − β0 )⊤ X ⊤ X(β̂ − β0 ) < seuil
Le seuil dépend de la taille de l'é hantillon et du nombre de restri tions sur les paramètres. Cette
expression représente une ellipse. Si on suppose que β a deux omposantes on peut étudier 3 situations :
108
1. L'intervalle de onan e de β1 .
2. L'intervalle de onan e de β2 .
3. La région de onan e de β = (β1 , β2 )⊤ .
Pour étudier es trois situations on onsidère le graphique suivant :
Figure 5.10 Intervalle de onan e et Région de onan e de β̂
β2
γ̂
β̂2 β̂ = (β̂1, β̂2)′
β̂1 β1
Le re tangle répond aux propriétés de la région de onan e. L'empla ement de β̂ est supposée être le
entre de la région de onan e. Les intervalles de onan e de β1 et de β2 sont entrés respe tivement sur
β1 et β2 . Certains points appartiennent aussi bien à l'intervalle de onan e et à la région de onan e.
De la dénition de la région de onan e qui est la plus petite zone qui ontient β̂ , on on lut que la
super ie de la région du re tangle est supérieure à elle de l'ellipse. Don on avantage l'ellipse par rapport
au re tangle. Le point γ̂ sur la gure [5.10℄ n'appartenant pas aux intervalles de onan e de β1 et β2 , les
hyputhèses nulles on ernant les oordonnées de γ seront rejetées. Ce parardoxe est lié au problème de
olinéarité entre les variables (dépendan e linéaire). Si les olonnes de X sont linéairement indépendantes
et s'il existe γ 6= 0, tel queXγ = 0 alors dim(S(X)) < l. Il y a au moins une olonne qui est ombinaison
linéaire des autres olonnes. Soit la matri e X de format n × K si dim S(X) = K e i implique que les
olonnes de X sont linéairement indépendantes sinon on parle de quasi olinéarité (presque dépendan e
linéaire). Les graphiques i-dessous illustrent quelques relations entre X1 et X2 .
109
Figure 5.11 Relations entre X1 et X2

X2 X2
X2
X1 b) X1
a) X1 et X2 indépendantes
X1
X2
c) x1 et x2 parfaitement colinéaires
Si l'angle entre les deux variables est égale à 90 les deux variables sont indépendantes (g a). Si
l'angle est de 180parfaites olinéarité (g ). La gure (b) illustre la onséquen e d'une variation entre
de l'angle et de X2 . Prenons le as représentatif illusté par la gure [5.12℄
Figure 5.12 Illustration de la RC

X2
b
X(β)
X2 (β̂2 )
PX y = x1 β̂1 + X2 β̂2
X1 (β̂1 ) X1
Xβ existe et est in onnu et l'empla ement de Py = X β̂ . L'erreur d'estimation est mesurée par X(β̂−β).
Cette erreur est représentée dans un espa e de dimension n et dans haque dire tion. Au une dire tion
est préférée à une autre. On aura un er le entré sur X β̂ g [5.13℄.
110
Figure 5.13 Illustration de la RC par un er le

X2
b
X(β̃)
b
b
X(β̂)
X1
Ce er le est aléatoire par e entré sur X β̂ ar β̂ est aléatoire. Nous obtenons une région de onan e
symétrique. Chaque point du er le est reprsenté par Xβ ave β donné. Supposons que e point est X β̃
e qui entraîne que
X β̂ − X β̃ = X(β̂ − β̃)
Cal ulons la distan e au arré entre es deux points
kX(β̂ − β̃)k2 = (β̂ − β̃)⊤ X ⊤ X(β̂ − β̃) e qui orrespond à la dénition de de RC
La relation kX(β̂ − β0 )k2 = (β̂ − β0 )⊤ X ⊤ X(β̂ − β̃) ≥ seuil dénit l'équation du er le et représente une
région de onan e symétrique pusqu'on suppose que les variations de β sont alétoires et identiques pour
toutes les dire tions.
Soit le modèle
y = x(β) + ǫ
La varian e du terme derreur est dénie par
V (ǫ) = E(ǫǫ⊤ ) = σ 2 I homo édasti ité
Cette relation explique la symétrie de la région de onan e.
Quelles sont les onséquen es de ette symétrie quand on est passsé dans le as de l'espa e paramé-
trique (g[5.14℄) :
111
Figure 5.14 RC dans l'espa e paramétrique

β2
X2
X β̂ β̂”
X β̂2
X1β̂1 X1 β1
L'estimation des paramétres est donnée par :
X1 β̂1 X2 β̂2
β̂1 = β̂2 =
X1 X2
Pour al luer la région de onan e on pro ède de la matière suivante :
On tra e l'image du er le dans l'espa e paramétrique. On passe d'un ve teur Xβ à un ve teur β .

Supposons que Xβ = z e qui entraine que X ⊤ Xβ = X ⊤ z e qui implique que :
β̂ = (X ⊤ X)−1 X ⊤ z
On passe aussi de β à Xβ d'où une orrespondan e biunivoque entre les représentations. Il s'agit
d'une transformation linéaire ar β est une fon tion linéaire de z. On hoisit un point sur le er le
à partir duquel on onstruit un parallélogramme pour trouver β̂1 et β̂2 et e i pour quelque points.
On aboutit à un espa e elliptique dans l'espa e paramétrique.
Si X1 est orthogonal X2 on a une une région sphérique dans l'espa e paramétrque. Si l'angle entre X1 et
X2 est aigu, l'ellipse a une pente négative. Pl us l'angle est aigu entre X1 et X2 plus l'ellipse est allongée
dans l'espa e paramétrique. Cette allure de l'ellipse traduit la similarité entre X1 et X2 . On illustre e
phénomène par le graphique [5.15℄.
112
Figure 5.15 Intervalle de onan e si X1 et X2 quasi- olinéaires
Graphe1
β2
β̂
β̂1
β1 < 0 X2
C
X(β)
β1 < 0 0 β2 > 0
β1 > 0 A B X1
β2 < 0
Graphe2
Notes : Les point A et B du graphe 2 indiquent les zones où β2 = 0. L'ellipse devient plus allongée et
min e.
Pourquoi l'allongement de l'ellipse ?

La quasi- olinéarité fait que pour tout point qui s'éloigne de X1 et X2 il faut re uler X1 d'une distan e
égale à β1 et on trouve X2 β2 .
113
Plus X2 s'appro he de X1 et plus X1 β1 s'allonge (voir graphique [5.15℄) . L'intervalle de onan e de

haque ompsante du ve teur pararmétrqique devient plus large (voir graphique [5.15℄).
Figure 5.16 S héma de onstrue tion d'un modèle é onométrique

X2 β2
X2
X1 β1 X1
X1 6= X2 X1 ≈ X2 X1 ∼
= X2
β̂ σβ̂ t(β̂) β̂ σβ̂ t(β̂) β̂ σβ̂ t(β̂)
1 0.25 4 1 0.5 2 1 1 1
1 0.25 4 1 0.5 2 1 1 1
Plus les variables sont olinéaires plus les é art-types augmentent et les students diminuent. Le tableau
montre que lorsque les deux variables presque oliniéaires leur impa t sur la variable à expliquer devient
nulle. On illustre e résultat dans le graphique i-desous
114
Figure 5.17 Intervalle de onan e de β

β2
A
Région de non rejet de β2 = 0
β̂2 β̂
β̂1 β1
Région de non rejet β1 = 0
Le point A a une valeur plus grande que elle de β2 e qui un implique un gain d'e atité à e point.
Dans la région de non rejet de β2 = 0 , la variable X1 prend tout le pouvoir expli atif de la variation
o- y lique. A l'origine du graphique on ne rejette pas la nullité onjointe des paramètres β1 et β2 .
Remarque 37 Quand les deux variables X1 et X2 sont parfaitement olinéaires (X2 = X1 γ), les
observations de X2 sont proportionnelles aux observations de X1 . Nous n'avons plus d'information
supplémentaire sur la variable X2 . Prenons un exemple en é onomie en prenant omme variable le PIB
et le PNB. Si on onsière es deux variables ommes les expli atives du modèle suivant on a :
y = P N Bβ1 + P IBβ2 + ǫ
La variation du PNB est très distin te de elle du PIB d'où un problème d'identi ation. On peut négliger
l'une ou l'autre variable dans le modèle.
y = P N Bβ1 + ǫ; β2 = 0
ou
y = P IBβ2 + ǫ; β1 = 0
115
Nous sommes dans l'impossibilté de hoisir entre les deux modèles. L'hypothèse à l'origine (β = 0) n'est
pas rejetée.
5.5 Méthodes d'estimation des modèles non linéaires

La résolution des onditions du premier ordre des modèles NLS est parfois impossible analytiquement.
Dans e as on fait appel à l'optimisation numérique basée sur ertains algorithmes. Nous présenterons
de manière non exhaustive quelques méthodes basées sur es algorithmes.
5.5.1 Méthode de Gauss Newton

La méthode de Gauss Newton (GN), est une méthode de résolution des équations normales. A haque
étape, on appro he la réponse moyenne en β par son développemnt de Taylor à l'ordre un au voisinage
de l'estimation obtenue à l'étape pré édente.
f (β) = f (β i ) + Df (β i )(β − βi ) (5.42)
A ette étape, l'équation normale asso iée à la minimisation de la fon tion obje tif est donnée par :
⊤
(y − f (β i ))Df (β i )(β − β i ) Df (β i ) = 0 (5.43)
Par transposition on obtient

Df (β i )⊤ y − f (β i ) = Df (β i )⊤ Df (β i )(β − β i ) (5.44)
Remarque 38 La matri e Df (β i )⊤ Df (β i ) est une matri e symétrique. Si elle est dénie positive, elle
devient inversible et du oup on peut dénir l'expression de (β − β i )
−1
β i+1 = β i + Df (β i )⊤ Df (β i ) Df (β i )⊤ y − f (β i ) (5.45)
Le système d'équations [5.45℄ est le système d'équations normales d'un modèle linéaire.
y ′ = Xθ + ǫ
ave y ′ = y − f (β i ), X = Df (β i ) et θ = β − β i . La résolution revient à minimiser ky ′ − Xθk2 . A haque

itération les équations normales sont linéarisées et le système ainsi obtenu est résolu.
Si au ours d'une itération, la matri e Df (β i )⊤ Df (β i ) n'est plus inversible on transforme la matri e
à inverser en lui ajoutent λI ave λ susamment grand pour qu'elle soit bien onditionnée (Méthode de
Gauss Marquart 1 .
1. D. Marquardt, Â An Algorithm for Least-Squares Estimation of Nonlinear Parameters Â , dans SIAM J. Appl.
Math. 11, p. 1963, 431-441 ; ( en ) P. E.
116
5.5. Méthodes d'estimation des modèles non linéaires
5.5.2 Méthode de Newton Raphson
L'algorithme de Newton-Raphson est une des méthodes numériques les plus utilisées pour faire de
l'optimisation non linéaire. La méthode repose sur une approximation linéaire à l'ordre un de la fon tion
de régression. C'est une méthode des endante qui repose sur l'approximation de Taylor du gradient à
l'ordre un de la fon tion de perte G(β) ave
∂f (β)
|βi = G(βi ) = 0
∂β
On fait un développement de Taylor à l'ordre un du gradient de la fon tion de perte G(β) dénie par :
∂G(βi )
G(βi+1 ) = G(βi ) + (βi+1 − βi ) = 0 (5.46)
∂β
= G(βi ) + H(βi )(βi+1 − βi = 0 (5.47)
On en déduit :
βi+1 − βi = −H(βi )−1 G(βi ) (5.48)
βi+1 = βi − H(βi )−1 G(βi ) (5.49)
Remarque 39 A haque étape on doit al uler le gradient G(βi ) et la matri e Hessienne H(βi ) = ∂G(βi )
∂β .
Preuve
SCR(β) ∂f (β)
G(βi ) = = −2
∂β ∂β
Pour démontrer e résulat on utilise les règles de dérivation ve torielle dont quelques unes sont présentées
i-dessous.
117
Soit f (x) une fon tion réelle diérentiable de plusieurs variables, le gradient de f par rapport
à x est : ⊤
∂f ∂f ∂f
Gradf = ∇f = = ,...,
∂x ∂x1 ∂xn
Remarque 40 Pour une fon tion ve torielle p-dimensionnelle de plusieurs variables, le
gradient de f est la matri e réelle

∂fi ∂f
dont la ieme ligne est On obtient la Ja obienne de f en x
∂xj p×n ∂x⊤
⊤
∂fi ∂fi ∂f ∂f
Dx f = Df = = = ⊤
=
∂xj ∂xj ∂x ∂x
Lorsque f est une fon tion deux fois diérentiable,Dx2 f (x) est une matri e Hessienne dont
la (i, j)ieme terme est donné par :
∂2f
= Hessf ou Hess(f )
∂xi ∂xj
Quelques règles utiles

∂f ∂2 f
Si f (x) = z ⊤ x ⇒= ∂x = z ⇒ ∂x2 = 0
∂2f
Si f (x) = A⊤ x ⇒ ∂f ⊤
∂x = A ⇒ ∂x2 = 0
2
Si f (x) = x⊤ x = ∂f ∂ f
∂x = 2x ⇒ ∂x2 = 2In
∂2f
Si f (x) = x⊤ Ax = ∂f ⊤
∂x = Ax + A x ⇒ ∂x2 = A + A⊤
Si f(x) est une fon tion réelle du ve teur x = x(y) on a :
∂f X ∂f ∂x ∂x ∂f ∂f ∂x
= × × ou en ore ⊤ = ⊤ ⊤
∂yj i
∂xj ∂xi ∂y j ∂ y ∂ x∂ y
L'élément générique de la matri e Hessienne est donnée par :
∂2f X X ∂2f ∂xj ∂xk X ∂f ∂ 2 x

= × +
∂yr ∂ys j
∂xj ∂xk ∂yr ∂ys j
∂xj ∂yr ∂ys
k
et l'expression de la matri e hessienne est donnée par :
∂2f X X ∂2f ∂ ⊤ x ∂f ∂x X ∂f ∂ 2 x
= × +
∂y∂ ⊤ y j
∂xj ∂xk ∂y ∂x∂ ⊤ x ∂ ⊤ y j
∂xj ∂y∂ ⊤ y
k
On obtient la matri e hessienne évaluée à la somme des arrés des résisdus :
∂ 2 (SCR) ∂f ∂ 2 (SCR) ∂f
H(src) = =
∂β∂ ⊤ β ∂β ∂f ∂ ⊤ f ⊤ f
∂ 2 (SCR) X ∂f
= G(β)⊤ ⊤
G(β) − 2
∂f ∂ f ∂β∂ ⊤ β

X ∂f
= −2 G(β)⊤ G(β) − (y − fj (β))
∂β∂ ⊤ β
∂ 2 (SCR)
ave ∂f ∂ ⊤
= 2In
Remarque 41 Cet algorithme onverge rapidement si les onditions initiales sont bien hoisies pour que
la matri e hessienne reste dénie positive et don inversible. Lorsque telle n'est pas le as, on appro he
118
5.6. Propriétés asymptotiques de β̂nls
la matri e hessienne en négligeant le se ond terme de l'algorithme et on obtient :

βi+1 = βi + G(βi )⊤ G(βi ) G(βi )(y − f (β))
5.5.3 Méthode du s ore

Cette méthode onsiste à rempla er dans l'algorithme de Newton Raphson le Hessien (SCR) par son
espéran e. Comme (yj − fj (βj )) = ǫj une variable j = 1, . . . , n. On a :

E (Hessien(SCR)) = G(βi )⊤ G(βi )
5.6 Propriétés asymptotiques de β̂nls

On suppose que les erreurs sont indépendantes et identiquement distribuées.
Pour l'etude du omportement asymptotique il est important de pré iser si nous avons la possibilité
d'augmenter le nombre d'observations de plusieurs manières. Nous nous limiterons aux deux régimes
suivants :
soit en xant un nombre ni de valeurs prises par les régresseurs et en répétant l'expérien e m-fois en
une ou plusieurs valeurs, nous parlons de de m-asymptotiques soit en augmentant indénement le nombre
de valeurs distin tes prises par les régresseurs, 'est le as des résultats n asymptotiques.
5.6.1 Résultats m-asymtotiques

Pour k valeurs distin tes et xées {x1 , . . . , xn }. On suppose avoir observé m fois le phénomène de
manière indépendantes. On dispose n = m × k observations, k est xé et m varie en augmentant. On
obtient le modèle de régression suivante :
ytj = f (xtj , β) + ǫtj 1 ≥ t ≥ k 1 ≥ j ≥ m (5.50)
ave
E(ǫtj ) = 0 V (ǫtj ) = σǫ2
Théorème 7 Si l'appli ation f (β) est une fon tion ontinue et inje tive sur l'espa e Θ son uni ité
dé oule de l'inje tivité. En divisant la fon tion de perte par la taille n = mk on obtient :
1 1 1X 1 X
SCR(β) = ky − f (β)k2 = k m (yj − ft (β))2 (5.51)
n n k t=1 m j=1
119
Par ailleurs pour t xé pour tout β .

m m
1 X 2 1 X 2
(yj − ft (β)) = (yj − ft (β0 ) + ft (β0 ) − ft (β))
m j=1 m j=1
 
m
1 X
= (yj − ft (β0 ))2 + (ft (β0 ) − ft (β))2 
m j=1
m
2 X
+ (yj − ft (β0 ))(ft (β0 ) − ft (β))
m j=1
m m
1 X 2 2 X
= ǫtj + ((ft (β0 ) − ft (β))) ǫtj + (ft (β0 ) − ft (β))2
m j=1 m j=1
Les ǫtj sont des arrés intégrables i.e d'après la loi des grands nombres
m
2 X p.s
((ft (β0 ) − ft (β))) ǫtj −→ 0 f orall1 ≥ t ≥ k
m j=1
m→∞
On en déduit que :
k
1 p.s
X
SCR(β) −→ σ 2 + (ft (β0 ) − ft (β))2 uniformémnt en β
n m→∞
t=1
Soit (etj )1≥t≥k , j ∈ N une réalisation de la suite (ǫtj )1≥t≥k , j ∈ N telle que
m
1 X 2 m→∞ 2
ǫ −→ σ
m j=1 tj ps
Pour tout n, notons en ) le ve teur de Rn deni par
en = etj , 1 ≥ t ≥ k; 1 ≥ j ≥ m
Pour tout n, les hypothèses du théorème assurent l'existen e de l'estimateur β̂n minimisant n1 SCR(β(en )).
Pour tout nl = kml telle que la suite (β̂(enl )) onverge vers un point β ′ de Θ. La suite
k
! k
!
1 X 2 1 X 2
ft (β̂nl ) − ft (β̂0 onverge vers ′
ft (β̂ − ft (β̂ quand l tend vers l'inni
k t=1 k t=1
l
On en déduit !
k
1 1 X 2
lim SCR(β̂)(en ) = σ 2 + ft (β̂ ′ − ft (β̂
l→∞ nl k t=1
Par dénition de l'estimateur de (β̂(enl ]) on a :
SCR(β̂(en )) ≥ SCR(β0 )
Don
1 1
lim SCR(β̂)(en ) ≥ lim SCR(β̂0 = σ 2 )
l→∞ nl l→∞ nl
120
On en déduit que
k
!
1 X 2
ft (β̂ ′ − ft (β0 ) = 0 ⇒ β̂ ′ = β0 d'après l'inje tivité de f.
k t=1
Il existe une et une seule valeur d'adhéren e à la suite β̂n (en ) du ompa t Θ : 'est don la la limite de la
suite β̂n qui onverge presque sûrement et en plus bornée. Elle onverge don uniformément en moyenne
vers β0 et le biais tend vers zéro.
Quelques éléments de Topologie
Dénition 11 Une boule de entre x0 et de rayon ǫ > 0 est l'ensemble :
B(x0 , ǫ) {x|kx − x0 k < ǫ} .
Dénition 12 Tout ensemble ontenant une boule ouverte de entre x0 est appelé un voisinage de
x0 , noté V (x0 ).
Dénition 13 Un ensemble A est ouvert ssi pour tout point de et ensemble, il existe une boule
ouverte sur e pont et in luse dans A :
A est ouvert ⇐⇒ (x ∈ A) ⇒ ∃ǫ > 0, B(x, ǫ) ⊆ A
Remarque 42 Un ensemble dont on a ex lu les points de la frontière est un ensemble ouvert :
Exemple; {x|x ∈ R, a < x < b} ]a, b[
Dénition 14 Un ensemble A est fermé ssi son omplément est fermé :
Exemple; {x|x ∈ R, a ≥ x ≥ b} [a, b]
Dénition 15 L'intérieur Å d'un ensemble A est le plus grand ensemble ouvert ontenant A
(x ∈ Å) ⇐⇒ ∃(ǫ > 0; B(x, ǫ) ⊆ A)
Dénition 16 L'adhéran e (Adh(A)) d'un ensemble est le plus petit ensemble fermé ontenant A.
De façon équvalente, x ∈ Adh(A) ssi toute boule ouverte entrée sur x a une interse tion non vide
ave A :
(x ∈ Adh(A)) ⇐⇒ (∀ǫ > 0, B(x, ǫ) ∩ A 6= Ω
Dénition 17 La frontière de A f r(A) d'un ensemble A est l'interse tion de Adh(A) et deAdh(Ā)
f r(A) = Adh(A) ∩ Adh(Ā)
Notes
Un ensemble est ouvert ssi il est égal à son intérieur. Il est fermé ssi il est égal à son adhéran e et
que tout ensemble fermé ontient sa frontière.
Dénition 18 Un sous ensemble de A de Rn est dit ompa t s'il est fermé et borné i.e
∃k, telle que kxk < k ∀x ∈ A
Exemple : [a,b℄ ave a et b nis est un ensemble ompa t.
Dénition 19 Un sous ensemble A ∈ Rn est dit onvexe si pour tout x, y ∈ A et µ ∈ R, tel que
0 ≤ µ ≤ 1 alors le point
Z = µx + (1 − µ) y ∈ A
121
5.6.2 Normalité m-asymptotique

Théorème 8 On suppose que les hypothèses de la se tion pré édente sont sastisfaites et de plus :
1. f (β) est une fon tion deux fois ontinument diérentiable pour tout point intérieur.
2. D⊤ f (β)Df (β) onverge uniformément sur un voisinage de β0 vers une matri e symétrique kΓ(β)
dénie positive au point β0 .
3. Hess(β0 ) onverge uniformément sur un voisinage de β0 .
Sous es hypothèses, β̂nls est asymptotiquement normale.
Preuve
√
Étudions le omportement du ve teur ( n ∂SCR(β)
∂β quand n tend vers l'inni.
k m
√ ∂SCR(β) 2 X 1 X ∂ft (β0 )
n = √ √ (ytj − ft (β0 )) (ytj − ft (β0 )) (5.52)
∂β k t=1 m j=1 ∂β
k
2 X ∂ft (β0 ) √
= −√ (ytj − ft (β0 )) m(ȳi. − ft (β0 )) (5.53)
k t=1 ∂β
ave
m
1 X
ȳi. = ytj
m j=1
D'après le théorème entral limite on a :

√
m(ȳi. − ft (β0 ))1≤t≤k ∼ N (0, σ 2 Ik )
∂SCR(β)
n1/2 ∼ N (0, 4σ 2 Γ(β))
∂β
D'autre part pour tout 1 ≤ t ≤ p on a :
p
" k #
∂SCR(β0 ) ∂SCR( β̃) X 2 X ∂fl (β̃i ) ∂fl (β̃i ) √
n−1/2 = n−1/2 − × n(β̃ − β0j ) (5.54)
∂βi ∂β j=1
k t=1 ∂βi ∂βj
 
p k m 2
X
2
X 1 X ∂ fl (β̃i )  √
− ylr − fj (β̃i ) n(β̃ − β0j ) (5.55)
j=1
k t=1 m j=1 ∂βi ∂βj
Rappelons que β̃ −→ β0 et oïn ide presque surement à βn quand n tend vers l'inni. Etudions les termes
p
2 X ∂fl (β̃i ) ∂fnl (β̃i )
Aij (m) =
k ∂βi ∂βj
l=1
Pout tout i, β̃i −→ β2 presque sûrement d'après H2 :
m→∞ m→∞
Aij (m) −→ β et −→ 2Γij (β0 )
unif. p.s
Dé omposons le terme
k m ∂ 2 f (β̃ )
2 X 1 X l i
Bij = ylr − fj (β̃i )
k t=1 m j=1 ∂βi ∂βj
122
sous la forme
k
2 X ∂ 2 fl (β̃i ) 1 X 2X ∂ 2 fl (β̃i )
Bij = − × ylr − fj (β̃i ) + (ft (β0 ) − ft (βi )) .
k t=1 ∂βi ∂βj m k ∂βi ∂βj
En tenant ompte de l'hypothèse H3 et la loi forte des grands nombres Bij onverge uniformément en
β et presque sûrement vers la matri e 2Γ(β0 ) et don onverge uniformément en β et presque sûrement
vers la matri e 2Γ(β0 ).
On en déduit que la matri e Gij = Aij (m) + Bij (m). Don la matri e G(m) = Gij est inversible
presque sûrement quand n tend vers l'inni.
!
√ ∂SCR(β0 ) ∂SCR(β̃)
∀ω, ∃M (ω) tel que m > M (ω); n(β̃ − β0 ) = G(m)−1 −
n 1/2 − n−1/2
∂β ∂β
On en déduit
√ m→∞ 1
n(β̃ − β0 ) −→ N (0, σ 2 Γ−1 (β0 ))
L 2
D'après le lemme i-dessous
Lemme 2 Pour toute suite {yt } de variables aléatoires respe tivement non orrélées, equidistribuées,
P
entrées de varian e nie et pour tout ωt des réels est telle que n−1 ωt yt onverge presque sûrement
(respe tivement en probabilité vers 0).
5.6.3 Normalité n-asymptotique

Dénition 20 Soient xi et yi deux suites réelles. Pour haque entier réel , on dénit le produit s alaire
d'ordre n
n
1X
< x, y >n = xi yi
n i=1
La norme asso iée est noté kxkn .
5.6.4 n- onsistant
Théorème 9 On suppose vériées les onditions suivantes :
1. Le vrai paramètre β0 est un point intérieur de l'ensemble ompa t Θ des paramètres in onnues.
2. f (β) est une fon tion ontinue de lasse C 2 en tout intérieur de Θ.
3. La suite kf (β1 ) − f (β2 )k2n onverge uniformément sur Θ × Θ pour tout β1 , β2 ∈ Θ×
L'estimateur des moindres arrés non linéaires est alors fortement n- onsistant et asymptotiquement sans
biais.
Preuve
123
Dé omposons la fon tion de perte
1 1 1
SCR(β) = ky − f (β)k2n = ky − f (β0 ) + f (β0 ) − f (β)k2n
n n n
1
= ky − f (β0 )k2n + 2 < ǫ, +f (β0 ) − f (β) >n +kf (β0 ) − f (β)k2n
n
1X 2 2X 2 1
= nǫ + nǫ + kf (β0 ) − f (β)k2n
n i=1 i n i=1 i n
= a1 (n) + a2 (n, β) + a1 (β, n)
Etudions les trois termes
i) La loi forte des grands nombres nous permet de on lure que
n→∞
a1 (n) −→ σ 2 ; ar les ǫi sont i.i.d
p.s
Pn
Si ωt = (f (β0 ) − f (β)),d'après la ondition 3 du théorème kωt k2n = i=1 ωt2 est uniformément
onvergente sur Θ × Θ
ii) On montre que la suite

unif.
a1 (n) −→ 0 sur Θ
p.s
D'après le théorème suivant :
Théorème 10 Soit Θ une partie ompa te de Rp . pour toute suite de variables aléatoire {yi }
indépendantes, non orrélées, identiquement distribuées de varian e nie, et toute suite de fo tion
numériques (gi ) sur Θ tel que < gi (β1 ), gi (β2 ) >n onverge uniformément sur Θ × Θ, la suite
unif.
< gi (β), yi >n −→ 0
p.s
iii) D'après e qui pré ède

lim a1 (n).ǫ̂ = σ 2 et lim a2 (β, n).ǫ̂ = 0
Si on onsidère l'observation yi = f (β0 ) + ǫ et β̂n (ǫ)n la suite des estimations des m nl asso iée à ǫ
et noté β̃ une valeur d'adhéran e de ette suite ; en utilisnat le même raisonnement que dans le as
de m-asympotique on montre β̃ = β0 . Il existe une seule valeur d'adhéran e à la suite β̂n (ǫ)n du
ompa t Θ × Θ qui onverge vers β0 . C'est le même prin ipe que dans le as m-asympotique. On
démontre que β̂nls onvergen e moyenne vers β0 .
5.7 Les Régressions Arti ielles

Toutes les méthodes populaires dans les estimations nonlinéaires, in luant la méthode des moindres
arrés nonlinéaires, du maximum de vraisemblan e et la méthode des moments généralisés (GMM)
onduisent à des estimateurs qui sont linéairement asymptotiques. Si on suppose que la taille de
l'é hantillon est susamment grand, le omportement de es estimateurs non linéaires au voisinage de la
124
5.7. Les Régressions Arti ielles
vraie valeur est presque identique à elui de l'estimateur des moindres arrés ordinaires. Une appro he de
voir la relation entre quelques méthodes d'estimation non linéaires et MCO est de formuler la régression
arti ielle qui orrespond à l'estimateur.
La régression arti ielle est une régression dans laquelle la regressande et les régresseurs sont onstruits
omme fon tion des données et des paramètres des modèles non linéaires.
On emploi les régressions arti ielles pour au moins inq raisons :
(i) pour vérier que les onditions du premier ordre du minimum et du maximum sont satisfaites ave
pré ision ;
(ii) pour al uler les matri es de varian e et de ovarian e estimées ;
(iii) pour al uler des statistiques après qu'un modèle ait été estimé sous ontraintes sans avoir besoin
d'estimer le modèle ontraint ;
(iv) pour al uler des estimateurs e a es en une étape.
(v) 'est une appro he utile dans les pro édures d'optimisation numériques dont on fait usage pour
al uler les estimations par moindre arrés non linéaires.
5.7.1 Con ept d'une régression Arti ielle

Soit un modèle paramètrique non linéaire qui est ara térisé par un ve teur de paramètres β ∈ Rk
qui peut être estimé en minimisant la fon tion obje tif Q(β) en utilisant n observations.
Si une telle régression existe pour un tel modèle, il est toujours possible de onsidérer deux hoses :
une régressande, e(β) et une matri e des régresseurs, X(β) de format n × k qui sont les dérivées de x(β)
par rapport au ve teur β . On réé rit le modèle par :
e(β) = X(β)b + Residuals (5.56)
où b est le ve teur des pararamètres in onnus de format k × 1 et "Residuals" est le terme d'erreur.
Remarque 43 La régressande et les régresseurs peuvent être évalués dans [5.56℄ en un point β ∈ Θ.
Les prporiétés de la régression arti ielle dépendent du point d'évaluation de la La régressande et les
regresseurs. On peut aussi évaluer [5.56℄ en un ve teur β parti ulier β́ d'estimateurs n- onsistants. C'est-
√
à-dire si β0 ∈ Θ est la vraie valeur, alors β́ ≈ β0 au taux de n.
Le modèle [5.56℄ est une régression arti ielle ou de Gauss Newton si les onditions suivantes sont
satisfaites :
1. L'estimateur β̂ est uniquement déni dans un voisinage de Θ par les k équations
X(β̂)e(β̂) = 0; (5.57)
125
2. pour quelques estimateurs β́ , n- onsistants, une estimation onsistante de la varian e

√
V ar plim n(β̂ − β0 ) est donnée par X ⊤ (β̂)X(β̂). Formellement

√ 1 ⊤
V ar plimn→∞ n(β̂ − β0 ) = plimn→∞ X (β̂)X(β̂) ;
n
3. si b́ est le ve teur des estimateurs issus de la regression arti ielle [5.56℄ ave ommande régressande
et régresseur evalué à β́ , alors
β́ + b́ = β̂ + ◦p (n−1/2 )
A tuellement beau oup de régressions arti ielles satisfont la version forte de la ondition 1
g(β) = −X ⊤ (β)e(β) gradient de le fon tion obje tif Q(β) (5.58)
Commentaires
La ondition [5.58℄ implique la ondition [5.57℄ mais pas vis versa. Le signe (-) arbitraire dans la
formule[5.58℄ montre que l'estimateur est obtenu en minimisant Q(β) au lieu de le maximiser.
La ondition (2) est é rite pour ertaines régressions arti ielles lassiques et non standard qui la
satisfont.
La ondition (3) la plus intéressante des 3 ferait référn ee à la propriété en un étape. Elle
implique que, si nous al ulons un estimateur en une étape à partir d'un estimateur initial β́ , où l'étape
est donné par le oe ient b́ à partir de la régression arti ielle, nous obtenerons un estimateur qui est
asymptotiquement équivalent à β̂ .
5.7.2 La régression de Gauss Newton (GNR)

La regression de GN est une appro he linéaire qui permet d'estimer une régression de non linéaire.
Elle fa ilite l'estimation de la matri e de varian e, les tests d'hypothèses. On peut ee tuer n'importe
quel test ave la regression GN.
Dénition 21 Soit la modèle non linèaire déni par :
y = x(β) + ǫ (5.59)
On dénit :
X(β) matri e de format n × k des dérivées partielles de x(β) par rapport aux paramètres
e(β) = y − x(β) ve teur des résidus de format n × 1
La GNR s'é rit de la manière suivante :
e(β) = X(β)b + residuals b est un paramètre tif. (5.60)
126
On ee tue ette régression linéaire en évaluant les deux membres de l'équation [5.87℄ en β̂nls du modèle
non linéaire on obtient le modèle à estimer suivant :
e(β̂) = X(β̂)b + residuals b est un paramètre tif. (5.61)
Pour simplier l'é riture de l'équation on peut oublier le β̂ dans l'équation [5.61℄
ê = X̂b + residuals (5.62)
L'estimateur des moindres arrés ordinaires obtenu du modèle [5.62℄ est :
b̂ = (X̂ ⊤ X̂)−1 X̂ ⊤ ê = 0 (5.63)
à ause de la ondition d'orthogonalité entre les résidus et les dérivées partielles X̂ ⊤ ê = 0 i.e la somme
des arrés expliquées est nulle.
Toute régression donne une paire de matri es de proje tion omplémentaire
ê = PX̂ ê + MX̂ ê (5.64)
ave PX̂ ê = 0 ar ve teur des valeurs ajustées de la GNR e qui implique que
ê = MX̂ ê (5.65)
La somme des arrés totale est dénie par
SCT = kêk2 = kMX̂ êk2 (5.66)
Une autre façon d'é rire l'égalité [5.66℄ est la suivante
[ nls = SCR
SCR [ GN R en ore σ̂nls
2 2
= σ̂GN R (5.67)
Remarque 44 L'égalité [5.67℄ n'est plus vraie si on évalue [5.61℄ à β̄ 6= β̂ et on obtient
b̄ = (X̄ ⊤ X̄)−1 X̄ ⊤ ē; β̄ est nul si les onditions du premiers sont vériées. (5.68)
Dans le as de l'égalité [5.67℄, on dénit la matri e de la varian e de β̂nls par :

V ar β̂nls = σ̂ 2 (X̂ ⊤ X̂)−1 (5.69)
Le résultat [5.69℄ est un résulat asymptotique qui implique que
as − V ar(β̂nls = σ̂02 (X̂0⊤ X̂0 )−1 (5.70)
évaluée à la vraie valeur β0 de β .

La première utilisation de la GNR montre que le résultat obtenu donne la vraie valeur de la matri e
estimée de la varian e. Dans une première étape il faut ommen er par estimér le modèle non linéaire
pour al uler β̂nls .
127
5.7.3 Estiamtion du modèle non linéiare par la GNR

Comme dans tous les as d'optimisation numérique le point initial de départ est primordial. Il faut
don bien le hoisir pour qu'il soit assez pro he du minimum. Si on évalue la GNR ailleur que β̂nls ,
l'estimateur b̂ sera un estimateur de orre tion pour s'appro her du minimum.
On onsidère un point initial β 0 qui permet de onstruire la GNR de départ :

e β (0) = X β (0) b(0) + residuals (5.71)
On ee tue la regression MCO de [5.71℄ et obtient
b̂(0) = (X̂0 ⊤ X̂0 )X0 ⊤ ê0
On en déduit
β̂ (1) = β̂ (0) + b̂(0) estimateur obtnenu par la GNR.
On onstruit un pro essus itératif
e(β (1) = X(β (1) )b(1) + residuals : on estime b̂(1) (5.72)
β (2) = β (1) + b̂(1) (5.73)
Ce pro essus onverge vers le vrai β̂ si le point de départ est pro he du minimum.
Considérons le modèle linéaire i-dessous
y = Xβ + ǫ
on montre que X(β) = X et il n'est pas né essaire d'évaluer X(β) en β .
e(β (0) = Xb(0) + res Première GNR
y − X(β 0 ) = Xb(0) + res GNR par MCO
L'estimation tive de la première GNR nous donne
b̂(0) = (X ⊤ X)−1 X ⊤ (y − X(β 0 )) = β̂mco − β (0)
On en déduit
β̂ (1) = β (0) + b̂(0) = β (0) + β̂mco − β (0) = β̂mco
Remarque 45 La GNR en une étape onverge vers l'estimateur des MCO dans le as linéaire : La
deuxième étape de l'itération est dénie par :
e(β (1) = Xb(1) + res
y − Xβmco = Xb(1) + res
β̂ (1) = (X ⊤ X)−1 (y − X β̂mco )
= β̂mco − β (1) = β̂mco − β̂mco = 0
128
Démonstration dans le as non linéaire

On exige que le point de départ vére la ondition suivante
√
√ n(β (1) − β0 )
n(β (1) − β0 ) = (1) i.e < K ∀n quand n tend vers l'inni
1
(β (1) − β0 ) est l'é art entre le point initial et la vraie valeur paramétrée. Cet é art doit être borné quand
n tend vers l'inni i.e β (0) → β0 . En général β (0) sera donné par une estimation préliminaire. On parle
√
don de la onvergen e de β (0) vers β0 au taux de onvergen e n.
√
Si n(β (1) − β0 ) = (1) alors
e(β (0) = Xb(0) + res
Pour la deuxième itération on utilise un autre point de départ β́ = β (0) + b(0) appelé estimateur e a e
en une étape. Ce i s'explique par le fait que β́ − β(nls) est très petit et assure le résultat de onvergen e :
√
n(β́ − β̂(nls) ) = ◦(1) i.e tend vers 0 quand n tend vers l'inni
i.e (β́ − β̂(nls) ) tend plus vers 0 que n1/2
Ce résultat nous permet de on lure que β́ est un estimateur e a e. On a le résultat asymptotique

suivant :
as − V ar(β́) = as − V ar(β̂(nls) )
en e sens que
√
as − V ar(β́) = limn→∞ n(β́ − β0 )
Comme dans la deuxième étape on a :

√
n(β́ − β̂(nls) ) = ◦(1)
il existe une onvergen e su essive et à haque étape on peut ontrler l'é art des estimateurs de la GNR
et de NLS.
p
Preuve de (n)(β́ − βnls = ◦(1)
Soit le modèle suivant
e(β) = X(β)b + res

b̂ = X (0)⊤ X (0) X (0)⊤ e(0)
b̂ est donné par la forme habituelle et les régresseurs ave :
X (0) = X(β (0) )
e(0) = y − x(β (0) )
On démontre que
p n→∞
(n)(β́ − βnls ) 0
129

β́ = β (0) + b̂ = β (0) + X (0)⊤ X (0) X (0)⊤ e(0)
On a montré que
p −1 −1/2 ⊤
(n)(βnls − β (0) ) ∼
= n−1 X0⊤ X0 n X0 ǫ (5.74)
En supprimant des deux tés de l'équation [5.74℄ on retrouve une é riture arithmétique
−1
(βnls − β (0) ) ∼
= X0⊤ X0 X0⊤ ǫ approximation asymptotique (5.75)
Le résultat de l'équation [5.74℄ donne une expression de l'estimateur des moindre arrés non linéaires.
En divisant les deux de [5.74℄ par n−1/2 on trouve
−1
(β̂nls − β (0) ) ∼
= X0⊤ X0 X0⊤ ǫ approximation asymptotique (5.76)
Ce résultat est aussi vrai si le modèle est linéaire.
X0 ≃ X(β0 ) = X
β̂ols = (X ⊤ X)−1 X ⊤ y
y = Xβ0 + ǫ
βols − β0 = (X ⊤ X)−1 X ⊤ ǫ résultat exa t sans approximation
Remarque 46
−1
La multipli ation par n−1 dans X0⊤ X0 transforme l'addition des olonne en moyenne
√ √ √ √
n(β́−β (0) ) = n(β (0) −β0 )+ n X (0)⊤ X (0) X (0)⊤ e(0) = n(β (0) −β0 )+ n−1 X (0)⊤ X (0) −1n−1/2 X (0)⊤ e(0)
(5.77)

On montre que n −1
X (0)⊤
X (0)
−1 est une matri e des moyennes qui tend vers (n −1
X0⊤ X)−1
5.8 Appli ation de GNR

La GNR peut être onsidérée omme une approximation linéaire du modèle non linéaire.
Dénition 22 on onsidère le modèle non linéaire
y = x(β) + ǫ (5.78)
ǫ ∼ iid(0, σ 2 ǫIn )
La GNR asso iée au modèle [5.79℄ est dénie par :
e(β) = X(β)b + res (5.79)
La matri e X(β)ti de format (n × k) a omme éléments les dérivés de la fon tionnelle x(β) par rapport
aux k paramètres.
∂x(β)
X(β)ti = t = 1, . . . , n i = 1, . . . , k
∂β
e(β) est la régressande. La raison de ette terminologie est la GNR est une régression arti ielle.
130
5.8. Appli ation de GNR
Nous allons dériver la GNR en faisant un développement limité x(β) autour de la vrai valeur β0 de β
k
X ∂x(β)
x(β) ≃ x(β0 ) + (β0 )(βi − β0 ) + R
i=1
∂β
I i β0 est le point de développement et β le point d'évaluation.

k
X ∂x(β)
yt = xt (β) + ǫt ≃ x(β0 ) + (β0 )(βi − β0 ) + R (5.80)
i=1
∂β
Une é riture matri ielle de [5.80℄ est donnée par :

k
X
yt = x(β0 ) + Xti (β0 )(βi − β0 ) + R (5.81)
i=1
On désigne par
Xt. la ligne t de la matri e X(β)
X.. La matri e toute entière
et enn l'é riture matri ielle devient :
y = xt (β0 ) + X(β0 )(βi − β0 ) + R (5.82)
De l'équation [5.83℄ on a :
y − xt (β0 ) = X(β0 )(βi − β0 ) + R ≃ e(β) = X(β0 )b + R (5.83)
ave b = β − β0
La régression évaluée en β0 donne un estimateur des moindres arrés arrés ordinaires de la régression
non linéaire. Le pararmètre β0 est estimé par les MCO.On dénit un point de départ β̃ ou point
d'évaluation de notre algorithme. On suppose que
√
n(β̃ − β0 ) = (1)
On a don
√
| n(β̃ − β0 )| < K
Remarque 47 Cette ondition est uniquement valable pour des valeurs déterministes. Pour des valeurs
aléatoires la ondition équivalente est donnée par
√
E(| n(β̃ − β0 )|) < K Espéran e
√
V (| n(β̃ − β0 )|) < L Varian e
On en déduit que
√
n(β̂nls − β0 ) = (1)
131
√
n(β̂nls − β0 ) → N 0; (n−1 X0⊤ X0 )−1
ave X0 = X(β0 ). On obtient une matri e dont les éléments son des moyennes. Don quand n tend vers
l'inni on obtient une moyenne nie. et on obtient une matri e bornée.
√
Ce résultat explique à la fois la onvergen e de l'estimateur puisque en divisant par n on obtient

1
(β̂nls − β0 ) = √
n
ave f (n) = (β̂nls − β0 ) et g(n) = √1

n
don
f (n) √
= n(β̂nls − β0 ) = (1)
g(n)
On a limn∞ √1
n
0. Comme le rapport est borné don limn∞ (β̂nls − β0 ) 0. On a la ondition de
√
onvergen e n qui dit que le terme d'erreur onverge au même taux vers zéro que √1 .
n
√
On onsidère maintenant un estimateur dont le taux de onvergen e est n
√
n(β̃ − β0 ) = (1)
√
β̃ est estimateur onvergent au taux n.
Remarque 48 On peut trouver un estimateur onvergent mais e a e. La GNR nous permet d'aoir un
estimateur onvergent et e a e de l'estimateur des moindres arés non linéaire.
e(β̃) = X(β̃)b + res
Si β̃ = β0 ⇒ res = ǫ sinon resn eqǫ ar β̃ est un estimateur onvergent.
Pour al uler l'estimateur des moindres arrés non linéaire on onsière le modèle suivant
ẽ = X̃(β̃)b + res
b̃ = (X̃ ⊤ X̃)− estimateur MCO evalué en β̃
On en déduit un estimateur e a e de notre modèle non linaire
β̃ + b̃ = βnls
ave β̃ le terme orre teur. On onstruit un estimateur équivalent asymptotiquement aux deux estimateurs
égale à :
β́ = b̃ + β̃
On en déduit que
√
n(β̂nls − β̃) = ◦(1)
132
Remarque 49
f (n) →
(1) f (n) = ◦(g(n)) ⇔ n→∞0
g(n)
f (n)
(2) f (n) = (g(n)) ⇔ <K
g(n)
La ondition (1) entraîne la ondition (2) et onverge plus vite vers zéro que la ondition (2).
Consiérons les relations suivantes :

√
n(β̂nls − β0 ) = (1) résultat de la normalité asymtotique
√
n(β̃ − β0 ) = (1) hypothèse
√
n(β́ − β0 ) = (1) on lusion
Ces trois estimateurs onvergent au taux sqrtn.

En onsiérant l'é art entre deux de es estimateurs, on trouve un résultat qui onverge plus vite vers
zéro que si l'on prenait l'un d'entre eux ave β0 .
√
On va utliser l'équivalen e asymptotique n(β̂nls − β0 ) = (1) pour démontrer sqrtn(β́ − β0 ) = (1)
√ √ √
n(β́ − β0 ) = n(β́ − β̂) + n(β̂ − β0 ) = (1)
| {z } | {z }
◦(1) (1)
Remarque 50 Si un suite est bornée si on lui ajoute une suite qui onverge vers 0, la somme reste
bornée.
Il nous reste à démontrer que β́ est e a e.

√
Preuve : Si on a n(β̂nls − β́) = ◦(1) peut-on montrer que que β́ est e a e ?
L'e a ité fait appel à la varian e asymptotique. Si nous parvenons à démonter que
√ √
lim V ar( n(β̂ − β0 )) = lim V ar( n(β́ − β0 ))
n→∞ n→∞
Posons
√ √ √
n(β́ − β0 ) = n(β́ − β̂) + n(β̂ − β0 )
√ √ √
V ar( n(β́ − β0 )) = V ar n(β̂ − β0 ) + V ar n(β́ − β̂)
h√ √ i
+ E n(β́ − β̂) n(β̂ − β0 )⊤
h√ √ i
+E n(β̂ − β0 ) n(β́ − β̂)⊤
On doit montrer que que quand n tend vers l'inni on obtient :

√ √
lim V ar( n(β̂ − β0 )) = lim V ar( n(β́ − β0 ))
n→∞ n→∞
133
On en on lut que
p p
(n)(β́ − β̂) = ◦(1) ⇒ V ar (n)(β́ − β̂) → 0
En appliquant le même raisonnement pour les deux derniers termes on aboutit à la on lusion que les
varian es tendent vers z¯o quand n tend vers l'inni. Don
√ √
lim V ar n(β̂ − β0 ) = lim V ar n(β́ − β0 )
n→∞ n→∞
Remarque 51 L'e a ité de β́ qui s'exprime à partir des limites des varian es nous évite de al uler
de la V ar(β́) puisque on sait que la varian e de β0 est égale à σ0 (X ⊤ X)−1
Etude de l'estimateur Non-linéaire β̂nls .
β̂nls = argminβ (y − x(β))⊤ (y − x(β)) (5.84)
La ondition du premier ordre donne
X(β)⊤ (y − x(β̂)) = 0
Faisons un développement de Taylor autour de β0 pour pouvoir avoir une expression expli ite de β̂
y − x(β̂) = y − x(β0 ) + x(β0 ) − x(β̂) = ǫ − X0 (β̂ − β0 )
On obtient le vrai ǫ puisque le β0 appartient au pro essus générateur des données.
x(β̂) = x(β0 ) + X(β0 )(β̂ − β0 ) + . . .
X(β̂) = X(β0 ) + . . .
Condition de normalité du premier ordre donne
X0⊤ (ǫ − X0 (β̂ − β0 )) = 0
On a :
n−1/2 ǫ = (n−1 X0⊤ X0 )n−1/2 (β̂ − β0 )
ave
n−1/2 ǫ = ◦(1); (n−1 X0⊤ X0 )n−1/2 = ◦(1); (β̂ − β0 ) = ◦(1)
On obtient
p
(n)(β̂ − β0 ) = (n−1 X0⊤ X0 )−1 n−1/2 X0⊤
On obtient la normalité asymptotique. On va maintenant démontrer l'égalité suivante :
β́ = β̃ + b̃ = β̃ + (X̃ ⊤ X̃)−1 X ⊤ ẽ
Preuve :
134
p p p
(n)(β́ − β0 ) = (n)(β̃ − β0 ) + (n−1 X̃ ⊤ X̃)−1 (n)X ⊤ ẽ
ave :
n−1 (X̃ ⊤ X̃) = n−1 X0⊤ X0 )
ẽ = e(β) = e(β0 ) − X(β0 )(β̃ − β0 ) + . . .
n−1/2 X ⊤ ẽ = n−1/2 X̃ ⊤ (ǫ − X0 (β̃ − β0 )
= n−1/2 X̃ ⊤ ǫ − n−1/2 X̃ ⊤ X0 (β̃ − β0 )
= n−1/2 X̃ ⊤ ǫ − n−1 (X̃ ⊤ X0 )n1/2 (β̃ − β0 )
(n−1 X̃ ⊤ n−1/2 X ⊤ X̃)−1 ẽ = n−1 (X̃ ⊤ X0 )−1 (n−1/2 X0⊤ ǫ − (n−1 X0⊤ X0 )n1/2 (β̃ − β0 )
= (n−1 X0⊤ X0 )−1 n−1/2 X0⊤ ǫ − n1/2 (β̃ − β0 )
n1/2 (β́ − β0 ) = (n1/21 (β̃ − β0 ) + (n−1 X0⊤ X0 )−1 X0⊤ ǫ − (n1/21 (β̃ − β0 )
= (n−1 X0⊤ X0 )−1 X0⊤ ǫ = n1/21 (β̂ − β0 ) = ◦(1)
Preuve : Equivalen e asymptotique de n1/2 (β̂0 − β́) = ◦(1)
On ommen e par un développement de en série :
n1/2 (β́ − β0 ) = (n−1 X0⊤ X0 )−1 n−1/2 X0⊤ ǫ
= (n−1 X0⊤ X0 )−1 n−1/2 X0⊤ ǫ + ◦(1)
L'éa rt (β̂ − β0 ) tend vers zéro quand n tend vers l'inni.
n1/2 (β́ − β0 ) = (n−1 X0⊤ X0 )−1 n−1/2 X0⊤ ǫ + ◦(1)
D'où
β́ = β̃ + b̃
En soustrayant (β̂ − β0 ) par (β́ − β0 ). On trouve
(β̂ − β́) = ◦(1)
On obtient deux termes qui tendent vers zéro quand n tend vers l'inni don leur diéren e tendent vers
zéro. Don β́ est onvergent et e a e e qui est démontré par la preuve de l'équivalen e asymptotique.
135
5.9 Test d'auto oréllation des aléas par la GNR

Soit
y = Xβ + µ (5.85)
où
µt = ρµt−1 + ǫt ; pro essus AR(1)
H0 : ρ = 0 vs H1 : ρ = 0
Si on reformule y en tenant ompte de la stru ture des résidus en bruit blan on obtient un modèle non
linéaire
yt = Xt β + ρyt−1 + ρXt−1 β + ǫt (5.86)
Le modèle [5.86℄ est un modèle non linéaire qui orrespond au modèle MCO mais ave auto orrélation.
Sous l'hypothèse nulle ρ = 0 on obtient le modèle [5.85℄ et sous H1 on obtient le modèle nonlinéaire
[5.86℄. La pro édure onsiste à faire deux tests. Un test d'absen e d'auto orrélation des résidus, tester
l'auto orrélation et tester la linéarisation sous H1 , la GNR. Les résidus sous H0 sont dénis par
e = Xb + res
ave
e = yt − Xt β + ρyt−1 + ρXt−1 β
Sous H0 : ρ̃ = 0 et β̃ = β̂mco est onvergent. On dénit les résidus de départ par
ẽt = yt − X(β̃)
Sous H1
.
Zt (β, ρ̃) = [Xt − ρXt−1 ..yt − βXt−1 ]
et sous H0
. .
Zt (β, ρ̃) = [Xt ..yt−1 − β̃Xt−1 ] = [Xt ..ẽt−1 ]
ẽt−1 sont les résidus retardés de la régression sous H0 . La formulation de la régression donne
ẽt = Xt bβ + ẽt−1 bρ + res GNR sous H1 (5.87)
Remarque 52 Il es t possible d'obtenir un estimateur e a e en une étape du modèle non linéaire
yt = Xt β + ρyt−1 + ρXt−1 β + ǫt

b̃β β̃ β̃ + bβ
β́ = + =
b̃ρ ρ̃ ρ̃ + bρ
L'estimateur de la matri e de varian e des paramètres tifs est donnée par
σ̃ 2 (X̃ ⊤ X̃)
136
5.9. Test d'auto oréllation des aléas par la GNR
et sous H0 σ̃GN
2
R = σ̂nls et les varian es onvergent n vers la vraie valeur
2
σ̂ 2 → σ̂02
σ̃ 2 → σ̂02
L'équivalen e asymptotique permet de démontrer l'égalité des estimateurs β̂nls et β́ ave omme matri e
de varian e ovarian e σ02 (X0top X0 )−1 et σ̃ 2 (X̃ top X̃)−1 . Les estimateurs asymptotiques des varian es β̂nls
et β́ fournis ar la GNR σ̃ 2 (X̃ top X̃)−1 sont onvergents. On obtient ainsi un seul estimateur qui onverge
vers σ02 (X0top X0 )−1 .
Remarque 53 L'estimateur de la varian e par la GNR, σ̃ 2 (X̃ top X̃)−1 , est un bon estimateur de la
varian e asymptotique de β́ et β̂nls . On peut en déduire le t de student asso ué à ρ par la GNR.
b̃ρ
tρ =
σ̃b̃ρ
qui permet de tester le nullité de ρ. Le test d'auto orrélation des aléas est l'une des appli ations la plus
importante de la GNR.
Exemple 5.9.1 Nous appliquons dans et exemple l'estimation des modèle à hoix dis rets par la GNR
La probabilité onditionnelle de yi pour le ve teur des régresseurs onnus xi donné est dénie par

P (yi = 1|xi , β) = F (x′i β), ,
(5.88)
P (yi = 0|xi , β) = 1 − F (x′i β), .
Comme yi suit une loi de Bernoulli la probalité onditionnelle de la la dé ision est déne par :
P (yi = 1|xi , β) = F (x′i β)yi (1 − F (x′i β))1−yi (5.89)
Cette probabilité onditionnelle peut être dénie par
E(yi |Ωi ) = P (yi = 1|xi , β) = F (x′i β); ave Omegai une suite d'information. (5.90)
Si au une restri tion est faite sur le paramètre β , l'espa e des paramètres Θ ∈ RK . L'estimateur du
maximum de vraisemblan e est un M-estimateur pour l'individu i ave omme ontribution de et individu
à la vraisemblan e la fon tion donnée par
ln P (yi = 1|xi , β) = yi ln F (x′i β) + (1 − yi )(1 − F (x′i β)) (5.91)
La log vraisemblan e pour l'ensemble de l'é hantillon est dénie par

n
X
l(xi , β) = [ln f (yi = 1|xi , β) = yi ln F (x′i β) + (1 − yi )(1 − F (x′i β))] (5.92)
i=1
Pour le modèle Probit on a :

n
X
l(xi , β) = [ln f (yi = 1|xi , β) = yi ln Φ(x′i β) + (1 − yi )(1 − Φ(x′i β))] (5.93)
i=1
137
ave Z x′i β 2
1 t
φ(x′i β) = √ exp − dt
−∞ 2π 2
Pour le modèle Logit on obtient :
n
X
l(xi , β) = [ln f (yi = 1|xi , β) = yi ln Λ(x′i β) + (1 − yi )(1 − Λ(x′i β))] (5.94)
i=1
ave
1 exp(x′i β)
Λ(x′i β) = =
1 + exp(−x′i β) 1 + exp(x′i β)
Si on pose f (x) = F ′ (x) la fon tion de densité orrespondante à la fon tion de répartition F(x), les
onditions du premier ordre our maximiser [5.94℄ sont
n
X (yi − F̂i fî xij
j = 1, . . . , k (5.95)
i=1 F̂i (1 − F̂i )
où xij est la ij ieme omposante de xi , fî ≡ f (x′i β̂) et F̂i ≡ F (x′i β̂).
Il existe plus d'une méthode pour dériver la régression arti ielle qui orrespond au modèle [5.90℄. Le
plus fa ile est de le réé rire sous la forme d'une modèle non linéaire
yi = F (x′i β) + ui (5.96)
Le terme d'erreur ui est non normal et hétéro édastique. Comme yi est une variable de bernoulli de
pr probabilité p donnée par F (x′i β) t de varian e p(1-p), ma varian e de ui est
vi ≡ F (x′i β)(1 − F (x′i β)) (5.97)
La GNR de [5.96℄ serait

yi − F (x′i β) = f (x′i β)xi b + residual (5.98)
ependant la GNR n'est pas aopropriée à ause de l'héréo édasti ité de ui . En multipliant les deux membre
de l'équation [5.97℄
par n−1/2 vi on obtient la régression arti ielle
n−1/2 vi (yi − F (x′i β)) = n−1/2 vi f (x′i β)xi b + residual (5.99)
Cette régession a toutes les propriétés des régressions arti ielles. Un élément de la matri e d'information
est donnée par : !
n
1X f (x′i β)
Ijl = plimn→∞ xij xil
n i=1 F (x′i β)(1 − F (x′i β))
il n'est pas di ile de montrer que la régession, [5.99℄ satisfait la ondition (ii). Finalement si [5.99℄
a une stru ture de d'une GNR les arguments utilisés dans ette se tion montrent qu'il satisfait aussi la
ondition (iii) de la propriété en une étape.
138
Table des matières
139
Table des matières
Chapitre 1
Introdu tion générale aux bases de l'é onométrie 1
1.1 CONNAISSANCES PRÉREQUISES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 DÉFINITION DE L'ÉCONOMÉTRIE et Démar he é onométrique . . . . . . . . . . . . . 1
1.2.1 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.2 Démar he é onométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.3 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Chapitre 2
ESTIMATION PONCTUELLE
2.1 É hantillon aléatoire, Estimation, Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 É hantillon aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.2 Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Fon tion de Vraisemblan e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Information au sens de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2 Inégalité de RAO-CRAMER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Méthode du Maximum de vraisemblan e . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Prin ipe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Propriétés élémentaires de la fon tion de vraisemblan e. . . . . . . . . . . . . . . . 11
2.3.3 Identi ation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 PROPRIÉTÉS DES ESTIMATEURS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.3 Tests d'Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.4 Estimateur onvergent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.5 Généralisation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Test LM ou test du S ore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6 Exer i es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.1 Exer i e 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.2 Exer ie 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.3 Exer ie 3 : Analyse de la durée du hmage . . . . . . . . . . . . . . . . . . . . . . 32
Chapitre 3
Régression linéaire empirique
3.1 Des ription du problème et exemples é onomiques . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Le modèle et ses hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.2 Les hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Les Estimateurs des moindres arrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Moments des estimateurs des Moindres Carrés . . . . . . . . . . . . . . . . . . . . 41
3.2.2 Convergen e en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
140
3.2.3 Théorème de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.4 Dé omposition de la varian e : le oe ient de détermination . . . . . . . . . . . . 46
3.2.5 Tableau de d'analyse de la Varian e . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.6 Exemple empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.7 Régression simple, Intervalles de Conan e et Tests d'hypothèses . . . . . . . . . . 49
3.3 Test sur les deux paramètres a et b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.1 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4 Exemple numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 LE MODÈLE DE RÉGRESSION MULTIPLE . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5.1 Les estimateurs de moindres arrés . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5.2 Géométrie des MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.3 Problèmes parti uliers : multi olinéarité, biais de spé i ation et variables muettes 61
3.5.4 Estimateurs par maximum de vraisemblan e . . . . . . . . . . . . . . . . . . . . . 63
3.5.5 Propriétés asymtotiques des estimateurs de moindres arrés ordinaires . . . . . . . 65
3.5.6 L'estimateur MCG réalisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.7 Estimation sous ontrainte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Chapitre 4
Les Tests de bonne spé i ation du modèle
4.1 Test sur les résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.1 Test de normalité sur les résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.2 Test d'hétéro édasti ité des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.1.3 Test d'auto orrélation des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2 Tests sur les paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Chapitre 5
Modèles Non-Linéaires
5.1 Introdu tion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.1.1 Quelques modèles non linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2 Présentation du modèle non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2.1 Appro he Géométrique des Moindres Carrés non linéaires MNCL . . . . . . . . . . 94
5.3 Estimation de la varian e des erreurs : 2
σmcnl . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4 Test d'hypothèse dans le as MNL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.1 Intervalles de Conna e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.2 Région de onan e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.5 Méthodes d'estimation des modèles non linéaires . . . . . . . . . . . . . . . . . . . . . . . 116
5.5.1 Méthode de Gauss Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.5.2 Méthode de Newton Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.5.3 Méthode du s ore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6 Propriétés asymptotiques de β̂nls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6.1 Résultats m-asymtotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6.2 Normalité m-asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
141
Table des matières
5.6.3 Normalité n-asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.6.4 n- onsistant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.7 Les Régressions Arti ielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.7.1 Con ept d'une régression Arti ielle . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.7.2 La régression de Gauss Newton (GNR) . . . . . . . . . . . . . . . . . . . . . . . . 126
5.7.3 Estiamtion du modèle non linéiare par la GNR . . . . . . . . . . . . . . . . . . . . 128
5.8 Appli ation de GNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.9 Test d'auto oréllation des aléas par la GNR . . . . . . . . . . . . . . . . . . . . . . . . . . 136
142

Prézilo Chap1 Econometrie

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Prézilo Chap1 Econometrie

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 1

Introdu tion générale aux bases de

1.1 CONNAISSANCES PRÉREQUISES

1.2 DÉFINITION DE L'ÉCONOMÉTRIE et Démar he é ono-

1.2.2 Démar he é onométrique

Etape 2 Estimer les paramètres du modèle ;

Figure 1.1  S héma de onstrue tion d'un modèle é onométrique

Confirmation du modèle avec les données

Théorie est validée Théorie n’est pas validée

Nouvelles données testées Nouvelle spécification du

La naissan e de l'é onométrie moderne

Les modèles é onométriques d'équations simultanées

Vers une é onométrie sans théorie ?

Problème posé et formalisation

2.1 É hantillon aléatoire, Estimation, Estimateur

• la valeur in onnue et ertaine θ

• la valeur aléatoire, estimateur de θ

• la valeur onnue et ertaine θ̂ , estimation de θ pour un é hantillon observé (x1 , x2 , . . . , xN )

2.2 Fon tion de Vraisemblan e

θ −→ L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ou simplement L(θ1 , . . . , θk )

2.2.1 Information au sens de Fisher

C1 Les trois premières dérivées de ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) par rapport à θ sont dénies et

C3 Pour toute valeur de θ, ∂ 3 ln f (xi |θ)

2.2.2 Inégalité de RAO-CRAMER

IΘ̂ ≤ IN (θ) (2.12)

2.3 Méthode du Maximum de vraisemblan e

2.3.1 Prin ipe

Dans le as où la loi de X dépend de k paramètres

le prin ipe est le suivant :

♠ Si X ne dépend pas de de θi , ∀i ∈ (1, 2, . . . , k).

l'estimation dite du maximum de vraisemblan e

(θ̂1 , θ̂2 , . . . θ̂k ) = (ϕ1 (x1 , x2 , . . . , xN ), . . . , ϕk (x1 , x2 , . . . , xN )

est solution du système

La matri e M(k,k) engendrée par

L'estimateur du maximum de vraisemblan e est

2.3.2 Propriétés élémentaires de la fon tion de vraisemblan e.

Le s ore est une variable entrée

Preuve On supposera que le modèle est régulier, i.e :

Propriété 2 Trois expressions équivalentes de la matri e d'information de Fisher :

Remarque 2 Il peut y avoir plusieurs solutions à l'équation

2.3.3 Identi ation

n = nombre d'essais indépendants

p = probabilité de su ès lors de haque essais

Y = nombre de su ès est B(n,p)

l(p) = log L(p) = r log(p) + (n − r)log(1 − p)

Les onditions du premier ordre donnent :

En prenant le logarithme de [5.97℄ on obtient la log-vraisemblan e :

qui est à maximiser par rapport à µ et σ 2 .

En résolvant les équations [5.99℄ et [2.21℄ nous obtenons :

La matri e Hessienne évaluée aux valeurs des estimateurs devient :

2.4 PROPRIÉTÉS DES ESTIMATEURS

Remarque 3 Le risque quadratique d'un estimateur est dénie par :

R(θ̂) = V (θ̂) + (E(θ̂ − θ)2 )

Autre dénition du risque quadratique

Démonstration En e qui on erne la moyenne :

i=1 i=1 i=1

ar σ 2 = E(Xi2 ) − µ2 et don σ 2 + µ2 = E(Xi2 )

Mais E(Xi2 ) = σ 2 + µ2 , et, par l'indépendan e

E(Xi Xj ) = E(Xi )E(Xj ) = µ2

e qui montre que s2 est sans biais.

Proposition 2 (Inégalite de Fre het-Darmois-Cramer-Rao)

Preuve. La ondition d'estimateur sans biais s'é rit :

2.4.2 Propriétés asymptotiques

Figure 1.1 S héma de onstrue tion d'un modèle é onométrique

C1 Les trois premières dérivées de ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) par rapport à θ sont dénies et

2.3.3 Identi ation

Remarque 3 Le risque quadratique d'un estimateur est dénie par :

Autre dénition du risque quadratique

onverge vers une valur diérente de 0.

De l'équation [2.34℄ et en prenant la diéren e entre [2.38℄ et [2.37℄ on obtient :

3. β est-il un estimateur sans biais, onvergent et e a e ?