Vous êtes sur la page 1sur 70

Chapitre 1

Introduction générale aux bases de


l’économétrie

1.1 CONNAISSANCES PRÉREQUISES


– Cours de méthématiques première année
– Probabilité, probabilité jointe, Probabilité conditionnelle
– Indépenpendance de deux événements
– Théorème de la probabilité totale
– Variables aléatoires discrètes et continues
– Distribution et densité (cas univarié et multivarié)
– Espérance Mathématique, Variance et propriétés
– Variables aléatoires binomiale et uniforme
– Variable Normale : propriétés et emploi des tables

1.2 DÉFINITION DE L’ÉCONOMÉTRIE et Démarche éconé-


trique
1.2.1 Définition

L’économétrie peut être définie comme l’application des méthodes statistiques à l’étude des phéno-
mènes économiques.
Branche des sciences économiques, elle fournit des méthodes permettant l’établissement des lois
économiques, la vérification d’hypothèses et la quantification des relations entre variables et ce à partir
des données chiffrées tirées des observations.
De ce fait, l’Econométrie constitue un complément indispensable à l’analyse économique. Ainsi, toute
recherche en sciences économiques fini toujours par la réalisation des travaux d’économétrie à un moment
ou un autre. Et c’est pour cette raison que dans tous les pays, la formation des économistes suppose
l’acquisition de ces techniques.

1
Chapitre 1. Introduction générale aux bases de l’économétrie

1.2.2 Démarche économétrique

Plus précisément la démarche économétrique comporte trois étapes :

Etape 1 Construire un modèle testable qui soit justifié par la théorie économique et qui puisse être
vérifié statistiquement ;

Etape 2 Estimer les paramètres du modèle ;

Etape 3 Vérifier que les écarts entre les observations et les résultats théoriques du modèle ne sont pas
systématiques.

Fig. 1.1 – Schéma de construection d’un modèle économétrique

Commentaires du schéma
Dans la réalité l’économiste part d’une analyse théorique des déterminants de la variable étudiée en
identifiant les variables pouvant l’expliquer et le type de relations qu’elles sont susceptibles d’avoir avec la
variable expliquée. Ces éléments analytiques vont être traduits en une équation mathématique mettant en
relation la variable endogène (variables à expliquer ou régréssande) et ses principales variables explicatives
(régresseurs). En donnant aux variables les valeurs enregistrées dans la réalité, l’économétrie permet à
la fois de tester la validité du modèle et d’en chiffrer les paramètres. Elle rend possible la modélisation,

2
1.2. DÉFINITION DE L’ÉCONOMÉTRIE et Démarche éconétrique

c’est à dire la représentation simplifiée des phénomènes étudiés, par un ensemble cohérent de relations
mathématiques quantifiées. La modélisation est une approche qui consiste à approximer la réalité par un
modèle plus simple, ce qui ne pourra jamais représenter complètement la réalité dans toute sa complexité
A son tour la modélisation constitue un enrichissement important, sous la forme d’une aide à la
décision, en rendant possible la simulation, l’optimisation ou la prévision. La maxime du modélisateur
dit que " tous les modèles sont faux, mais certains sont utiles "
La simulation consiste à calculer les conséquences d’un ensemble d’hypothèses représentées par des
valeurs des variables explicatives. La prévision étend cet ensemble à des périodes futures. L’optimisation
adopte le chemin inverse et a pour but de déterminer les valeurs optimales de certaines variables en
fonction d’objectifs fixés. La plupart des grands centres de décision, qu’il s’agisse des banques, des agences
gouvernementales, des institutions internationales et des grandes entreprises utilisent régulièrement ces
techniques. Les constructeurs d’avions utilisent les modèles économiques pour analyser la demande
actuelle et future. Les Ministères des Finances, de l’économie ou du plan construisent des modèles
Macro-économiques pour la prévision et pour l’évaluation des politiques économiques. Les institutions
non gouvernementales d’aide au développement construisent et actualisent régulièrement des modèles des
grandes régions du monde et des principales économies nationales. Par conséquent, pour travailler dans ces
institutions, il est indispensable de pouvoir manier les techniques économétriques (souvent sophistiquées
et à haut niveau). Il en résulte aussi que pour pouvoir travailler avec ces institutions, il faut maîtriser le
langage commun. : Modèle économétrique.
En économétrie, nous pouvons considérer un modèle comme une représentation formalisée d’un
phénomène sous forme d’équation dont les variables sont des grandeurs économiques.
Son objet est de représenter les traits les plus marquants d’une réalité qu’il cherche à styliser. C’est
donc l’outil que le modélisateur utilise lorsqu’il cherche à comprendre et à expliquer les phénomènes.
Pour ce faire, il émet des hypothèses et explicite des relations. Le modèle est donc une représentation
schématique et partielle d’une réalité naturellement complexe. Toute la difficulté de la modélisation
consiste à ne retenir que la ou les représentations intéressantes pour le problème que le modélisateur
cherche à expliquer. Ce choix dépend de la nature du problème, du type de décision ou d’étude à effectuer.
La même réalité peut aussi être formalisée de diverses manières en fonction des objectifs. Comme le modèle
ne peut pas tout décrire, il restera toujours une partie inexpliquée qui sera supposée aléatoire. Le calcul
des probabilités est alors introduit pour prendre en compte la partie inexpliquée par le modèle. Dans le
domaine de la modélisation, la randomisation est introduite à titre d’hypothèse.

1.2.3 Historique
Premiers développements

Les tentatives de modélisation à partir de données empiriques ont une longue histoire que l’on peut
faire remonter aux "mathématiciens" anglais du XVII ème siècle et auxquels sont attachés les noms de

3
Chapitre 1. Introduction générale aux bases de l’économétrie

William Petty , Gregory King et Charles Devenant . Gregory King chercha par exemple à établir une loi
entre d’une part les déficits des récoltes de blé et d’autre part les variations du prix du blé . A partir
du XVIII ème et surtout du XIX ème siècle les économistes tentèrent d’ établir des lois économiques
à l’instar des lois de la physique newtonnienne . Ce projet fut mené en termes scientifiques par Moore
puis par Schultz , Lenoir , Tinbergen et Frisch entre 1914 et 1938 . Les deux grands axes de recherche
furent alors l’estimation d’une loi de demande ( ce qui conduisit au problème de l’identification ) et celle
des cycles économiques . Clément Juglar ( 1819 - 1905) fut le premier à utiliser les séries temporelles
pour analyser les cycles et fut suivit par Kuznets et Kondratieff . Toutefois les théoriciens du cycle se
limitèrent à l’étude de la périodicité du cycle et ne s’attachèrent guère à celle de la quantification des
relations causales sous jacentes. Leur apport à l’économétrie est donc resté marginal.

La naissance de l’économétrie moderne

L’économétrie moderne est née à la fin des années 30 et pendant les années 40. Elle est la résultante de
trois phénomènes : le développement de la théorie de l’inférence statistique à la fin du XIX ème siècle ; la
théorie macroéconomique et la comptabilité nationale qui offrent des agrégats objectivement mesurables
( contrairement à la microéconomie fondée sur l’utilité subjective ) ; enfin, et surtout, la forte demande
de travaux économétriques, soit de la part d’organismes publics de prévision et de planification, soit
de la part d’entreprises qui ont de plus en plus besoin de modéliser la demande et leur environnement
économique général. A partir des années 60 l’introduction de l’informatique et des logiciels standardisés
va rendre presque routinière l’utilisation de l’économétrie.
En simplifiant de façon sans doute abusive l’on peut distinguer deux grandes périodes de la recherche
économétrique moderne. Jusqu’à la fin des années 70 l’économétrie va étudier la spécification et la
solvabilité de modèles macroéconomiques à équations simultanées. Puis à la suite de ce que l’on a appelé
la révolution des anticipations rationnelles et de la critique de Lucas, la recherche se tournera davantage
vers la microéconomie et l’analyse des séries temporelles.

Les modèles économétriques d’équations simultanées

La plus grande partie de la recherche économétrique américaine ( effectuée pour une large part
au sein de la Cowles Commission ) entre 1944 et 1960 porta sur les conditions d’estimation des
modèles macroéconomiques d’équations simultanées comportant un élément aléatoire . En 1939 Tinbergen
construisait un modèle des cycles économiques comportant 31 équations de comportement de 17 identités
. Chacune des équations était estimée au moyen de la méthode des moindres carrés, ce qui, nous le
verrons ne pouvait conduire qu’à des estimations inconsistentes. En 1944 Haavelmo posait les conditions
générales de solvabilité. Entre 1945 et 1950 Klein présentait ses premiers modèles dont la solution était
obtenue par la méthode du maximum de vraisemblance. En 1949 Koopmans déterminait les conditions de
solvabilité dans le cas d’un modèle linéaire. En 1954 Theil introduisait la méthode des doubles moindres

4
1.2. DÉFINITION DE L’ÉCONOMÉTRIE et Démarche éconétrique

carrés permettant des calculs effectifs. Toutefois la généralisation des modèles économétriques à équations
simultanées utilisée pour des modèles prévisionnels se heurta pendant longtemps au manque de moyens
informatiques. Le premier modèle utilisé à des fins prévisionnelles fut celui de Klein - Goldberger en
1955. D’autres modèles suivirent à la fin des années 50, en particulier celui de la Brookings Institution.
Avec l’avancée des techniques informatiques les années 60 et le début des années 70 virent une éclosion
de modèles macroéconomiques jouant un rôle important dans la prévision. Le modèle dit de Brookings
comprenait ainsi 400 équations. Aprés 1970 furent commercialisés des modèles standards comme celui dit
de Wharton. La stabilité relative de l’environnement économique jusqu’en 1974 leur assura un certain
succès.

L’analyse de la régression

L’importance des moyens consacrés à la résolution des problèmes d’identification laissa quelque peu
dans l’ombre la recherche sur la corrélation. Le principal obstacle théorique était le traitement de
l’autocorrélation des résidus aléatoires. En 1950 Durbin et Watson élaboraient leur célèbre test du même
nom qui test l’autocorrélation des résidus à l’ordre un. Les années 50 virent d’autre part l’apparition de
modèles à retards échelonnés avec les travaux de Koyck , d’Almon , de Cagan et de Friedman .

La révolution des anticipations rationnelles et la remise en cause des modèles macroécono-


métriques

Les années 70 furent celles de la remise en cause radicale des modèles macroéconométriques élaborés
pendant les années 60. Une des raisons vient de ce que l’abandon du système de Bretton Woods
puis le quadruplement du prix du pétrole conduisirent à des bouleversements qui ne pouvaient être
anticipés par les modèles économétriques. Au niveau théorique il apparut rapidement que les modèles
macroéconométriques ne possédaient pas de fondations microéconomiques suffisamment solides. En
particulier Lucas montra dés 1972 que si les agents forment leurs anticipations sur une base endogène à
partir de leur expérience il n’est plus possible de considérer que les coefficients structurels des modèles
macroéconométriques restent inchangés. Ainsi toute mesure de politique économique doit conduire à un
changement dans le comportement des agents tant au niveau de la consommation que de l’investissement.
Ceci remet bien évidemment en cause les modèles macroéconométriques traditionnels qui ne distinguaient
pas les paramètres expliqués par des causes structurelles de ceux expliqués par la réponse aux mesures
de politiques économique. Une estimation de ces deux types de paramètres a été effectuée par Lucas et
Sargent qui les obtinrent directement comme solutions de modèles d’optimisation dynamique. Sur cette
base la recherche économétrique des années 80 porta sur les problèmes d’agrégation des préférences des
agents, d’inégalité dans la répartition de l’information et sur le processus d’apprentissage.

5
Chapitre 1. Introduction générale aux bases de l’économétrie

Vers une économétrie sans théorie ?

La critique de Lucas a ouvert la voie à des critiques plus radicales et a conduit certains économètres
comme Sims à dénier à la théorie toute pertinence dans l’estimation des modèles. L’approche même en
termes d’anticipations rationnelles est alors rejetée dans la mesure où elle nécessite une connaissance à
priori des délais. Plus fondamentalement les modèles macroéconométriques reposaient sur une distinction
entre variables "endogènes" et "exogènes". Cette distinction qui suppose une connaissance théorique à
priori est rejetée. Cette critique a conduit à retenir des modèles autorégressifs où n’existe pas à priori une
classification entre variables endogènes et exogènes. La question de l’utilité de tels modèles reste toutefois
controversée dans la mesure où ils ne fournissent pas une explication structurelle de l’activité économique.

6
Chapitre 2

ESTIMATION PONCTUELLE

Problème posé et formalisation


Dans une population dont chaque individu est indicé par i ∈ I, on s’intéresse à un caractère. Ce
caractère est représenté par une variable aléatoire réelle X sur l’espace probabilisé (X, T, Pθ ). Le paramètre
θ ∈ R de la loi de probabilité Pθ est inconnu.
On cherche à estimer ce paramètre inconnu θ c’est-à-dire à déterminer la loi exacte Pθ de X :

X −→ Pθ

2.1 Échantillon aléatoire, Estimation,Estimateur


2.1.1 Échantillon aléatoire

Pour un choix de données d’individus (x1 , . . . , xN ) ∈ X N sera la suite des réalisations du


caractère. Pour un choix quelconque d’individus (X1 , . . . , Xn ), suite de variables aléatoires réelles
indépendantes, par définition un échantillon de taille N. En d’autres termes un échantillon est une suite
de variables aléatoires indépendantes ayant la même distribution (i.i.d.).

Exemple 2.1.1
Tailles des N étudiants de troisième année de sciences économiques de distribution normale de
moyenne µ et de variance σ 2 , N (µ, σ 2 ) et indépendantes, Xi , i = 1, . . . , N ).

2.1.2 Estimateur

On appelle estimateur de θ toute application mesurable Θ̂. C’est une fonction de variables aléatoires
observables, ne dépendant pas de paramètres inconnus.

Θ̂ : X n :−→ R (2.1)

La Méthode Heuristique ou Méthode des Moments permet d’obtenir les estimateurs suivants. L’esprance
µ = E(X), pour une loi quelconque P (µ), est estimée par la moyenne empirique sous les hypothèses de
la loi des grands nombres.

7
Chapitre 2. ESTIMATION PONCTUELLE

PN
i=1 Xi
µ̂ = = X̄ (2.2)
N
De même si on veut estimer la variance σ 2 = V (X), on utilise la variance empirique.
PN
i=1 (Xi − µ̂)2
σ̂ 2 = (2.3)
N

Il existe une méthode systématique de recherche d’estimateur, qui fera l’objet du troisième paragraphe.

2.1.3 Estimation

On appelle estimation de θ, pour un échantillon x1 , x2 , . . . , xN la valeur

θ̂ = Θ̂(x1 , x2 , . . . , xN ) (2.4)

prise pour une telle fonction pour des réalisations particulières des variables aléatoires.

Exemple 2.1.2
µ̂ = 175; σ̂ 2 = 25

On distingue

• la valeur inconnue et certaine θ

• la valeur aléatoire, estimateur de θ

• la valeur connue et certaine θ̂, estimation de θ pour un échantillon observé (x1 , x2 , . . . , xN )

2.2 Fonction de Vraisemblance


Soient x1 , . . . , xN des réalisations aléatoires, X1 , . . . , XN . Soit fX (x1 , x1 , . . . , xN |θ1 , . . . , θk ) la densité
jointe des variables au point (x1 , x1 , . . . , xN ) ; cette densité dépend des paramètres inconnus θ1 , . . . , θk . Si
l’on considère cette densité jointe comme une fonction des paramètres inconnus, on l’appelle fonction de
vraisemblance. Ainsi la vraisemblance de l’échantillon (x1 , x1 , . . . , xN ) relative au vecteur de paramèrtres
θ est l’application

θ −→ L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ou simplement L(θ1 , . . . , θk )

telle que


P (X1 = x1 , . . . , Xn = xN ), si X est discrète ;
L(θ1 , . . . , θk ) = (2.5)
g(x1 , . . . , xN ), si |X| est continue.
Par définition, si les observations sont indépendantes et identiquement distibuées la fonction de
vraisemblance de l’échantillon (x1 , x1 , . . . , xN ) est :
 N
Πi=1 P (Xi = xi ), si X est discrète ;
L(θ1 , . . . , θk ) = (2.6)
ΠNi=1 f (xi ), si X est absolument continue.

8
2.2. Fonction de Vraisemblance

Note
Les paramètres θi sont ici des paramètres de la vraisemblance ; en d’autres termes, elle n’est définie
qu’après l’observation des réalisations des variables ! La vraisemblance est une notion statistique, tandis
que la densité jointe est une notion de probabilité.
Le contenu intuitif est donc la probabilité que l’échantillon ait pris les valeurs qu’il a prises !

2.2.1 Information au sens de Fisher

Définition 1
L’information (au sens de Fisher,) contenue dans un échantillon (X1 , X2 , . . . , Xn ) relative au vecteur
de paramètre θ est définie par :
" 2 #
∂ ln L(X1 , . . . , XN |θ
In (θ) = E (2.7)
∂θ

Théorème 1
Si le domaine X est indépendant de θ et si L vérifie les hypothèses de régularité suivantes (hypothèses
vérifiées par les lois usuellles, binomiale, poisson, normale, exponentielle,......) :

C1 Les trois premières dérivées de ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) par rapport à θ sont définies et


continues pour presque tout xi et pour tout θ. Cette condition assure l’existence d’un certain
développement de Taylor et d’une variance finie des dérivées de ln L

C2 Les conditions nécessaires pour prendre l’espérance des premières et deuxième dérivées de f (xi |θ)
sont satisfaites.
3
f (xi |θ)
C3 Pour toute valeur de θ, ∂∂θlnj ∂θ est inférieure à une fonction ayant une espérance finie. Cette

k ∂θ l

condition permet de tronquer le développement de Taylor.

Alors
   
∂ ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ∂f
IN (θ) = N I1 (θ) = N ∗ E =E
∂θ ∂θ

∂ 2 ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
 
IN (θ) = −E
∂θ2
 
∂ ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
IN (θ) = V
∂θ

2.2.2 Inégalité de RAO-CRAMER

Sous les mêmes hypothèses de régularité de L et X indépendant de θ, un estimateur sans biais vérifie
l’inégalité
1
V (Θ̂) ≥ (2.8)
IN (θ)
1
IN (θ) est donc la borne inférieure d’un tel estimateur.

9
Chapitre 2. ESTIMATION PONCTUELLE

Définition 2
Un estimateur Θ̂ sans biais est dit efficace s’il vérifie
1
V (Θ̂) = (2.9)
IN (θ)
Il est donc dans ce cas, estimateur de variance, minimale et donc celui qui converge plus vite.

Remarque 1

• On peut interpréter plus clairement la notion d’information au sens de Fisher.


Le meilleur estimateur, le plus efficace parmi les estiameturs sans biais est celui dont la variance
est la plus faible. La qualité d’un estimateur varie donc en fonction de l’inverse de sa variance.
En conséquence on peut appeler l’information contenue dans l’estimateur Θ̂ la quantité.
1
IΘ̂ (θ) = (2.10)
V (Θ̂)

L’inégalité de RAO-CRAMER exprime donc que, pour tout estimateur sans biais Θ̂ :

IΘ̂ ≤ IN (θ) (2.11)

L’estimateur efficace vérifiant IΘ̂ = IN (θ) est donc que la quantité telle que la quantité d’information
qu’il contient est égale à celle contenue dans l’échantillon.

• L’inégalité précédente, peut être étendue aux estimateurs biaisés. Si E(Θ̂) = φ(θ) et sous les mêmes
conditions de régularité de L et X indépendant de θ
[ϕ0 (θ)]2
IΘ̂ (θ) ≥ (2.12)
IN (θ̂)

2.3 Méthode du Maximum de vraisemblance


On suppose que la loi de probabilité de X dépend du vecteur des paramètres inconnus θ.

Définition 3
On appelle estimation du maximum de vraisemblance la valeur, θ̂ qui maximise pour
un échantillon donné, la vraisemblance L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ) ou la log vraisemblance,
ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ). De cette estimation θ̂ = ϕ(x1 , x2 , . . . , xN ), on déduit l’estimateur du maxi-
mum de vraisemblance
Θ̂ = ϕ(X1 , . . . , XN )

2.3.1 Principe

On choisit comme estimation des paramètres, θi , les valeurs de ces paramètres qui maximisent
L(θ1 , . . . , θk ). Dans le cas discret, on choisit comme estimation les valeurs des θi qui donnent la plus
grande probabilté d’avoir obtenue le résultat exprérimental (x1 , x1 , . . . , xN ).

10
2.3. Méthode du Maximum de vraisemblance

Dans le cas où la loi de X dépend de k paramètres

P (θ1 , . . . , θk )

le principe est le suivant :

♠ Si X ne dépend pas de de θi , ∀i ∈ (1, 2, . . . , k).

♠ Si
∂L ∂ 2 L ∂2L
, , ,
∂θi ∂θi2 ∂θi ∂θj2
existent ∀(i, j) ∈ (1, 2, . . . , k)2 , ∀(x1 , x2 , . . . , xN ) ∈ X n ,

∀(θ1 , θ2 , . . . θk ) ∈ Rk

l’estimation dite du maximum de vraisemblance

(θ̂1 , θ̂2 , . . . θ̂k ) = (ϕ1 (x1 , x2 , . . . , xN ), . . . , ϕk (x1 , x2 , . . . , xN )

est solution du système


∂ ln L
= 0 (2.13)
∂θi θ1 =θ̂1 ,...θk =θ̂k
.. .. ..
. . . (2.14)

∂ ln L
= 0 (2.15)
∂θi θ1 =θ̂1 ,...θk =θ̂k

La matrice M(k,k) engendrée par

∂ 2 ln L
mi,j = est définie négative
∂θi ∂θj

L’estimateur du maximum de vraisemblance est


 
Θ̂ = Θ̂1 , . . . , Θ̂k = (ϕ1 (x1 , x2 , . . . , xN ), . . . , ϕk (x1 , x2 , . . . , xN ))

2.3.2 Propriétés élémentaires de la fonction de vraisemblance.

Propriété 1 L’espérance du score ou des dérivées premières est nulle :


!
∂ ln L(θ1 , . . . , θ̂k )
E =0
∂θ

Le score est une variable centréé

Preuve On supposera que le modèle est régulier, c.a.d :

1. Θ est un ouvert de RK

2. il existe une mesure µ telle que Pθ0 << µ et sa densité f (y; θ0 ) est derivable par rapport θ

11
Chapitre 2. ESTIMATION PONCTUELLE

R
3. θ 7−→ f (y; θ)dµ(y) est dérivable par rapport à θ et
Z Z
∂ ∂f (y; θ)
f (y; θ)dµ(y) = dµ(y)
∂θ ∂θ
On a :
  Z
∂ ln l(Y ; θ0 ) ∂ ln f (y; θ0 )
E = f (y; θ0 )dµ(y)
∂θ ∂θ
R ∂f (y;θ0 )
∂θ
= f (y; θ0 )dµ(y)
f (y; θ0 )
Z

= f (y; θ)dµ(y) = 0
∂θ
| {z }
=1∀y

Propriété 2 Trois expressions équivalentes de la matrice d’information de Fisher :


 
∂ ln f (Y ; θ0 )
I(θ0 ) = V
∂θ
 
∂ ln f (Y ; θ0 ) ∂ ln f (Y ; θ0 )
= E ;
∂θ ∂θ0
 2 
∂ ln f (Y ; θ0 )
= −E
∂θ∂θ0
Preuve
a) La première égalité est la définition.
b) La seconde égalité est une conséquence directe de la propriété précédente.
c) La troisième égalité vient de ce que :
∂ 2 ln f (y; θ)
 
∂ ∂ ln f (y; θ)
=
∂θ∂θ0 ∂θ0 ∂θ
 
∂ 1 ∂f (y; θ)
=
∂θ0 f (y; θ) ∂θ
 
1 ∂f (y; θ) ∂f (y; θ) 1 ∂ ∂f (y; θ)
= −− +
f (y; θ)2 ∂θ ∂θ0 f (y; θ) ∂θ0 ∂θ
1 ∂ ln f (y; θ) ∂ ln f (y; θ) 1 ∂ 2 f (y; θ)
= − +
f (y; θ)2 ∂θ ∂θ0 f (y; θ) ∂θ∂θ0
et aussi

   Z  
1 ∂ ∂f (y; θ) 1 ∂ ∂f (y; θ)
E = f (y; θ)dµ(y)
f (y; θ) ∂θ0 ∂θ f (y; θ) ∂θ0 ∂θ
Z 2
∂ f (y; θ)
= dµ(y)
∂θ∂θ0
∂2
Z
= f (y; θ)dµ(y) = 0
∂θ∂θ0
| {z }
1∀y

Donc la fonction E ln f (y; θ) est maximale en θ0 . De plus l’inegalité est stricte si pour tout θ autre que
θ0 , ln f (y; θ) 6= ln f (y; θ0 ) sur un ensemble A tel que µ(A) 6= 0.

12
2.3. Méthode du Maximum de vraisemblance

Remarque 2 Il peut y avoir plusieurs solutions à l’équation


 
∂ ln f (y; θ)
E =0
∂θ
mais une seule correspond au maximum de E (ln f (y; θ)) si le paramètre est identifié, et c’est la vraie
valeur du paramètre θ, ( θ0 .)

2.3.3 Identification

La fonction g(θ) du paramètre est identifiable ssi pour tout couple (θ1 , θ1 ) de Θ tel que g(θ1 ) 6= g(θ2 )
et f (y; θ1 ) 6= f (y; θ2 ) sur un ensemble de valeurs de y de mesure µ non nulle.

Proposition 1 θ0 est identifiable ssi θ0 est l’unique θ ∈ Θ qui maximise E[ln f (Y ; θ)].

Preuve On a
f (y; θ)
E(ln f (y; θ)) − E(ln f (y; θ)) = E ln
f (y; θ0 )
Comme la fonction ln est concave, l’inégalité de Jensen1 s’applique pour montrer que
f (y; θ) f (y; θ)
E ln ≤ ln E
f (y; θ0 ) f (y; θ0 )
Z
f (y; θ)
= ln f (y; θ0 )dy
f (y; θ0 )
Z
= ln f (y; θ)dy
| {z }
=1∀y
= 0.

Exemple 2.3.1 Une urne contient 3 boules, qui peuvent être soit rouges, soit blanches.Le nombre
de boules rouges est inconnu. On tire deux boules sans remise. On obtient deux boules rouges. On
demande d’estimer le nombre de boules rouges que contient l’urne à l’aide du principe du maiximum
de vraisemblance.
Solution
La vraisemblance est donnée dans ce cas par la probabilité d’obtenir le résultat expérimental (tirage de
2 boules), considérée comme fonction des 4 valeurs possibles du paramètre inconnu (n=0,1,2,3).

L(0) = P (R1 ∩ R2 |n = 0) = 0

L(1) = (R1 ∩ R2 |n = 1) = 0

L(2) = P (R1 ∩ R2 |n = 2)

= P (R2 ∩ R1 |n = 2) ∗ P (R1 |n = 2)
1 2 1
= . =
2 3 3
Donc l’estimation est n̂ = 3
1 1Pour toute fonction concave f, Ef (X) ≤ f (EX)

13
Chapitre 2. ESTIMATION PONCTUELLE

Exemple 2.3.2 On demande d’estimer par maximum de vraisemblance le paramètre p d’une loi bino-
miale B(n, p)
Rappel

n = nombre d’essais indépendants

p = probabilité de sucés lors de chaque essais

Y = nombre de succès est B(n,p)

P (Y = r) = Cnr pr (1 − p)n−r

Solution
On peut écrire :
n
X
Y = Xi
i=1

Xi = 1 Si l’essai i donne un succés

Xi = 0 Sinon

Pn
– On observe les réalisations (x1 , . . . , xn ). Le nombre de succès observé est r = i=1 xi .
– On a :
f (x1 , . . . , xn |p) = pr (1 − p)n−r (car l’ordre des réalisations est donné)

– En considérant cette densité comme une fonction du paramètre inconnu p, on a la fonction de


vraisemblance L :
L(p) = pr (1 − p)n−r

– Pour maximiser cette fonction, il est commmode de maximiser son logarithme. On obtient la
fonction log-vraisemblance ci-dessous à maximiser :

l(p) = log L(p) = r log(p) + (n − r)log(1 − p)

Les conditions du premier ordre donnent :

dl(p) r n−r
= − =0
dp p 1−p
r n−r 1−p n−r
=⇒ = =⇒ =
p 1−p p r
1 n r
=⇒ − 1 = − 1 =⇒ p̂ =
p r n

14
2.3. Méthode du Maximum de vraisemblance

– On estime donc p par le pourcentage de succès observés. On vérifie si on a bien un maximum par
les conditions du second ordre :
d2 l(p) r n−r
=− 2 −
dp2 p (1 − p)2
On évalue le hessien au point p̂

d2 l(p) n2 n2 1 1
2
|p=p̂ = − − = −n2 ( + )<0
dp r n−r r n−r

On a bien un maximum.

Exemple 2.3.3 On vous demande d’estimer par maximum de vraisemblance les paramètres µ et σ 2 de
l’exemple [2.1.1] à partir d’un échantillon aléatoire (Xi , i = 1, . . . , n).
Solution

• Par définition, la fonction densité de la loi normale est :


 
2 −1/2 1 2
fXi (xi ) = (2πσ ) exp − 2 (xi − µ)

• En vertu de l’indépendance :
n n  
2
Y
2 −n/2
Y 1
fX (x1 , . . . , xn |µ, σ ) = fXi (xi ) = (2πσ ) exp − 2 (xi − µ)2 (2.16)
i=1 i=1

• En considérant la fonction [2.16] comme fonction des paramètres inconnus, on obtient la fonction de
vraisemblance :
n  
2 2 −n/2
Y 1
L(µ, σ ) = (2πσ ) exp − 2 (xi − µ)2 (2.17)
i=1

En prenant le logarithme de [2.17] on obtient la log-vraisemblance :


n
n n 1 X
l(µ, σ 2 ) = ln L(µ, σ 2 ) = − ln(2π) − ln(σ 2 ) − 2 (xi − µ)2 (2.18)
2 2 2σ i=1

qui est à maximiser par rapport à µ et σ 2 .


Les conditions du premier ordre s’écrivent :
n
dl(µ, σ 2 ) 2 X
= (xi − µ̂)2 = 0 (2.19)
dµ 2σ 2 i=1

n
dl(µ, σ 2 ) n2 1 X
= − + (xi − µ̂)2 = 0 (2.20)
dσ 2 2σ̂ 2 2σ̂ 4 i=1

En résolvant les équations [2.19] et [2.20] nous obtenons :


n
1X
µ̂ = xi = x̄ (2.21)
n i=1
n n
1X 1X
σ̂ 2 = (xi − µ̂)2 = (xi − x̄)2 (2.22)
n i=1 n i=1

15
Chapitre 2. ESTIMATION PONCTUELLE

Pour vérifier que les estimateurs maximisent la log-vraisemblance on doit montrer que la matrice
Hessienne des dérivées secondes évaluées aux valeurs estimées est définie négative (cf cours de Math3
Mr. Ly)
Les dérivées partielles secondes valent :

∂ 2 l(x, θ) n
= −
∂µ2 σ2
N
∂ 2 l(x, θ) n 1 X
= − − (xi − µ)2
∂(σ 2 )2 (σ 2 )2 (σ 2 )3 i=1
N
∂ 2 l(x, θ) 1 X
= (xi − µ)
∂(σ 2 )∂µ σ 2 i=1

La matrice Hessienne évaluée aux valeurs des estimateurs devient :

− σ̂n2
 
0
H=
0 − 2(σ̂n2 )2

Cette matrice est définie négative car toutes ses valeurs propres sont négatives donc on a bien un
maximum.

2.4 PROPRIÉTÉS DES ESTIMATEURS


2.4.1 Estimateur sans biais

Définition 4 Un estimateur θ̂ de θ est dit sans biais si l’espérience de θ̂ est égale à la vraie valeur θ :

E(θ̂) = θ

Remarque 3 Le risque quadratique d’un estimateur est définie par :

R(θ̂) = V (θ̂) + (E(θ̂ − θ)2 )

Pour un estimateur sans biais, le risque quadratique, est égale à sa variance. On dit qu’un estimateur θ̂2
est préférable a un estimateur θ̂2 si R(θ̂2 , θ) << R(θ̂1 , θ)) pour tout θ.

Exemple 2.4.1 Soit un échantillon aléatoire (Xi , i = 1, . . . , n) avec E(X) = µ pour tout i et V (Xi ) = σ 2
pour tout i. On va montrer que :
PN
i=1 Xi
µ̂ = X̄ = (2.23)
N
PN
− X̄)2
i=1 (Xi
s2 = (2.24)
N −1
sont sans biais.

Démonstration En ce qui concerne la moyenne :


 Pn 
i Xi 1 1
E(µ̂) = E = E(Xi ) = nµ = µ
n n n

16
2.4. PROPRIÉTÉS DES ESTIMATEURS

La Variance
" N
# " N
#
X 2 X
Xi2 2

E Xi − X̄ = E − 2Xi X̄ + X̄
i=1 i=1
" N N N
#
X X X
= E Xi2 −2 Xi X̄ + X̄ 2

i=1 i=1 i=1


" N
#
X
= E Xi2 − N X̄ 2
i=1
P 
N
Xi2
" N
# N
!
X 2 X E i=1
⇒E Xi − X̄ =E Xi2 −
i=1 i=1
N
et que !
N
X N
X N
X
E Xi2 = E(Xi2 ) = (µ + σ 2 ) = N (µ + σ 2 )
i=1 i=1 i=1

car σ 2 = E(Xi2 ) − µ et donc σ 2 + µ = E(Xi2 )


D’autre part
N
!2 
N N −1 X
N

X X X
E Xi = E Xi2 + 2 ∗ Xi Xj 
i=1 i=1 i=1 j=1
N
X N
X −1 X
N
= E(Xi2 ) + 2 E(Xi Xj )
i=1 i=1 j=1
| {z }
N (N −1)/2

Mais E(Xi2 ) = σ 2 + µ, et, par l’indépendance

E(Xi Xj ) = E(Xi )E(Xj ) = µ2

Donc
N
! N
X X 2N (N − 1) 2
E Xi2 = E(Xi2 ) = N (σ 2 + µ) + µ
i=1 i=1
2
= N σ 2 + N µ2 + N 2 µ2 − N µ2 = N (σ 2 + N µ2 )
P 
1 N
Donc NE i=1 Xi2 = σ 2 + N µ2 , et :
P 
N
Xi2
" N
# N
!
X 2 X E i=1
E Xi − X̄ = E Xi2 −
i=1 i=1
N
= N (σ + N µ2 ) − σ 2 − N µ2 = (N − 1)σ 2
2

donc
Pn
(Xi − X̄)2 1
E(s2 ) = E i
= (N − 1)σ 2
n−1 N −1
= σ2

ce qui montre que s2 est sans biais.

17
Chapitre 2. ESTIMATION PONCTUELLE

Proposition 2 (Inégalite de Frechet-Darmois-Cramer-Rao)


Si θ̂ est un estimateur sans biais de g(θ̂0 ),

∂g(θ̂0 ) ∂g(θ̂0 )0
V(θ̂) >> I(θ̂ 0 )
∂θ0 ∂θ
Preuve. La condition d’estimateur sans biais s’écrit :
Z
g(θ̂0 ) = E(θ̂) = θ̂(y)f (y; θ0 )dy

D’où en différentiant :
Z
∂g(θ̂0 ) ∂f (y; θ0 )
= E(θ̂) = θ̂(y) dy
∂θ ∂θ0
 
∂ ln f (Y ; θ0 )
= E θ̂(y)
∂θ0
 
∂ ln f (y; θ0 )
= Cov θ̂(y),
∂θ0
h i
∂ ln f (Y ;θ0 )
parce que E ∂θ 0 =0
En appliquant l’inégalité de Schwartz2
   −1  
∂ ln f (y; θ0 ) ∂ ln f (y; θ0 ) ∂ ln f (y; θ0 )
V(θ̂(y)) − Cov θ̂(y), V Cov , θ̂(y) >> 0
∂θ0 ∂θ0 ∂θ0
on a le résultat annoncé.

Définitions 1 Un estimateur sans biais est efficace si sa matrice de variance-covariance atteint la borne
de Rao Cramer.

2.4.2 Propriétés asymptotiques

Pour établir les propriétés asymptotiques de l’EMV nous omettrons les variables explicatives Xi . Il est
facile d’étendre les résultats au cas d’un modèle conditionnel. Soit donc un échantillon de N réalisations
de N variables Y1 , . . . , YN telles que :

1. Les variables Y1 , . . . , YN sont indépendantes de même loi et de densité f (y; θ0 ), θ0 ∈ Θ ⊆ RK

2. E(ln f (y; θ0 )) existe pour tout θ

3. La vraie valeur du paramètre θ0 est identifiable, i.e. θ0 est l’unique maximum global de
Z
E(ln f (Yi ; θ0 )) = ln f (Yi ; θ0 ))f (Yi ; θ0 ))dµ(y) (2.25)

4. La log-vraisemblance
N
X
l(y; θ0 ) = f (Yi ; θ0 ) (2.26)
i=1

est continue par rapport à θ.


2 Pour tout couple de va X et Y, V (Y ) − cov(X, Y )(V (X)−1 cov(X, Y )) >> 0 Pour montrer cette inégalité, on calcule

l’inverse de V [(XY )0 ] par bloc et on déduit le résultat de ce que (V [(XY )0 ])−1

18
2.4. PROPRIÉTÉS DES ESTIMATEURS

1
5. La log-vraisemblance est telle que N l(y; θ0 ) converge en probabilité vers E(ln f (y; θ0 )) uniformement
en θ au moins sur un voisinage deθ0 . (C’est la condition qui est généralement la plus difficile a
vérifier.)

Proposition 3 Sous les conditions de régularité précédentes, et si Θ est compact, il existe une suite
d’estimateurs du maximum de vraisemblance convergeant vers θ0 en probabilité.

Preuve
l(y; θ0 ) étant continue sur un compact, admet un maximum global θ̂. Comme la convergence en
1
probabilité de N l(y; θ0 ) vers E(f (Yi ; θ0 )) est acquise en vertu de la loi forte des grands nombres, et de plus
uniforme en θ, alors θ̂ = argmaxθ N1 l(y; θ0 ) converge en probabilité vers θ0 = argmaxθ ln f (Yi ; θ0 )

Proposition 4 Sous les conditions de régularité 1-5, si Θ est d’intérieur non vide et si θ0 appartient
a l’intérieur de Θ, alors il existe une suite de maxima locaux de la log-vraisemblance convergeant en
probabilité vers θ0 . Si, de plus la vraisemblance est dérivable, il existe une suite de solutions des équations
de vraisemblance qui converge en probabilité vers θ0 .

Preuve Soit v(θ0 , r) une boule fermée centrée autour de θ0 , de rayon r > 0, et strictement contenue dans
Θ. En vertu du théorème précédent, il existe une suite de solutions θ̃ au problème contraint :

max l(y; θ)
θ

qui converge en probabilité vers θ0 . Comme la convergence implique que, pour N assez grand, θ̃N se trouve
a l’intérieur de v(θ0 , r), il correspond bien a un maximum local et satisfait les conditions du premier ordre
(équations de vraisemblance).

Remarque 4 Lorsque Θ est ouvert, la suite convergente de maxima locaux peut ne pas être une suite de
maxima globaux.

Proposition 5 Sous les conditions 1-5 de régularité, si Θ est d’intérieur non vide et θ0 appartient a
l’intérieur de Θ , si la log-vraisemblance l(θ) est deux fois continuement différentiable dans un voisinage
ouvert de θ0 , et si la matrice d’information de Fisher pour une observation :
 2 
∂ ln f (Yi ; θ)
I(θ0 ) = −E
∂θ∂θ0

existe et est inversible, alors une suite θ̂ de maxima locaux convergente est telle que

N (θ̂ − θ) 7→ N (0, I(θ0 )−1 )

On estime la matrice d’information de Fisher I(θ0 ) par


N
1 X ∂ 2 ln f (Yi ; θ)
I(θ̂) = −
N i=1 ∂θ∂θ0

19
Chapitre 2. ESTIMATION PONCTUELLE

ou encore
N
1 X ∂ ln f (Yi ; θ) ∂ ln f (Yi ; θ)
I(θ̂) =
N i=1 ∂θ ∂θ0

Preuve (Idée)
θ̂ satisfait les équations de vraisemblance :

∂l(y, θ̂)
=0
∂θ

On fait un développement limité au voisinage de θ0 :

∂l(y, θ̂) ∂l(y, θ0 ) ∂ 2 l(y, θ0 )


' + (θ̂ − θ0 ) = 0
∂θ ∂θ ∂θ∂θ0

D’où −1
√ 1 ∂ 2 l(y, θ0 )

1 ∂l(y, θ0 )
N (θ̂ − θ0 ) ' √
N ∂θ∂θ0 N ∂θ
Or
N
1 ∂ 2 l(y, θ0 ) 1 X ∂ 2 ln l(y, θ0 )
 2 
∂ ln l(y, θ0 )
=− 7−→ −E = I(θ0 )
N ∂θ∂θ0 N i=1 ∂θ∂θ0 ∂θ∂θ0

par application de la loi des grands nombres.


De plus
N
1 ∂ 2 l(y, θ0 ) √ 1 X ∂ ln l(y, θ0 )
√ = N −→ N (0, I(θ0 ))
N ∂θ∂θ0 N i=1 ∂θ

par application du théorème central limite.


∂ ln l(y,θ0 )
En effet les scores individuels ∂θ sont iid, d’espérance nulle :
 
∂ ln l(yi , θ0 )
E =0
∂θ

et de variance  
∂ ln l(yi , θ0 )
V = I(θ0 )
∂θ

Il s’ensuit donc que N (θ̂ − θ0 ) converge vers une variable aléatoire normale, centrée, et de variance :
h√ i
V N (θ̂ − θ0 ) = I(θ0 )−1 I(θ0 )I(θ0 )−1 = I(θ0 )−1

2.4.3 Tests d’Hypothèses

Il existe trois tests qui sont construits à partir de la méthode du maximum de vraisemblance qui sont
équivalents asymptotiquement.

1. Le Test de Wald

2. Le Test du multiplicateur de Lagrange (LM) ou test du score

3. Le test du Ratio de vraisemblane (test LR)

20
2.4. PROPRIÉTÉS DES ESTIMATEURS

Le Test de Wald

On considère l’hypothèse suivante :

H0 = θ = θ0

H1 = θ 6= θ0

Le test utile la convergence asympotique de θ̂



N (θ̂ − θ0 ) ∼ N (0, I(θ0 )−1 )

Ainsi
√ √
N (θ̂ − θ)0 Iθ−1
0
N (θ̂ − θ) ∼ χ2 (k) = W

où :
n
1 X ∂l(y; θ)
Iθ0 =−
N i=1 ∂θ∂θ0

θ0

k le nombre de paramètres.
Ce test est identique au test de Fisher utilisé dans le cas des moindres carrés linéaires. Nous utilisons
la convergence uniforme de θ̂ vers θ0 pour obtenir plimIθ̂ = Iθ0 . On réécrit la statistique :
√ √
N (θ̂ − θ)0 Iθ̂−1 N (θ̂ − θ) ∼ χ2 (k) = W

Le test de Wald est construit à partir du modèle non contraint.

Le test du multiplicateur de Lagrange

Le test LM est basé sur le modèle contraint. On suppose que la vraie valeur θ0 maximise la
vraisemblance.
N
∂l(y; θ) X ∂ ln f (y; θ)
= =0
∂θ θ0 ∂θ


i=1 θ0

Maintenant
N
1 ∂l(y; θ) 1 X ∂ ln f (y; θ)
√ = √ θ0 ∼ N (0, I(θ0 )
N ∂θ θ0 N i=1 ∂θ

ce qui implique que l’hypothèse nulle peut être testée en utilisant le score évalué au point θ0 . La statisitque
de LM devient :
 0  
1 ∂l(y; θ) −1 1 ∂l(y; θ)
LM = N √ I(θ̂) √ ∼ χ2 k si N → ∞
N ∂θ N ∂θ

En grand échantillon on utilise le fait que plimI(θ̂) = I(θ0 ) pour réécrire LM sous H0
 0  
1 ∂l(y; θ) −1 1 ∂l(y; θ)
LM = N √ I(θ0 ) √ ∼ χ2 k si N → ∞
N ∂θ N ∂θ

21
Chapitre 2. ESTIMATION PONCTUELLE

Remarque 5 Le test LM est appelé Multiplicateur de Lagrange parce qu’il est contruit à partir du
Lagrangien du problème de maximisation sous contrainte θ = θ0

Lagrangien : l(y; θ) − λ0 (θ − θ0 )

La condition du premier par rapport à λ est :


∂l(y; θ)
− λ̂ = 0
∂λ
Sous H0 on a :
∂l(y; θ)
= λ̂ = 0
∂λ

Le test du ratio de Vraisemblance

Comme dans le cas du test LM, il est construit sous H0 . On fait un développement de Taylor autour
de θ̂ au second ordre :
∂l(y; θ) 1 ∂ 2 l(y; θ)
l(θ0 ) = l(θ̂) + |θ̂ (θ̂ − θ0 ) + (θ̂ − θ0 )0 |θ∗ (θ̂ − θ0 )
∂θ 2 ∂θ∂θ0
par construction, θ∗ est une valeur intermédiaire entre θ̂ et θ0 telle que :

k θ0 k≤k θ∗ k≤k θ̂ k
√ 1 ∂ 2 l(y; θ) √
 
⇒ −2[l(θ0 ) − l(θ̂)] = N (θ̂ − θ0 )0 − 0
|θ ∗ N (θ̂ − θ0 )
N ∂θ∂θ
On définit la statistique LR par :
√ √
LR = −2[l(θ0 ) − l(θ̂)] −→ N (θ̂ − θ0 )0 I(θ0 )−1 N (θ̂ − θ0 ) ∼ χ2 (k)

Remarque 6 Asymptotiquement les trois tests sont équivalents :

LM ⇐⇒ W ald ⇐⇒ LR

2.4.4 Estimateur convergent

Définition 5
Un estimateur θ̂N de θ est dit convergent si et seulement si :
h i
lim P θ̂N − θ = 0∀ > 0; on écrit plimθ̂N = θ

2.4.5 Généralisation des tests

Nous supposons toutes les conditions de régularité pour l’existence, l’homogénéité et la normalité
asymptotique de l’estimateur du maximum de vraisemblance (e.m.v). Les hypothèses d’intérêt sont
données par :

H0 : g(θ0 ) = 0

H1 : g(θ0 ) 6= 0

22
2.4. PROPRIÉTÉS DES ESTIMATEURS

∂g(θ0 )
où g(θ0 ) : Rp −→ Rr et le rang de ∂θ est r

Test de Wald

Proposition 6
!−1
0 ∂g(θ̂) ∂g 0 (θ̂)
W = ng (θ̂) I(θ)−1 g(θ̂) ∼ χ2 (k) sous H0
∂θ ∂θ
 
∂ 2 f (Y |X;θ
où I = −E ∂θ∂θ 0 et I(θ)−1 son inverse évalué à θ = θ̂

Preuve Des caractéristiques asymptotiques de e.m.v, nous savons que


N (θ̂ − θ0 ) ∼ N (0; I(θ)−1 ) (2.27)

Le développement de Taylor à l’ordre un de g(θ̂) autour de la vraie valeur θ0 nous donne :

∂g(θ̂)
g(θ̂) = g(θ0 ) + (θ̂ − θ0 ) + ◦p (1)
∂θ0

√   ∂g(θ̂) √
n g(θ̂) − g(θ0 ) = n(θ̂ − θ0 ) + ◦p (1) (2.28)
∂θ0
En combinant [2.27] et [2.28] on obtient
!
√   ∂g(θ̂) ∂g 0 (θ̂)
n g(θ̂) − g(θ0 ) −→ N 0, 0
I(θ)−1 (2.29)
∂θ ∂θ

Sous l’hypothèse nulle g(θ0 ) = 0 l’équation [2.29] devient :


!
√  0
 ∂g(θ̂) −1 ∂g (θ̂)
n g(θ̂) −→ N 0, I(θ) (2.30)
∂θ0 ∂θ

En utilisant la forme quadtratique pour des variables normales nous obtenons :


−1
∂g 0 (θ0 )

∂g(θ0 )
ng 0 (θ̂) I(θ0 )−1 g(θ̂) ∼ χ2 (k) sous H0 (2.31)
∂θ ∂θ

La statistique en [2.31] n’est utilisable pas en pratique puisque elle dépend du paramètre inconnu.
Toutefois, nous pouvons approximer régulièrement les termes dans le crochet en évaluant par θ̂. Donc,

!−1
∂g(θ̂) ∂g 0 (θ̂)
W = ng 0 (θ̂) I(θ̂)−1 g(θ̂) ∼ χ2 (k) sous H0 (2.32)
∂θ ∂θ

– Un test asymptotique qui rejette l’hypothèse nulle avec la probabilité un, quand l’hypothèse
alternative est vraie est appelé un test cohérent. A savoir, un test cohérent a une puissance
asymptotique égale à 1.

23
Chapitre 2. ESTIMATION PONCTUELLE

– Un argument heuristique est que si l’hypothèse alternative (H1 ) est vraie, au lieu de l’hypothèse
nulle alors : g(θ̂) −→ g(θ0 ). Donc
!−1
0 ∂g(θ̂) ∂g 0 (θ̂)
ng (θ̂) I(θ̂)−1 g(θ̂)
∂θ ∂θ

coneverge vers une valur différente de 0.


En prémultipliant une constante par n, cette constante tend vers l’infini si n tend vers l’infini, ainsi
W tend vers l’infini quand n tend vers l’infini ce qui implique qu’on rejette toujours H0 si H1 est
vraie.
– Une autre forme de la statistique de test de Wald est donnée par :
!−1
0 ∂g(θ̂) ∂g 0 (θ̂)
W = g (θ̂) In (θ̂)−1 g(θ̂)
∂θ ∂θ

avec In = nI
– Une forme tout à fait commune de l’hypothèse nulle est la restriction à zéro sur un sous-ensemble
de paramètres, c.-à-d.,

H0 : θ 1 = 0

H1 : θ 1 6= 0

où θ1 est un sous vecteur de format q × 1 avec < p. Alors la statistique de W devient :


 −1
W = nθ10 I 11 (θ̂)) θ1 ∼ χ2 (q) sous H0

où I 11 (θ̂) est le bloc supérieur de l’inverse de la matrice de l’information.


 
I11 (θ) I12 (θ)
I(θ) =
I21 (θ) I22 (θ)

alors
−1
I 11 (θ̂) = I11 (θ) − I12 (θ)I22 (θ)−1

par la formule de l’inverse de matice partitionnée. I 11 (θ̂) est I 11 (θ) évaluée à l’estimateur du
maximum de vraisemblance.

2.5 Test LM ou test du Score


Si le vecteur de paramètres satisfait les restrictions sous forme de g(θ0 ) = 0, incorporant les
informations de la maximisation de la fonction de probabilité sous contraintes, alors nous amélioreront
l’efficacité de l’estimateur en comparaison de l’e.m.v du problème de maximisation sans contraintes. Nous
résolvons le problème suivant :
max(l(y; θ) sc; g(θ) = 0

24
2.5. Test LM ou test du Score

Les conditions du premier ordre sont :

∂l(θ̃) ∂g 0 (θ̃)
+ λ̃ = 0 (2.33)
∂θ ∂θ
g 0 (θ̃) = 0 (2.34)

où la solution du problème de maximisation sous contrainte est le vecteur de multiplicateur de Lagrange.


Le test de LM est fondé sur l’idée que de l’e.m.v suit une distribution asymptotiquement normale.
Proposition 7

1 ∂l(θ̃) ∂l(θ̃)
LM = I(θ̃)−1 (2.35)
n ∂θ0 ∂θ
1 ∂g(θ̃) ∂g(θ̃)
= λ̃ 0
I(θ̃)−1 λ̃ ∼ χ2 (r) sous H0 (2.36)
n ∂θ ∂θ

Le développement de Taylor à l’ordre 1 de g(θ̃) et g(θ̂) autour θ0 en négligeant le terme op (1)

√ √ ∂g(θ̃) √
ng(θ̂) = ng(θ0 ) +
0
I(θ̃0 ) n(θ̂ − θ0 ) (2.37)
∂θ
√ √ ∂g(θ̃) √
ng(θ̃) = ng(θ0 ) + 0
I(θ̃0 ) n(θ̂ − θ0 ) (2.38)
∂θ

De l’équation [2.34] et en prenant la différence entre [2.38] et [2.37] on obtient :

√ ∂g(θ̃) √
ng(θ̂) = n(θ̂ − θ0 ) (2.39)
∂θ0
∂l(y;θ̂) ∂l(y;θ̃)
En d’autre termes en prenant le développement de Taylor à l’ordre 1 autour de θ0 de ∂θ et ∂θ

en négligeant le terme op (1) donne :

∂l(y; θ̂) ∂l(y; θ̂0 ) ∂ 2 l(y; θ̂0 )


= + (θ̂ − θ) ⇒
∂θ ∂θ ∂θ∂θ0
1 l(y; θ̂) 1 ∂l(y; θ̂0 ) 1 ∂ 2 l(y; θ̂0 ) √
√ = √ + n(θ̂ − θ) ⇒
n ∂θ n ∂θ n ∂θ∂θ0

1 l(y; θ̂) 1 ∂l(y; θ0 ) √


√ =√ − I(θ0 ) n(θ̂ − θ0 ) (2.40)
n ∂θ n ∂θ
On note d’après la loi forte des grands nombres que
n
1 ∂ 2 l(y; θ̂) 1 X ∂ 2 l(y|x; θ̂0 )
− 0
=− → I(θ0 ) (2.41)
n ∂θ∂θ n i=1 ∂θ∂θ0

De même
1 ∂l(y; θ̃) ∂l(y; θ0 ) √
√ = − I(θ0 ) n(θ̃ − θ0 ) (2.42)
n ∂θ∂ ∂θ
Considérant le fait que θ̂ annule le score (condition du premier ordre de maximisation sans contrainte du
problème) en prenant la différence entre [2.40] et [2.42] nous obtneons

1 ∂l(y; θ̃) √ √
√ = −I(θ0 ) n(θ̃ − θ̂) = I(θ0 ) n(θ̂ − θ̃) (2.43)
n ∂θ∂

25
Chapitre 2. ESTIMATION PONCTUELLE

Ainsi
√ 1 ∂l(y; θ̃)
n(θ̂ − θ̃) = I(θ0 )−1 √ (2.44)
n ∂θ
De [2.39] et [2.45] nous obtenons :

√ ∂g(θ0 ) 1 ∂l(y; θ̃)


ng(θ̂) = I(θ0 )−1 √ (2.45)
∂θ0 n ∂θ
De [2.33] on en déduit :
√ 0
∂g(θ0 ) −1 ∂g (y; θ̃) λ̃
ng(θ̂) = − I(θ 0 ) √
∂θ0 ∂θ n
∂g(θ0 ) ∂g 0 (y; θ0 ) λ̃
→ 0
I(θ0 )−1 √ (2.46)
∂θ ∂θ n
p p
si θ̃ → θ0 aussi g(θ̃) → g(θ0 ). Donc
0
−1


λ̃ ∂g(θ0 ) −1 ∂g (y; θ0 )
√ = 0
I(θ 0 ) ng(θ̂) (2.47)
n ∂θ ∂θ

De l’équation [2.30] sous l’hypothèse nulle


√ 0
 
d ∂g(θ0 ) −1 ∂g (y; θ0 )
ng(θ̂) → N 0, I(θ 0 )
∂θ0 ∂θ

Par conséquent
 0
−1 !
λ̃ d ∂g(θ0 ) −1 ∂g (y; θ0 )
√ →N 0, I(θ 0 ) (2.48)
n ∂θ0 ∂θ
En utilisant la forme quadratique des variables gaussiennes nous obtenons

λ̃0 ∂g(θ0 ) 0
 
−1 ∂g (y; θ0 ) d
I(θ 0 ) λ̃ → χ2 r (2.49)
n ∂θ0 ∂θ

Alternativement une autre forme de la statistique du test est donnée par :


!
0
1 ∂l(θ̃) −1 ∂l (y; θ̃) d
I(θ0 ) → χ2 r (2.50)
n ∂θ0 ∂θ

Les statistiques [2.49] et [2.50] ne sont pas ulitistables directement en pratique car la matrice d’information
dépend du paramètre inconnu θ0 . On évalue cette matrice à θ̃ estimateur obtenu à partir du modèle
contraint. L’approximation de I(θ0 ) est obtenue par :
n
! n
!
1 X ∂ 2 l(y|x; θ̃) X ∂l(y|x; θ̃) ∂l(y|x; θ̃)
I(θ̃) = − ou
n i=1 ∂θ∂θ0 i=1
∂θ ∂θ0

Si nous choisissons la deuxième approximation de la matrice d’information, la statistique LM devient :


n n
!−1 n
1 X ∂l(y|x; θ̃) X 1 ∂l(y|x; θ̃) ∂l(y|x; θ̃) X ∂l(y|x; θ̃)
LM =
n i=1 ∂θ0 i=1
n ∂θ ∂θ0 i=1
∂θ
n n
!−1 n
X ∂l(y|x; θ̃) X ∂l(y|x; θ̃) ∂l(y|x; θ̃) X ∂l(y|x; θ̃)
=
i=1
∂θ0 i=1
∂θ ∂θ0 i=1
∂θ

26
2.5. Test LM ou test du Score

Remarque 7 Cette expression de la statistisque LM fait intervenir les matrices de projection. Si on pose
1 |x1 ;θ̃) ∂l(y2 |x2 ;θ̃)
X = [ ∂l(y∂θ 0 , ∂θ 0 , . . . , ∂l(yn∂θ|x0 n ;θ̃) ] et e = [1, 1, . . . , 1]0

LM = e0 X(X 0 X)−1 X 0 e

Si on note Ru2 le coefficient de détermination non centré de la regression de la constante sur les scores
alors LM devient :
e0 X(X 0 X)−1 X 0 e
 
LM = nRu2 = e0 e
e0 e

Ceci est tout à fait un résultat intéressant puisque le calcul de la statistique LM n’est rien d’autre qu’une
régression MCO. Nous régressons la constante sur les scores évalués à e.m.v contraint et calculons le Ru2
non centré et le multiplions ensuite par le nombre d’observations(n) pour devenir LM statistique.
La statistique LM est aussi asymptotiquement consistant.

De [2.49] et [2.50]
−1
∂g 0 (θ0 )

0 ∂g(θ0 )
W = ng (θ̂) I(θ 0 ) g(θ̂) = LM
∂θ0 ∂θ

!−1
∂g(θ̂) ∂g 0 (θ̂)
→ ng 0 (θ̂) I(θ 0 ) g(θ̂)
∂θ0 ∂θ

Test LR

Proposition 8
 
LR = 2 l(θ̂) − l(θ̃) ∼ χ2 (r) (2.51)

Preuve
Nous considérone le développement de Taylor de l(θ̂) etl(θ̃) autour de θ0 . Sous H0 et en ignorant les
termes dominés stochastiquement nous obtenons :

2
∂l(θ̂) 1 0 ∂ l(θ̂)
l(θ̂) = l(θ0 ) + (θ̂ − θ 0 ) + (θ̂ − θ 0 ) (θ̂ − θ0 ) (2.52)
∂θ0 2 ∂θ∂θ0
2
1 ∂l(θ̂) √ 1√ 0 1 ∂ l(θ̂)

= l(θ0 ) + √ n( θ̂ − θ 0 ) + n( θ̂ − θ 0 ) √ n(θ̂ − θ0 ) (2.53)
n ∂θ0 2 n ∂θ∂θ0

∂l(θ̂) 1 ∂ 2 l(θ̃)
l(θ̃) = l(θ0 ) + 0
(θ̃ − θ0 ) + (θ̃ − θ0 )0 (θ̃ − θ0 ) (2.54)
∂θ 2 ∂θ∂θ0
2
1 ∂l(θ̃) √ 1√ 0 1 ∂ l(θ̃)

= l(θ0 ) + √ 0
n( θ̃ − θ 0 ) + n( θ̃ − θ 0 ) √ 0
n(θ̃ − θ0 ) (2.55)
n ∂θ 2 n ∂θ∂θ

27
Chapitre 2. ESTIMATION PONCTUELLE

En prenant la différence des deux systèmes d’équations ci-dessus (2.52-2.53) et (2.54-2.55) multipliée par
2 on obtient :
2
  1 ∂l(θ̂) √ 1√ 0 1 ∂ l(θ̂)

2 l(θ̂) − l(θ̃) = √ n(θ̂ − θ̃) + n(θ̂ − θ 0 ) √ n(θ̂ − θ0 )
n ∂θ0 2 n ∂θ∂θ0
√ 1 ∂ 2 l(θ̃) √
− n(θ̃ − θ0 ) n(θ̃ − θ0 )
n ∂θ∂θ0
→ 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )

+ n(θ̃ − θ0 )0 I(θ0 )(θ̃ − θ0 )


2 p
∂l(θ0 )
du fait que √1
n ∂θ 0
et − n1 ∂∂θ∂θ
l(θ̂)
0 → I(θ0 )

En continuant la manipulation algégrique on trouve :


 
2 l(θ̂) − l(θ̃) = 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )

+ n(θ̃ − θ̂ + θ̂ − θ0 )0 I(θ0 )(θ̃ − θ̂ + θ̂ − θ0 )

= 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )

+ n(θ̃ − θ̂)I(θ0 )(θ̃ − θ̂) + n(θ̃ − θ̂)0 I(θ0 )(θ̂ − θ0 )

+ n(θ̂ − θ0 )0 I(θ0 )(θ̃ − θ̂) + n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )

= 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) + n(θ̂ − θ̃)0 I(θ0 )(θ̂ − θ̃)

− n(θ̂ − θ̃)0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃)

= (θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃)

Finalement
LR = (θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) (2.56)

Noter que
(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) = (θ̂ − θ̃)0 I(θ0 )(θ̂ − θ0 )

De l’ equation [2.43] et [2.56] la statistique LR peut s’écrire


  √
2 l(θ̂) − l(θ̃) = n(θ̂ − θ̃)0 I(θ0 )(θ̂ − θ̃)

1 ∂l(θ̂) ∂l(θ̂) 1
= √ 0
I(θ0 )−1 I(θ0 )I(θ0 )−1 √
n ∂θ ∂θ n
1 ∂l(θ̂) ∂l(θ̂)
= I(θ0 )−1 = LM sous H0
n ∂θ0 ∂θ

Remarque 8 1. Le calcul de la statistique LR requière deux maximisation de la fonction de la log


vraisemblance sous H0 et H1 .

2. LR est aussi asymtotiquement consitant.

3. Comme nous venons de lé démontrer ci-dessus les tests de Wald, LM et LR sont asymptotiquement
équivalents.

28
2.5. Test LM ou test du Score

Exemple 2.5.1 Exemple des tests du modèle de régression linéaire

Supposons que le modèle de régression est donné par

yi = xi β + i

i ∼ i.i.N (0, σ2

On désire tester les hypothèse suivantes :

H0 : Rr×p βp×r = γ vs H1 : Rr×p βp×r 6= γ

La log vraisemblance est donnée par :

n n 1
l(y|x; β, σ 2 ) = − ln(σ 2 ) − ln(2π) − 2 (y − Xβ)0 (y − Xβ)
2 2 2σ

La maximisation de la log vraisemblance nous donne les résultats suivants :

β̂ = (X 0 X)−1 X 0 y
1
σ̂ 2 = (y − Xβ)0 (y − Xβ)
n

La matrice d’information est donné par :


1 0
 
I(θ0 ) = 2σ 2 (X X) 0
n
0 tσ 4

On pose
∂g(β̂) ∂g(β̂)
g(β̂) = Rr×p β̂p×r − γ = R; =0
∂β ∂σ 2
La statistique de test de Wald est donné d’après la proposition 6 par :

" 0  #
0 R −1 R
W = n(Rr×p β̂p×r − γ) I (θ̂) (Rr×p β̂p×r − γ) (2.57)
0 0
1 −1
(Rr×p β̂p×r − γ)0 R0 (X 0 X)−1 R (Rr×p β̂p×r − γ) ∼ χ2 (r) sous H0

= (2.58)
σ2

Si on note les estimateurs sous H0 de β et de σ 2 respectivement par β̃ et σ̃ 2 . Alors

1 1
σ̃ 2 − σ̂ 2 = (y − X β̃)0 (y − X β̃) − (y − X β̂)0 (y − X β̂)
n n
1 0
= (X β̃ − X β̂) (X β̃ − X β̂)
n
1 1 −1
(β̃ − β̂)0 (X 0 X)(β̃ − β̂) = (Rr×p β̂p×r − γ)0 R0 (X 0 X)−1 R

= (Rr×p β̂p×r − γ)
n n

−1
si β̃ = β̂ + X 0 X)−1 R0 X 0 X)−1 R


29
Chapitre 2. ESTIMATION PONCTUELLE

Donc
 0  −1  
2 2
n(σ̃ − σ̂ ) Rr×p β̂p×r − γ R0 X 0 X)−1 R Rr×p β̂p×r − γ
W = =
σ̂ 2 1
X β̂)0 (y − X β̂)
n (y −
 0  
−1 
Rr×p β̂p×r − γ R0 X 0 X)−1 R Rr×p β̂p×r − γ /r
nr nr
= h i = F
0
(y − X β̂) (y − X β̂) /n − K n − K n − K

D’autre part , le multiplicateur de Lagrange du problème contraint est donné par :

2  0 0 −1 −1
λ̃ = − R X X) R (γ − Rβ̂)
σ2

Sous H2 le multiplicateur de Lagrange suit une loi normale

4  0 0 −1 −1
λ̃ ∼ N (0, R X X) R
σ̃ 2

si (γ − Rβ̂) ∼ N 0, σ̃ 2 R0 (X 0 X)−1 R .
 

On peut réécrire la statistique LM par :

σ̃ 2 0  0 0 −1 −1
LM = λ̃ R X X) R λ̃
4
1 −1
(Rr×p β̂p×r − γ)0 R0 X 0 X)−1 R

= 2
(Rr×p β̂p×r − γ)
σ
n(σ̃ 2 − σ̂ 2 ) n n n
= = σ̃ 2
= σ̂ 2
=
σ̂ 2 1 − 1 + σ̃2 −σ̂2 1 + σ̃2 −σ̂2 1 + (n−k)
rF

Pour calculer la statistique LR on doit calculer la valeur de la log vraisemblance sous H1 et sous H0

n n 1
Sous H1 : l(θ̂) = − ln(σ̂ 2 ) − ln(2π) − (y − X β̂)0 (y − X β̂)
2 2 2σ̂ 2
n n n 1
2
= − ln(σ̂ ) − ln(2π) − (y − X β̂)0 (y − X β̂)
2 2 2σ̂ 2 n
n n n 2
= − ln(σ̂ 2 ) − ln(2π) − σ̂
2 2 2σ̂ 2
n n n
= − l(θ̂) − ln(2π) −
2 2 2

n n 1
Sous H0 : l(θ̃) = − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)0 (y − X β̃)
2 2 2σ̃ 2
n n n 1
= − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)0 (y − X β̃)
2 2 2σ̃ 2 n
n n n 2
= − ln(σ̃ 2 ) − ln(2π) − σ̃
2 2 2σ̃ 2
n n n
= − ln(σ̃ 2 ) − ln(2π) −
2 2 2

Ainsi
n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 ))
2 2

30
2.6. Exercices

n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 )
2  2
σ̃ 2
 2   2
σ̃ − σ̂ 2
 
σ̃
= n(ln = n 1 − 1 + ln = n 1 + ln
σ̂ 2 σ̂ 2 σ̂ 2
  
rF
= n 1 + ln
n−K

Un résultat intéressant eput être obtenu en ultilisant l’inégalité suivantes

x
≤ ln(1 + x) ≤ x ∀x > −1
1+2
 
rF
Soit x = ln n−K en appliquant l’inéqualité ci-dessus on :

LM ≤ LR ≤ W en dimension finie

Exercice d’application non corrigé


On considère le modèle suivant :
yi = µ + i (2.59)

avec i ∼ N (0, σ 2 ). On simule le modèle [2.59] avec µ = 6 et n = 50.

yi = 6 + i i = 1, . . . , 50 (2.60)

On suppose que chaque observation à une fonction de densité définie par :

1 1
f (xi ) = exp(− (y − µ2 )) (2.61)
2π 2

On veut tester les hypothèse suivantes

H0 : µ = 3 vs H1 : µ = 3

en utilisnant la statistique la statistique de Wald et LM.


Constuisez ces deux tests et conclure au seuil de 5%. Pour notre échantillon simulé ȳ = 6.19086

2.6 Exercices
2.6.1 Exercie 1

Un échantillon aléatoire d’observations indépendantes est généré par une fonction de distribution
ci-dessous :
f (y; β) = β exp(−βy) avec β > 0; y > 0

1. Calcluer l’espérance et la variance de y.

2. Estimer β par la méthode du maximum de vraisemblance.

3. β est-il un estimateur sans biais, convergent et efficace ?

31
Chapitre 2. ESTIMATION PONCTUELLE

P
4. On suppose que n= 100 et yt = 25, calculer la valeur de β̂

5. Dériver les propriètés asymptotiques de l’estimateur de β

6. En utilisant les données de 4 tester

H0 : β = β0 = 1

H1 : β 6= β0 = 1

en utilisant la statistique de Wald et LM.

2.6.2 Exercie 2

La variable continue x a une fonction de densité donnnée par :

1 x2
f (x; θ) = √ exp(− )
2πθ 2θ
−∞ < x < ∞ θ > 0

1. Calcluer l’espérance et la variance de x.

2. Estimer θ par la méthode du maximum de vraisemblance.

3. Montrer que l’estimateur de θ est un estimateur sans biais, convergent et efficace ;


P 2
4. On suppose que n= 100 et xi = 110, calculer la valeur de θ̂

5. Dériver les propriètés asymptotiques de θ̂

6. En utilisant les données de 4 tester

H0 : θ = 0

H1 : θ 6= 0

en utilisant LR au seuil de 5%.

2.6.3 Exercie 3 : Analyse de la durée du chômage

On souhaite évaluer et analyser le phénomène du chômage. Pour cela, on dispose de n étudiants


diplômés sur les durées yi ; 1 ≤ x ≤ n pendant lesquelles des étudiants sont restés sans emploi.
On suppose dans la suite que les variables aléatoires correspondantes (Y i)i∈{1,n} ; sont i.i.d. et suivent
une loi de Weibull de paramètres θ1 et θ2 . On rappelle que cette loi est continue sur R+ et admet la
fonction de répartition pour y > 0

F (y; θ1 , θ2 ) = 1 − exp(−θ1 y θ2 )

On définit la fonction de survie par


s(y) = 1 − F (y)

32
2.6. Exercices

et la fonction de hasard par


f (y)
h(y) =
s(y)
1. Donner l’expression de la fonction de hasard du modèle.

2. Quelle est en terme de chômage l’interprétation de la fonction de hasard ?


- Expliquer alors pourquoi il est important de considérer le cas particulier où cette fonction est
constante.
- Pour quelles valeurs des paramètres, la fonction de hasard est-elle constante ?
- Quelles sont alors les lois des durées de chômage ?

3. Etudier l’évolution de la fonction de hasard en fonction de θ̂1 , puis en fonction de θ̂2 .

4. On suppose dans cette partie θ̂2 = 1. Le modéle est alors uniquement paramètre par θ̂1 . Le modèle
est-il exponentiel ? Si oui, expliciter une statistique exhaustive.

5. Déterminer le vecteur du score et vérifier directement qu’il est centré.

6. Quel est l’estimateur du maximum de vraisemblance θ̂1 de θ̂ ? Est-il sans biais, y a-t-il surestimation
ou sous-estimation systématique ?

7. Déterminer la variance asymptotique de cet estimateur θ̂1 .

33
Chapitre 2. ESTIMATION PONCTUELLE

34
Chapitre 3

Régression linéaire empirique

3.1 Description du problème et exemples économiques


Nous considérons une relation linéaire, spécifiée par un modèle économique. Par exemple :
La fonction de consommation
Ct = a + bYt

La loi de la demande :
X = a − bPX

La fonctio de coût total :


CTt = a + bQt

L’objectif de ce chapitre consiste à estimer les paramètres de régression du modèle (a et b) à des fins
d’analyse ou de prévision. Une telle estimation peut servir à répondre à des questions de politique
économique telles :

a) comment faut-il modifier les dépenses de l’Etat pour réduire le chômage de x%.
Pour réduire le taux d’inflation de y% :

b) combien une firme doit-elle produire pour maxiser son profit ?

c) Une politique de soutien du prix d’un produit agricole doit-elle prendre en compte la forme d’un prix
garenti aux producteurs (et l’achat de toute production invendue)ou d’un subside à ces producteurs ?
Les coûts respectifs de ces deux politiques alternatives dépendront de l’élasticité de la demande,
qui peut être estimée à partir des données de X et PX . Les égalités précédentes ne seront jamais
exactement vérifiées par les données sur les différentes variables des modèles. Pour ces raisons on
ajoute un terme d’erreur aléatoire de mesure, d’agrégation à chaque modèle. Ces erreurs ne peuvent
être expliquée par un modèle déterministe. Aux fonctions précédentes, on ajoute un terme d’errteur
aléatoire ut : La fonction de consommation

Ct = a + bYt + ut

35
Chapitre 3. Régression linéaire empirique

La loi de la demande :
X = a − bPX + ut

La fonction de coût total :


CTt = a + bQt + ut

3.1.1 Le modèle et ses hypothèses


Equation de régression

On considère une équation linéaire de la forme :

yt = a + bxt +t (3.1)

avec : t : l’indice qui correspond à une oservation particulière


yt , s’appelle indifféremment, variable endogène, ou variable dépendante, variable expliquée ou encore
régressande.
xt , s’appelle indifféremment, variable exoogène, ou variable indépendante, variable explicative ou encore
régresseur.
ut : terme d’erreur inobservable ; a et b, sont les paramètres inconnus à estimer, dont les estimateurs
seront notés â etb̂.

Les hypothèses

Les estimateurs â etb̂ dépendent de yt donc de ut . Ce sont des variables aléatoires, et nous aurons
besoin des moments de leur distribution. Il faut donc faire des hypothèses sur ut .

H1 Résidus sont centrées conditionnellement à xt

E(ut |xt ) = 0 ∀t

Interprétation
Si cette hypothèse est violée, ler terme d’erreur aurait une composante systématique, qui aurait dû
être incluse dans la partie non aléatoire de l’équation de la régression. Le modèle sera donc mal
spécifié.

H2 Homocédasticité :
V (ut ) = σ 2

Interprétation Les erreurs sont de variance finie et égale à σ 2 . Si telle n’est le cas on parle
d’hétérocédasticité du modèle.
Exemple de modèle de violaation de H2
Modèle de regréssion dont les observations sont des moyennes calculées à partir des nombres
d’observations différents. Modèle de séries financières.

36
3.1. Description du problème et exemples économiques

H3 Erreurs non corrélees :


Cov(ut , us ) = 0, ∀t 6= s

Exemple de violation de H3
Données spatiales, autocorrélation des residus (ut = ρut−1 + νt ). Si ces trois hypothèses sont
satisfaites, on dit que le terme d’errur est un bruit blanc, noté BB

H4 Les xt sont déterminstes (non aléatoires) :

E(xt ut ) = 0, E(ut |xt ) = 0,

Exemple de violation de H4

Ct = a + bYt + ut (3.2)

avec

Yt = Ct + It (3.3)

où Ct la consommation au temps t et It linvestissement et Yt le revenu national. En subsistituant


[3.2] dans [3.3], on nmontre facilement que E(Yt ut ) est non nullle.

H5 xt pend au moins deux valeurs différentes. Si cette hypothèse n’est pas vérifiée, nous n’aurons pas un
problème de régression : en effet a + bxt serait une constante et yt = a + bxt + ut serait constante
à un terme aléatoire. Nous aurions alors un modèle yt = µ + ut avec E(yt ) = µ

Si ces différentes hypothèses sont satisfaites nous cherchons les paramètres â et b̂ de la droite de ŷt = â+b̂xt
qui approchent le mieux la dépendance entre yt et xt , celle qui s’écarte le moins du nuage de points (xt , yt ).
Les critères utilisés pour estimer les paramètres de régression (a et b), sont tels qu’il faut en moyenne,
minimiser l’écart entre yt et ŷt . Il faut donc que la variable ût = yt − ŷt , les résidus estimés, soit minimale
pour tout t. On retient comme critères :
min max |ût | (3.4)
â,b̂ t

X
min |ût | (3.5)
â,b̂ t
X
min û2t Critère de la Méthode des moindres carrés (3.6)
â,b̂ t

on peut écrire indifféremment


yt = a + bxt + ut (3.7)

yt = â + b̂xt + ût (3.8)

L’équation [3.7] est une hypothèse tandis que [3.9] est une identité !

37
Chapitre 3. Régression linéaire empirique

3.1.2 Les Estimateurs des moindres carrés ordinaires

Nous allons minimiser en â et b̂ la somme des carrés des résidus (SCR) :


T
X T 
X 2
SCR(â, b̂) = û2t = yt − â − b̂xt (3.9)
t=1 t=1

Les conditions du premier ordre sont


T 
∂SCR(â, b̂) X 
= −2 yt − â − b̂xt = 0 (3.10)
∂â t=1

T 
∂SCR(â, b̂) X 
= −2 yt − â − b̂xt xt = 0 (3.11)
∂ b̂ t=1
Elles impliquent les équations normales suivantes
T
X T
X
yt − T â − b̂ xt = 0 (3.12)
t=1 t=1

T
X T
X
yt xt − T âxt − b̂ x2t = 0 (3.13)
t=1 t=1

En divisant [3.12] par T on trouve :

â = ȳ − b̂x̄ (3.14)

avec
T T
1X 1X
x̄ = xt et ȳ = yt
T t=1 T t=1
En remplaçant la valeur â, équation [3.14], dans [3.13], il vient :
T 
X 
yt − ȳ − b̂(xt − x̄) xt = 0 (3.15)
t=1

De cette équation on tire la valeur de b̂


PT
t=1 (yt − ȳ)xt
b̂ = PT
t=1 (xt − x̄)xt
PT
t=1 (yt − ȳ)(xt − x̄)
= PT 2
t=1 (xt − x̄)
PT
t=1 yt xt − T x̄ȳ)
= PT 2 2
t=1 (xt − T x̄ )
PT T
t=1 (xt − x̄)yt X
= PT = ω t yt
t=1 (xt − x̄)2 t=1

avec
(xt − x̄)
ωt = PT 2
t=1 (xt − x̄)

38
3.1. Description du problème et exemples économiques

Il est facile de vérifier


T
X
â = zt
t=1
avec
1
zt = − x̄wt
T
Quelques propriètés importantes de de ωt et zt

T
X
ωt = 0
t=1

T
X 1
ωt2 = PT
2
t=1 t=1 (xt − x̄)

T
X
ωt xt = 1
t=1

T
X
zt = 1
t=1

T T  
X X 1 2
zt2 = − x̄ω t + x̄2 2
ω
t=1 t=1
T2 T
T T T
! T
!
X
2
X 1 2 X
2
X
2
zt = − x̄ ωt = 0 + x̄ ωt
t=1 t=1
T2 T t=1 t=1

Donc
T PT
X 1 x̄2 xt
zt2 = + PT = PT t=1
t=1
T t=1 (xt − x̄)
2 T t=1 (xt − x̄)2
T
X
zt xt = 0
t=1

T
X x̄
zt ωt = PT
t=1 t=1 (xt − x̄)2
Conditions du second ordre
La matrice Hessienne doit être définie positive
!
∂ 2 SCR(a,b) ∂ 2 SCR(a,b)
H= ∂a2 ∂a∂b (3.16)
∂ 2 SCR(a,b) ∂ 2 SCR(a,b)
∂b∂a ∂b2

 P 
2T 2 P xt
H= (3.17)
2 x2t
P
2 xt
∂ 2 SCR(a,b)
∂b2 > 0 et P
2T 2 P xt
|H| = P >0 (3.18)
2 xt 2 x2t

Donc le hessien est définie positif. Nous avons bien un minimum.

39
Chapitre 3. Régression linéaire empirique

Demonstration :
X X 2
|H| = 4T x2t − 4 xt
X
x2t = T (σx2 + x̄2 )
1X X
x̄ = xt =⇒ xt = T x̄
T
Donc
X X 2
x2t − 4 ∗ = 4(T 2 σx2 + x̄2 − T 2 x̄) = 4 ∗ T 2 σx2 > 0

|H| = 4 ∗ T xt

Exemple
Soient T=5 observation suivantes sur les yt et xt

xt 1 2 3 4 5
yt 2 4 5 7 10

x2t = 55, xt yt = 103,


P P P P P 2
on a xt = 15, yt = 28, yt = 194

103 − (25 ∗ 28)/5


b̂ = = 1.9
55 − (152 )/5

28 15
â = − 1.9( ) = −0.1
5 5

Fig. 3.1 – Nuage de points et droite régression ŷt = −.1 + 1.9x

40
3.1. Description du problème et exemples économiques

3.1.3 Moments des estimateurs des Moindres Carrés


Espérances mathématiques

Nous allons vérifier que â et b̂ sont des estimations sans biais de a et b


X X
â = zt y t = zt (a + bxt + ut
X X X
= a zt + b zt xt + zt u t
P
a + 0 + zt u t
X
et E(â) = a + zt E(ut ) = a
X X
b̂ = ωt yt = ωt (a + bxt + ut
X X X
= a ωt + b ωt xt + ωt ut
P
0 + b + ωt ut
X
et E(b̂) = b + ωt E(ut ) = b

Variances

La variance de b̂ se calcule comme suit :


h i
v(b̂) = E b̂ − E(b̂) = E(b̂ − b)2
X
(b̂ − b) = ω t yt

On a alors

hX i2
V (b̂) = E ωt ut
 
XT T
X −1 X
T
= E ωt2 u2t + ωt ωj ut uj 
t=1 t=1 j=t+1
T
X
= ωt2 E(u2t )
t=1
T
X
= σ2 ωt2
t=1
σ2
= PT
t=1 (xt − x̄)2
puisque E(u2t ) = σ 2 et, E(ut uj ) = 0, ∀t 6= j
hX i2
V (â) = E(â − a)2 = E zt u t
T
X
2
= σ ωt2 par le même argument que précédemment
t=1
" #
x2t
P
2
= σ PT
T t=1 (xt − x̄)2

41
Chapitre 3. Régression linéaire empirique

Covariance

Cov(â, b̂) = E(â − a)E(b̂ − b)


" T ! T !#
X X
= E ωt ut zt u t
t=1 t=1
 
XT T X
X T
= E ωt zt u2t + ω t zj u t u j 
t=1 t=1 j6=t
" T
# "P T
#
T
X ωt X
= σ2 ωt ut = σ 2 t=1
− x̄ ωt2
t=1
T t=1
2 x̄
= −σ PT
t=1 (xt − x̄)2
La matrice de variances-covariances est données par
 
x2t
P

σ 2 T PT −σ 2 PT
 
V (â) Cov(â, b̂) (x t −x̄)
2
t=1 (xt −x̄)
2
CV = = t=1
x̄ 2
 (3.19)
Cov(â, b̂) V (â) −σ 2 PT (x 2
PT σ 2
t=1 t −x̄) t=1 (xt −x̄)

3.1.4 Convergence en probabilité

On vérifie que à l’aide de ces moments que plimb̂ = b et plimâ = a


  σ2
E b̂ = b et V (b̂) = PT −→ 0 si T → ∞
2
t=1 (xt − x̄)

σ 2 x2t /T
P
E (â) = a et V (â) = PT −→ 0 si T → ∞
2
t=1 (xt − x̄)
x2t
P
sous la condition que limT →∞ T existe.

3.1.5 Ecriture Matricielle du modèle simple

En résumant toutes les observations sur l’équation liéaire yt = a + bxt + ut , il vient


       
y1 1 x1 u1
 y2   1   x2   u2 
 ..  =  ..  a +  ..  b +  .. 
       
 .   .   .   . 
yT 1 xT uT
En regroupant les colonnes des paramètres on obtient
     
y1 1 x1 u1
 y2   1 x2     u
 a  2

 ..  =  .. + .
   
..  b
 ..

 .   . .  
yT 1 xT uT
Les équations normales peuvent s’écrire :
 P P
T â + b̂ xt = y
P t
â xt + b̂ x2t
P P
= xt yt

42
3.1. Description du problème et exemples économiques

ce qui implique :  P    P 

PT x
P 2t
= P y t
xt xt b̂ xt yt
En notant  
1 x1
 1 x2 
X=
 
.. .. 
 . . 
1 xT
et  

β̂ =

on obtient l’écriture matricielle :

(X 0 X)β̂ = X 0 y ⇒ β̂ = ((X 0 X)−1 X 0 y

La matrice inverse peut s’écrire :


−1 !
x2t
 P  P 2 P  P
1 − 1
PT P x2t = P Pxt xt
=P T −x̄
xt xt T (xt − x̄)2 − xt T (xt − x̄)2 −x̄ 1

Remarque 9
En multipliant (X 0 X)−1 par σ 2 on trouve la matrice de variances-covariances CV. On peut généraliser
l’écriture matricielle en ajoutant d’autres de variables à X. On obtient le modèle de régression multiple.
On note l’importance de H0 , non colinéarité des colonnes de X. Si H5 : xt = α pour tout t,
(xt − x̄) = 0, donc det(X 0 X) = 0 et les équations normales n’ont pas une solution unique.
P

3.1.6 Théorème de Gauss-Markov

Nous traiterons le cas particulier de ce thèorème. Une généralisation sera faite dans le cas de la
régression multiple.
Nous avons démontré que les estimateurs des moindres carrés sont sans biais et convergents. Sont-ils de
variances minimale ? La réponse est : oui, dans la classes des estimateurs sans biais. On parle destimateur
BLUE (Best Linear Unbiased Estimator en anglais)
Preuve de cette proposition
Un estimateur linéaire arbitraire de b peut :
X X
b̃ ct tyt = ct (a + bxt + ut
P P
une condition nécessaire et suffisante pour que E(b̃) = b pour tout ( a, b )est ct = 0 et ct xt = 1.Alors :
 2 X 2 X
V (b̃) = E b̃ − b = E ct ut = σ 2 c2t

On va minimiser cette variance sous la contrainte E(b̃) = b et montrer que la solution est ct = ωt ).
Comme la minimisation de V (b̃) est équivalente à celle de V (b̃)/σ 2 le Lagrangien s’écrit :
X X X 
L= c2t + λ1 ct + λ2 ct xt − 1

43
Chapitre 3. Régression linéaire empirique

et les conditions de premier ordre sont donc :

∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct

Pour éliminer λ1 et λ2 à l’aide des contraintes, nous pouvons utiliser :

∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
∂L X X X
xt = 2 ct xt + λ1 xt + λ2 x2t = 0
∂ct
P P
En utilisant les contraintes ct = 0, ct xt = 1
X
T λ 1 + λ2 xt = 0
X X
2 + λ1 xt + λ2 x2t = 0

l’écriture sous forme matricielle des contraintes donne :


 P     
T x t λ 1 0
P P 2 × =
xt xt λ2 −2

L’inverse de la matrice des coefficients a déjà eté calculée ((X 0 X)−1 ). On peut donc calculer la solution
du système comme :
 P 2
2x̄/ P(xt − x̄2 )
  P    P 
λ1 1 −
= P Pxt xt 0
=
λ2 T (xt − x̄2 ) − xt T −2 −2/ (xt − x̄2 )

En substituant ces valeurs dans


∂L
=
∂ct
On obtient
x̄ X
2ct = −2 P + 2f racxt (xt − x̄2 )
(xt − x̄2 )
(xt − x̄)
⇒ ct = P = ωt
(xt − x̄2 )
Cette valeur de ct minimise donc bien la variance sous la contrainte que l’estimateur t soit sans biais car :

∂2L
= 2T > 0
∂c2t

Estimation de la variance des erreurs

Les variances et la covariance calculées dans les sections précédentes dépendent du paramètre inconnu
σ 2 . Une procédure naturelle serait de calculer la variance d’échantillon T1 (ût − ˆ¯ut2 , et de corriger un
P

biais éventuel, pour arriver à un estimateur de σ 2 .


En fait, (ût − ˆ¯ut2 = (û2t ,car
P P

X X
ût = (y − â − b̂xt ) = 0 condition du premier ordre.

44
3.1. Description du problème et exemples économiques

en vertu de la première équation normale (Section 1.3). Nous allons prouver que :
hX i
E u2t = (T − 2)σ 2

et que donc
1 X 2
s2 = ut
T −2
est un estimateur sans biais de σ 2 Nous avons :

ût = y − ȳ − −̂b̂xt

= a + bxt + ut − (ȳ − b̂x̄) − b̂xt

= a + bxt + ut − a − bx̄ − ū + b̂x̄ − b̂xt

= ut − ū + (b − b̂)(xt − x̄)

Alors
X X 2
û2t = ut − ū + (b − b̂)(xt − x̄)
X X X
= (ut − ū)2 + (b − b̂)2 (xt − x̄)2 + 2 (b − b̂)(xt − x̄)(ut − ū)

Mais
X  hX iX
ut − ū + (b − b̂)(xt − x̄) = (xt − x̄)2 ωt (ut − ū)
X
= (b̂ − b) (xt − x̄)

P P
puisque ωt (ut − ū) = ωt ut = b̂ − b
Donc
X X X X
û2t = (ut − ū)2 + (b − b̂)2 (xt − x̄)2 − 2(b − b̂)2 (xt − x̄)2
X X
= (ut − ū)2 − (b − b̂)2 (xt − x̄)2

Calculons séparément l’espérance de chacun de ces termes.


X 
hX i 1 X 2 T
E (ut − ū)2 = E u2t − ( ut ) = T σ 2 − σ 2 = (T − 1)σ 2
T T
h X i
E (b̂ − b)2 (xt − x̄)2 = σ 2

Et donc
hX i
E (u2t = (T − 2)σ 2

Dons
û2t
P
σ̂ 2 = s2 =
T −2

45
Chapitre 3. Régression linéaire empirique

On peut interpréter la division par (T-2) de la manière suivante. Nous avions vu que pour obtenir un
estimateur sans biais de la variance, on devait diviser par T-1 la somme des carrés des déviations par
rapport à la moyenne. Cette division par (T-1) était en fait due à la présence d’une condition liant les
déviations par rapport à la moyenne : la somme de ces déviations est identiquement nulle. Dans le cas
qui nous occupe, nous avons deux conditions liant les résidus à savoir :
X X
ût = 0 et ût xt = 0

3.1.7 Décomposition de la variance : le coefficient de détermination


P
(yt −ȳ)
Nous allons voir que la variance totale des y ,soit T ,peut être décomposée en une somme de
deux variances, celle des ŷ (partie expliquée par la régression) et celle des û (partie résiduelle). Ceci nous
permettra de définir le coefficient de détermination, qui permet de mesurer la qualité de l’ajustement
linéaire. A cette fin, nous prouverons que :
X X X
(yt − ȳ)2 = (ŷt −¯ˆy)2 + û2t

soit
SCT = SCE + SCR.

û2t
P
En guise d’étape préliminaire, démontrons une formule de calcul commode pour

Lemme 1
X X
û2t = (yt − ȳ)2 − b̂2 (xt − x̄)2

Preuve

ût = yt − ŷt = yt − â − b̂xt

= (yt − ȳ) − b̂(xt − x̄)

Donc
X X X X
û2t = (yt − ȳ)2 − 2b̂ (xt − x̄)(yt − ȳ) + b̂2 (xt − x̄)2

Mais
X X
(xt − x̄)(yt − ȳ) = b̂ (xt − x̄)2

donc
X X
û2t = (yt − ȳ)2 − b̂2 (xt − x̄)2

Pour prouver que SCT = SCE + SCR, il suffit alors de montrer que :
X X
b̂2 (xt − x̄)2 = ¯2
(ŷt − ŷ)

46
3.1. Description du problème et exemples économiques

Mais ceci est évident car :


X X
¯2=
(ŷt − ŷ) (â + b̂xt − â − b̂xt )2 = b̂2 (xt − x̄)2

On définit alors le coefficient de détermination comme :

SCE SCT − SCR SCR


R2 = = =1−
SCT SCT SCT

et l’on a 0 ≤ R2 ≤ 1. Plus le R2 est proche de l’unité, plus grand est le pourcentage de la variance totale
expliquée par la régression, et meilleure est donc la qualité de l’ajustement. Mentionnons dès ‘ aprésent
une interprétation statistique plus fine du R2 .

3.1.8 Tablde d’analyse de la Variance

On complète l’étude précédente en construiasnt la table d’analyse de la variance :

Source Somme Degrés Carrés F̂


de P
carrés de libertés Pmoyen 2
régression SCE = (ŷt − ȳ)2 1 (ŷ − ȳ)
1
Pt
SCR = (yt − ŷ)2 2
(T − 2) SCE
P
résiduelle T-2 T −2 P(yt − ŷ) SCR
1
SCT = (yt − ȳ)2 (yt − ŷ)2
P
totale T-1 T −1

Commentaires
– la statistique F̂ , dit de Fisher dui permet de tester la nullité de la pente, b=0, est égale au rapport
entre le carré moyen expliqué par la régression et le carré moyene résiduel. Ceci revient à tester :

H0 : b = 0 ou SCE = 0

vs

H1 : b 6= 0 ou SCE 6= 0

Pour un test de niveau α, on compare la statistique F̂ à la valeur dépassée anec une probabilité α
par une variable aléatoire distribuée suivant une loi de Fisher à (1,T-2) degrés de libertés. Cette
quantité, notée F(1,T −1,1−α) est le quantile d’ordre (1 − α) de cette loi de Fisher à (1,T-2) degrés
de libertés
– SCR est le minimum de la somme des carrés des résidus.
– SCE : est la quantité expliquée par la droite de régression par rapport au modèle où l’on ajuste
les données qu’avec une simple moyenne (ȳ), ce qui revient à faireune régression sur une droite de
pente nulle.
– SCT est utilisée pour le calcul de la variance empirique.
(T −2)R2
Nous démontrerons, en régression multiple, que si b = 0i.eSCE = 0, 1−R2 suit le carré d’une loi de

47
Chapitre 3. Régression linéaire empirique

Student avec T-2 degrés de liberté. Avec un seuil de signification α ,le R2 sera donc 2 "bon" si :
(T − 2)R2
> t2T −2,α/2
1 − R2

3.1.9 Exemple empirique

Poursuivons l’exemple de la section ci-avant.


Nous avions trouvé les valeurs â = −0.1 et b̂ = 1.10 On a de plus :

x̄ = 3

ȳ = 5.6
X
(xt − x̄)2 = 10
X
(yt − ȳ)2 = 37.20 = SCT

SCE = 1.92 ∗ 10 = 3.61 ∗ 10 = 36.1


X
û2t = SCR = 1.10 = SCT − SCE
SCR 1.10
s2 = = = 0.37
T −2 5−2
0.37
s2b̂ = = 0.037
10
 
1 9
s2â = 0.37 + = 0.403
5 10
(0.37) ∗ 3
s = âb̂ = − − 0.11
10
1.10
R2 = 1 − = 0.97
37.20
Nous pouvons présenter ces résultats sous forme de droite de régression :

ŷt = −0.1 + |{z}


1.9 xt (R2 = 0.97)
| {z }
(0.635) (0.192)

où les nombres entre parenthèses sont les estimations des écarts-types des coefficients estimés. On
peut aussi les présenter comme :

ŷt = −0.1 + |{z}


1.9 xt (R2 = 0.97)
| {z }
(−0.157) (9.88)

où les nombres entre parenthèses sont les rapports entre les coefficients estimés et les estimations de leurs
écarts-types. On appelle ces rapports les rapports t (t-ratios) ; ils nous serviront dans le cadre des tests
d’hypothèses.
L’interprétation du R2 est la suivante : 97% des fluctautions de yt sont expliquées par celles de xt
Exemple

1.9
tb̂ = = 9.88
0.192

48
3.1. Description du problème et exemples économiques

3.1.10 Régression simple, Intervalles de Confiance et Tests d’hypothèses


Tests sur les oefficients individuels

â et b̂ne sont que des estimateurs ponctuels de a et de b . Dans cette sous section, nous nous intéressons
à la probabilité du type :

P rob [binf ≤ b ≤ bsup ] = 1 − α,

où α est une constante appelée niveau de signification. Un tele probabilité doit se lire : "J’ai une probabilité
de de ne pas me tromper lorsque j’affirme que b est compris entre binf et bsup ". Les bornes binf et bsup
vont dépendre de b̂ et de sa variance.
Elles sont donc aléatoires, au même titre que b̂ . Elles dépendront aussi de la distribution de b̂ . Si
cette distribution est symétrique autour de b , l’intervalle [binf , bsup ] aura b̂ comme point médian. Ce sera
le plus petit intervalle ayant une probabilité 1 − α de contenir b . Il nous faut donc maintenant spécifier
la distribution de â et b̂, ce qui nécessite une hypothèse sur la distribution des erreurs ut . Si nous faisons
l’hypothèse de normalité :

H0 : ut ∼ N (0, σ 2
P P
â = a + zt ut et b̂ = b + ωt ut et seront normales, puisque ce sont alors des combinaisons linéaires
de variables normales indépendantes. Quelles seront alors les formes de ainf , ≤ asup , binf et ≤ bsup Si σ 2
etait connue, nous aurions
b̂ − b â − a
∼ N (0, 1) et ∼ N (0, 1)
σb̂ σâ

σ2
 
1 x̄
avec σb̂2 = P σâ2 = σ 2 +P
(xt − x̄)2 T (xt − x̄)2
Nous pourrions alors écrire, par exemple,
" #
b̂ − b
P −z α2 ≤ ≤ z α2 =1−α
σb̂

α
où z α2 est la valeur de la variable normale centrée réduite ayant une probabilité 2 d’être dépassée.
Nous aurions alors :
h i
P b̂ − z α2 σb̂ ≤ b ≤ b̂ + z α2 σb̂ = 1 − α

Les bornes cherchées sont donc :

binf = b̂ − z α2 σb̂ et

≤ bsup = b̂ + z α2 σb̂

En pratique, σ 2 est inconnue. Que se passe-t-il lorsqu’on la remplace par son estimation sans biais

û2t
P
s2 = ?
T −2

49
Chapitre 3. Régression linéaire empirique

Pour reprendre l’exemple de b̂

b̂ − b b̂ − b
= qP
σb̂ û2t P 1
T −2 (xt −x̄)2

q b̂−b
σ 2 ( P(x 1−x̄)2 ) N
= q Pt 2 =def
ût D
σ 2 (T −2)

N est une variable normale réduite. Nous prouverons rigoureusement plus loin que
P 2
ût
σ 2

est une variable χ2 avec T-2 degrés de liberté, indépendante de la variable N. Par définition, le rapport
N
D est alors une variable Student avec T-2 degrés de liberté
Donc :
b̂ − b â − a
∼ tT −2 et, de manière analogue ∼ tT −2
sb̂ sâ
et les intervalles de confiance sont donnés par :
h i
P b̂ − tT −2; α2 sb̂ ≤ b̂ + tT −2; α2 sb̂ = 1 − α

Pour tester :
H0 : b = b0 contre H1 : b 6= b0

on ne rejettera pas H0 si b ∈ [binf , bsup ]


Pour tester :
H0 : b = b0 contre H1 : b > b 0

on rejette H0 si b0 < b̂ − tT −2; α2 sb̂ .


Pour tester :
H0 : b = b0 contre H1 : b > b 0

on rejette H si b0 > b̂ + tT −2; α2 sb̂


Des procédures analogues sont évidemment valables pour le paramètre â

3.1.11 Test sur les deux paramètres a et b

Il s’agit ici du test :

H0 : a = a0 et b = b0 contre H1 : a 6= a0 ou b 6= b0 ou les deux

Ce test n’est pas équivalent à une juxtaposition des deux tests t sur chaque coefficient de régression. Une
méthode bivariée s’impose, et nos intervalles de confiance deviennent des ellipses. En pratique, on passe
par la variable F de Fisher-Snedecor. La statistique à employer est :
Q/2
Fobs =
s

50
3.1. Description du problème et exemples économiques

avec
h X  i
Q = T (â − a0 )2 + 2T x̄(b̂ − b0 ) + x2t (b̂ − b0 )2

Q est toujours positive ou nulle ; elle sera d’autant plus grande que â et b̂ diffèrent de a et b . Or, ce
sont bien les valeurs élevées d’une statistique F qui conduisent à rejeter l’hypothèse nulle. Par ailleurs,
une valeur élevée de s2 reflète une mauvaise qualité de l’ajustement statistique ; il est donc logique qu’elle
nous fasse hésiter à rejeter l’hypothèse H0 . En régression multiple, nous démontrerons que si H0 est
vraie, Fobs a la distribution F2,T −2 . On rejettera donc H0 si

Fobs > F2,T −2;α

T −2
Nous montrerons aussi que F est égale à 2T fois la statistique de Wald pour tester l’hypothèse
H0 : (a, b) = (a0 , b0 ) contre H0 : (a, b) 6= (a0 , b0 ). Ceci fournit une première justification rigoureuse
de l’emploi de cette statistique.

Test sur une combinaison linéaire des coefficients

Un estimateur sans biais d’une combinaison linéaire γ = αa + βb


des coefficients a et b est bien sûr :
γ̂ = αâ + β b̂

Afin de construire un intervalle de confiance pour γ , nous devons estimer la variance de γ̂ :

V (αâ + β b̂) = α2 V (â) + β 2 V (b̂) + 2αβCov(â, b̂)


β2
   
1 x̄ αβ x̄
= σ 2 α2 +P + P − 2 P
T (xt − x̄)2 (xt − x̄)2 (xt − x̄)2
(β − αx̄)2
  
1
= σ 2 α2 +P
T (xt − x̄)2

En utilisant le même raisonnement que précédemment , on peut montrer que :

γ − αâ + β b̂
r  
(β−αx̄)2
s α2 T1 + P (xt −x̄)2 ∼ tT −2

et un intervalle de confiance est donc donné par les deux bornes


s 
(β − αx̄)2

1
αâ + β b̂ ± tT −2;α/2 s α2 +P
T (xt − x̄)2

3.1.12 Prévision

Que se passerait-il si nous voulions trouver un intervalle de confiance sur une valeur future yθ de y ? On
parlerait alors d’intervalle de prévision. Supposons par exemple que y soit une fonction de consommation,
que nous possédions des données annuelles entre 1960 et 1981 sur la consommation et le revenu national,

51
Chapitre 3. Régression linéaire empirique

et que nous voulions prédire la consommation pour l’année 1982, conditionnellement à une projection xθ
du revenu national pour 1982. Sous l’hypothèse que le modèle reste inchangé, nous aurons :

yθ = a + bxθ + uθ et

ŷθ = â + b̂xθ et sera sans biais .

La variable yθ − ŷθ = uθ − (â − a) − (b̂ − b) est normale, de paramètres :

E(yθ − ŷθ ) = 0

V (yθ − ŷθ ) = E(yθ − ŷθ )2

= E(u2θ ) − E((â − a) + (b̂ − b)xθ )2

puisque â et b̂ ne dépendent que de u1 , u2 , . . . , uT ,et que E(ut , uθ ) = 0, t = 1, . . . , T . On a donc bien


E(â, uθ ) = (b̂, uθ ) = 0.
Le premier terme de la somme est égal à σ 2 . Le second terme peut être calculé a l’aide des résultats
de la section précédente, en posant α = 1 et β = xθ . Nous avons donc :
 
2 2 1 (xθ − x̄)
E(yθ − ŷθ ) = σ 1 + + P
T (xt − x̄)2

et les bornes de l’intervalle de prévision sont données par


s 
1 (xθ − x̄)
ŷθ ± tT −2; 2 s
α 1+ + P
T (xt − x̄)2

3.1.13 Exemple numérique

Reprenons l’exemple numérique du chapitre 2. Nous avons t3;0.025 = 3 Un intervalle de confiance sur
b correspondant à α = 0.05 sera donc donné par :
h √ √ i
1.9 − (3.182) 0.037; 1.9 + (3.182) 0.037 = [1.29, 2.5]

On rejettera donc, par exemple, l’hypothèse :

H0 : b = 1.2

mais on ne rejettera pas l’hypothèse :


H0 : b = 1.5

Pour tester :
H0 : a = −0.15 et b = 2.5

contre H0 : a 6= −0.15 ou b 6= 2.5

52
3.2. LE MODÈLE DE RÉGRESSION MULTIPLE

on construit la statistique

1
5(−0.10 + 0.15)2 + 2.5 ∗ 3(−0.10 + 0.15)(1.9 − 2.5)
 
Fobs =
2(0.37)
1
55(1.9 − 2.5)2
 
+
2(0.37)
18.9125/2
= = 25.79
0.37

On a F2,3;0.05 = 9.55 et F2,3;0.01 = 30.82 On ne rejette donc pas H0 pour α = 0.01 , mais on la rejette
pourα = 0.05
Un intervalle de confiance sur y0 = E[y|x = 35] a pour bornes :
r
1 (3.5 − 3)2
−0.1 + (1.9)(6) ± (3.182)(0.61) +
5 10

si α = 5.Ce qui donne [5.636,7.464]. Un intervalle de prévision sur y6 = a + b(6) au niveau de


signification α = 0.01 aura pour bornes :
r
1 (6 − 3)2
−0.1 + (1.9)(3.5) ± (5.841)(0.61) 1 − +
5 10

ce qui donne [6.175, 16.426]

3.2 LE MODÈLE DE RÉGRESSION MULTIPLE


3.2.1 Le modèle et ses hypothèses

Les notions présentées dans les sections précédents vont nous permettre de généraliser les résultats
des précédents à au modèle économétrique possédant un nombre arbitraire de variables explicatives, soit :

yt = β1 + β2 xt2 + . . . + βk xtk + t pour t = 1, . . . , T (3.20)

Pour prendre un exemple, il est raisonnable de supposer qu’une loi de demande comprenne comme variable
explicative non seulement le prix PY du bien demandé, mais aussi le prix PX d’un substitut et le revenu
R du consommateur. Nous aurions alors :

yt = β1 + β2 PXt + β3 PY t + β4 Rt + t (3.21)

Une formulation matricielle du modèle s’impose. Il peut s’écrire sous la forme suivante :
      
y1 1 x12 . . . x1k β1 1
 y2   1 x22 . . . x2k   β2   2 
   
 ..  =  .. ..   ..  +  ..  (3.22)
  
.. ..
 .   . . . .  .   . 
yT 1 xT 2 . . . xT k βk T

, où y est un vecteur T × 1 d’observations sur la variable dépendante, X est une matrice T × K


d’observations sur les variables explicatives, β est un vecteur K × 1 de paramètres inconnus et u est

53
Chapitre 3. Régression linéaire empirique

un vecteur T × K d’erreurs aléatoires inobservables. Nous faisons les hypothèses suivantes :

H1 : E() = 0 (3.23)

H2 : E(0 = σ 2 IT (3.24)

H3 : X est non aléatoire (3.25)

H4 : rang(X) = k < T (3.26)

L’hypothèse H2 implique que les erreurs sont de même variance, et non corrélées. Si l’hypothèse H4 n’était
pas satisfaite, il existerait une relation linéaire exacte entre certaines des colonnes de X. En substituant
cette relation dans l’équation de régression, on pourrait alors supprimer un régresseur. Ceci revient à dire
que le vecteur β ne pourrait pas être estimé de manière unique.
Notons que nous ne faisons pas encore d’hypothèses sur la forme fonctionnelle de la distribution de 
.

3.2.2 Les estimateurs de moindres carrés

L’estimateur β̂ de moindres carrés sera obtenu, comme précédemment, en minimisant


la somme des carrés des résidus. Le vecteur des résidus est ˆ = y − X β̂. Cette somme de carrés peut
donc s’écrire :

ˆ0 ˆ =  = y − X β̂)0 (ˆ
(ˆ  = y − X β̂) (3.27)

= y 0 y − β̂ 0 X 0 y − y 0 X β̂ + β̂ 0 X 0 X β̂ (3.28)

= y 0 y − 2β̂ 0 X 0 y + β̂ 0 X 0 X β̂ (3.29)

(3.30)

En utilisant les régles de la dérivation matricielle, on obtient :

0 ˆ)
∂(ˆ
= −2X 0 y + 2X 0 X β̂ = 0 (3.31)
∂β

Comme X est de rang K X 0 X et définie positive, donc régulière, nous pouvons écrire :

β̂ = (X 0 X)−1 X 0 y (3.32)

Par ailleurs, les conditions de second ordre pour un minimum sont satisfaites, puisque

0 ˆ)
∂ 2 (ˆ
= 2 ∗ (X 0 X) (3.33)
∂β∂β 0

une matrice définie positive, ce qui montre que ˆ0 ˆ est convexe en β̂

54
3.3. Le théorème de Gauss-Markov

3.2.3 Moments des estimateurs de moindres carrés


Espérance de β̂

β̂ est un estimateur sans biais de β puisque :

= E (X 0 X)−1 X 0 (Xβ + )
 
E(β̂) (3.34)

= E β + (X 0 X)−1 X 0  = β + (X 0 X)−1 X 0 E () = β


 
(3.35)

(3.36)

3.2.4 Matrice de covariance de β̂

La matrice de covariance de β̂ est alors :


h i
V (β̂) = E (β̂ − β)0 (β̂ − β) (3.37)

= E (X 0 X)−1 X 0 0 X(X 0 X)−1


 
(3.38)

= (X 0 X)−1 X 0 E(0 )X(X 0 X)−1 (3.39)

= σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 = σ 2 (X 0 X)−1 (3.40)

(3.41)

3.3 Le théorème de Gauss-Markov


Nous allons montrer que β̂ est le plus efficace des estimateurs linéaires de β. Plus précisément si β̃
est un autre estimateur linéaire sans biais de β ,c’est-à-dire si E(β̃) = β et β̃ = Ay, les variances de ses
composantes ne peuvent être inférieures à celles des composantes de β̂

V (β̃i ) > V (β̂i ) pour i = 1 . . . , K (3.42)

Démonstration
Soit donc β̃ = Ay un autre estimateur linéaire de β.
Nous pouvons supposer sans perte de généralité que :

A = (X 0 X)−1 + C

Alors :
 0 −1 0 
β̃ = (X X) X + C (Xβ + ) (3.43)

= β + (X 0 X)−1 X 0  + CXβ + C) = [I + CX] + A (3.44)

(3.45)

est un estimateur sans biais de β si et seulement si CX=O. Nous imposons donc cette condition, qui
implique que β̃ = β + A.

55
Chapitre 3. Régression linéaire empirique

La matrice de covariance de β̃ est alors :

E(β̂) = E [A0 ] (3.46)

= σ 2 AA0 (3.47)

= σ 2 (X 0 X)−1 X 0 + C X(X 0 X)−1 + C 0


  
(3.48)

= σ 2 (X 0 X)−1 + (X 0 X)−1 X 0 C 0 + CX 0 (X 0 X)−1 + CC 0


 
(3.49)

= σ 2 (X 0 X)−1 + CC 0 puisque CX=O


 
(3.50)

= V (β̂) + σ 2 CC 0 . (3.51)

(3.52)

Mais les éléments de la diagonale de CC 0 sont des sommes de carrés, donc non négatives. Les variances
des composantes de β̃ sont donc supérieures ou égales aux variances des composantes de β̂.

3.3.1 L’estimation de la variance des erreurs

t puisque ¯ˆt = 0 (En


t − )2 = (ˆ
P P 2
Comme précédemment notre estimateur sans biais sera basé sur (ˆ
effet, la première ligne de la matrice (X 0 X) est le vecteur i0 X avec 0 [1, 1...1] ; la premièe composante du
vecteur X 0 y est i0 y. La première équation normale s’écrit alors i0 Xβ = i0 y, ou i0 (y − X β̂) = i0 ˆ = (ˆ
P
t ) =
0 ˆ). Nous avons
0. Pour trouver, comme précédemment, un estimateur sans biais de σ 2 , calculons E(ˆ

ˆ = y − X β̂ = Xβ +  − X(X 0 X)−1 X 0 (Xβ + ) (3.53)

= Xβ +  − Xβ − X(X 0 X)−1 X 0  (3.54)

= IT − X(X 0 X)−1 X 0  |{z}


 
= M (3.55)
def
(3.56)

On vérifie aisément que M est idempotente et symétrique. Alors ˆ0 ˆ = 0 M 0 M  = 0 M 

0 ˆ)
E(ˆ = E(0 M ) = E(trˆ 0 M ˆ) puisque 0 M  est un scalaire
= E(tr(M ˆˆ0 ) puisque tr(AB) = tr(BA)
= trE(M ˆˆ0 ) puisque la trace est une somme
= trM E(ˆ ˆ0 ) puisque M est non aléatoire
= trM σ 2 ) = σ 2 tr(M I) = σ 2 tr(M )
mais trM = trIT = tr(X(X 0 X)−1 X 0 )
= trIT = tr(XX 0 )(X 0 X)−1 ) = trIT − trIK = N − K

ˆ0 ˆ
0 ˆ) = (T − K)σ 2 et s2 =
Alors E(ˆ
T −K
est un estimateur sans biais de σ 2 . Par le lemme1, nous avons y 0 y = ˆ0 ˆ + β̂X 0 y donc
(i0 y)2 (i0 y)2
   
0 0 0 0
yy− = β̂ X y − + ˆ ˆ+ .
T T
c’est-à-dire SCT = SCE + SCR ,
.

56
3.3. Le théorème de Gauss-Markov

Il faut bien noter que cette identité n’est valable que dans un modèle où la somme des résidus est
nulle (i0 ˆ = 0).
Tel sera bien le cas lorsque le modèle de régression comporte un terme constant, puisque i est la
première ligne de X et puisque les équations normales impliquent (Xˆ
 = 0).
A partir de cette identité, nous pouvons définir, dans un modéle avec terme constant , le coefficient
de détermination comme :
0 2

2 SCE SCR β̂ 0 X 0 y − (i Ty)


R = =1− = 0 2 (3.57)
SCT SCT y 0 y − (i Ty)
SCR ˆ0 ˆ
Comme T = T est un estimateur biaisé de σ 2 , il est préférable d’employer le coefficient de
détermination ajusté, défini comme suit :

SCR/(T − k) T −1 2 k−1
R̄2 = 1 − = R − (3.58)
SCT /(T − 1) T −k T −k

qui est, lui, basé sur des estimateurs sans biais des variances. Si l’on ajoute un régresseur, R2 croîtra
toujours (non strictement) ; ceci n’est pas le cas pour R̄2 .
Dans un modèle sans terme constant, la somme des résidus n’est pas nécessairement nulle et la
décomposition précédente (SCT = SCR + SCE) n’est donc plus valable. Le R2 précédent n’est donc pas
nécessairement compris entre 0 et 1. Néanmoins, on a toujours, en vertu du lemme1 :

y 0 y = β 0 Xy + ˆ0 ˆ = yˆ0 ŷ + ˆ0 ˆ

avec ŷ = X β̂.
On peut alors définir :
ŷ 0 ŷ ˆ0 ˆ
R∗2 = 0
=1− 0 (3.59)
yy yy
qui est, lui, toujours compris entre 0 et 1. Ce coefficient R∗2 peut être utilisé dans tous les cas, tant
dans un modèle sans constante que dans un modèle avec constante. Mais son interprétation est différente
de celle du R2 , comme précédemment, nous pouvons aussi ajuster ce dernier coefficient de détermination
aux nombres de degrés de liberté, comme suit :

ˆ0 ˆ/(T − k) T −1 2 k−1


R̄∗2 = 1 − = R − (3.60)
y 0 y/(T − 1) T −k ∗ T −k
Interprétation des coefficients de détermination :
Nous verrons plus loin que R2 est une fonction monotone de la statistique F à employer pour tester
la nullité de tous les coefficients de régression sauf la constante.
Nous verrons aussi que R∗2 est une fonction monotone de la statistique F à employer pour tester la
nullité de tous les coefficients, constante comprise. On peut montrer que R2 est le carré du coefficient
de corrélation entre les valeurs observées yt et les valeurs ŷt calculées à l’aide de l’équation de régression
estimée.

57
Chapitre 3. Régression linéaire empirique

3.3.2 Géométrie des MCO

Prédiction
On appelle prédiction de y

ŷ = [ŷ1 , ŷ2 , . . . , ŷn ]0 = X β̂ = X(X 0 X)−1 y = PX y

ŷ = PX y est la projection orthogonale de y sur l’espace vectoriel engendré par les colonnes de X.


X = {Xβ, ∀β ∈ RK }

PX est la matrice de pojecteur orthogonal. Elle est telle

0
PX = PX (symétrie)

PX PX = PX (idempotente).


Elle a K valeurs propres égale à 1 (K = dim X ) si les colonnes de X sont linéairement indépendantes et
N-K valeurs propres nulles. Sa trace est égale à la somme des valeurs propres ou la somme des éléments
diagonaux de PX .
Résidus statistiques On appelle résidu l’écart et la réalisation yi et la prédiction ŷi . Le vecteur des
résidus :
1 , ˆ2 , . . . , ˆn ] = y − ŷ = y − PX y = (IN − PX )y = MX y
ˆ = [ˆ


ˆ est la projection orthogonale sur l’orthogogal de X .
On a donc bien en particulier :
X
ˆ ⊥ ŷ ⇔< ˆ, ŷ >= ˆ0 .ŷ = ˆi ŷi = 0

MX est le projecteur orthogonal associé :

0
MX = IN − PX = MX

MX M X = MX

Remarque 10 Si X contient une constante (régression avec constrante), alors ˆ est par construction
orthogonal au vecteur unitaire τn = [1, . . . , 1]0
X
ˆ ⊥ τn ⇔ ˆ0 τn = i = 0
P
Attention : i diffère de zéro si la regression ne contient pas de constante. Ainsi donc :
( P
 N
ˆ ⊥ ŷ, ; ˆi ŷi , = 0 1 X 1 X 1
⇔ Pi=1
N ⇒ ˆi ŷi − ˆi ŷi = Cov(ˆ
i , ŷi ) = 0
ˆ ⊥ ŷ, . i=1  ˆi =0 N N N

Dans le cas d’une régression avec une constante, l’orthoganalité entre le vecteur des résidus et les colonnes
de X implique le fait que la covariance empirique entre ˆi et ŷi est nulle. Enfin ˆi = yi − xi β̂ est le résidu
statistique qui est l’analogue du résidu théorique ou perturbation : i = yi − E(yi |xi )

58
3.3. Le théorème de Gauss-Markov

On représente la décomposition de y par la figure ci-dessous.

Fig. 3.2 – Décomposition orthogonale de Y

Remarque 11 La norme au carré de Y est égale à la somme des carré de MY et PY (Théorème de


Pythagore).

kY k2 = kM Y k2 + kP Y k2 = Y 0 Y = Y 0 M Y + Y 0 P Y = SCT = SCE + SCR

3.3.3 Régression Partitionnée : Frish-Waugh

Si X est partionné en deux vecteurs

XN ×K = (X1N ×K1 , X2N ×K2 ), K = K1 + K2


 
β1
β=
β2
y = Xβ = X1 β1 + X2 β2 + 1 (3.61)

On obtient β̂2 en deux étapes :

1. Régresser y et les colonnes de X1 sur les colonnes X2 . Sauver les résidus MX1 y et MX2 X1

2. Régresser MX2 y sur MX2 X1 . L’estimateur des MCO du coefficient de cette réfression est β̂2 :

β̂2 = (X1 MX2 X1 )−1 X1 MX2 y

est l’estimateur obtenu à partir du modèle suivant :

M1 y = M1 X2 β2 + rsidus (3.62)

Théorème 2 FWL

59
Chapitre 3. Régression linéaire empirique

1. Les estimateurs du modèle [3.61] et [3.62] du paramètre β2 sont numériquement identiques.

2. Les residus du modèle [3.61] et [3.62] sont numériquement identiques.

Preuve : L’estimetur β̂2 du modèle [3.62] est donné par :

β̂2 = (X1 MX2 X1 )−1 X1 MX2 y.

On sait que
y = PX y + MX Y (3.63)

Si prémultiplie le modèle [3.63] parX20 M1 on obtient :

X20 M1 y = X20 M1 X1 β1 + M1 X2 β2 + X20 M1 MX y (3.64)

En appliquant les propriétés des matrices de projection on a :

X20 M1 y = M1 X2 β̂2 (3.65)

car
M1 X1 = 0; MX M1 = MX X2 = 0 et X20 M1 MX = 0

on vient de démontrer le premier point du théorème.


Pour démontrer le deuxième point du théorème on prémultiplie l’équation [3.63] par la matrice de
pojection M1 = MX1 .
M1 y = M1 X 2 β + MX Y

du fait que M1 MX = MX . On conclut que MX y est aussi le terme d’erreur de l’équation [3.61].

Exemple 3.3.1 Extension des formules du modèle simple


Supposons que la régression contient un terme constant :

X = (τn X̃) X̃ = (x̃i ) ∈ RN ×(K−1)


 
a0
β0 =
b0
Xβ0 = a0 τn + X̃b0

où τn est un vecteur unitaire de dimension n. On régresse d’abord y et les colonnes de X̃ sur τn :


n
1X ¯
τn (τn0 τn )−1 τn0 X̃ = τn x̃i = τn X̃
n i=1
n
1X
τn (τn0 τn )−1 τn0 y = τn yi = τn ȳ
n i=1
En appliquant FWL on obtient les estimateurs des MCO de b0 en effectuant la régression sans terme
¯ :
constant des variables centrées ∆y = y − ȳτn et ∆X̃ = X̃ − τn X̃
−1
¯

b̂ = (∆X̃)0 ∆X̃ ∆y et â = nȳ − b̂X̃

60
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes

3.4 Problèmes particuliers : multicolinéarité, biais de spécifica-


tion, variables muettes
3.4.1 Multicolinearité

1. ) Comme nous l’avons déjà mentionné, l’existence d’une relation linéaire exacte entre les colonnes
de X nous empêche de déterminer l’estimateur β̂ de manière unique. Ce cas est un cas extrême de
multicolinéarité. Mais il arrive souvent que certaines des colonnes de X présentent une dépendance
linéaire approximative. Les conséquences de ce phénomène sont les suivantes :
– un manque de précision dans les estimations des βi , se traduisant par de variances élevées ;
– les estimations des βi présenteront souvent des distortions importantes, dues à des raisons
numériques. Le nombre de chiffres significatifs des emplacements- mémoire d’un ordinateur est en
effet limité, ce qui se traduit par un manque de stabilité des programmes d’inversion matricielle,
pour des matrices qui sont presque singulières.
Pour illustrer le premier point, reprenons le modèle de régression simple

yt = a + bxt + ut .

Nous avons vu que


σ2
V ar(b̂) = P
(xt − x̄)2
La multicolinéarité se traduira dans ce cas par une série d’observations (xt ) presque constante,
c’est-à-dire par xt ≈ x̃ pour tout t . On a alors ( (xt − x̄)2 ) ≈ 0, ce qui se traduit par une forte
P

variance de (b̂)
λmax
2. La multicolinéarité peut être mesurée en calculant le rapport λmin de la plus grande à la plus petite
valeur propre de X 0 X .

3. Pour corriger le problème de multicolinéarité, on peut :


– soit ajouter des observations à l’échantillon quand la chose est possible ; il faut néanmoins que
les observations supplémentaires ne présentent pas de multicolinéarité !
– Soit introduire une information a priori. Supposons par exemple que dans la fonction de
production :
log Qt = A + α log Kt + β log Lt + ut

les variables log Kt et log Lt soient fortement colinéaires. Si l’on sait que les rendements d’échelle
sont constants α + β = 1 on peut transformer le modèle comme suit

log Qt = A + α log Kt + (1 − α) log Lt + ut (3.66)

ou (log Qt − log Lt +) = A + α(log Kt − log Lt ) + ut (3.67)

ce qui a donc pour effet de supprimer un régresseur. Ceci peut résoudre le problème. Essentielle-
ment, l’information a priori α + β = 1 supplée au défaut d’information présent dans l’échantillon

61
Chapitre 3. Régression linéaire empirique

(tentative d’estimer trop de paramètres avec trop peu de données). Cette information a priori
peut également prendre une forme stochastique, non déterministe. C’est le cas de la méthode
bayésienne.

3.4.2 Biais de spécification.

Examinons maintenant le problème du choix d’une forme fonctionnelle, c’est-à-dire du choix de la liste
des régresseurs. Comme nous allons le montrer, l’omission d’une variable explicative a pour conséquence,
en général, un biais de l’estimateur β̂ . Supposons que y soit engendré par le modèle :

y = Xβ + u = X1 β1 + X2 β2 + u avec β2 6= 0 et E(u) = 0

et que l’on omette les colonnes de X2 de la liste des régresseurs. On estimerait alors par moindres carrés
le modèle
y = Xβ + u = X1 β1 + X2 β2 + u∗ avec u∗ = X2 β2 + u

et par conséquent E(u∗) = X2 β2 6= 0 . L’estimateur :

βˆ1 = (X10 X1 )−1 X10 y = β1 + (X10 X1 )−1 X10 u∗

sera biaisé.

3.4.3 Variables muettes.

Une variable muette, ou binaire (en anglais :dummy variable ) est une variable du type

Dt = 1 si t ∈ T 0 sinon

où Ti ⊆ 1, 2, . . . , T
Une telle variable, incluse dans la liste des régresseurs, pourrait par exemple indiquer la présence ou
l’absence de guerre, ou classifier des données selon un critère saisonnier. Pour des données mensuelles, s’il
n’y pas de variations saisonnières à l’intérieur d’un même trimestre, on pourrait poser :
D1t = 1 si t est un mois du premier trimestre, 0 sinon
D2t = 1 si t est un mois du second trimestre, 0 sinon
D3t = 1 si t est un mois du troisième trimestre, 0 sinon
D4t = 1 si t est un mois duquatrième trimestre, 0 sinon.
Les quatre colonnes des régresseurs D1 , D2 , D3 , D4 pour les 12 mois d’une année auraient alors la
forme suivante :  
1 0 0 0
 0 1 0 0 
 
 0 0 1 0 
0 0 0 1

62
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes

Nous ne pourrions pas inclure de constante dans ce modèle, puisque la somme de ces quatre vecteurs est
un vecteur de uns. On aurait alors colinéarité parfaite. Les coefficients des variables Di sont en fait des
constantes spécifiques à chaque saison.
Une autre possibilité serait d’inclure une constante, et de supprimer l’une des variables Di , par
exemple D1 . Les coefficients de D2 , D3 , et D4 mesureraient alors l’effet relatif des facteurs saisonniers :
les constantes spécifiques seraient β1 , β1 + β2 , β1 + β3 , β1 + β4 plutôt que β1 , β2 , β3 , β4
Notons aussi que les variables muettes permettent la spécification de pentes variables. Si Dt = 1 pour
une période de crise, = 0 sinon, et que l’on a des raisons de penser que
la propension marginale à consommer β dans le modèle :

Ct = a + βYt + ut

est différente en temps de non crise et en temps de crise, on pourra estimer les paramètres du modèle :

Ct = α + bDt Yt + c(1 − Dt )Yt ut

et b̂ sera l’estimateur de la propension marginale à consommer en temps de crise, ĉ l’estimateur de cette


propension en temps de paix.

3.4.4 Estimateurs par maximum de vraisemblance

Nous faisons ici l’hypothèse que le vecteur  a une distribution normale :

H :  ∼ N (0, σ 2 I)

Ce qui implique que y − Xβ ∼ N (0, σ 2 I). La fonction de vraisemblance s’écrit alors :


 
1 0
L(β, σ 2 ) = (2πσ 2 )−T /2 exp (y − Xβ) (y − Xβ)
2σ 2

−T −T 2 1 0
et log L = log 2π − σ − 2 (y − Xβ) (y − Xβ)
2 2 2σ
Nous avons alors les conditions de premier ordre suivantes :

∂ log L 1  
= 2
−2X 0 y + 2X 0 X β̂ = 0
∂β 2σ
∂ log L −T 1 0
= 2 + 4 (y − Xβ) (y − Xβ) = 0
∂σ 2 σ̂ σ̂
La première condition implique

β̂ = (X 0 X)−1 X 0 y. Cet estimateur est identique à celui des MCO et est sans biais.

En remplaçant β par β̂ dans la seconde condition et en la multipliant par 2σ 2 ,on obtient

ˆ0 ˆ
σ̂ 2 =
T

63
Chapitre 3. Régression linéaire empirique

comme estimateur de maximum de σ 2 par vraisemblance. Cet estimateur est biaisé Les conditions du
second nous amènent à calculer le Hessien. La matrice Hessienne H s’obtient en dérivant le vecteur
1 0 0
 
2σ 2 (−2X y + 2X Xβ)
−T 1 0
σ̂ 2 + σ̂ 4 (y − Xβ) (y − Xβ)

par rapport au vecteur (β, σ 2 )0 . Ceci donne :


0
(−X 0 y + X 0 Xβ)
 
− Xσ2X 1
σ4
H= 1 0 0 −T 1 0
σ 4 (−X y + X Xβ) σ̂ 4 + σ̂6 (y − Xβ) (y − Xβ)

0
En remplaçant β par β̂ = (X 0 X)−1 X 0 y et σ 2 par 1
T (y − Xβ) (y − Xβ) , on obtient :
 0 
− Xσ2X Ok×1
H= −T
Ok×1 σ̂ 4

qui est définie négative puisque (X 0 X) est définie positive et σ̂ 2 > 0 Nous avons donc bien un maximum.

3.4.5 Exemple numérique

Une association de producteurs d’oignons voudrait étudier l’influence sur la production de d’oignons
par hectare (Y))des quantités de main-d’oeuvre (X1 ) ) et d’engrais (X2 ) employées par hectare. Une
enquête est menées chez dix producteurs d’oignons (i = 1, . . . , 10) et l’on postule la forme fonctionnelle
suivante :
log Yt = β1 + β2 log X1i + β3 log X2i + i

où i est un terme d’erreur aléatoire satisfaisant nos hypothèses (bruit blanc). Les données de l’échantillon
sont résumées dans la matrice suivante :
2
 P P P P 
P(log Yt ) (log Yt ) (log
P Yt ) log(X1i ) (log
P Yt ) log(X2i )

 P (log Yt ) T log(X 1i ) log(X2i ) 

2
P P P
 (log Y t ) log(X 1i ) log(X 1i ) log(X 1i ) log(X
P 1i ) log(X 2i )

log(X2i )2
P P P
(log Yt ) log(X2i ) log(X2i ) log(X2i ) log(X1i )
 
19.14 11.8 7.1 4.1
 11.8 10 2 2 
=
 7.1

2 7 1 
4.1 2 1 7
 
10 2 2
(X 0 X) =  2 7 1 
2 1 7

y 0 y = 19.34
 
11.8
X 0 y =  7.1 
4.1
 
48 12 −12
1 
(X 0 X)−1 = −12 66 −6 
432
−12 −6 66

64
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes


1
β̂ = (X 0 X)−1 X 0 y =  0.7 
0.2

ˆ
β̂ 0 y = 17.59

ˆ0 ˆ = 19.34 − 17.59 = 1.75

ˆ0 ˆ 1.75
s2 = = 0.25
T − 3 10 − 3

1.75
R2 = 1 − = 0.677
19.34 (11.8)2
10

9 2
R̄2 = (0.677) − = 0.585.
7 7

Les résultats peuvent être résumés de la façon suivante (les estimations des écarts-types se trouvent entre
parenthèses) :

log Ŷ = 1 + 0.7 log X1i + 0.2 log X2i (R¯2 = 0.585)


.
(0.167) (0.195) (0.195)

3.4.6 Propriètés asymtotiques des estimateurs de moindres ordinaires


Convergence

Nous allons montrer que l’estimateur β̂ = (X 0 X)−1 X 0 Y de moindres carrés est un estimateur
convergent de β dans le modèle classique Y = Xβ +  sous les hypothèses suivantes :
H1 : E() = 0. Les erreurs sont centrées.
H2 : V () = σ 2 In : Homocédasticité des erreurs.
H3 : Le vecteur X des explicatives est non sotchasitique de rang K < n).

1 0
lim (X X) = ΣXX une matrice définie positive.
n→∞ n

Comme X st non sotchasitique on a :

E(X 0 ) = X 0 E(X 0 ) = 0
" T # T
X X
V (X 0 ) = V xtk t = σ 2 x2tk
t=1 t=1
  T
1 0 1 2 X
et V (X )k = σ x2
n n2 t=1 tk

PT
x2tk 1 0

Mais t=1
n converge par l’hypothèse H4 vers un une limite finie. Donc V n (X )k tend vers zéro
0
quand n tend vers l’infini. on conclut que les composantes de 1
n (X ) vérifient E[ n1 (X 0 )] = 0. Ceci

65
Chapitre 3. Régression linéaire empirique

montre que plim n1 (X 0 ) = 0. On a alors :

= plim β + (X 0 X)−1 
 
plimβ̂

= β + plim (X 0 X)−1 
 
" −1 #
1 0 1
= β + plim XX 
n n
" −1 #  
1 0 1
= β + plim XX plim 
n n
= β + Σ−1
XX × OK×1 = β

Normalité asymptotique

Tous les tests présentés dans les sections précédentes ont supposé la normalité des erreurs. Qu’en est-il
si l’on relâche cette hypothèse spécifique sur la distribution du vecteur . En utilisnat le théorème Central
limite on va établir la normalité asymptotique de β̂. Si la taille de l’échantillon tend vers l’infini, on se
base sur la distribution normale pour construire les tests asymptotiques sur le vecteur β.

Remarque 12 En pratique on raisonne, en supposant que σ est connu pour pouvoir utiliser la loi normale
au lieu de celle de student dans le cas où σ est inconnu.

Théorème 3 Supposons que les hypothèses H1 à H2 soient vérifiées, et soit αt la t-ième colonne de la
transposée de X (X’). Définissons le vecteur Zt = t αt et supposons
1 X
√ Zt vérifie le théorème central limite. Alors pour β̂ = (X 0 X)−1 X 0 y :
n

(a) dlim n(β̂ − β) ∼ N 0, σ 2 Σ−1

XX

(b) Si plim( n1 0 ) = σ 2 on a plim( n1 ˆ0 ˆ) = σ 2 avec ˆ = y − X β̂.

Preuve
(a) Notons que E(Zt ) = 0 et V (Zt ) = σ 2 αt αt0
Par conséquent :
n n
1X X
lim V (Zt ) = lim σ 2 αt αt0 = σ 2 ΣXX matrice définie positive d’après H4 .
n→∞ n n→
i=1 i=1

En vertu du théorème central limite, on a :


n
√ 1 X
Zt ∼ N 0, σ 2 ΣXX

dlim n(β̂ − β) = dlim √
n i=1

Notons que n(β̂ − β) = ( n1 X 0 X)−1 √1n X 0  et appliquons les résultats ci-dessous :
−1


1 0
dlim n(β̂ − β) = plim dlim(X 0 )
XX
n
∼ N 0, Σ−1 −1

XX (ΣXX )ΣXX

∼ N 0, Σ−1

XX

66
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes

(b) Pour la preuve de la seconde partie du théorème, on rappelle :

SCR = ˆ0 ˆ = ˆ0 M ˆ = ˆ0 [I − X(X 0 X)X 0 ] ˆ

Donc

 0  −1  
1 0 1 1 0 1 0
ˆ ˆ − Xˆ
 XX X ˆ et
n n n n
   
1 0 1 0
plim ˆ ˆ = plim   − O1×K Σ−1
XX OK×1 = σ
2
n n
en vertu du théorème de Slutsky et de l’hypothèse du théorème.

L’estimateur de Aitken de moindres carrés généralisés (MCG)

Si nous relâchons l’hypthèse d’homocédasticité des erreurs (i.eV () = σ 2 In ), nous obtenons une
extension du MCO appelé le modèle de moindres carrés généralisés.
On considère le modèle
y = Xβ +  (3.68)

– H1 : E(y) = Xβ
– H2 : Les erreurs sont non sphériques :

V (y) = V () = Σ une matrice définie positive

– H3 : Les régresseurs sont sont non stichastique i.e X est nonn aléatoire de rang K ssi la matrice
(X’X) est de format K × K.
– H3 : Multicolinéarité implique que y ∼ N M V (Xβ; Σ) avec

V (y) = Σ = σ 2 Ω (σ 2 supposé connu)

où X est une matrice des explicatives de format (n, K) et de rang K, et  un vecteur aléatoire de Rn
. On suppose que
E() = 0 et V () = σ 2 Ω

où Ω est une matrice symétrique définie positive connue. Pour constuire l’estimateur moindre carrés
généralisés BLUE, il est important de calculer les racines de Ω−1 .
On sait qu’il existe une matrice inversible H orthogogale telle que H 0 Ω−1 H = I et, par suite
H 0 H = Ω−1 . En posant y1 = Hy, X1 = HX et 1 = H, le modèle [3.68] s’écrit sous la forme équivalente :

y1 = X1 β + 1 (3.69)

où la matrice β de format (K,1) où le résidu 1 satisfait les hypothèses des moindres carrés ordinaires,
soit :
E(1 ) = 0 et V (1 ) = σ 2 I.

67
Chapitre 3. Régression linéaire empirique

On appelle estimateur de Aitken du modèle (1) l’estimateur MCO du modèle (2) :

β̂mcg = (X10 X1 )−1 y1 = (X 0 Ω−1 X)−1 X 0 Ω−1 y (3.70)

Propriétés de
E(β̂mcg ) = β; V (β̂mcg ) = σ 2 (X 0 Ω−1 X)−1 .

Théorème de Gauss Markov :


β̂mcg est l’unique estimateur linéaire sans biais de β qui minimise la variance de l’estimateur de toute
forme linéaire de β.
Un estimateur sans biais de σ 2 est

1 k2
kˆ ˆ0 Ω−1 ˆ
S2 = = (3.71)
n−K n−K

Si le résidu  est gaussien, β̂mcg est l’estimateur du maximum de vraisemblance de β.


(n−K)S 2
La v.a.r σ2 suit une loi de χ2 de degré de liberté ν = n − K et est indépendante de β̂mcg .
On en déduit les tests et régions de confiance concernant les composantes de β comme dans les cas
d’un modèle satisfaisant aux hypothèses des moindres carrés ordinaires.

L’estimateur MCG réalisable

Si Ω est inconnu, il existe au moins trois possibiltés estimer Ω.

1. On peut paramétriser la matrice Ω en terme de θ, un vecteur de dimension finie de paramètres


inconnus
Ω = Ω(θ)

par construction Ω(0) = I. Ce qui conduit au test d’hypothèse

H0 : Ω(0) = I ⇔ θ = 0

Si on ne rejette pas H0 alors β̂mcg = β̂mco

2. Si on suppose que Ω = Ω(θ), on utilise les résidus des MCO pour obtenir un estimateur consistent
de θ̂ et

Ω̂ = Ω(θ̂) estimateur qui dépend du type d’hétérocédasticité, de corrélation etc...

On définit l’estimateur de MCG réalisable par :

β̂mcg−r = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y


√ d
n(β̂mcg−r − β̂mcg ) → 0

et

n(β̂mcg−r − β) ∼ N (0, V )

68
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes

avec  −1 !
2 1 0 −1 −1
V = plim Smcg−r X Ω̂ X)
n

3. Si la forme de Ω(θ̂) est inconnue, d’autres calculs permettent de calculer la distribution asymptotique
de
√ d
n(β̂mcg−r − β) → N (0, D−1 CD−1 )

avec  
1 0 −1 −1
D = plim X Ω̂ X) X = D̂
n
 
1 0 −1 −1
C = plim X Ω̂ ΣΩ̂ X
n
avec Σ = V (y). D̂ est constent. Le problème est de trouver un estimateur constant de C sans
imposer des contraintes sur Σ matrice de variance covariance asymptotique D−1 CD−1 , matrice
robuste avec des restrictions particulières sur la distribution hétérogènes et on impose la dépendance
des observations.

Propriétés des estimateurs d’AIKEN

Le théorème ci-dessous est un cas particulier d’application au modèle à erreurs autorégressives d’un
théorème plus général s’appliquant à tout estimateur "Aitken-réalisable". Il montre que si Ω est est
remplcé par son estimateur convergent de cette matrice dans la formule β̂mcg , on obtient un estimatteur
de tβmcg ,qui la même distribution limite que β̂mcg .

Théorème 4 Soit y)Xβ + , avec E() = 0

ρn−1
 
1 ρ ...
 ρ 1 
E(0 ) = σ 2 Ω = σ 2   , X et non stochastique
 
..
 ... . 
ρn−1 ... 1
1
X 0 Ω−1 X = Q soit une latrice défine

Si ρ̂ est un estimateur convergent de ρ et supposons que limn→∞ n

positive. Soit H la matice de transformation telle que H 0 H = Ω, soit [X 0 H 0 ]t la t-ième colonne de X 0 H 0 ,


et supposons que les vecteurs Zt = (H)t [X 0 H 0 ] vérifient le théorème central limite.
Considérons les deux estimateurs
−1 0
β̂ X 0 Ω−1 X
= X Ωy et
−1
ˆ

β̂ = X 0 Ω̂−1 X X 0 Ω̂y


. . . ρ̂n−1
 
1 ρ̂
 ρ̂ 1 
Ω̂ = 
 
.. 
 ... . 
ρ̂n−1 ... 1

69
Chapitre 3. Régression linéaire empirique

Sous les hypotèes additionnelles que :

1  0 −1  1  0 −1 
plim X Ω̂ X = lim X Ω̂ X = Q
n n
1
pilm √ (X 0 Ω−1  − X 0 Ω−1 ) = 0
n
1
plim (0 ) = 0
n

on a les résultats suivants :


√ √ ˆ
1. dlim n(β̂ − β) = dlim n(β̂ − β) ∼ N (0, σ 2 Q−1 )
ˆ ˆ
2. plims2 = σ 2 avec s2 = 1
n−k (y − X β̂)Ω̂−1 (y − X β̂)

Preuve Notons tout d’abord que


 
1 −1 0 1
n(β̂ − β) = X 0 Ω−1 X X √ Ω et que
n n
X
X 0 Ω = X 0 H 0 H = Zt .

On a E(Zt ) = 0 ; d’autre part, comme E(H)2t = σ 2 et comme


n
X 1 σ2
([X 0 H 0 ]t [X 0 H 0 ]t ) = lim E(Zt Zt0 ) = lim (X 0 Ω−1 X) = σ 2 Q
i=1
n n

Zt ∼ N (0, σ 2 Q).
P
Par conséquent, en vertu du théorème central limite, dlim
Donc

   
1 0 −1 1 0 −1
dlim n(β̂ − β) = plim (X Ω X dlim (X Ω 
n n
∼ N (0, (σ 2 Q)Q−1 ) = N (0, σ 2 Q−1 )

En effet :


    
ˆ 1 0 −1 1 0 −1 1 0 −1
n(β̂ − β) = X Ω̂ X (X Ω̂  , dlim (X Ω  ∼ N (0, σ 2 Q)
n n n

et donc
ˆ
dlim(β̂ − β) =∼ N (0, σ 2 Q−1 )

Pour montrer le seconde partie du théorème, notons que la limite en probabilité de 7

1 ˆ ˆ
(y − X β̂)Ω̂−1 (y − X β̂) est égale à σ 2 .
n−k

La preuve est exactement la même que celle de la section [1.5] et il suufit de remplacer y par Hy et X par
ˆ
HX. Comme plimβ̂ = β = plimβ̂ et comme plimΩ̂ = Ω, le théorème de Slutsky implique que s2 = σ 2 .

70