Vous êtes sur la page 1sur 33

Chapitre 1

Introduction générale aux bases de


l’économétrie

1.1 CONNAISSANCES PRÉREQUISES


– Cours de méthématiques première année
– Probabilité, probabilité jointe, Probabilité conditionnelle
– Indépenpendance de deux événements
– Théorème de la probabilité totale
– Variables aléatoires discrètes et continues
– Distribution et densité (cas univarié et multivarié)
– Espérance Mathématique, Variance et propriétés
– Variables aléatoires binomiale et uniforme
– Variable Normale : propriétés et emploi des tables

1.2 DÉFINITION DE L’ÉCONOMÉTRIE et Démarche éconé-


trique
1.2.1 Définition

L’économétrie peut être définie comme l’application des méthodes statistiques à l’étude des phéno-
mènes économiques.
Branche des sciences économiques, elle fournit des méthodes permettant l’établissement des lois
économiques, la vérification d’hypothèses et la quantification des relations entre variables et ce à partir
des données chiffrées tirées des observations.
De ce fait, l’Econométrie constitue un complément indispensable à l’analyse économique. Ainsi, toute
recherche en sciences économiques fini toujours par la réalisation des travaux d’économétrie à un moment
ou un autre. Et c’est pour cette raison que dans tous les pays, la formation des économistes suppose
l’acquisition de ces techniques.

1
Chapitre 1. Introduction générale aux bases de l’économétrie

1.2.2 Démarche économétrique

Plus précisément la démarche économétrique comporte trois étapes :

Etape 1 Construire un modèle testable qui soit justifié par la théorie économique et qui puisse être
vérifié statistiquement ;

Etape 2 Estimer les paramètres du modèle ;

Etape 3 Vérifier que les écarts entre les observations et les résultats théoriques du modèle ne sont pas
systématiques.

Fig. 1.1 – Schéma de construection d’un modèle économétrique

Commentaires du schéma
Dans la réalité l’économiste part d’une analyse théorique des déterminants de la variable étudiée en
identifiant les variables pouvant l’expliquer et le type de relations qu’elles sont susceptibles d’avoir avec la
variable expliquée. Ces éléments analytiques vont être traduits en une équation mathématique mettant en
relation la variable endogène (variables à expliquer ou régréssande) et ses principales variables explicatives
(régresseurs). En donnant aux variables les valeurs enregistrées dans la réalité, l’économétrie permet à
la fois de tester la validité du modèle et d’en chiffrer les paramètres. Elle rend possible la modélisation,

2
1.2. DÉFINITION DE L’ÉCONOMÉTRIE et Démarche éconétrique

c’est à dire la représentation simplifiée des phénomènes étudiés, par un ensemble cohérent de relations
mathématiques quantifiées. La modélisation est une approche qui consiste à approximer la réalité par un
modèle plus simple, ce qui ne pourra jamais représenter complètement la réalité dans toute sa complexité
A son tour la modélisation constitue un enrichissement important, sous la forme d’une aide à la
décision, en rendant possible la simulation, l’optimisation ou la prévision. La maxime du modélisateur
dit que " tous les modèles sont faux, mais certains sont utiles "
La simulation consiste à calculer les conséquences d’un ensemble d’hypothèses représentées par des
valeurs des variables explicatives. La prévision étend cet ensemble à des périodes futures. L’optimisation
adopte le chemin inverse et a pour but de déterminer les valeurs optimales de certaines variables en
fonction d’objectifs fixés. La plupart des grands centres de décision, qu’il s’agisse des banques, des agences
gouvernementales, des institutions internationales et des grandes entreprises utilisent régulièrement ces
techniques. Les constructeurs d’avions utilisent les modèles économiques pour analyser la demande
actuelle et future. Les Ministères des Finances, de l’économie ou du plan construisent des modèles
Macro-économiques pour la prévision et pour l’évaluation des politiques économiques. Les institutions
non gouvernementales d’aide au développement construisent et actualisent régulièrement des modèles des
grandes régions du monde et des principales économies nationales. Par conséquent, pour travailler dans ces
institutions, il est indispensable de pouvoir manier les techniques économétriques (souvent sophistiquées
et à haut niveau). Il en résulte aussi que pour pouvoir travailler avec ces institutions, il faut maîtriser le
langage commun. : Modèle économétrique.
En économétrie, nous pouvons considérer un modèle comme une représentation formalisée d’un
phénomène sous forme d’équation dont les variables sont des grandeurs économiques.
Son objet est de représenter les traits les plus marquants d’une réalité qu’il cherche à styliser. C’est
donc l’outil que le modélisateur utilise lorsqu’il cherche à comprendre et à expliquer les phénomènes.
Pour ce faire, il émet des hypothèses et explicite des relations. Le modèle est donc une représentation
schématique et partielle d’une réalité naturellement complexe. Toute la difficulté de la modélisation
consiste à ne retenir que la ou les représentations intéressantes pour le problème que le modélisateur
cherche à expliquer. Ce choix dépend de la nature du problème, du type de décision ou d’étude à effectuer.
La même réalité peut aussi être formalisée de diverses manières en fonction des objectifs. Comme le modèle
ne peut pas tout décrire, il restera toujours une partie inexpliquée qui sera supposée aléatoire. Le calcul
des probabilités est alors introduit pour prendre en compte la partie inexpliquée par le modèle. Dans le
domaine de la modélisation, la randomisation est introduite à titre d’hypothèse.

1.2.3 Historique
Premiers développements

Les tentatives de modélisation à partir de données empiriques ont une longue histoire que l’on peut
faire remonter aux "mathématiciens" anglais du XVII ème siècle et auxquels sont attachés les noms de

3
Chapitre 1. Introduction générale aux bases de l’économétrie

William Petty , Gregory King et Charles Devenant . Gregory King chercha par exemple à établir une loi
entre d’une part les déficits des récoltes de blé et d’autre part les variations du prix du blé . A partir
du XVIII ème et surtout du XIX ème siècle les économistes tentèrent d’ établir des lois économiques
à l’instar des lois de la physique newtonnienne . Ce projet fut mené en termes scientifiques par Moore
puis par Schultz , Lenoir , Tinbergen et Frisch entre 1914 et 1938 . Les deux grands axes de recherche
furent alors l’estimation d’une loi de demande ( ce qui conduisit au problème de l’identification ) et celle
des cycles économiques . Clément Juglar ( 1819 - 1905) fut le premier à utiliser les séries temporelles
pour analyser les cycles et fut suivit par Kuznets et Kondratieff . Toutefois les théoriciens du cycle se
limitèrent à l’étude de la périodicité du cycle et ne s’attachèrent guère à celle de la quantification des
relations causales sous jacentes. Leur apport à l’économétrie est donc resté marginal.

La naissance de l’économétrie moderne

L’économétrie moderne est née à la fin des années 30 et pendant les années 40. Elle est la résultante de
trois phénomènes : le développement de la théorie de l’inférence statistique à la fin du XIX ème siècle ; la
théorie macroéconomique et la comptabilité nationale qui offrent des agrégats objectivement mesurables
( contrairement à la microéconomie fondée sur l’utilité subjective ) ; enfin, et surtout, la forte demande
de travaux économétriques, soit de la part d’organismes publics de prévision et de planification, soit
de la part d’entreprises qui ont de plus en plus besoin de modéliser la demande et leur environnement
économique général. A partir des années 60 l’introduction de l’informatique et des logiciels standardisés
va rendre presque routinière l’utilisation de l’économétrie.
En simplifiant de façon sans doute abusive l’on peut distinguer deux grandes périodes de la recherche
économétrique moderne. Jusqu’à la fin des années 70 l’économétrie va étudier la spécification et la
solvabilité de modèles macroéconomiques à équations simultanées. Puis à la suite de ce que l’on a appelé
la révolution des anticipations rationnelles et de la critique de Lucas, la recherche se tournera davantage
vers la microéconomie et l’analyse des séries temporelles.

Les modèles économétriques d’équations simultanées

La plus grande partie de la recherche économétrique américaine ( effectuée pour une large part
au sein de la Cowles Commission ) entre 1944 et 1960 porta sur les conditions d’estimation des
modèles macroéconomiques d’équations simultanées comportant un élément aléatoire . En 1939 Tinbergen
construisait un modèle des cycles économiques comportant 31 équations de comportement de 17 identités
. Chacune des équations était estimée au moyen de la méthode des moindres carrés, ce qui, nous le
verrons ne pouvait conduire qu’à des estimations inconsistentes. En 1944 Haavelmo posait les conditions
générales de solvabilité. Entre 1945 et 1950 Klein présentait ses premiers modèles dont la solution était
obtenue par la méthode du maximum de vraisemblance. En 1949 Koopmans déterminait les conditions de
solvabilité dans le cas d’un modèle linéaire. En 1954 Theil introduisait la méthode des doubles moindres

4
1.2. DÉFINITION DE L’ÉCONOMÉTRIE et Démarche éconétrique

carrés permettant des calculs effectifs. Toutefois la généralisation des modèles économétriques à équations
simultanées utilisée pour des modèles prévisionnels se heurta pendant longtemps au manque de moyens
informatiques. Le premier modèle utilisé à des fins prévisionnelles fut celui de Klein - Goldberger en
1955. D’autres modèles suivirent à la fin des années 50, en particulier celui de la Brookings Institution.
Avec l’avancée des techniques informatiques les années 60 et le début des années 70 virent une éclosion
de modèles macroéconomiques jouant un rôle important dans la prévision. Le modèle dit de Brookings
comprenait ainsi 400 équations. Aprés 1970 furent commercialisés des modèles standards comme celui dit
de Wharton. La stabilité relative de l’environnement économique jusqu’en 1974 leur assura un certain
succès.

L’analyse de la régression

L’importance des moyens consacrés à la résolution des problèmes d’identification laissa quelque peu
dans l’ombre la recherche sur la corrélation. Le principal obstacle théorique était le traitement de
l’autocorrélation des résidus aléatoires. En 1950 Durbin et Watson élaboraient leur célèbre test du même
nom qui test l’autocorrélation des résidus à l’ordre un. Les années 50 virent d’autre part l’apparition de
modèles à retards échelonnés avec les travaux de Koyck , d’Almon , de Cagan et de Friedman .

La révolution des anticipations rationnelles et la remise en cause des modèles macroécono-


métriques

Les années 70 furent celles de la remise en cause radicale des modèles macroéconométriques élaborés
pendant les années 60. Une des raisons vient de ce que l’abandon du système de Bretton Woods
puis le quadruplement du prix du pétrole conduisirent à des bouleversements qui ne pouvaient être
anticipés par les modèles économétriques. Au niveau théorique il apparut rapidement que les modèles
macroéconométriques ne possédaient pas de fondations microéconomiques suffisamment solides. En
particulier Lucas montra dés 1972 que si les agents forment leurs anticipations sur une base endogène à
partir de leur expérience il n’est plus possible de considérer que les coefficients structurels des modèles
macroéconométriques restent inchangés. Ainsi toute mesure de politique économique doit conduire à un
changement dans le comportement des agents tant au niveau de la consommation que de l’investissement.
Ceci remet bien évidemment en cause les modèles macroéconométriques traditionnels qui ne distinguaient
pas les paramètres expliqués par des causes structurelles de ceux expliqués par la réponse aux mesures
de politiques économique. Une estimation de ces deux types de paramètres a été effectuée par Lucas et
Sargent qui les obtinrent directement comme solutions de modèles d’optimisation dynamique. Sur cette
base la recherche économétrique des années 80 porta sur les problèmes d’agrégation des préférences des
agents, d’inégalité dans la répartition de l’information et sur le processus d’apprentissage.

5
Chapitre 1. Introduction générale aux bases de l’économétrie

Vers une économétrie sans théorie ?

La critique de Lucas a ouvert la voie à des critiques plus radicales et a conduit certains économètres
comme Sims à dénier à la théorie toute pertinence dans l’estimation des modèles. L’approche même en
termes d’anticipations rationnelles est alors rejetée dans la mesure où elle nécessite une connaissance à
priori des délais. Plus fondamentalement les modèles macroéconométriques reposaient sur une distinction
entre variables "endogènes" et "exogènes". Cette distinction qui suppose une connaissance théorique à
priori est rejetée. Cette critique a conduit à retenir des modèles autorégressifs où n’existe pas à priori une
classification entre variables endogènes et exogènes. La question de l’utilité de tels modèles reste toutefois
controversée dans la mesure où ils ne fournissent pas une explication structurelle de l’activité économique.

6
Chapitre 2

ESTIMATION PONCTUELLE

Problème posé et formalisation


Dans une population dont chaque individu est indicé par i ∈ I, on s’intéresse à un caractère. Ce
caractère est représenté par une variable aléatoire réelle X sur l’espace probabilisé (X, T, Pθ ). Le paramètre
θ ∈ R de la loi de probabilité Pθ est inconnu.
On cherche à estimer ce paramètre inconnu θ c’est-à-dire à déterminer la loi exacte Pθ de X :

X −→ Pθ

2.1 Échantillon aléatoire, Estimation,Estimateur


2.1.1 Échantillon aléatoire

Pour un choix de données d’individus (x1 , . . . , xN ) ∈ X N sera la suite des réalisations du


caractère. Pour un choix quelconque d’individus (X1 , . . . , Xn ), suite de variables aléatoires réelles
indépendantes, par définition un échantillon de taille N. En d’autres termes un échantillon est une suite
de variables aléatoires indépendantes ayant la même distribution (i.i.d.).

Exemple 2.1.1
Tailles des N étudiants de troisième année de sciences économiques de distribution normale de
moyenne µ et de variance σ 2 , N (µ, σ 2 ) et indépendantes, Xi , i = 1, . . . , N ).

2.1.2 Estimateur

On appelle estimateur de θ toute application mesurable Θ̂. C’est une fonction de variables aléatoires
observables, ne dépendant pas de paramètres inconnus.

Θ̂ : X n :−→ R (2.1)

La Méthode Heuristique ou Méthode des Moments permet d’obtenir les estimateurs suivants. L’esprance
µ = E(X), pour une loi quelconque P (µ), est estimée par la moyenne empirique sous les hypothèses de
la loi des grands nombres.

7
Chapitre 2. ESTIMATION PONCTUELLE

PN
i=1 Xi
µ̂ = = X̄ (2.2)
N
De même si on veut estimer la variance σ 2 = V (X), on utilise la variance empirique.
PN
i=1 (Xi − µ̂)2
σ̂ 2 = (2.3)
N

Il existe une méthode systématique de recherche d’estimateur, qui fera l’objet du troisième paragraphe.

2.1.3 Estimation

On appelle estimation de θ, pour un échantillon x1 , x2 , . . . , xN la valeur

θ̂ = Θ̂(x1 , x2 , . . . , xN ) (2.4)

prise pour une telle fonction pour des réalisations particulières des variables aléatoires.

Exemple 2.1.2
µ̂ = 175; σ̂ 2 = 25

On distingue

• la valeur inconnue et certaine θ

• la valeur aléatoire, estimateur de θ

• la valeur connue et certaine θ̂, estimation de θ pour un échantillon observé (x1 , x2 , . . . , xN )

2.2 Fonction de Vraisemblance


Soient x1 , . . . , xN des réalisations aléatoires, X1 , . . . , XN . Soit fX (x1 , x1 , . . . , xN |θ1 , . . . , θk ) la densité
jointe des variables au point (x1 , x1 , . . . , xN ) ; cette densité dépend des paramètres inconnus θ1 , . . . , θk . Si
l’on considère cette densité jointe comme une fonction des paramètres inconnus, on l’appelle fonction de
vraisemblance. Ainsi la vraisemblance de l’échantillon (x1 , x1 , . . . , xN ) relative au vecteur de paramèrtres
θ est l’application

θ −→ L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ou simplement L(θ1 , . . . , θk )

telle que


P (X1 = x1 , . . . , Xn = xN ), si X est discrète ;
L(θ1 , . . . , θk ) = (2.5)
g(x1 , . . . , xN ), si |X| est continue.
Par définition, si les observations sont indépendantes et identiquement distibuées la fonction de
vraisemblance de l’échantillon (x1 , x1 , . . . , xN ) est :
 N
Πi=1 P (Xi = xi ), si X est discrète ;
L(θ1 , . . . , θk ) = (2.6)
ΠNi=1 f (xi ), si X est absolument continue.

8
2.2. Fonction de Vraisemblance

Note
Les paramètres θi sont ici des paramètres de la vraisemblance ; en d’autres termes, elle n’est définie
qu’après l’observation des réalisations des variables ! La vraisemblance est une notion statistique, tandis
que la densité jointe est une notion de probabilité.
Le contenu intuitif est donc la probabilité que l’échantillon ait pris les valeurs qu’il a prises !

2.2.1 Information au sens de Fisher

Définition 1
L’information (au sens de Fisher,) contenue dans un échantillon (X1 , X2 , . . . , Xn ) relative au vecteur
de paramètre θ est définie par :
" 2 #
∂ ln L(X1 , . . . , XN |θ
In (θ) = E (2.7)
∂θ

Théorème 1
Si le domaine X est indépendant de θ et si L vérifie les hypothèses de régularité suivantes (hypothèses
vérifiées par les lois usuellles, binomiale, poisson, normale, exponentielle,......) :

C1 Les trois premières dérivées de ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) par rapport à θ sont définies et


continues pour presque tout xi et pour tout θ. Cette condition assure l’existence d’un certain
développement de Taylor et d’une variance finie des dérivées de ln L

C2 Les conditions nécessaires pour prendre l’espérance des premières et deuxième dérivées de f (xi |θ)
sont satisfaites.
3
f (xi |θ)
C3 Pour toute valeur de θ, ∂∂θlnj ∂θ est inférieure à une fonction ayant une espérance finie. Cette

k ∂θ l

condition permet de tronquer le développement de Taylor.

Alors
   
∂ ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ∂f
IN (θ) = N I1 (θ) = N ∗ E =E
∂θ ∂θ

∂ 2 ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
 
IN (θ) = −E
∂θ2
 
∂ ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
IN (θ) = V
∂θ

2.2.2 Inégalité de RAO-CRAMER

Sous les mêmes hypothèses de régularité de L et X indépendant de θ, un estimateur sans biais vérifie
l’inégalité
1
V (Θ̂) ≥ (2.8)
IN (θ)
1
IN (θ) est donc la borne inférieure d’un tel estimateur.

9
Chapitre 2. ESTIMATION PONCTUELLE

Définition 2
Un estimateur Θ̂ sans biais est dit efficace s’il vérifie
1
V (Θ̂) = (2.9)
IN (θ)
Il est donc dans ce cas, estimateur de variance, minimale et donc celui qui converge plus vite.

Remarque 1

• On peut interpréter plus clairement la notion d’information au sens de Fisher.


Le meilleur estimateur, le plus efficace parmi les estiameturs sans biais est celui dont la variance
est la plus faible. La qualité d’un estimateur varie donc en fonction de l’inverse de sa variance.
En conséquence on peut appeler l’information contenue dans l’estimateur Θ̂ la quantité.
1
IΘ̂ (θ) = (2.10)
V (Θ̂)

L’inégalité de RAO-CRAMER exprime donc que, pour tout estimateur sans biais Θ̂ :

IΘ̂ ≤ IN (θ) (2.11)

L’estimateur efficace vérifiant IΘ̂ = IN (θ) est donc que la quantité telle que la quantité d’information
qu’il contient est égale à celle contenue dans l’échantillon.

• L’inégalité précédente, peut être étendue aux estimateurs biaisés. Si E(Θ̂) = φ(θ) et sous les mêmes
conditions de régularité de L et X indépendant de θ
[ϕ0 (θ)]2
IΘ̂ (θ) ≥ (2.12)
IN (θ̂)

2.3 Méthode du Maximum de vraisemblance


On suppose que la loi de probabilité de X dépend du vecteur des paramètres inconnus θ.

Définition 3
On appelle estimation du maximum de vraisemblance la valeur, θ̂ qui maximise pour
un échantillon donné, la vraisemblance L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ) ou la log vraisemblance,
ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ). De cette estimation θ̂ = ϕ(x1 , x2 , . . . , xN ), on déduit l’estimateur du maxi-
mum de vraisemblance
Θ̂ = ϕ(X1 , . . . , XN )

2.3.1 Principe

On choisit comme estimation des paramètres, θi , les valeurs de ces paramètres qui maximisent
L(θ1 , . . . , θk ). Dans le cas discret, on choisit comme estimation les valeurs des θi qui donne la plus
grande probabilté d’avoir obtenue le résultat exprérimental (x1 , x1 , . . . , xN ).

10
2.3. Méthode du Maximum de vraisemblance

Dans le cas où la loi de X dépend de k paramètres

P (θ1 , . . . , θk )

le principe est le suivant :

♠ Si X ne dépend pas de de θi , ∀i ∈ (1, 2, . . . , k).

♠ Si
∂L ∂ 2 L ∂2L
, , ,
∂θi ∂θi ∂θi ∂θj2
2

existent ∀(i, j) ∈ (1, 2, . . . , k)2 , ∀(x1 , x2 , . . . , xN ) ∈ X n ,

∀(θ1 , θ2 , . . . θk ) ∈ Rk

l’estimation dite du maximum de vraisemblance

(θ̂1 , θ̂2 , . . . θ̂k ) = (ϕ1 (x1 , x2 , . . . , xN ), . . . , ϕk (x1 , x2 , . . . , xN )

est solution du système


∂ ln L
= 0 (2.13)
∂θi θ1 =θ̂1 ,...θk =θ̂k
.. .. ..
. . . (2.14)

∂ ln L
= 0 (2.15)
∂θi θ1 =θ̂1 ,...θk =θ̂k

La matrice M(k,k) engendrée par

∂ 2 ln L
mi,j = est définie négative
∂θi ∂θj

L’estimateur du maximum de vraisemblance est


 
Θ̂ = Θ̂1 , . . . , Θ̂k = (ϕ1 (x1 , x2 , . . . , xN ), . . . , ϕk (x1 , x2 , . . . , xN ))

2.3.2 Propriétés élémentaires de la fonction de vraisemblance.

Propriété 1 L’espérance du score ou des dérivées premières est nulle :


!
∂ ln L(θ1 , . . . , θ̂k )
E =0
∂θ

Preuve On supposera que le modèle est régulier, c.a.d :

1. Θ est un ouvert de RK

2. il existe une mesure µ telle que Pθ0 << µ et sa densité f (y; θ0 ) est derivable par rapport θ

11
Chapitre 2. ESTIMATION PONCTUELLE

R
3. θ 7−→ f (y; θ)dµ(y) est dérivable par rapport à θ et
Z Z
∂ ∂f (y; θ)
f (y; θ)dµ(y) = dµ(y)
∂θ ∂θ
On a :
  Z
∂ ln l(Y ; θ0 ) ∂ ln f (y; θ0 )
E = f (y; θ0 )dµ(y)
∂θ ∂θ
R ∂f (y;θ0 )
∂θ
= f (y; θ0 )dµ(y)
f (y; θ0 )
Z

= f (y; θ)dµ(y) = 0
∂θ
| {z }
=1∀y

Propriété 2 Trois expressions équivalentes de la matrice d’information de Fisher :


 
∂ ln f (Y ; θ0 )
I(θ0 ) = V
∂θ
 
∂ ln f (Y ; θ0 ) ∂ ln f (Y ; θ0 )
= E ;
∂θ ∂θ0
 2 
∂ ln f (Y ; θ0 )
= −E
∂θ∂θ0
Preuve
a) La première égalité est la définition.
b) La seconde égalité est une conséquence directe de la propriété précédente.
c) La troisième égalité vient de ce que :
∂ 2 ln f (y; θ)
 
∂ ∂ ln f (y; θ)
=
∂θ∂θ0 ∂θ0 ∂θ
 
∂ 1 ∂f (y; θ)
=
∂θ0 f (y; θ) ∂θ
 
∂f (y; θ) ∂f (y; θ) 1 ∂ ∂f (y; θ)
= − +
∂θ ∂θ0 f (y; θ) ∂θ0 ∂θ
∂ ln f (y; θ) ∂ ln f (y; θ) 1 ∂ 2 f (y; θ)
= − +
∂θ ∂θ0 f (y; θ) ∂θ∂θ0
et aussi

   Z  
1 ∂ ∂f (y; θ) 1 ∂ ∂f (y; θ)
E = f (y; θ)dµ(y)
f (y; θ) ∂θ0 ∂θ f (y; θ) ∂θ0 ∂θ
Z 2
∂ f (y; θ)
= dµ(y)
∂θ∂θ0
∂2
Z
= f (y; θ)dµ(y) = 0
∂θ∂θ0
| {z }
1∀y

Donc la fonction E ln f (y; θ) est maximale en θ0 . De plus l’inegalité est stricte si pour tout θ autre que
θ0 , ln f (y; θ) 6= ln f (y; θ0 ) sur un ensemble A tel que µ(A) 6= 0.

12
2.3. Méthode du Maximum de vraisemblance

Remarque 2 Il peut y avoir plusieurs solutions à l’équation


 
∂ ln f (y; θ)
E =0
∂θ
mais une seule correspond au maximum de E (ln f (y; θ)) si le paramètre est identifié, et c’est la vraie
valeur du paramètre θ, ( θ0 .)

2.3.3 Identification

La fonction g(θ) du paramètre est identifiable ssi pour tout couple (θ1 , θ1 ) de Θ tel que g(θ1 ) 6= g(θ2 )
et f (y; θ1 ) 6= f (y; θ2 ) sur un ensemble de valeurs de y de mesure µ non nulle.

Proposition 1 θ0 est identifiable ssi θ0 est l’unique θ ∈ Θ qui maximise E[ln f (Y ; θ)].

Preuve On a
f (y; θ)
E(ln f (y; θ)) − E(ln f (y; θ)) = E ln
f (y; θ0 )
Comme la fonction ln est concave, l’inégalité de Jensen1 s’applique pour montrer que
f (y; θ) f (y; θ)
E ln ≤ ln E
f (y; θ0 ) f (y; θ0 )
Z
f (y; θ)
= ln f (y; θ0 )dy
f (y; θ0 )
Z
= ln f (y; θ)dy
| {z }
=1∀y
= 0.

Exemple 2.3.1 Une urne contient 3 boules, qui peuvent être soit rouges, soit blanches.Le nombre
de boules rouges est inconnu. On tire deux boules sans remise. On obtient deux boules rouges. On
demande d’estimer le nombre de boules rouges que contient l’urne à l’aide du principe du maiximum
de vraisemblance.
Solution
La vraisemblance est donnée dans ce cas par la probabilité d’obtenir le résultat expérimental (tirage de
2 boules), considérée comme fonction des 4 valeurs possibles du paramètre inconnu (n=0,1,2,3).

L(0) = P (R1 ∩ R2 |n = 0) = 0

L(1) = (R1 ∩ R2 |n = 1) = 0

L(2) = P (R1 ∩ R2 |n = 0)

= P (R2 ∩ R1 |n = 2) ∗ P (R1 |n = 2)
1 2 1
= . =
2 3 3
Donc l’estimation est n̂ = 3
1 1Pour toute fonction concave f, Ef (X) ≤ f (EX)

13
Chapitre 2. ESTIMATION PONCTUELLE

Exemple 2.3.2 On demande d’estimer par maximum de vraisemblance le paramètre p d’une loi bino-
miale B(n, p)
Rappel

n = nombre d’essais indépendants

p = probabilité de sucés lors de chaque essais

Y = nombre de succès est B(n,p)

P (Y = r) = Cnr pr (1 − p)n−r

Solution
On peut écrire :
n
X
Y = Xi
i=1

Xi = 1 Si l’essai i donne un succés

Xi = 0 Sinon

Pn
– On observe les réalisations (x1 , . . . , xn ). Le nombre de succès observé est r = i=1 xi .
– On a :
f (x1 , . . . , xn |p) = pr (1 − p)n−r (car l’ordre des réalisations est donné)

– En considérant cette densité comme une fonction du paramètre inconnu p, on a la fonction de


vraisemblance L :
L(p) = pr (1 − p)n−r

– Pour maximiser cette fonction, il est commmode de maximiser son logarithme. On obtient la
fonction log-vraisemblance ci-dessous à maximiser :

l(p) = log L(p) = r log(p) + (n − r)log(1 − p)

Les conditions du premier ordre donnent :

dl(p) r n−r
= − =0
dp p 1−p
r n−r 1−p n−r
=⇒ = =⇒ =
p 1−p p r
1 n r
=⇒ − 1 = − 1 =⇒ p̂ =
p r n

14
2.3. Méthode du Maximum de vraisemblance

– On estime donc p par le poucentage de succès observés. On vérifie si on a bien un maximum par
les conditions du second ordre :
d2 l(p) r n−r
=− 2 −
dp2 p (1 − p)
On évalue le hessien au point p̂

d2 l(p) n2 n2 1 1
2
|p=p̂ = − − = −n2 ( + )<0
dp r n−r r n−r

On a bien un maximum.

Exemple 2.3.3 On vous demande d’estimer par maximum de vraisemblance les paramètres µ et σ 2 de
l’exemple [2.1.1] à partir d’un échantillon aléatoire (Xi , i = 1, . . . , n).
Solution

• Par définition, la fonction densité de la loi normale est :


 
2 −1/2 1 2
fXi (xi ) = (2πσ ) exp − 2 (xi − µ)

• En vertu de l’indépendance :
n n  
2
Y
2 −n/2
Y 1
fX (x1 , . . . , xn |µ, σ ) = fXi (xi ) = (2πσ ) exp − 2 (xi − µ)2 (2.16)
i=1 i=1

• En considérant la fonction [2.16] comme fonction des paramètres inconnus, on obtient la fonction de
vraisemblance :
n  
2 2 −n/2
Y 1
L(µ, σ ) = (2πσ ) exp − 2 (xi − µ)2 (2.17)
i=1

En prenant le logarithme de [2.17] on obtient la log-vraisemblance :


n
n n 1 X
l(µ, σ 2 ) = ln L(µ, σ 2 ) = − ln(2π) − ln(σ 2 ) − 2 (xi − µ)2 (2.18)
2 2 2σ i=1

qui est à maximiser par rapport à µ et σ 2 .


Les conditions du premier ordre s’écrivent :
n
dl(µ, σ 2 ) 2 X
= (xi − µ̂)2 = 0 (2.19)
dµ 2σ 2 i=1

n
dl(µ, σ 2 ) n2 1 X
= − + (xi − µ̂)2 = 0 (2.20)
dσ 2 2σ̂ 2 2σ̂ 4 i=1

En résolvant les équations [2.19] et [2.20] nous obtenons :


n
1X
µ̂ = xi = x̄ (2.21)
n i=1
n n
1X 1X
σ̂ 2 = (xi − µ̂)2 = (xi − x̄)2 (2.22)
n i=1 n i=1

15
Chapitre 2. ESTIMATION PONCTUELLE

Pour vérifier que les estimateurs maiximisent la log-vraisemblance on doit montrer que la matrice
Hessienne des dérivées secondes évaluées aux valeurs estimées est définie négative (cf cours de Math3
Mr. Ly)
Les dérivées partielles secondes valent :

∂ 2 l(x, θ) n
= −
∂µ2 σ2
N
∂ 2 l(x, θ) n 1 X
= − − (xi − µ)2
∂(σ 2 )2 (σ 2 )2 (σ 2 )3 i=1
N
∂ 2 l(x, θ) 1 X
= (xi − µ)
∂(σ 2 )∂µ σ 2 i=1

La matrice Hessienne évaluée aux valeurs des estimateurs on devient :

− σ̂n2
 
0
H=
0 − (σ̂n2 )2

Cette matrice est définie négative car toutes ses valeurs propres sont négatives donc on a bien un
maximum.

2.4 PROPRIÉTÉS DES ESTIMATEURS


2.4.1 Estimateur sans biais

Définition 4 Un estimateur θ̂ de θ est dit sans biais si l’espérience de θ̂ est égale à la vraie valeur θ :

E(θ̂) = θ

Remarque 3 Le risque quadratique d’un estimateur est définie par :

R(θ̂) = V (θ̂) + (E(θ̂ − θ)2 )

Pour un estimateur sans biais, le risque quadratique, est égale à sa variance. On dit qu’un estimateur θ̂2
est preferable a un estimateur θ̂2 si R(θ̂2 , θ) << R(θ̂1 , θ)) pour tout θ.

Exemple 2.4.1 Soit un échantillon aléatoire (Xi , i = 1, . . . , n) avec E(X) = µ pour tout i et V (Xi ) = σ 2
pour tout i. On va montrer que :
PN
i=1 Xi
µ̂ = X̄ = (2.23)
N
PN
− X̄)2
i=1 (Xi
s2 = (2.24)
N −1
sont sans biais.

Démonstration En ce qui concerne la moyenne :


 Pn 
i Xi 1 1
E(µ̂) = E = E(Xi ) = nµ = µ
n n n

16
2.4. PROPRIÉTÉS DES ESTIMATEURS

La Variance
" N
# " N
#
X 2 X
Xi2 2

E Xi − X̄ = E − 2Xi X̄ + X̄
i=1 i=1
" N N N
#
X X X
= E Xi2 −2 Xi X̄ + X̄ 2

i=1 i=1 i=1


" N
#
X
= E Xi2 − N X̄ 2
i=1
P 
N
Xi2
" N
# N
!
X 2 X E i=1
⇒E Xi − X̄ =E Xi2 −
i=1 i=1
N
et que !
N
X N
X N
X
E Xi2 = E(Xi2 ) = (µ + σ 2 ) = N (µ + σ 2 )
i=1 i=1 i=1

car σ 2 = E(Xi2 ) − µ et donc σ 2 + µ = E(Xi2 )


D’autre part
N
!2 
N N −1 X
N

X X X
E Xi = E Xi2 + 2 ∗ Xi Xj 
i=1 i=1 i=1 j=1
N
X N
X −1 X
N
= E(Xi2 ) + 2 E(Xi Xj )
i=1 i=1 j=1
| {z }
N (N −1)/2

Mais E(Xi2 ) = σ 2 + µ, et, par l’indépendance

E(Xi Xj ) = E(Xi )E(Xj ) = µ2

Donc
N
! N
X X 2N (N − 1) 2
E Xi2 = E(Xi2 ) = N (σ 2 + µ) + µ
i=1 i=1
2
= N σ 2 + N µ2 + N 2 µ2 − N µ2 = N (σ 2 + N µ2 )
P 
1 N
Donc NE i=1 Xi2 = σ 2 + N µ2 , et :
P 
N
Xi2
" N
# N
!
X 2 X E i=1
E Xi − X̄ = E Xi2 −
i=1 i=1
N
= N (σ + N µ2 ) − σ 2 − N µ2 = (N − 1)σ 2
2

donc
Pn
(Xi − X̄)2 1
E(s2 ) = E i
= (N − 1)σ 2
n−1 N −1
= σ2

ce qui montre que s2 est sans biais.

17
Chapitre 2. ESTIMATION PONCTUELLE

Proposition 2 (Inégalite de Frechet-Darmois-Cramer-Rao) Si θ̂ est un estimateur sans biais de g(θ̂0 ),

∂g(θ̂0 ) ∂g(θ̂0 )0
V(θ̂) >> I(θ̂ 0 )
∂θ0 ∂θ

Preuve. La condition d’estimateur sans biais s’écrit :


Z
g(θ̂0 ) = E(θ̂) = θ̂(y)f (y; θ0 )dy

D’où en différentiant :
Z
∂g(θ̂0 ) ∂f (y; θ0 )
= E(θ̂) = θ̂(y) dy
∂θ ∂θ0
 
∂ ln f (Y ; θ0 )
= E θ̂(y)
∂θ0
 
∂ ln f (y; θ0 )
= Cov θ̂(y),
∂θ0
h i
∂ ln f (Y ;θ0 )
parce que E ∂θ 0 =0
En appliquant l’inégalité de Schwartz2
   −1  
∂ ln f (y; θ0 ) ∂ ln f (y; θ0 ) ∂ ln f (y; θ0 )
V(θ̂(y)) − Cov θ̂(y), V Cov , θ̂(y) >> 0
∂θ0 ∂θ0 ∂θ0

on a le résultat annoncé.

Définitions 1 Un estimateur sans biais est efficace si sa matrice de variance-covariance atteint la borne
de Rao Cramer.

2.4.2 Propriétés asymptotiques

Pour établir les propriétés asymptotiques de l’EMV nous omettrons les variables explicatives Xi . Il est
facile d’étendre les résultats au cas d’un modèle conditionnel. Soit donc un échantillon de N réalisations
de N variables Y1 , . . . , YN telles que :

1. Les variables Y1 , . . . , YN sont indépendantes de même loi et de densité f (y; θ0 ), θ0 ∈ Θ ⊆ RK

2. E(ln f (y; θ0 )) existe pour tout θ

3. La vraie valeur du paramètre θ0 est identifiable, i.e. θ0 est l’unique maximum global de
Z
E(ln f (Yi ; θ0 )) = ln f (Yi ; θ0 ))f (Yi ; θ0 ))dµ(y) (2.25)

4. La log-vraisemblance
N
X
l(y; θ0 ) = f (Yi ; θ0 ) (2.26)
i=1

est continue par rapport à θ.


2 Pour tout couple de va X et Y, V (Y ) − cov(X, Y )(V (X)−1 cov(X, Y )) >> 0 Pour montrer cette inégalité, on calcule

l’inverse de V [(XY )0 ] par bloc et on déduit le résultat de ce que (V [(XY )0 ])−1

18
2.4. PROPRIÉTÉS DES ESTIMATEURS

1
5. La log-vraisemblance est telle que N l(y; θ0 ) converge en probabilité vers E(ln f (y; θ0 ) uniformement
en θ au moins sur un voisinage deθ0 . (C’est la condition qui est géneralement la plus difficile a
vérifier.)

Proposition 3 Sous les conditions de regularité precédentes, et si Θ est compact, il existe une suite
d’estimateurs du maximum de vraisemblance convergeant vers θ0 en probabilité.

Preuve
l(y; θ0 ) étant continue sur un compact, admet un maximum global θ̂. Comme la convergence en
1
probabilité de N l(y; θ0 ) vers E(f (Yi ; θ0 )) est acquise en vertu de la loi forte des grands nombres, et de plus
uniforme en θ, alors θ̂ = argmaxθ N1 l(y; θ0 ) converge en probabilité vers θ0 = argmaxθ ln f (Yi ; θ0 )

Proposition 4 Sous les conditions de regularité 1-5, si Θ est d’intérieur non vide et si theta0 appartient
a l’intérieur de Θ, alors il existe une suite de maxima locaux de la log-vraisemblance convergeant en
probabilité vers θ0 . Si, de plus la vraisemblance est dérivable, il existe une suite de solutions des équations
de vraisemblance qui converge en probabilité vers θ0 .

Preuve Soit v(θ0 , r) une boule fermée centrée autour de θ0 , de rayon r > 0, et strictement contenue dans
Θ. En vertu du théorème précedent, il existe une suite de solutions θ̃ au problème contraint :

max l(y; θ)
θ

qui converge en probabilité vers θ0 . Comme la convergence implique que, pour N assez grand, θ̃N se trouve
a l’intérieur de v(θ0 , r), il correspond bien a un maximum local et satisfait les conditions du premier ordre
(équations de vraisemblance).

Remarque 4 Lorsque Θ est ouvert, la suite convergente de maxima locaux peut ne pas être une suite de
maxima globaux.

Proposition 5 Sous les conditions 1-5 de régularité, si Θ est d’intérieur non vide et θ0 appartient a
l’interieur de Θ , si la log-vraisemblance l(θ) est deux fois continuement différentiable dans un voisinage
ouvert de θ0 , et si la matrice d’information de Fisher pour une observation :
 2 
∂ ln f (Yi ; θ)
I(θ0 ) =
∂θ∂θ0

existe et est inversible, alors une suite θ̂ de maxima locaux convergente est telle que

N (θ̂ − θ) 7→ N (0, I(θ0 )−1

On estime la matrice d’information de Fisher I(θ0 )) par


N
1 ∂ 2 ln f (Yi ; θ) 1 X ∂ 2 ln f (Yi ; θ)
I(θ̂) = − =
N ∂θ∂θ0 N i=1 ∂θ∂θ0

19
Chapitre 2. ESTIMATION PONCTUELLE

ou encore
N
1 X ∂ ln f (Yi ; θ) ∂ ln f (Yi ; θ)
I(θ̂) =
N i=1 ∂θ ∂θ0

Preuve (Idée)θ̂ satisfait les equations de vraisemblance :

∂l(y, θ̂)
=0
∂θ

On fait un développement limité au voisinage de θ0 :

∂l(y, θ̂) ∂l(y, θ0 ) ∂ 2 l(y, θ0 )


' + (θ̂ − θ0 ) = 0
∂θ ∂θ ∂θ∂θ0

D’où
−1
√ 1 ∂ 2 l(y, θ0 )

1 ∂l(y, θ0 )
N (θ̂ − θ0 ) ' √
N ∂θ∂θ0 N ∂θ
Or
N
1 ∂ 2 l(y, θ0 ) 1 X ∂ 2 ln l(y, θ0 )
 2 
∂ ln l(y, θ0 )
= − −
7 → −E = I(θ0 )
N ∂θ∂θ0 N i=1 ∂θ∂θ0 ∂θ∂θ0

par application de la loi des grands nombres.


De plus
N
1 ∂ 2 l(y, θ0 ) √ 1 X ∂ ln l(y, θ0 )
= N −→ N (0, I(θ0 ))
N ∂θ∂θ0 N i=1 ∂θ

par application du théorème central limite.


∂ ln l(y,θ0 )
En effet les scores individuels ∂θ sont iid, d’espérance nulle :
 
∂ ln l(yi , θ0 )
E =0
∂θ

et de variance
 
∂ ln l(yi , θ0 )
V = I(θ0 )
∂θ

Il s’ensuit donc que N (θ̂ − θ0 ) converge vers une variable aléatoire normale, centrée, et de variance :
h√ i
V N (θ̂ − θ0 ) = I(θ0 )−1 I(θ0 )I(θ0 )−1 = I(θ0 )−1

2.4.3 Tests d’Hypothèses

Il existe trois tests qui sont construit àn partir de la méthode du maximum de vraisemblance qui sont
équivaletnts asymptotiquement.

1. Le Test de Wald

2. Le Test du multiplicateur de Lagrange (LM) ou test du score

3. Le test du Ratio de vraisemblane (test LR)

20
2.4. PROPRIÉTÉS DES ESTIMATEURS

Le Test de Wald

On considère l’hypothèse suivante :

H0 = θ = θ0

HA = θ 6= θ0

Le test utile la convergence asympotique de θ̂



N (θ̂ − θ0 ) ∼ N (0, I(θ0 )

Ainsi
√ √
N (θ̂ − θ)0 Iθ0 N (θ̂ − θ) ∼ χ2 (k) = W

où :
1 ∂l(y; θ)
Iθ0 =
N ∂θ∂θ0 θ0
k le nombre de paramètres.
Ce test est identique au test de Fisher utilisé dans lae cas des moindres carrés linéaires. Nous utilisons
la convergence uniforme de θ̂ vers θ0 pour obtenir plimIθ̂ = Itheta0 . On réécrit la statistique :
√ √
N (θ̂ − θ)0 Iθ̂ N (θ̂ − θ) ∼ χ2 (k) = W

Le test de Wald est construit à partir du modèle non contraint.

Le test du multiplicateur de Lagrange

Le test LM est basé sur le modèle contraint. On suppose que la vraie valeur θ0 maximise la
vraisemblance.
N
∂l(y; θ) X ∂ ln f (y; θ)
= =0
∂θ θ0 ∂θ


i=1 θ0

Maintenant
N
1 ∂l(y; θ) 1 X ∂ ln f (y; θ)
√ = √ θ0 ∼ N (0, I(θ0 )
N ∂θ θ0 N i=1 ∂θ

ce qui implique que l’hypothèse nulle peut être testée en utilisant le score évaluée au point θ0 . La statisitque
de LM devient :
 0  
1 ∂l(y; θ) −1 1 ∂l(y; θ)
LM = √ I(θ̂) √ ∼ χ2 k si N → ∞
N ∂θ N ∂θ

En grand échantillon on utilise le fait que plimI(θ̂) = I(θ0 ) pour réécrire LM sous H0
 0  
1 ∂l(y; θ) −1 1 ∂l(y; θ)
LM = √ I(θ0 ) √ ∼ χ2 k si N → ∞
N ∂θ N ∂θ

21
Chapitre 2. ESTIMATION PONCTUELLE

Remarque 5 Le test LM est appelé Multiplicateur de Lagrange parce qu’il est contruit à partir du
Lagrangien du problème de maximisation sous contrainte θ = θ0

Lagrangien : l(y; θ) − λ0 (θ − θ0 )

La condition du premier par rapport à λ est :


∂l(y; θ)
− λ̂ =
∂λ
Sous H0 on a :
∂l(y; θ)
= λ̂ = 0
∂λ

Le test du ratio de Vraisemblance

Comme dans le cas du test LM, il est construit sous H0 . On fait un développement de Taylor autour
de θ̂ au second ordre :
∂l(y; θ) 1 ∂ 2 l(y; θ)
l(θ0 ) = l(θ̂) + |θ̂ (θ̂ − θ0 ) + (θ̂ − θ0 )0 |θ∗ (θ̂ − θ0 )
∂θ 2 ∂θ∂θ0
par construction. θ∗ est une valeur intermétaire entre hatθ et θ0 telle que :

k θ0 k≤k θ∗ k≤k θ̂ k
√ 1 ∂ 2 l(y; θ) √
 
⇒ 2[l(θ0 ) − l(θ̂)] = N (θ̂ − θ0 )0 − 0
|θ ∗ N (θ̂ − θ0 )
N ∂θ∂θ
On définit la statistique LR par :
√ √
LR = 2[l(θ0 ) − l(θ̂)] −→ N (θ̂ − θ0 )0 I(θ0 ) N (θ̂ − θ0 ) ∼ χ2 (k)

Remarque 6 Asymptotiquement les trois tests sont équivalents :

LM ⇐⇒ W ald ⇐⇒ LR

2.4.4 Estimateur convergent

Définition 5
Un estimateur θ̂N de θ est dit convergent si et seulement si :
h i
lim P θ̂N − θ = 0∀ > 0; on écrit plimθ̂N = θ

2.4.5 Généralisation des tests

Nous supposons toutes les conditions de régularité pour l’existence, l’homogénéité et la normalité
asymptotique de l’estimateur du maximum de vraisemblance (e.m.v). Les hypothèses d’intérêt sont
données par :

H0 : g(θ0 ) = 0

H1 : g(θ0 ) 6= 0

22
2.4. PROPRIÉTÉS DES ESTIMATEURS

∂g(θ0 )
où g(θ0 ) : Rp −→ Rr et le rang de ∂θ est r

Test de Wald

Proposition 6
!−1
0 ∂g(θ̂) ∂g 0 (θ̂)
W = ng (θ̂) I(θ)−1 g(θ̂) ∼ χ2 (k) sous H0
∂θ ∂θ
 
∂ 2 f (Y |X;θ
où I = −E ∂θ∂θ 0 et I(θ)−1 son inverse évalué à θ = θ̂

Preuve Des caractéristiques asymptotiques de e.m.v, nous savons que


N (θ̂ − θ0 ) ∼ N (0; I(θ)−1 ) (2.27)

Le développement de Taylor à l’ordre un de g(θ̂) autour de la vraie valeur θ0 de nous donne :

∂g(θ̂)
g(θ̂) = g(θ0 ) + (θ̂ − θ0 ) + ◦p (1)
∂θ0

√   ∂g(θ̂) √
n g(θ̂) − g(θ0 ) = n(θ̂ − θ0 ) + ◦p (1) (2.28)
∂θ0
En combinant [2.27] et [2.28] on obtient
!
√   ∂g(θ̂) ∂g 0 (θ̂)
n g(θ̂) − g(θ0 ) −→ N 0, 0
I(θ)−1 (2.29)
∂θ ∂θ

Sous l’hypothèse nulle g(θ0 ) = 0 l’équation [2.29] devient :


!
√  0
 ∂g(θ̂) −1 ∂g (θ̂)
n g(θ̂) −→ N 0, I(θ) (2.30)
∂θ0 ∂θ

En utilisant la forme quadtratique pour des variables normales nous obtenons :


−1
∂g 0 (θ0 )

∂g(θ0 )
ng 0 (θ̂) I(θ0 )−1 g(θ̂) ∼ χ2 (k) sous H0 (2.31)
∂θ ∂θ

La statistique en [2.32] n’est utilisable pas en pratique puisque elle dépend du paramètre inconnu.
Toutefois, nous pouvons approximer régulièrement les termes dans le crochet en évaluant par θ̂. Donc,

!−1
∂g(θ̂) ∂g 0 (θ̂)
W = ng 0 (θ̂) I(θ̂)−1 g(θ̂) ∼ χ2 (k) sous H0 (2.32)
∂θ ∂θ

– Un test asymptotique qui rejette l’hypothèse nulle avec la probabilité un, quand l’hypothèse
alternative est vraie est appelé un test cohérent. A savoir, un test cohérent a une puissance
asymptotique égale à 1.

23
Chapitre 2. ESTIMATION PONCTUELLE

– Un argument heuristique est que si l’hypothèse alternative (H1 )est vraie au lieu de l’hypothèse
nulle alors : g(θ̂) −→ g(θ0 ). Donc
!−1
0 ∂g(θ̂) ∂g 0 (θ̂)
ng (θ̂) I(θ̂)−1 g(θ̂)
∂θ ∂θ

coneverge vers une valur différente de 0. En prémultipliant une constante par n, cette constante
tend vers l’infini si n tend vers l’infini, ainsi W tend vers l’infini quand n tend vers l’infini ce qui
implique qu’on rejette toujours H0 si H1 est vraie.
– Une autre forme de la statistique de test de Wald est donnée par :
!−1
0 ∂g(θ̂) ∂g 0 (θ̂)
W = g (θ̂) In (θ̂)−1 g(θ̂)
∂θ ∂θ

avec In = nI
– Une forme tout à fait commune de l’hypothèse nulle est la restriction à zéro sur un sous-ensemble
de paramètres, c.-à-d.,

H0 : θ 1 = 0

H1 : θ 1 6= 0

où θ1 est un sous vecteur de format q × 1 avec < p. Alors la statistique de W devient :


 −1
W = nθ10 I 11 (θ̂)) θ1 ∼ χ2 (q) sous H0

où I 11 (θ̂) est le bloc supérieur de l’inverse de la matrice de l’information.


 
I11 (θ) I12 (θ)
I(θ) =
I21 (θ) I22 (θ)

alors
−1
I 11 (θ̂) = I11 (θ) − I12 (θ)I22 (θ)−1

par la formule de l’inverse de matice partitionnée. I 11 (θ̂) est I 11 (θ) évaluée à l’estimateur du
maximum de vraisemblance.

2.5 Test LM ou test du Score

Si le vecteur de paramètres satisfait quelques restrictions sous forme de g(θ0 ) = 0, incorporant les
informations de la maximisation de la fonction de probabilité sous contraintes, alors nous amélioreront
l’efficacité de l’estimateur en comparaison de l’e.m.v du problème de maximisation sans contraintes. Nous
résolvons le problème suivant :
max(l(y; θ) sc; g(θ) = 0

24
2.5. Test LM ou test du Score

Les conditions du premier ordre sont :

∂l(θ̃) ∂g 0 (θ̃)
+ λ̃ = 0 (2.33)
∂θ ∂θ
g 0 (θ̃) = 0 (2.34)

Où la solution du problème de maximisation sous contrainte est le vecteur de multiplicateur de Lagrange.


Le test de LM est fondé sur l’idée que de l’e.m.v suit distribution asymptotiquement normale.
Proposition 7

1 ∂l(θ̃) ∂l(θ̃)
LM = I(θ̃)−1 (2.35)
n ∂θ0 ∂θ
1 ∂g(θ̃) ∂g(θ̃)
= λ̃ 0
I(θ̃)−1 λ̃ ∼ χ2 (r) sous H0 (2.36)
n ∂θ ∂θ

Le développement de Taylor à l’ordre 1 de g(θ̃) et g(θ̂) autour θ0 en négligeant le terme op (1)

√ √ ∂g(θ̃) √
ng(θ̂) = ng(θ0 ) +
0
I(θ̃0 ) n(θ̂ − θ0 ) (2.37)
∂θ
√ √ ∂g(θ̃) √
ng(θ̃) = ng(θ0 ) + 0
I(θ̃0 ) n(θ̂ − θ0 ) (2.38)
∂θ

De l’équation [2.34] et en prenant la différence entre [2.38] et [2.37] on obtient :

√ ∂g(θ̃) √
ng(θ̂) = n(θ̂ − θ0 ) (2.39)
∂θ0
∂l(y;θ̂) ∂l(y;θ̃)
En d’autre termes en prenant le développement de Taylor à l’ordre 1 autour de θ0 de ∂θ et ∂θ

en négligeant le terme op (1) donne :

∂l(y; θ̂) ∂l(y; θ̂0 ) ∂ 2 l(y; θ̂0 )


= + (θ̂ − θ) ⇒
∂θ ∂θ ∂θ∂θ0
1 l(y; θ̂) 1 ∂l(y; θ̂0 ) 1 ∂ 2 l(y; θ̂0 ) √
√ = √ + n(θ̂ − θ) ⇒
n ∂θ n ∂θ n ∂θ∂θ0

1 l(y; θ̂) 1 ∂l(y; θ0 ) √


√ =√ − I(θ0 ) n(θ̂ − θ0 ) (2.40)
n ∂θ n ∂θ
On note d’après la loi forte des grands nombres que
n
1 ∂ 2 l(y; θ̂) 1 X ∂ 2 l(y|x; θ̂0 )
− 0
=− → I(θ0 ) (2.41)
n ∂θ∂θ n i=1 ∂θ∂θ0

De même
1 ∂l(y; θ̃) ∂l(y; θ0 ) √
√ = − I(θ0 ) n(θ̃ − θ0 ) (2.42)
n ∂θ∂ ∂θ
Considérant le fait que θ̂ annule le score (condition du premier ordre de maximisation sans contrainte du
problème) en prenant la différence entre [2.40] et [2.42] nous obtneons

1 ∂l(y; θ̃) √ √
√ = −I(θ0 ) n(θ̃ − θ̂) = I(θ0 ) n(θ̂ − θ̃) (2.43)
n ∂θ∂

25
Chapitre 2. ESTIMATION PONCTUELLE

Ainsi
√ 1 ∂l(y; θ̃)
n(θ̂ − θ̃) = I(θ0 )−1 √ (2.44)
n ∂θ
De [2.39] et [2.45] nous obtenons :

√ ∂g(θ0 ) 1 ∂l(y; θ̃)


ng(θ̂) = I(θ0 )−1 √ (2.45)
∂θ0 n ∂θ
De [2.33] on en déduit :
√ 0
∂g(θ0 ) −1 ∂g (y; θ̃) λ̃
ng(θ̂) = − I(θ 0 ) √
∂θ0 ∂θ n
∂g(θ0 ) ∂g 0 (y; θ0 ) λ̃
→ 0
I(θ0 )−1 √ (2.46)
∂θ ∂θ n
p p
si θ̃ → θ0 aussi g(θ̃) → g(θ0 ). Donc
0
−1


λ̃ ∂g(θ0 ) −1 ∂g (y; θ0 )
√ = 0
I(θ 0 ) ng(θ̂) (2.47)
n ∂θ ∂θ

De l’équation [2.30] sous l’hypothèse nulle


√ 0
 
d ∂g(θ0 ) −1 ∂g (y; θ0 )
ng(θ̂) → N 0, I(θ 0 )
∂θ0 ∂θ

Par conséquent
 0
−1 !
λ̃ d ∂g(θ0 ) −1 ∂g (y; θ0 )
√ →N 0, I(θ 0 ) (2.48)
n ∂θ0 ∂θ
En utilisant la forme quadratique des variables gaussiennes nous obtenons

λ̃0 ∂g(θ0 ) 0
 
−1 ∂g (y; θ0 ) d
I(θ 0 ) λ̃ → χ2 r (2.49)
n ∂θ0 ∂θ

Alternativement une autre forme de la statistique du test est donnée par :


!
0
1 ∂l(θ̃) −1 ∂l (y; θ̃) d
I(θ0 ) → χ2 r (2.50)
n ∂θ0 ∂θ

Les statistiques [2.49] et [2.50] ne sont pas ulitistables directement en pratique car la matrice d’information
dépend du paramètre inconnu θ0 . On évalue cette matrice à θ̃ estimateur obtenu à partir du modèle
contraint. L’approximation I(θ0 ) de est obtenue par :
n
! n
!
1 X ∂ 2 l(y|x; θ̃) X ∂l(y|x; θ̃) ∂l(y|x; θ̃)
I(θ̃) = ou
n i=1 ∂θ∂θ0 i=1
∂θ ∂θ0

Si nous choisissons la deuxième approximation de la matrice d’information, la statistique LM devient :


n n
!−1 n
1 X ∂l(y|x; θ̃) X 1 ∂l(y|x; θ̃) ∂l(y|x; θ̃) X ∂l(y|x; θ̃)
LM =
n i=1 ∂θ0 i=1
n ∂θ ∂θ0 i=1
∂θ
n n
!−1 n
X ∂l(y|x; θ̃) X ∂l(y|x; θ̃) ∂l(y|x; θ̃) X ∂l(y|x; θ̃)
=
i=1
∂θ0 i=1
∂θ ∂θ0 i=1
∂θ

26
2.5. Test LM ou test du Score

Remarque 7 Cette expression de la statistisque LM fait intervenir les matrices de de projection. Si on


1 |x1 ;θ̃) ∂l(y2 |x2 ;θ̃)
pose X = [ ∂l(y∂θ 0 , ∂θ 0 , . . . , ∂l(yn∂θ|x0 n ;θ̃) ] et e = [11; . . . , 1]0

LM = e0 X(X 0 X)−1 X 0 e

Si on note Ru2 le coefficient de détermination non centré de la regression de la la constante sur les scores
alors LM devient :
e0 X(X 0 X)−1 X 0 e
 
LM = nRu2 = e0 e
e0 e

Ceci est tout à fait un résultat intéressant puisque le calcul de la statistique LM n’est rien d’autre qu’une
régression MCO. Nous régressons la constante sur les scores évalués à e.m.v contraint et calculons le Ru2
non centré et le multiplions ensuite par le nombre d’observations(n) pour devenir LM statistique.
La statistique LM est aussi asymptotiquement consistant.

De [2.49] et [2.50]
−1
∂g 0 (θ0 )

0 ∂g(θ0 )
W = ng (θ̂) I(θ 0 ) g(θ̂) = LM
∂θ0 ∂θ

!−1
∂g(θ̂) ∂g 0 (θ̂)
→ ng 0 (θ̂) I(θ 0 ) g(θ̂)
∂θ0 ∂θ

Test LR

Proposition 8
 
LR = 2 l(θ̂) − l(θ̃) ∼ χ2 (r) (2.51)

Preuve
Nous considérone le développement de Taylor de l(θ̂) etl(θ̃) autour de θ0 . Sous H0 et en ignorant les
termes dominés stochastiquement nous obtenons :

2
∂l(θ̂) 1 0 ∂ l(θ̂)
l(θ̂) = l(θ0 ) + (θ̂ − θ 0 ) + (θ̂ − θ 0 ) (θ̂ − θ0 ) (2.52)
∂θ0 2 ∂θ∂θ0
2
1 ∂l(θ̂) √ 1√ 0 1 ∂ l(θ̂)

= l(θ0 ) + √ n( θ̂ − θ 0 ) + n( θ̂ − θ 0 ) √ n(θ̂ − θ0 ) (2.53)
n ∂θ0 2 n ∂θ∂θ0

∂l(θ̂) 1 ∂ 2 l(θ̃)
l(θ̃) = l(θ0 ) + 0
(θ̃ − θ0 ) + (θ̃ − θ0 )0 (θ̃ − θ0 ) (2.54)
∂θ 2 ∂θ∂θ0
2
1 ∂l(θ̃) √ 1√ 0 1 ∂ l(θ̃)

= l(θ0 ) + √ 0
n( θ̃ − θ 0 ) + n( θ̃ − θ 0 ) √ 0
n(θ̃ − θ0 ) (2.55)
n ∂θ 2 n ∂θ∂θ

27
Chapitre 2. ESTIMATION PONCTUELLE

En prenant la différence des deux systèmes d’équations ci-dessus (2.52-2.53) et (2.54-2.55) multipliée par
2 on obtient :
2
  1 ∂l(θ̂) √ 1√ 0 1 ∂ l(θ̂)

2 l(θ̂) − l(θ̃) = √ n(θ̂ − θ̃) + n(θ̂ − θ 0 ) √ n(θ̂ − θ0 )
n ∂θ0 2 n ∂θ∂θ0
√ 1 ∂ 2 l(θ̃) √
− n(θ̃ − θ0 ) n(θ̃ − θ0 )
n ∂θ∂θ0
→ 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )

+ n(θ̃ − θ0 )0 I(θ0 )(θ̃ − θ0 )


2 p
∂l(θ0 )
du fait que √1
n ∂θ 0
et − n1 ∂∂θ∂θ
l(θ̂)
0 → I(θ0 )

En continuant la manipulation algégrique on trouve :


 
2 l(θ̂) − l(θ̃) = 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )

+ n(θ̃ − θ̂ + θ̂ − θ0 )0 I(θ0 )(θ̃ − θ̂ + θ̂ − θ0 )

= 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )

+ n(θ̃ − θ̂)I(θ0 )(θ̃ − θ̂) + n(θ̃ − θ̂)0 I(θ0 )(θ̂ − θ0 )

+ n(θ̂ − θ0 )0 I(θ0 )(θ̃ − θ̂) + n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )

= 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) + n(θ̂ − θ̃)0 I(θ0 )(θ̂ − θ̃)

− n(θ̂ − θ̃)0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃)

= (θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃)

Finalement
LR = (θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) (2.56)

Noter que
(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) = (θ̂ − θ̃)0 I(θ0 )(θ̂ − θ0 )

De l’ equation [2.43] et [2.56] la statistique LR peut s’écrire


  √
2 l(θ̂) − l(θ̃) = n(θ̂ − θ̃)0 I(θ0 )(θ̂ − θ̃)

1 ∂l(θ̂) ∂l(θ̂) 1
= √ 0
I(θ0 )−1 I(θ0 )I(θ0 )−1 √
n ∂θ ∂θ n
1 ∂l(θ̂) ∂l(θ̂)
= I(θ0 )−1 = LM sous H0
n ∂θ0 ∂θ

Remarque 8 1. Le calcul de la statistique LR requière deux maximisation de la fonction de la log


vraisemblance sous H0 et H1 .

2. LR est aussi asymtotiquement consitant.

3. Comme nous venons de lé démontrer ci-dessus les tests de Wald, LM et LR sont asymptotiquement
équivalents.

28
2.5. Test LM ou test du Score

Exemple 2.5.1 Exemple des tests du modèle de régression linéaire

Supposons que le modèle de régression est donné par

yi = xi β + i

i ∼ i.i.N (0, σ2

On désire tester les hypothèse suivantes :

H0 : Rr×p βp×r = γ vs H1 : Rr×p βp×r 6= γ

La log vraisemblance est donnée par :

n n 1
l(y|x; β, σ 2 ) = − ln(σ 2 ) − ln(2π) − 2 (y − Xβ)0 (y − Xβ)
2 2 2σ

La maximisation de la log vraisemblance nous donne les résultats suivants :

β̂ = (X 0 X)−1 X 0 y
1
σ̂ 2 = (y − Xβ)0 (y − Xβ)
n

La matrice d’information est donné par :


1 0
 
I(θ0 ) = 2σ 2 (X X) 0
n
0 tσ 4

On pose
∂g(β̂) ∂g(β̂)
g(β̂) = Rr×p β̂p×r − γ = R; =0
∂β ∂σ 2
La statistique de test de Wald est donné d’après la proposition 6 par :

" 0  #
0 R −1 R
W = n(Rr×p β̂p×r − γ) I (θ̂) (Rr×p β̂p×r − γ) (2.57)
0 0
1 −1
(Rr×p β̂p×r − γ)0 R0 (X 0 X)−1 R (Rr×p β̂p×r − γ) ∼ χ2 (r) sous H0

= (2.58)
σ2

Si on note les estimateurs sous H0 de β et de σ 2 respectivement par β̃ et σ̃ 2 . Alors

1 1
σ̃ 2 − σ̂ 2 = (y − X β̃)0 (y − X β̃) − (y − X β̂)0 (y − X β̂)
n n
1 0
= (X β̃ − X β̂) (X β̃ − X β̂)
n
1 1 −1
(β̃ − β̂)0 (X 0 X)(β̃ − β̂) = (Rr×p β̂p×r − γ)0 R0 (X 0 X)−1 R

= (Rr×p β̂p×r − γ)
n n

−1
si β̃ = β̂ + X 0 X)−1 R0 X 0 X)−1 R


29
Chapitre 2. ESTIMATION PONCTUELLE

Donc
 0  −1  
2 2
n(σ̃ − σ̂ ) Rr×p β̂p×r − γ R0 X 0 X)−1 R Rr×p β̂p×r − γ
W = =
σ̂ 2 1
X β̂)0 (y − X β̂)
n (y −
 0  
−1 
Rr×p β̂p×r − γ R0 X 0 X)−1 R Rr×p β̂p×r − γ /r
nr nr
= h i = F
0
(y − X β̂) (y − X β̂) /n − K n − K n − K

D’autre part , le multiplicateur de Lagrange du problème contraint est donné par :

2  0 0 −1 −1
λ̃ = − R X X) R (γ − Rβ̂)
σ2

Sous H2 le multiplicateur de Lagrange suit une loi normale

4  0 0 −1 −1
λ̃ ∼ N (0, R X X) R
σ̃ 2

si (γ − Rβ̂) ∼ N 0, σ̃ 2 R0 (X 0 X)−1 R .
 

On peut réécrire la statistique LM par :

σ̃ 2 0  0 0 −1 −1
LM = λ̃ R X X) R λ̃
4
1 −1
(Rr×p β̂p×r − γ)0 R0 X 0 X)−1 R

= 2
(Rr×p β̂p×r − γ)
σ
n(σ̃ 2 − σ̂ 2 ) n n n
= = σ̃ 2
= σ̂ 2
=
σ̂ 2 1 − 1 + σ̃2 −σ̂2 1 + σ̃2 −σ̂2 1 + (n−k)
rF

Pour calculer la statistique LR on doit calculer la valeur de la log vraisemblance sous H1 et sous H0

n n 1
Sous H1 : l(θ̂) = − ln(σ̂ 2 ) − ln(2π) − (y − X β̂)0 (y − X β̂)
2 2 2σ̂ 2
n n n 1
2
= − ln(σ̂ ) − ln(2π) − (y − X β̂)0 (y − X β̂)
2 2 2σ̂ 2 n
n n n 2
= − ln(σ̂ 2 ) − ln(2π) − σ̂
2 2 2σ̂ 2
n n n
= − l(θ̂) − ln(2π) −
2 2 2

n n 1
Sous H0 : l(θ̃) = − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)0 (y − X β̃)
2 2 2σ̃ 2
n n n 1
= − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)0 (y − X β̃)
2 2 2σ̃ 2 n
n n n 2
= − ln(σ̃ 2 ) − ln(2π) − σ̃
2 2 2σ̃ 2
n n n
= − ln(σ̃ 2 ) − ln(2π) −
2 2 2

Ainsi
n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 ))
2 2

30
2.6. Exercices

n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 )
2  2
σ̃ 2
 2   2
σ̃ − σ̂ 2
 
σ̃
= n(ln = n 1 − 1 + ln = n 1 + ln
σ̂ 2 σ̂ 2 σ̂ 2
  
rF
= n 1 + ln
n−K

Un résultat intéressant eput être obtenu en ultilisant l’inégalité suivantes

x
≤ ln(1 + x) ≤ x ∀x > −1
1+2
 
rF
Soit x = ln n−K en appliquant l’inéqualité ci-dessus on :

LM ≤ LR ≤ W en dimension finie

Exercice d’application non corrigé


On considère le modèle suivant :
yi = µ + i (2.59)

avec i ∼ N (0, σ 2 ). On simule le modèle [2.59] avec µ = 6 et n = 50.

yi = 6 + i i = 1, . . . , 50 (2.60)

On suppose que chaque observation à une fonction de densité définie par :

1 1
f (xi ) = exp(− (y − µ2 )) (2.61)
2π 2

On veut tester les hypothèse suivantes

H0 : µ = 3 vs H1 : µ = 3

en utilisnant la statistique la statistique de Wald et LM.


Constuisez ces deux tests et conclure au seuil de 5%. Pour notre échantillon simulé ȳ = 6.19086

2.6 Exercices
2.6.1 Exercie 1

Un échantillon aléatoire d’observations indépendantes est généré par une fonction de distribution
ci-dessous :
f (y; β) = β exp(−βy) avec β > 0; y > 0

1. Calcluer l’espérance et la variance de y.

2. Estimer β par la méthode du maximum de vraisemblance.

3. Montrer que l’estimateur de β est un estimateur sans biais, convergent et efficace ;

31
Chapitre 2. ESTIMATION PONCTUELLE

P
4. On suppose que n= 100 et yt = 25, calculer la valeur de β̂

5. Dériver les propriètés asymptotiques de β̂

6. En utilisant les données de 4 tester

H0 : β = β0 = 1

H1 : β 6= β0 = 1

en utilisant la statistique de Wald et LM.

2.6.2 Exercie 2

La variable continue x a une fonction de densité donnnée par :

1 x2
f (x; θ) = √ exp(− )
2πθ 2θ
−∞ < x < ∞ θ > 0

1. Calcluer l’espérance et la variance de x.

2. Estimer θ par la méthode du maximum de vraisemblance.

3. Montrer que l’estimateur de θ est un estimateur sans biais, convergent et efficace ;


P 2
4. On suppose que n= 100 et xi = 110, calculer la valeur de θ̂

5. Dériver les propriètés asymptotiques de β̂

6. En utilisant les données de 4 tester

H0 : θ = 0

H1 : β 6= 0

en utilisant LR au seuil de 5%.

2.6.3 Exercie 3 : Analyse de la durée du chômage

On souhaite évaluer et analyser le phénomène du chômage. Pour cela, on dispose de n étudiants


diplômés sur les durées yi ; 1 ≤ x ≤ n pendant lesquelles des étudiants sont restés sans emploi.
On suppose dans la suite que les variables aléatoires correspondantes (Y i)i∈{1,n} ; sont i.i.d. et suivent
une loi de Weibull de paramètres θ1 et θ2 . On rappelle que cette loi est continue sur R+ et admet la
fonction de répartition pour y > 0

F (y; θ1 , θ2 ) = 1 − exp(θ1 y θ2 )

On définit la fonction de survie par


s(y) = 1 − F (y)

32
2.6. Exercices

et la fonction de hasard par


f (y)
h(y) =
s(y)
1. Donner l’expression de la fonction de hasard du modèle.

2. Quelle est en terme de chômage l’interprétation de la fonction de hasard ?


- Expliquer alors pourquoi il est important de considérer le cas particulier où cette fonction est
constante.
- Pour quelles valeurs des paramètres, la fonction de hasard est-elle constante ?
- Quelles sont alors les lois des durées de chômage ?

3. Etudier l’évolution de la fonction de hasard en fonction de θ̂1 , puis en fonction de θ̂2 .

4. On suppose dans cette partie θ̂2 = 1. Le modéle est alors uniquement paramètre par θ̂1 . Le modèle
est-il exponentiel ? Si oui, expliciter une statistique exhaustive.

5. Déterminer le vecteur du score et vérifier directement qu’il est centré.

6. Quel est l’estimateur du maximum de vraisemblance θ̂1 de θ̂ ? Est-il sans biais, y a-t-il surestimation
ou sous-estimation systématique ?

7. Déterminer la variance asymptotique de cet estimateur θ̂1 .

33