Vous êtes sur la page 1sur 48

Introduction lEconomtrie

Ecole Centrale de Paris


Anne 2006-2007

Pauline Givord

3 novembre 2006
Table des matires

1 Le modle linaire : les MCO 6


1.1 Introduction : le modle linaire simple . . . . . . . . . . . . . . . . . . . . . . 6
1.2 lestimateur des moindres carrs ordinaires . . . . . . . . . . . . . . . . . . . . 7
1.2.1 le modle linaire gnral : criture matricielle . . . . . . . . . . . . . 7
1.2.2 dfinition de lestimateur des moindres carrs ordinaires . . . . . . . . 7
1.2.3 les quations normales . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.4 Interprtation gomtrique . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.5 interprtation : effet dune variable . . . . . . . . . . . . . . . . . . . . 9
1.2.6 proprits algbriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 proprits statistiques de lestimateur des moindres carrs ordinaires . . . . . 12
1.3.1 lestimateur des MCO est sans biais . . . . . . . . . . . . . . . . . . . 12
1.3.2 la variance de lestimateur des MCO . . . . . . . . . . . . . . . . . . . 12
1.3.3 Lestimateur des mco est le plus prcis : le thorme de Gauss-Markov 14
1.3.4 Mise en oeuvre des MCO sous le logiciel SAS . . . . . . . . . . . . . . 15
1.4 conclusion et rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Infrence : le modle linaire gaussien 16


2.1 tests et intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1 Rappel sur les tests statistiques . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Lestimateur des mco dans le modle linaire gaussien . . . . . . . . . . . . . 17
2.2.1 Loi du couple (, 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Test sur la valeur dun paramtre : la statistique de Student . . . . . . 18
2.2.3 Test unilatral sur un coefficient . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 Test bilatral sur un coefficient . . . . . . . . . . . . . . . . . . . . . . 19
2.2.5 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.6 mise en oeuvre sous sas des tests de significativit . . . . . . . . . . . 20
2.3 Proprits asymptotiques de lestimateur des MCO . . . . . . . . . . . . . . . 20

3 Le modle linaire sous contraintes 22


3.1 Exemple : fonction de production . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 formalisation du problme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Les moindres carrs sous contraintes . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.1 Proprit de lestimateur des moindres carrs contraint . . . . . . . . . 24
3.3.2 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4 Le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4.1 La statistique de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4.2 Mise en oeuvre pratique des tests de contraintes linaires sous SAS . . 25
3.4.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1
4 Le modle linaire gnralis 28
4.1 Dfinition du modle linaire gnralis . . . . . . . . . . . . . . . . . . . . . 28
4.1.1 Ecriture matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.2 Proprits des mco dans le cadre du modle linaire gnralis . . . . 29
4.2 Dtection de lhtroscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.2 Le test de Goldfeld et Quandt . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.3 Le test de Breush et Pagan . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Dtection de lautocorrlation . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.2 test de lhypothse dautocorrlation dans le cas du modle AR(1) . . 32
4.4 Estimateur optimal dans le cadre du modle gnralis . . . . . . . . . . . . . 33

5 Problmes de spcification du modle 36


5.1 choix des variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.1.1 omission dune variable explicative . . . . . . . . . . . . . . . . . . . . 36
5.1.2 introduction dune variable "en trop" . . . . . . . . . . . . . . . . . . 37
5.1.3 Erreur de mesure sur les variables . . . . . . . . . . . . . . . . . . . . 37
5.1.4 simultanit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 choix entre deux modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3 adquation de la forme linaire . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6 Variables dpendantes dichotomiques 40


6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2 Expression gnrale du modle . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2.1 Interprtation en terme de variable latente . . . . . . . . . . . . . . . 41
6.2.2 Interprtation des rsultats : effet marginal dune variation dune va-
riable explicative x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.3 Estimation des modles dichotomiques . . . . . . . . . . . . . . . . . . . . . . 41
6.4 Mise en oeuvre de tests simples dans le cas dun modle dichotomique . . . . 42
6.4.1 test de la nullit dun coefficient . . . . . . . . . . . . . . . . . . . . . 42
6.4.2 test dun ensemble de contraintes linaires . . . . . . . . . . . . . . . . 42
6.5 Mise en oeuvre sous sas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.6 Remarque : le modle probabilits linaires . . . . . . . . . . . . . . . . . . 43

2
Introduction lconomtrie

Dfinition
Lconomtrie est un ensembre de techniques statistiques utilises pour estimer des relations
conomiques, valuer ou implmenter des politiques publiques ou industrielles. Lapplication
la plus "visible" de lconomtrie est sans doute la prvision des grands indicateurs cono-
miques comme le taux de croissance du PIB ou des taux dintrt. Elle dpasse largement ce
cadre macroconomique : elle peut tre utilise par exemple pour prvoir la demande adresse
un bien, ou valuer les effets dune rforme.
Les questions quon va se poser sont en gnral de la forme : "quelle est la relation entre une
variable y et une variable x1 ? Ou entre y et x2 ?" On formalise cela sous la forme :

y = f (x1 , . . . , xk )

Le choix du modle est dtermin directement par la thorie conomique, ou simplement issu
de l"intuition" conomique.
Dans pratiquement toute la suite de ce cours, les variations de la variable dintrt y sont
supposes dpendre de variables (x1 , x2 , . . .) selon une relation linaire. Plus prcisment, on
va crire :
y = 0 + 1 x1 + 2 x2 + . . . (1)

Les donnes disponibles


Lune des raisons du dveloppement de techniques statistiques spcifiques tient la nature
des donnes qui sont mobilises. Celles-ci sont gnralement non exprimentales : les ques-
tions poses rendent impossible (et peu souhaitable) un protocole exprimental. Les donnes
mobilises par lconomtre sont de plusieurs types, chacunes soulevant des problmes spci-
fiques :
1. des donnes en coupe : elles consistent en un chantillon de donnes sur des salaris,
des consommateurs, une entreprise, des pays... collectes un moment donn du temps.
2. des sries temporelles : elles consistent en des donnes sur une ou plusieurs variables
collectes intervalles rguliers : les plus frquentes sont les variables macrocono-
miques, ou des donnes financires.
3. des donnes de panel : elles consistent en un chantillon de donnes sur des salaris, des
consommateurs, une entreprise, des pays,... collectes intervalles rguliers du temps.
Elles fournissent donc lhistoire dun ensemble dindividus plusieurs dates.
Ces donnes proviennent gnralement dchantillons supposs reprsentatifs issus de la po-
pulation totale. Cela signifie en particulier que lon ne pourra calculer quune estimation
des paramtres partir de cet chantillon ; il nest jamais certain quon "identifie" le vrai
paramtre. Nous allons discuter ces notions plus en dtail.

3
paramtre estim, vrai paramtre
comment estimer les paramtres ?
Tout dabord, en terme pratique, il sagit de calculer des estimateurs des paramtres du
modle j . Nous allons dans une premire partie prsenter une procdure destimation simple,
lestimateur des moindres carrs ordinaires.

quelles sont ses proprits statistiques ?


Au del de la question "technique" du calcul des estimateurs, il faut sinterroger sur ses
proprits statistiques. En fait, il sagit de savoir si on estime "bien" les "vrais" paramtres j .
Les notions auxquelles on se rfre ici sont celles de linfrence statistique. Il faut se souvenir
que ce paramtre est estim partir dun chantillon donn, cest--dire un nombre fini N
dobservations pour lesquelles on dispose des mesures des variables qui nous intressent.
Mme sil est tir alatoirement, cet chantillon est rarement parfait : il y a toujours un
risque quil ne soit pas exactement reprsentatif de la population quil est cens reprsenter.
Le paramtre estim partir dun chantillon ne correspondra donc pas exactement au vrai
paramtre. Il est a priori dpendant de lchantillon partir duquel il a t calcul : si on
utilise deux chantillons diffrents pour estimer les mmes paramtres, il y a de grandes
chances pour que les deux estimations soient diffrentes.
On va alors sintresser la distribution de ce paramtre. Pour bien comprendre ce dont il
sagit, il faut imaginer quon puisse disposer dun trs grand nombre dchantillons tirs
partir de la mme population initiale, et quon calcule partir de chacun de ses chantillons
un estimateur du mme paramtre : la distribution de notre estimateur correspond la
manire dont cet ensemble de valeurs se rpartit.
La premire proprit attendue dun estimateur est quil soit sans biais, cest--dire que son
esprance soit gale au "vrai" paramtre. Pour reprendre notre situation fictive ci-dessus, il
faut quen moyenne des estimations conduites sur des chantillons diffrents correspondent
bien la vraie valeur.
Une autre proprit importante est quil soit convergent, cest--dire que si la taille de
lchantillon N augmente, le risque de se tromper diminue : la limite, si on pouvait observer
tout le monde, on sattend trouver le vrai paramtre.
Dans la ralit, on ne dispose que dun seul chantillon, de taille finie, et donc dun seul
estimateur. Il est ncessaire de pouvoir tablir un "diagnostic" partir de cet estimateur : est-
ce quon est trs loin de la vraie valeur ? Pour cela, la moyenne, ou lesprance du paramtre
ne suffit pas : il faut connatre toute la distribution du paramtre. Il sera alors possible de
calculer un intervalle de confiance, cest--dire un intervalle de valeurs laquel le vrai
paramtre appartient avec une probabilit donne. Cet intervalle de confiance va dpendre
en particulier de lcart-type de lestimateur. Il faut se souvenir que ce terme reprsente la
racine carre de la variance : il est donc directement li la prcision de lestimateur.
Dans les trois premiers chapitres, on va donc sintresser aux proprits statistiques de les-
timateur des moindres carrs ordinaires, et proposer des stratgies pour effectuer des tests.
Comme on va le voir, cela ncessite de poser des hypothses prcises sur la distribution de ler-
reur dchantillonnage. Les proprits tablies ne seront valables que sous ces hypothses. Les
deux chapitres suivant tudient ce que deviennent les proprits de nos estimateurs lorsque
ces hypothses ne sont plus valides, et des mthodes pour dtecter les cas de violation de ces
hypothses, quand cela est possible.

4
le modle est-il valide ?
Dans toute la discussion prcdente, on a suppos que la relation (1) correspondait la
ralit. Il est cependant possible que cela ne soit pas le cas : dans ce cas, les rsultats ne
seront pas interprtables. Deux notions sont importantes, qui doivent prsider en particulier
le choix des variables explicatives du modle :
Effet causal : il est toujours possible de calculer une corrlation. Mais lcriture mme
du modle (1) est dissymtrique : on cherche expliquer une variable y daprs dautres
variables x. Il faut tre sr que dans la ralit, le sens de la causalit va bien dans ce sens
ceteris paribus on veut mesurer un effet dune variable x1 sur y en soi, "toutes choses gales
par ailleurs" : il faut tre sr quil ny pas deffet en chane.
Enfin, on peut se demander si la forme linaire est une reprsentation pertinente pour dcrire
la relation entre nos variables dintrt. On discutera plus de ce problme dans le chapitre 5.
Lorsque les variables sont discrtes, ce qui est gnralement le cas des variables "qualitatives",
cette formulation nest pas adapte. Le chapitre 6 prsente donc des techniques appropries
pour ces cas prcis.

5
Chapitre 1

Le modle linaire : les MCO

On sinterroge sur la relation entre la variable y et ses dterminants potentiels x1 , x2 , . . .. La


question quon se pose est donc : de combien va varier y si x1 varie de tant ? On dispose
pour cela dun chantillon alatoire de N observations donnant des mesures de ces variables :
(yi , x1i , x2i , . . .)i=1...N . On va supposer quil existe une relation linaire entre la variable y et
ses dterminants potentiels.

1.1 Introduction : le modle linaire simple


Le modle linaire le plus simple ne sintresse qu un seul dterminant x de y. Plus prci-
sment, on crit :
y = 0 + 1 x + u (1.1)

Terminologie
y est gnralement appele variable dpendante, variable dintrt, ou encore variable ex-
plique 1
x est gnralement appele variable indpendante, ou plus souvent variable explicative, ou
encore variable de contrle ou rgresseur 2 .
u est un terme derreur, encore appel perturbation. Il reprsente les facteurs, autres que
x, qui ont une influence sur y.

prsentation du problme

La pente de lquation 1 , correspond leffet que lon cherche mesurer : u constant, elle
permet de mesurer leffet dune variation de x sur y. A u fix (i.e. en supposant que 4u = 0),
on a en effet 4y = 1 4x.
Lobjectif est dobtenir une estimation "correcte" de 0 et 1 . Pour cela, comme on va le voir
dans la prochaine partie, on va proposer une mthode destimation, fonde sur la distance
des points observs la droite destimation.
Cependant, en termes dinterprtation, il nest pas certain que le paramtre estim 1 (le
chapeau sur le paramtre exprime quil sagit dune estimation du paramtre) soit une mesure
correcte. En particulier, on cherche mesurer leffet de x sur y "toutes choses gales par
ailleurs", cest--dire leffet sur y uniquement imputable une variation de x. Pour cela, il
1 Elle est parfois appele variable prdite ou endogne : ces termes sont plutt viter car ils se rfrent

des notions diffrentes.


2 On trouve aussi parfois le terme de variable exogne ( viter).

6
faut tre sr que le terme derreur u, qui reprsente les autres dterminants de y, ne ragit
pas galement une variation de x.
Cette hypothse est peu vraisemblable dans le cas du modle linaire simple. Par exemple, si
lon sintresse leffet du diplme sur le salaire, il est probable que les autres dterminants
du salaire sont galement lis au diplme : lexprience professionnelle est lun dentre eux.
Or elle est a priori galement corrl avec le diplme : ge donn, un individu plus diplm
aura acquis moins dexprience, car la poursuite dtudes se traduit aussi par une entre plus
tardive sur le march du travail. Ignorer cette corrlation peut donc conduire des rsultats
biaiss.
Dans la suite, on va donc se placer dans un cadre plus raliste, avec des rgresseurs multiples.

1.2 lestimateur des moindres carrs ordinaires


1.2.1 le modle linaire gnral : criture matricielle
On se place dans le cadre plus gnral o on considre plusieurs variables explicatives, quon
suppose en nombre K. Le pendant de lquation (1.1) dans le cadre gnral scrit alors :

yi = 0 + 1i x1i + . . . + Ki xKi + ui (1.2)

Parce que cela allgera sensiblement les dmonstrations par la suite, il est utile de recou-
rir une expression matricielle de cette expression, en "empilant" les N observations. Par
convention, on utilisera plutt des majuscules pour dsigner les variables crites sous forme
vectorielle.

Y = 0 + 1 X1 + + K XK + u = X + u (1.3)
(N,1) (N,1) (N,1) (N,1) (N,K+1)(K+1,1) (N,1)

y1
o Y = ... et de mme pour les K variables explicatives regroupes dans les K vecteurs

yN
X1 , . . . , Xk . X est la matrice des variables explicatives laquelle on adjoint le vecteur constant
e = (1, . . . , 1)0 .
Notre objectif est destimer un vecteur de paramtre = (0 , 1 , . . . , K ) "correct". On va
voir dans la suite quel sens donner ce terme "correct".
On doit immdiatement imposer une premire hypothse sur les variables X pour que ces
paramtres soient "identifiables", cest--dire quil soit possible de les estimer de manire
unique :
H1 : rg(X) = K + 1
Autrement dit, les variables (e, X1 , . . . , XK ) sont linairement indpendantes.
Si cette hypothse nest pas vrifie, cest--dire si les variables explicatives sont lies par une
combinaison linaire, le vecteur de paramtre qui vrifie (1.2) nest pas dfini de manire
unique. Supposons quil existe par exemple tel que X = 0, alors + a vrifie galement
lquation (2.2), pour tout rel a.

1.2.2 dfinition de lestimateur des moindres carrs ordinaires


On va alors sintresser un estimateur particulier : lestimateur des moindres carrs
ordinaires (MCO), qui minimise la distance moyenne entre les points observs, de coor-
donnes (yi , 1, x1i , ..., xKi ), et la droite "estime", dquation : yi = 0 + 1 xi1 + . . . + K xiK .

7
Il sagit donc du vecteur de coefficients = (0 , 1 , , K ) qui vrifie :
X
min (yi 0 1i x1i ...Ki xKi )2

i

Sous forme matricielle, lobjectif minimiser scrit : = ArgminkY Xk2


1.2.3 les quations normales


Les quations normales correspondent aux conditions du premier ordre du programme :
min kY Xk2 . Elles sont obtenues en drivant kY Xk2 par rapport au vecteur de
paramtre . On a immdiatement3 :

2X 0 (Y X) = 0 (1.4)
2
Xk
Sous lhypothse H1, les conditions du second ordre (i.e. kY = 2X 0 X dfinie positive)
sont vrifies. Lestimateur des moindres carrs existe, est unique et a pour expression :

mco = (X 0 X)1 X 0 Y

prdiction et rsidu

Par dfinition, le vecteur Y = Xmco sappelle la prdiction de Y. Ce vecteur est de coor-


donnes :
yi = 0 + 1 xi1 + . . . + K xiK

On dfinit galement le vecteur (ui )i=1...N des rsidus :

ui = yi yi = yi 0 1 xi1 . . . K xiK

1.2.4 Interprtation gomtrique


Il est utile, en particulier parce que cela allgera nettement certaines dmonstrations dans la
suite, de remarquer que lestimateur des moindres carrs ordinaires a une interprtation en
termes gomtriques. Le programme de rsolution des moindres carrs ordinaires correspond
chercher le vecteur Y de lespace vectoriel (X) qui minimise kY Y k2 . On sait que le
minimum est atteint lorsque Y est la projection orthogonale de Y sur (X) i.e. Y = PX Y =
X(X 0 X)1 X 0 Y .
La prdiction de Y par lquation, et son rsidu, peuvent donc sinterprter comme la pro-
jection orthogonales de Y sur (X) et (X) respectivement.
On a Y = PX Y et U = MX Y o PX est le projecteur orthogonal sur (X), et MX celui sur
(X) .

3 On rappelle que si la matrice A est symtrique : X
(AX) = A0 , X
(X 0 A0 ) = A0 , X
(X 0 AX) =
AX + A0 X = 2AX.

8
1.2.5 interprtation : effet dune variable
modle linaire simple

On rappelle que dans ce cas le modle scrit simplement y = 0 + 1 x + u. "Toutes choses


gales par ailleurs" (i.e u constant), un accroissement dun point de x se traduit par une
augmentation de 1 points de y : y = 1 x.
Dans ce cas, lestimateur des moindres carrs ordinaires de 1 peut scrire comme :
P
(yi y)(xi x)
1 = i=1...N
(xi x)2

Dmonstration. Les quations normales dans ce cas simple scrivent :


 P
Pi (yi 0 1 xi ) = 0
i xi (yi 0 1 xi ) = 0

De la premire on a que 0 = y 1 x et on dduit de la seconde que :


X
xi (yi y 1 (xi x)) = 0
i

P P
En remarquant que i x((yi y) = i x((yi y)(xi x)) = 0, on retrouve lexpression de
1 .

Cette formulation appelle deux remarques :


lestimateur 1 est simplement le coefficient de corrlation empirique des variables x et y.
pour quil puisse tre estim, il faut observer cette dernire dans des tats diffrents. A la
limite, si cette dernire est constante (ce qui est a priori exclu par lhypothse H1) , il sera
impossible de calculer le paramtre. Cest par la comparaison de y et de x dans des tats
diffrents quil est possible de dduire leffet de x sur y.

interactions de plusieurs variables explicatives

Pour interprter leffet estim par les moindres carrs ordinaires dune variable explicative
particulire Xk sur la variable explique Y , il est utile de remarquer que le coefficient k
estim par les moindres carrs ordinaires (le k ime terme du vecteur = (X 0 X)1 (X 0 Y ))
peut scrire (il sagit dune simple application du thorme de Frisch-Waugh, voir annexe
A) :
P y r
k = (rk0 rk )1 rk0 Y = P r
i
i
i ik
2
ik

o rk est le rsidu de la rgression de Xk sur toutes les autres variables explicatives : il


reprsente donc la part de Xk qui nest pas corrle avec les autres variables explicatives. On
dit quon a "contrl" de leffet des autres variables.

9
1.2.6 proprits algbriques
On va alors driver plusieurs proprits algbriques de cette estimation. Pour cela, il est utile
de remarquer que les quations normales scrivent simplement :
P
ui = 0
Pi


i xi1 ui = 0

P
i xiK ui = 0

Remarque : Toutes les proprits sont dfinies ici sous lhypothse que le modle comporte
un terme constant. Sinon, la premire quation normale na pas lieu dtre. Par convention,
les variables surlignes correspondent aux moyennes empiriques dans toute la suite.

les rsidus sont de moyenne nulle

De la premire quation normale ci-dessus, on dduit :


N
1 X
u = ui = 0 (1.5)
N i=1

La moyenne empirique des rsidus de lquation est nulle. Comme on va le voir, cela signifie
que la moyenne empirique de la variable prdite est gale la moyenne empirique de la
variable dpendante.

Point moyen de lchantillon

On a immdiatement :
N N N
1 X 1 X 1 X
y = yi = yi + ui
N i=1 N i=1 N i=1
= y daprs (1.5)

Cela signifie en particulier que le point moyen de lchantillon, de coordonnes (x1 , . . . , xK , y)


appartient l"hyperplan de rgression", cest--dire lespace vectoriel engendr par les va-
riables X (parfois simplement appel droite de rgression).

Equation danalyse de la variance

La somme des carrs des rsidus (SCR) est dfinie comme :


X
SCR = u2i
i

Ce terme est li une mesure de la qualit de rgression.


P dabord,2 on rappelle que la variance empirique de la variable dpendante scrit :
Tout
1
N i (yi y)
(on a vu que y = y) : N1 i (yi y)2
P
La variance empirique "prdite" scrit de mme
Enfin, on dfinit la variance "rsiduelle" : N1 i ui
P

10
Dmonstration. On crit simplement :
X X
(yi y)2 = (yi yi + yi + y)2
i=1...N i=1...N
X X X
= u2i + (yi y)2 + 2 ui (yi y) (1.6)
i=1...N i=1...N i=1...N

Au facteur N prs, le premier terme droite de (1.6) correspond la variance rsiduelle, le


second la variance prdite. Quant au dernier terme, on dduit simplement des quations
normales quil est nul.

Lquation danalyse de la variance scrit :


Variance totale = Variance explique + Variance rsiduelle

Qualit de lajustement : le coefficient de dtermination

On dfinit alors le coefficient de dtermination R2 par :

Variance explique
R2 =
Variance totale
Le R2 indique la part de la variance des yi explique par la rgression et mesure ainsi le
pouvoir explicatif du modle.
Le coefficient de dtermination peut aussi sexprimer en fonction de la somme des carrs des
rsidus (SCR) :
SCR
R2 = 1 P 2
i=1...N (yi y)

Proprits :
Le R2 est compris entre 0 et 1. Il crot avec la qualit de lajustement.
le R2 augmente mcaniquement lorsque lon introduit des variables explicatives suppl-
mentaires.
Cette dernire proprit nest pas bienvenue : elle signifie quil suffit dajouter arbitrairement
les variables explicatives pour que le R2 augmente4 . Celui-ci ne permet pas de mesurer la
parcimonie du modle, cest--dire sa capacit dcrire la ralit avec un nombre restreint
de variables.
Pour corriger de cet effet, on peut utiliser un indicateur qui permet de tenir compte du
nombre de variables explicatives. On appelle nombre de degrs de libert du modle la
quantit dl = N-K-1. On dfinit alors le R2 ajust :

2 N 1 SCR
Radj =1 P 2
dl i i y)
(y

Le modle sans terme constant

On peut tre amen spcifier un modle sans terme constant. Par exemple, si on estime
le modle linaire en "diffrence" (y = x + u), il est vraisemblable que le modle
passe par lorigine. Dans ce cas, la premire quation normale ne tient plus, et les proprits
dmontres ci-dessus ne tiennent plus. Il ny a aucune raison que les rsidus soient centrs et
lquation danalyse de la variance nest plus vrifie. Cela signifie en particulier que le R2 ne
peut pas tre utilis comme indicateur de la qualit de la rgression. En pratique,
ce type de modlisation est rare et doit reposer sur des hypothses solides.
4 A la limite, on pourrait utiliser autant de variables explicatives que dindividus dans notre chantillon

N, ce qui permettrait de dcrire compltement cet chantillon particulier. Le R2 serait alors de 1 : cela
ne signifierait pas pour autant que le modle estim permettrait de dcrire une "vraie" relation entre des
variables.

11
1.3 proprits statistiques de lestimateur des moindres
carrs ordinaires
Il est toujours possible de calculer lestimateur des moindres carrs ordinaires. En revanche,
pour linterprter, il est ncessaire de faire des hypothses supplmentaires.

1.3.1 lestimateur des MCO est sans biais


La premire proprit attendue de cet estimateur statistique est quil nous donne une mesure
correcte du "vrai" paramtre . Pour cela, il est ncessaire de faire une hypothse sur la
forme des termes derreur.
On va dabord supposer quen moyenne, on ne se "trompe" pas : cela peut scrire E(u) = 0.
En fait, cette hypothse nest pas trs forte, ds lors que le modle linaire est spcifi avec
une constante.
Ensuite, comme expliqu dans le cadre du modle linaire simple, il faut supposer que les
perturbations ne varient pas avec les variables explicatives, soit E(u/X) = E(u).
Au final, la deuxime hypothse centrale du modle linaire scrit :
H2 : E[u/X]=0
Sous cette hypothse, lestimateur des moindres carrs ordinaires est sans biais :
E(/X) = E[(X 0 X)1 X 0 Y /X] = (X 0 X)1 X 0 E[Y /X] =

1.3.2 la variance de lestimateur des MCO


Le fait que la proprit dabsence de biais soit satisfaite est important mais on a besoin
dinformations plus prcises. On souhaite savoir si la vraie valeur peut se trouver loin de
lestimateur. Une telle information est donne par la prcision de lestimateur et on ltu-
die en considrant la variance. Pour la calculer, on va tre amen faire deux hypothses
supplmentaires :
H3(Homoscdasticit) : V(ui /X) = 2 , i
H4(Absence dautocorrlation des rsidus) : E[ui uj /X] = 0 i, j, i 6= j
Ces deux dernires hypothses scrivent sous forme matricielle :
H3 H4 : V(u/X)= 2 IN
Sous ces hypothses, la variance de lestimateur des mco conditionnellement aux variables
explicatives est donne par
V (mco /X) = 2 (X 0 X)1

Dmonstration. La variance conditionnelle est dfinie comme

V (mco /X) = E([mco E(mco /X)][mco E(mco /X)]0 /X)

Comme E(mco /X) = et mco = (X 0 X)1 X 0 u

V (mco /X) = (X 0 X)1 X 0 E(uu0 /X)X(X 0 X)1 = 2 (X 0 X)1 sous H2

Il est utile dinterprter la variance dun paramtre particulier (i.e. un terme diagonal). Pour
cela, on rappelle que lestimateur k de leffet de la variable Xk dans la rgression de Y sur
toute les variables peut tre obtenu comme la rgression du rsidu rk de la rgression de Xk
sur toutes les autres variables sur la variable Y : k = (rk0 rk )1 rk0 Y .

12
On a alors :

V (k /X) = V ((rk0 rk )1 rk0 u/X)


= (rk0 rk )1 rk0 V (u/X)rk (rk0 rk )1 car rk ne dpend que de X
= 2 (rk0 rk )1 rk0 rk (rk0 rk )1 daprs H3 et H4
= 2 (rk0 rk )1

Un peu de manipulation permet dexprimer cette quation en fonction de Rk2 , le coefficient de


dtermination de la rgression de la variable Xk sur toutes les autres variables explicatives,
et de la variance empirique de Xk dans lchantillon :

(xki xk )2
P
Vemp (Xk ) = i
N
P
Par dfinition, Rk2 = 1 P (x rx )
i
i
ki
2
ik
k
2 . On en dduit que rk0 rk =
P 2
i rik =
P 2 2
i (xki xk ) (1Rk ).

Finalement :
2
V (k /X) =
N (1 Rk2 )Vemp (Xk )
Cette dcomposition permet de mieux comprendre les dterminants de la prcision.
Les dterminants de la prcision

la variabilit de la variable explicative Xk , Vemp (Xk ). Plus on observe de variabilit de la


variable Xk dans lchantillon, et plus le paramtre pourra tre estim avec prcision. Toutes
choses gales par ailleurs, il faut observer la variable Xk dans suffisamment dtats diffrents
pour pouvoir valuer son effet sur la variable dpendante.

la relation linaire des variables explicatives entre elles, Rk2 . Plus la variable Xk est lie
aux autres variables explicatives (i.e. Rk2 est proche de 1), et moins le paramtre sera estim
2
avec prcision. A et i (xki xk )2 donns, la variance est minimale lorsque Rk2 = 0, cest-
P
-dire lorsque Xk nest pas du tout corrle avec les autres variables explicatives du modle.
Dit autrement, il faut que la variable Xk apporte de linformation supplmentaire par rapport
aux autres variables explicatives pour que le paramtre k soit estim avec prcision.

le nombre dobservations N. Plus on dispose dobservations, et plus lestimateur sera


prcis. Il faut faire attention cette proprit : sur des petits chantillon, il est parfois difficile
destimer correctement leffet dune variable. Nous rediscuterons de cet effet plus bas5 .

un estimateur de la variance

La variance de conditionnellement X dpend de 2 , la variance des rsidus. Lestimateur


de 2 fait intervenir la somme des carr des rsidus estims, normalise par le nombre de
degrs de libert : P 2
2 i ui
=
N K 1
Cet estimateur est sans biais :
E( 2 /X) = 2
5 il faut remarquer que N intervient galement dans R et V
k emp , donc la convergence nest pas immdiate :
en fait, sous des hypothses peu restrictives on montre que ces termes convergent vers des termes finis

13
Dmonstration. La dmonstration se fait simplement en utilisant que par dfinition, u cor-
respond la projection orthogonale sur lespace (X) : u = MX Y = MX u.

E[u0 u/X]
E( 2 /X) =
N K 1
E[T r(u0 MX u)/X] E[T r(MX u0 u)/X]
= =
N K 1 N K 1
T r(E[MX u0 u/X]) T r(MX E[u0 u/X])
= =
N K 1 N K 1
2 T r(MX )
=
N K 1
= 2 car dim((X) ) = N K 1

On en dduit donc un estimateur sans biais de la variance de lestimateur des MCO :


P 2
[ i ui
V () = X 0X
N K 1

1.3.3 Lestimateur des mco est le plus prcis : le thorme de Gauss-


Markov
On a jusque l introduit lestimateur des moindres carrs ordinaires de manire ad hoc. On va
montrer ici quil est en ralit le meilleur estimateur sans biais, selon un critre doptimalit
lie la prcision de lestimateur.

Dfinition

Un estimateur 1 est optimal dans une classe destimateurs si toute estimation dune
combinaison linaire du paramtre est estime plus prcisment avec 1 quavec nimporte
quel estimateur de la classe considre :

, V (0 1 ) V (0 )

Cette proprit signifie que la matrice de variance V (1 ) de 1 vrifie 0 V (1 ) 0 V ()


, cest--dire que V (1 ) V () est semi-dfinie ngative.
Thorme 1 (Gauss-Markov). Sous les hypothses H1-H4 lestimateur des moindres carrs
ordinaires du modle
Y = X + u
est optimal dans la classe des estimateurs sans biais conditionnellement aux variables X.

Dmonstration. Soit un estimateur linaire sans biais du paramtre . Il existe donc une
matrice A tel que cet estimateur scrit = AY. Lhypothse dabsence de biais signifie
E[/X] = . Or E[/X] = E[AY /X] = E[A(X + u)/X] = AX + AE[u/X] = AX.
Labsence de biais signifie donc AX = . Ce rsultat est vrai pour quelconque donc :

AX = IK+1

On a en outre E[/X] = A(Y E[Y /X]) = Au. La variance dun estimateur linaire
sans biais quelconque est donc de la forme V (/X) = V (Au/X) = AV (u/X)A0 = 2 AA0 car

14
daprs les hypothses H3 et H4 V (u/X) = 2 IN . Comme IN = PX + MX = X(X 0 X)1 X 0 +
MX , on a :

V (/X) = 2 AA0 = 2 A(X(X 0 X)1 X 0 + MX )A0


= 2 (AX(X 0 X)1 X 0 A0 + AMX A0 )

de AX = IK+1 et V (/X) = 2 (X 0 X)1 , on dduit

V (/X) = V (/X) + 2 AMX A0

La matrice AMX A0 est ncessairement semi-dfinie positive : lestimateur optimal correspond


A = 0, i.e. lestimateur des mco .

1.3.4 Mise en oeuvre des MCO sous le logiciel SAS


La procdure REG permet de mettre en oeuvre simplement les MCO. La syntaxe est sim-
plement :
proc reg data = nom_de_table;
model y = x1 x2 . . . xK ;
run ;
Outre les valeurs estimes des paramtres et de leur cart-type, elle fournit le R2 et le R2
ajust, ainsi que dautres statistiques qui seront tudies plus loin.

1.4 conclusion et rsum


Dans ce chapitre, on a prsent le modle linaire gnral, et introduit quatre hypothses
(appeles les conditions de Gauss-Markov).
Y=X + u
H1 : rg(X)=K+1.
H2 : E[u/X]=0
H3 : V(ui ) = 2 , i
H4 : E[ui uj ] = 0 i, j, i 6= j.
On a alors dfini un estimateur, lestimateur des moindres carrs ordinaires, et donn son
expression : = (X 0 X)1 X 0 Y . Sous les hypothses H1 H4, on a montr que :
1. lestimateur est sans biais
2. il est le plus prcis parmi les estimateurs linaires sans biais
P u (X X)
i
0 1
3. donn un estimateur sans biais de sa variance, qui scrit : N K1
4. propos un indicateur de la qualit de lestimation, le coefficient de dtermination R2
Ces rsultats sont nanmoins insuffisants pour donner des intervalles de confiance sur les
paramtres estims et raliser des tests dhypothse. Cest cela que va sattacher le chapitre
suivant.

15
Chapitre 2

Infrence : le modle linaire


gaussien

Dans le chapitre prcdent, on a tudi un estimateur des paramtres du modle linaire


gnral, prsent ses proprits et en particulier son esprance et sa variance. Pour aller
plus loin et faire des tests ou tablir des intervalles de confiance, il faut disposer de toute la
distribution de lestimateur.
Pour pouvoir ltudier, il est possible de faire une hypothse sur la distribution du terme
derreur u. La plus courante est de supposer quil suit une loi normale.
Avant dtudier ce que deviennent les proprits de lestimateur des moindres carrs ordinaires
dans ce cadre, on rappelle les notions de base de linfrence statistique.

2.1 tests et intervalles de confiance


Dans cette section, on va voir comment tester des hypothses sur le paramtre k . Pour bien
comprendre ce que signifie le fait de tester une hypothse, il faut se souvenir que le "vrai"
paramtre k est un paramtre inconnu, et que lon ne peut jamais le connatre avec certitude.
Cependant, on peut faire des hypothses sur sa valeur, et utiliser linfrence statistique pour
les tester.

2.1.1 Rappel sur les tests statistiques


On va sintresser une hypothse, quon appelle par convention hypothse nulle et quon
note H0 .
On va toujours tester la vraisemblance relative de cette hypothse par rapport une hypo-
thse alternative, que nous noterons ici Ha .
La question quon va se poser sera : peut-on, avec suffisamment de vraisemblance, rejeter
lhypothse nulle et accepter lhypothse alternative.
Lhypothse alternative nest pas dfinie de manire unique. Par exemple, comme on va le
voir, le test le plus classique porte sur leffet rel dune variable explicative sur la variable
dpendante (test de significativit). Lhypothse nulle dans ce cas scrit :
H0 : k = 0

On peut tester cette hypothse de nullit de coefficient contre lhypothse alternative Ha :


k 6= 0 (on parle alors de test bilatral) ; mais galement contre une hypothse alternative
plus restrictive Ha : k > 0 (test unilatral).

16
Dans ce cadre de tests dhypothse, on peut faire deux types derreur :
Risque de premire espce (ou de type I) : rejeter lhypothse nulle H0 alors quelle est
vraie en ralit.
Risque de deuxime espce (ou de type II) : accepter lhypothse nulle H0 alors quelle est
fausse en ralit.
Il nest jamais possible de savoir si on a "fait le bon choix" en acceptant (ou en refusant)
lhypothse nulle. En revanche, il est possible de calculer la probabilit de faire une erreur
de premire espce ou de deuxime espce. Les mcanismes de choix auxquels on sint-
resse ici permettent de contrler du risque de premire espce. On dfinit un niveau de
significativit, ou un seuil du test comme la probabilit de faire une erreur de type I :
= P (RejeterH0 /H0 ). En pratique, on commence par dfinir le niveau du test, qui cor-
respond au seuil de tolrance que lon se fixe sur le risque de premire espce. Les valeurs
usuelles pour sont 0.01, 0.05 et 0.101 .
Pour mettre en oeuvre un test, on va se munir dune statistique de test T, qui sera une
fonction des observations. La proprit attendue de cette statistique est que sa distribution
statistique soit indpendante de lchantillon dobservations dont on dispose. Au test de
lhypothse H0 va correspondre une rgion critique W, qui sera dfinie comme lensemble
des ralisations des observations qui conduisent accepter lhypothse alternative Ha au seuil
.
En pratique, on va :
1. fixer un niveau du test
2. calculer la valeur de la statistique de test T "ralise" dans notre chantillon, partir
des valeurs observes des paramtres du modle.
3. dfinir la rgion critique, qui dpend du niveau du test, et de la distribution de la
statistique du test.
4. si la statistique de test appartient la rgion critique, on refuse lhypothse H0 . Sinon,
on laccepte.
Il faut bien comprendre que la rgion critique de test dpend du niveau du test et est
directement lie au risque de premire espce. Si la statistique de test appartient la rgion
critique W(), on a moins de chance de se tromper en refusant lhypothse H0 alors quelle
est vraie. On dira quon refuse lhypothse H0 au seuil . A linverse, si la statistique de test
nappartient pas la rgion critique, on dira quon ne peut pas refuser lhypothse H0 au
seuil .

2.2 Lestimateur des mco dans le modle linaire gaussien

2.2.1 Loi du couple (, 2 )


On suppose donc que :
H5 : la loi de u conditionnellement aux variables explicatives X est une loi normale de
moyenne nulle et de matrice de variance 2 IN .

u |X ; N 0, 2 IN


La normalit des termes derreur se translate directement lestimateur.


Thorme 1. Lestimateur du paramtre des mco mco est distribu comme une loi nor-
2 0 1
male de moyenne la vraie
 valeur du paramtre, et de matrice de variance (X X) :
mco ; N , (X X)
2 0 1

1 Une fois fix le niveau du test, la puissance du test est dfinie par : () = 1 P (T ypeII/) o est

la vraie valeur du paramtre. Ltude de cette notion dpasse le cadre de ce cours.

17
Lestimateur 2 , convenablement normalis, est distribu suivant une loi du 2 dl =
N K 1 degrs de libert
2
[N K 1] 2 (N K 1)
2
mco et 2 sont indpendants

Rappel PL
Si Z ; N (0, IL ) , alors par dfinition Z 2 = Z 0 Z = l=1 Zl2 2 (L)

Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z 0 P Z 2 (L1 )

Dmonstration. Lestimateur des MCO peut scrire : mco = + (X 0 X)1 X 0 u. Condition-


nellement X, il scrit donc comme une combinaison linaire dun vecteur normal, ce qui
suffit pour montrer quil suit galement une loi normale. De mme, les rsidus de la rgres-
sion u = MX u suivent une loi normale, indpendante de mco (chacun sobtient comme
ku2 k
projection dune loi normale sur deux sous espaces orthogonaux). Donc 2 = N K1 est
galement indpendant de mco . On dduit directement la loi de 2 , de la proprit rappele
plus haut.

De la mme faon, on montre que k (resp. k ), le paramtre estim par les moindres carrs
correspondant la k{ime variable (resp. lestimateur de lcart type k , soit le k ime terme
diagonal de 2 (X 0 X)1 ) suit une loi normale N (k , 2 ((X 0 X)1 )kk ) (respectivement une loi
du 2 N-K-1 degrs de libert). Ces deux variables alatoires sont indpendantes 2 .

2.2.2 Test sur la valeur dun paramtre : la statistique de Student


Pour tester des valeurs sur un paramtre k partir de lestimateur k , on cherche une
statistique de test.
On va alors construire la statistique suivante :

k k
t=
k
Cette variable est trs utilise. Elle est appele la statistique de Student, ou encore t de
Student, ou simplement le Student, du paramtre k .
On montre alors le rsultat essentiel suivant :
Theorme 1. Sous lhypothse de normalit des perturbations H5, pour une composante
donne k du paramtre on a :

k k
Student (N K 1)
k

Dmonstration. Ce rsultat dcoule directement du thorme 1 et de la dfinition des lois


de Student : Si X1 suit une loi normale N (0, 1) et X2 suit une loi du 2 (H) H degrs de
libert, et si X1 et X2 sont indpendants alors
X1
S=p Student (H)
X2 /H

2 il suffit de vrifier que ces variables sont des projections orthogonales des vecteurs et de lestimateur

de sa matrice de variance covariance

18
On va voir dans les parties suivantes comment ce rsultat nous permet de faire des tests sur
la valeur dun coefficient. On distingue deux types de tests, suivant lhypothse alternative
retenue : les tests unilatraux, et les tests bilatraux.

2.2.3 Test unilatral sur un coefficient


On souhaite tester si le paramtre k est gal une valeur k0 fixe, contre lhypothse
alternative quil nest pas strictement suprieur cette valeur. Lhypothse nulle scrit donc
H0 : k = k0 , contre lhypothse alternative Ha : k > k0 .
En utilise alors la statistique de test de Student. Daprs le rsultat prcdent, la rgion
critique de ce test pour un niveau scrit :

k k0
W={ > t1
N K1 }
k

o t1
N K1 est le fractile dordre 1 de la loi de Student N K 1 degrs de libert,
cest--dire la quantit telle que, pour une variable alatoire St suivant une loi de Student
N K 1 degrs de libert : P (St > t1N K1 ) = .
En pratique, on va rejeter lhypothse nulle H0 au seuil lorsque le t de Student est dans la
rgion critique, car on a alors moins de risque de se tromper en rejettant H0 .

2.2.4 Test bilatral sur un coefficient


Le test bilatral de valeur dun coefficient correspond une hypothse alternative moins
restrictive : lhypothse nulle scrit toujours H0 : k = k0 , mais lhypothse alternative est
maintenant Ha : k 6= k0 .
On va faire intervenir ici la valeur absolue de la statistique. Plus prcisment, la rgion
critique de ce test pour un niveau scrit :

|k k0 | 1/2
W={ > tN K1 }
k
1/2
o tN K1 est le fractile dordre 1 2 de la loi de Student N K 1 degrs de libert.
La dmonstration (non dtaille ici) est lie au fait que la distribution du Student est sym-
1/2 1/2
trique : P (St < tN K1 ) = 1 /2, et de faon similaire P (S > tN K1 ) = /2
Si le t de Student est dans la rgion critique, on a moins de chances de se tromper en
rejettant lhypothse H0 .

Application : Test de significativit dun paramtre

Lapplication la plus frquente de ce rsultat est le test de la significativit dun paramtre :


on va tester sil est significativement ( un seuil fix) diffrent de zro.
Dans ce cas, le test H0 : k = 0 contre Ha : k 6= 0 au seuil de 5%, la rgion critique scrit :

|k |
W= > t0.975
N K1
k
|k |
Si N est grand, alors t0.975
N K1 est proche de 2. Il suffira alors de comparer k 2. Autrement
dit, si |k | est suprieur au double de lcart-type estim, on rejettera lhypothse de nullit
du coefficient k au seuil de 5% (rgle des deux cart-types).

19
Significativit statistique versus significativit "conomique"

La significativit statistique est importante : elle permet de dire si, partir des donnes dont
nous disposons, on peut croire que la variable Xk a vraisemblablement un effet sur la variable
dpendante Y . Attention nanmoins de ne pas se focaliser uniquement sur cette significati-
vit statistique : celle-ci exprime surtout quun paramtre est estim avec suffisamment de
prcision. Elle nest pas lie la valeur de ce paramtre, et donc la "taille" de leffet de
cette variable.
Une variable peut avoir un effet statistiquement significativement diffrent de zro, mais
quantitativement trs faible, et tre donc "ngligeable" en termes conomiques.

2.2.5 Intervalles de confiance


On va galement donner des intervalles de confiance pour le paramtre.
Dfinition : Un intervalle de confiance pour le paramtre k au niveau est un intervalle
[a, a] tq P (k [a, a]) = 1 .
Sous les hypothses H5, soit k la k ime composante de lestimateur des mco et k =
p
k2 lestimateur de son cart-type, alors lintervalle de confiance de longueur minimale du
paramtre k au niveau est :
1/2 1/2
[k k tN K1 , k + k tN K1 ]
1/2
o tN K1 est le quantile dordre 1 /2 dune loi de Student N K 1 degrs de libert.

Dmonstration. Par application des rsultats prcdents, on a immdiatement que S =


k k
k ; Student (N K). Comme la loi de Student est symtrique, on en dduit que
lintervalle de longueur minimale auquel S appartienne avec probabilit 1 est
1/2 1/2
P (S [tN K1 , tN K1 ]) = 1

dont on dduit immdiatement lexpression des bornes de lintervalle de confiance.

2.2.6 mise en oeuvre sous sas des tests de significativit


Les sorties de la procdure reg comprennent le paramtre estim par les moindres carrs
ordinaires, ainsi que son cart-type estim. Elles comprennent galement le T de Student
de lhypothse de nullit dun paramtre (= k /k ) et la P value, cest--dire la probabilit
quune loi de Student (i.e la loi que suivrait la statistique si lhypothse H0 est vraie) prenne
une valeur gale ou suprieure celle observe. Cette P value est directement lie au risque
de premire espce : on a P value risque de se tromper en rejetant H0 alors quelle est vraie.

2.3 Proprits asymptotiques de lestimateur des MCO


Lhypothse de normalit est ncessaire pour effectuer des tests, dits " distance finie" (cest-
-dire lorsque le nombre dobservations est fini). Quand le nombre dobservations devient
grand, il est possible de saffranchir de cette hypothse supplmentaire. On peut montrer que
les proprits asymptotiques de lestimateur (i.e. quand le nombre dobservations tend vers
linfini- en pratique quand il est suffisamment grand) sont les suivantes :
X0X
1. Sous lhypothse Q,
N N + matrice dfinie positive, est un estimateur convergent
de .

20
2. Sous lhypothse supplmentaire que les lments du vecteur u sont indpendants et
identiquement distribus, alors lestimateur des mco suit asymptotiquement une loi
normale :
X 0 X 1
N ( ) (0, 2 ( lim ) )
loi N N

et
proba
2 2

Ces proprits asymptotiques permettent deffectuer des tests asymptotiques sur les coeffi-
cients sans avoir supposer la normalit des perturbations. Par exemple, si on veut tester
dans le modle linaire gnralis lhypothse H0 : k = k0 contre H1 : k 6= k0 , on retiendra
comme statistique de test :
k k0
=
Q

o Qk dsigne le k ime terme diagonal de la matrice Q.


Sous lhypothse H0 , on sait que :

N (k k0 ) Loi
N (0, 1)
Qk
et
proba
2 2
donc,
N (k k0 ) Loi
N (0, 1)
2 Qk
Cette loi asymptotique permet de trouver la rgion critique optimale du problme de test au
seuil :
N |bk k0 |
W = {(y1 , ..., yn )/ > u1/2 }
2 Qk
o u1/2 dsigne le fractile dordre 1 /2 de la loi normale centre rduite.
Il faut remarquer que ces rsultats sont tout fait en accord avec les proprits tudies plus
haut, lorsque N est fini : en effet, la loi de Student N degrs de libert tend vers une loi
normale centre rduite quand le nombre de degrs de libert tend vers linfini. Lorsque le
nombre dobservations est lev, les deux tests sont donc quivalents.
Rappel sur les convergences :
P
On dit que (Xn ) converge en probabilit vers X (Xn X ou plimn Xn = X) si

> 0, Pr {|Xn X| > } 0.


n

L
On dit que (Xn ) converge en loi vers X (Xn X) si la suite des fonctions de rpartition
associes (Fn ) converge, point par point, vers F la fonction de rpartition de X en tout point
o F est continue :
x, Fn (x) F (x).

21
Chapitre 3

Le modle linaire sous contraintes

Dans le chapitre prcdent, on a vu comment, sous lhypothse de normalit des rsidus de


lquation linaire, on pouvait faire des tests sur la valeur des paramtres. Il est souvent
ncessaire de tester des relations plus compliques : par exemple pour tester une relation
prdite par la relation conomique (comme dans lexemple ci-dessus). Nous allons voir ici
comment tester un ensemble de contraintes linaires.

3.1 Exemple : fonction de production


La fonction de production en fonction du capital et du travail est souvent modlise dans la
thorie conomique par une fonction de type Cobb-Douglas, sous la forme :

Qt = ANt Kt1

- Nt : le travail
- Kt : le capital
- Qt : la production
O lexistence de rendements constants se traduit par le fait que le coefficient du travail et
du capital somme un.
Supposons quon dispose dun chantillon de N entreprises, on pourra alors pour estimer les
paramtres de cette quation introduire le modle linaire suivant :

LogQt = + LogNt + LogKt + ut


On pourra alors tester si la contrainte de rendements constants est bien vrifie. Elle scrit
partir des coefficients de lquation : + = 1. Par ailleurs, pour rendre le modle plus
raliste, on peut introduire une tendance temporelle, captant une croissance tendancielle de
la demande :
t
LogQt = + LogNt + LogKt + + ut
100
Et tester si la croissance de la production est gale un certain niveau : simultanment la
relation linaire prcdente, on peut par exemple tester = 3. Nous allons voir dans la suite
comment tester ces relations linaires simples dans le cadre du modle linaire.

3.2 formalisation du problme


On reprend le formalisme du modle linaire prcdent, mais on va introduire en plus ces
contraintes linaires. Plus prcisment, si le vecteur des paramtres du modle est suppos

22
vrifier un ensemble de p contraintes linaires, on introduit la matrice R p lignes et K
colonnes et un vecteur r coefficients rels p lignes correspondant cet ensemble de
contraintes. Le problme scrit alors :
Y = X + u
avec

rgX = K
u=0

u = 2 IN
R = r, p < K, rgR = p


(p,K)

Dans lexemple prcdent de la fonction de production, nos deux contraintes sont ainsi rsu-
mes par :
   
0 1 1 0 =
1
0 0 0 1 3

Remarque : Le nombre de contraintes ne peut videmment excder le nombre de paramtres
du modle (p < K), sinon on pourrait les calculer analytiquement.

3.3 Les moindres carrs sous contraintes


On va alors chercher un estimateur vrifiant cette relation. Comme prcdemment, on sin-
tresse lun estimateur minimisant la somme des carrs des rsidus, mais en se restreignant
aux estimateurs vrifiant la contrainte. Le programme doptimisation scrit donc :
min ky Xk2 sous la contrainte R = r

proposition : Si est lestimateur des mco et cc est lestimateur des moindres carrs
contraints, on a :
cc = mco + (X 0 X)1 R0 (R(X 0 X)1 R0 )1 (r Rmco ) (3.1)
Lestimateur des moindres carrs contraints apportent une correction lestimateur des
moindres carrs ordinaires dautant plus grande que Rmco r est grand. Si lestimateur
des moindres carrs ordinaires vrifie la contrainte (Rmco = r), les deux estimateurs sont
identiques.

Dmonstration. Le lagrangien scrit :


= ky Xk2 0 (R r), Rp

Lestimateur des moindres carrs contraints cc vrifie :


(
0 0
= 2X (Y X cc ) R = 0

= Rcc r = 0

On a donc :
cc = (X 0 X)1 (X 0 Y R0 /2) = mco (X 0 X)1 R0 /2


R(X 0 X)1 (X 0 Y R0 /2) = Rmco R(X 0 X)1 R0 /2 = r

On en dduit que /2 = [R(X 0 X)1 R0 ]1 [Rmco r] et on obtient lexpression de cc en le


remplaant dans la premire quation.

23
3.3.1 Proprit de lestimateur des moindres carrs contraint
Il faut noter que tant que lhypothse H2 est vrifie, lestimateur des MCO est toujours sans
biais. De lexpression prcdente on dduit que :

E(cc /X) = (X 0 X)1 R0 [R(X 0 X)1 R0 ]1 (R r)

Donc :
si les contraintes sont valides, lestimateur des moindres carrs contraints est sans biais.
dans le cas contraire, il sera biais
Par ailleurs, on peut montrer que si les contraintes sont valides, alors lestimateur des
moindres carrs contraints est optimal parmi les estimateurs linaires sans biais de v-
rifiant la contrainte.

3.3.2 Estimation de la variance


Cet estimateur est fond sur la somme des carrs des rsidus contraints. Pour quil soit sans
biais, on le dfinit de la faon suivante :

2 u0cc ucc
cc =
T (K + 1) + p

avec ucc = y X cc

3.4 Le test de Fisher


On a vu comment calculer un estimateur de qui vrifie les contraintes. Notre objectif est
de tester si ces contraintes sont plausibles. Le test de Fisher repose sur la comparaison des
rsultats des rgressions par les moindres carrs avec ou sans contraintes. Comme on la vu
dans la section prcdente, si les contraintes ne sont pas valides, lestimateur des moindres
carrs contraints est biais : les rsultats de la rgression effectue en imposant les contraintes
seront donc probablement de moins bonne qualit que la rgression simple.
On va se placer dans le cadre du modle linaire gaussien, et supposer que les rsidus suivent
une loi normale : u N (0, 2 IN ). On va alors tester :

H0 : R = r contre Ha : R 6= r

3.4.1 La statistique de Fisher


Le test de Fisher est fond sur la statistique de test :
SCR0 SCRa dla
F =
SCRa dl0 dla
o SCR0 est la somme des carrs des rsidus du modle sous lhypothse H0 (donc obtenue
avec lestimateur cc ), dl0 = N (K 1 p), le nombre de degrs de libert sous lhypothse
H0 , et SCRa est la somme des carrs des rsidus du modle sous lhypothse Ha (donc
obtenu avec lestimateur ), dla = N K 1 le nombre de degrs de libert sous lhypothse
alternative.
On montre que cette statistique de test suit une loi de Fisher, (dl0 dla , dla ) degrs de
libert.
SCR0 SCRa dla
F = F(dl0 dla , dla )
SCRa dl0 dla

24
Rappel : la loi de Fischer correspond par dfinition la loi du ratio de deux variables alatoires
suivant des lois de chi2 indpendants, normaliss par leurs nombres de degrs de libert. Si
Q1 2 (q1 ) et Q2 2 (q2 ) et Q1 Q2 alors Z = Q 1 /q1
Q2 /q2 F (q1 , q2 ) loi de Fisher q1 et q2
degrs de libert.
Dmonstration. Notons ymco = X mco la valeur prdite par lestimation des moindres
carrs ordinaires, ymcc = X mcc la valeur prdite par lestimation sous contraintes.
La statistique de Fisher correspond en fait :

k ymco ymcc k2
F =
p 2

En effet, par dfinition : SCR0 =k y ymcc k2 ; SCRa =k y ymco k2 et umco = y ymco


(X) , tandis que ymcc ymc0 (X).
Le terme au numrateur vient donc simplement dune application du thorme de Pytha-
gore. Quant au dnominateur, il sagit de la dfinition de 2 .
Avec un peu de manipulation et en utilisant lexpression de mcc en 3.1, on a :

(R r)0 (R(X 0 X)1 R0 )1 (R r) 2


F = / 2
2 p
on a dj montr que dans le cadre gaussien :

2
(N K 1) 2 (N K 1)
2
reste montrer que le numrateur de F suit un 2 p degrs de libert. Si le modle est
gaussien, mco N (, 2 (X 0 X)1 ). Ce qui implique que :

R (R, 2 R(X 0 X)1 R0 )

Donc,
(R R)0 (R(X 0 X)1 R0 )1 (R R)
2 (p)
2
Sous lhypothse H0 : R = r, et par dfinition de la loi de Fischer, on obtient le rsultat.

3.4.2 Mise en oeuvre pratique des tests de contraintes linaires sous


SAS
Pour faire des tests de contraintes linaires, il suffit dajouter loption test dans la procdure
utilise.
Par exemple, si on sintresse au modle linaire y = 0 + 1 x1 + 2 x2 + 3 x3 , sous les
contraintes 2 + 3 = 3 et 1 = 5, la syntaxe sera :

proc model data=matable ;


model y=x1 x2 x3 ;
test x2 + x3 = 3, x1 = 5 ;
run ;
La procdure fournit la statistique du test de Fischer de lhypothse et la "Pvalue" (la
probabilit dobserver cette valeur de la statistique de test, si elle suit effectivement une loi
de Fischer, cest--dire si H0 est vraie).

25
3.4.3 Applications
Test de significativit de lensemble des coefficients

Le test de Fisher permet de tester lhypothse H0 : 1 = 2 = ... = K = 0, ce qui revient


tester si le fait dintroduire des variables autres que la constante est pertinent.
Si les K contraintes sont vrifies (H0 est vraie), le modle scrit : yi = 0 + ui . Lestimateur
des moindres carrs contraints est simplement : 0 = y. La somme du carr des rsidus du
modle sous contraintes SCR0 est donc : SCR0 = i (yi y)2 . Soit SCR la somme des carrs
des rsidus de la rgression par les moindres carrs ordinaires (donc sous lhypothse Ha ).
2
La statistique de Fischer scrit : = i (yi y)
SCR
SCR N (K+1)
K F (K, N (K + 1)). Cette
statistique peut scrire de manire plus simple en fonction du R2 . En effet par dfinition du
R2 : X
SCR = (1 R2 )( (yi y)2 )
i

On dduit donc une criture plus simple de F :


R2 N (K + 1)
F = F (K, N (K + 1))
1 R2 K
Si F est suprieure au fractile dordre (1 ) de la loi de Fisher (K, N (K + 1)) ddl, on
refuse lhypothse H0 de nullit jointe des coefficients.
La procdure SAS fournit toujours par dfaut le test de nullit jointe des coefficients.

Test de Chow (ou de changement de rgime)

On souhaite savoir si un modle de comportement a chang entre deux sous-priodes, ou est


diffrent entre deux sous-populations. On dispose dobservations sur deux sous-priodes de
t = 1 T1 et de t = T1 + 1 t = T1 + T2 (ou deux sous-populations). On modlise alors ces
donnes par y = X1 1 + u1 sur la premire sous-priode et par y = X2 2 + u2 sur la seconde,
et on veut tester : H0 : 1 = 2 contre Ha : 1 6= 2 .
Pour rsoudre ce problme, on empile les observations de la manire suivante :
      
y1 X1 0 1 u1
= +
y2 0 X2 2 u2
Soit
y = X + u
(T1 +T2 ,1) (T1 +T2 ,2K) (2K,1) (T1 +T2 ,1)

avec les hypothses 


u=0
u = 2 IT1 +T2
Le test de changement de rgime H0 : 1 = 2 contre Ha : 1 6= 2 est en fait un cas
particulier du test de Fisher avec SCRa = SCR1 + SCR2 o SCR1 dsigne la somme des
carrs des rsidus sur la premire sous-priode et SCR2 la somme des carrs des rsidus sur
la seconde. La statistique de test F est alors :
SCR0 (SCR1 + SCR2 ) T1 + T2 2(K + 1)
F =
SCR1 + SCR2 K +1
La rgion critique du test de Chow est alors :
W = {F > f1 (K + 1, T1 + T2 2(K + 1))}
avec f1 (K, T1 +T2 2K) fractile lordre 1 dune loi de Fisher (K +1, T1 +T2 2(K +1)
degrs de libert.

26
mise en oeuvre du test

1. On fait la rgression sur lensemble de notre chantillon(N1 + N2 observations) et on


en dduit SCR0 .
2. On estime le modle sur les deux sous-chantillons sparment, et on calcule SCRa en
additionnant les deux sommes des carrs des rsidus obtenues.
SCR0 (SCR1 +SCR2 )
3. On calcule alors la statistique de Fischer associe au test : (SCR1 +SCR2 )
N1 +N2 2(K+1)
(K+1) et on la compare au seuil thorique f (K + 1, N1 + N2 2(K + 1))
4. si la statistique est plus grande que le fractile de niveau , on a moins de chance de se
tromper en rejetant H0 , et on en conclut quil y a bien une rupture de comportement.

27
Chapitre 4

Le modle linaire gnralis

Dans les chapitres prcdents, on a suppos que les perturbations avaient toutes la mme
variance (hypothse dhomoscdasticit), et taient non corrles deux deux. Dans de nom-
breux cas, ces deux hypothses peuvent ne pas tre vrifies : par exemple, lorsque lon sin-
tresse des sous-populations htrognes, il est vraisembable que la dispersion des termes
derreur soit diffrente entre ces deux sous-populations ; dans le cas des sries temporelles,
une "persistance" des chocs au cours du temps se traduira par une autocorrlation des rsi-
dus. Dans ces deux exemples, la matrice de variance covariance du terme derreur du modle
ne scrit plus simplement : 2 I, mais a une forme plus complexe. On dit quon est dans le
cadre dun modle linaire gnralis.
La premire question qui se pose dans ce cadre est de savoir ce que deviennent alors les
proprits de lestimateur des moindres carrs ordinaires. Il est galement indispensable de
savoir comment dtecter lhtroscdasticit. Enfin, on voquera des estimateurs permettant
de prendre en compte cet effet.

4.1 Dfinition du modle linaire gnralis


On se place donc dans le cas du modle linaire, mais on suppose maintenant que i, jtqE(ui uj ) 6=
0, ou i, jtqE(u2i ) 6= E(u2j ). Sous forme matricielle, cela signifie simplement que la matrice
de variance-covariance du terme derreur ne scrit plus simplement 2 IN , mais a une forme
plus complique.

4.1.1 Ecriture matricielle


Le modle linaire gnralis scrit donc :

Y = X + u

avec,
rgX = K
E(U/X) = 0
E(U U 0 /X) =

o est une matrice symtrique dfinie positive.


Par convention (et uniquement parce que cela allge les calculs par la suite), on dfinit 2 et
tels que = 2 , avec Trace() = N.

28
4.1.2 Proprits des mco dans le cadre du modle linaire gnralis
Il est toujours possible de calculer lestimateur des moindres carrs ordinaires. En revanche,
il est important de sinterroger sur ce que deviennent ses proprits dans le cadre du modle
linaire gnralis.
Lestimateur des moindres carrs ordinaires est toujours sans biais

E[M CO /X] =

en revanche, lestimateur de sa variance est en gnral biais.

Dmonstration. On a toujours en effet :

M CO = (X 0 X)1 X 0 Y = (X 0 X)1 X 0 (X + U )
= + (X 0 X)1 X 0 U

et donc sous lhypothse H2, on vrifie que M CO est sans biais.


En revanche, on a :
V (/X) = 2 (X 0 X)1 X 0 X(X 0 X)1

On rappelle que lestimateur de la matrice de variance-covariance du paramtre scrit :


k2
V (/X) = 2 (X 0 X)1 . Avec par dfinition : 2 = kyX
N K = SCR
N K est en gnral biais.
mco

En effet :

ky X k2 SCRmco
2 = =
N K N K
(u0 M u)
= avec MX = IN X(X 0 X)1 X 0
N K
1 2
= T r(M uu0 ) = (T r T r((X 0 X)1 X 0 X))
N K N K
2
= (N T r((X 0 X)1 X 0 )) 6= 2
N K
Les deux termes nont aucune raison de correspondre.

Si le fait que lestimateur des MCO reste sans biais est apprciable, la deuxime proprit
signifie que les tests prcdents ne seront pas fiables : il est donc impossible de se contenter
de lestimateur des moindres carrs ordinaires, ds lors quon suspecte les hypothses H3
et H4 de ne pas tre vrifies. La section suivante prsente des tests classiques permettant
de dtecter lhtroscdasticit dune part, et lautocorrlation des rsidus de lautre. Les
solutions qui peuvent alors tre apportes sont ensuite voques.

4.2 Dtection de lhtroscdasticit


4.2.1 Dfinition
Le modle htroscdastique "classique" suppose que les dispersions des pertubations indi-
viduelles ne sont pas identiques. Cela peut tre le cas par exemple lorsque lon sintresse
des groupes dont les caractristiques sont trs diffrentes (propension consommer selon la
catgorie socio-professionnelle par exemple). En revanche, on suppose toujours que les per-
turbations ne sont pas corrles entre elles (les prfrences des individus ne dpendent pas
les unes des autres).
y = X + u

29

E(ui /X) = 0
E(ui uj /X) = 0 pour i 6= j
E(u2i /X) = i2

La matrice de variance covariance est donc diagonale dans ce cas, et scrit

E(U U 0 /X) = Diag(12 , . . . , N


2
) 6= 2 IN

Par dfinition, le modle est homoscdastique si i, ji = j . Si cette hypothse nest pas


vrifie, alors le modle sera dit htroscdastique. Les tests suivants tentent donc de tester
cette proprit partir destimations des variances individuelles.

4.2.2 Le test de Goldfeld et Quandt


Ce test repose sur lhypothse que la variance des perturbations est une fonction monotone
dune des variables explicatives Z. On peut alors ordonner les observations en fonction de Z,
et supposer que zi zi+1 .
Le test de Goldfeld et Quandt consiste alors comparer les variances des perturbations
composes des N1 premires observations et des N2 dernires (on choisit N1 et N2 de manire
sparer suffisamment les deux sous-chantillons : en pratique on pourra prendre le premier
et le dernier tiers). Si on note 12 la variance des perturbations sur le premier sous-chantillon
et 22 la variance des perturbations sur le second, lhypothse qui est teste est :

H0 : 12 = 22

Le test est alors fond sur la statistique :

22
GQ =
12
avec,
P N2 PN
u2n n= N u2n
2 +1
12 = n=1 2
et 2 =
N1 K 1 N2 K 1
qui suit sous H0 une loi de Fisher (N1 K 1, N2 K 1).

Mise en oeuvre du test :

1. faire les mco sparment sur les deux sous chantillons.


2. Calculer 12 et 22 partir des sommes des carrs des rsidus des deux rgressions.
3. On rejette lhypothse nulle dhomoscdasticit H0 au seuil si

22
> FN1 K1,N N2 K1 (1 )
12

o FN1 K1,N N2 K1 (1 ) est le quantile 1 de la loi de Fisher N1 K 1


et N N2 K 1 degrs de libert1 .
1 on met toujours le plus lev au numrateur

30
Mise en oeuvre sous sas

Il faut dabord trier les variables dans la table initiale avec une proc sort.
proc sort data=matable ;by z ;
Puis crer deux tables, avec les N 1 premires observations et les N 1 dernires.
data t1 ;set matable ; if _N _ <= N 1 ;
data t2 ;set matable ; if _N _ > N N 1 ;
proc reg data=t1 ; model y = z x; proc reg data=t2 ; model y = z x; run; puis rcuprer les
sommes des carrs des rsidus (en haut gauche des listings) pour calculer la statistique de
Fisher du test.

4.2.3 Le test de Breush et Pagan


Le test prcdent est fond sur lide selon laquelle la variance des perturbations est une
fonction croissante dune variable Z ; or, ceci nest videmment pas toujours le cas (tout
dpend de la forme de lhtroscdasticit sous-jacente). Le test de Breusch et Pagan est plus
gnral. Il sappuie sur lhypothse alternative Ha : i, i2 = 02 + Xi o 02 R et 0 RK
sont deux paramtres.
Lhypothse nulle dhomoscdaticit scrit :

H0 : = 0.

Le principe est de tester la nullit jointe des coefficients de la rgression du carr des rsidus
sur les variables susceptibles dexpliquer lhtroscasticit.

Mise en oeuvre du test sous sas :

1. On estime le modle linaire y = X + u par les mco et on obtient ainsi des rsidus
destimation
ui = yi Xi mco quon enregistre dans une nouvelle table (option output).

proc reg data=matable ; model y = x1 . . . xK ;


output out=matable2 r=monres ; run ;
2. on calcule le carr de ces rsidus dans une nouvelle table
data=matable2 ; set matable2 ; res2=monres*monres ; run ;
3. On rgresse par MCO u2i sur les variables explicatives.
proc reg data=matable2 ; model res2 = x1 . . . xK ;
run ;
Le test de Fisher de nullit jointe des coefficients est fait par dfaut (colonne de droite).

4.3 Dtection de lautocorrlation


4.3.1 Dfinition
Lautre exemple classique de modle linaire gnralis est la prsence de corrlation entre
les termes de perturbations. Ce cas est frquent avec des sries temporelles. Par exemple,
si lon sintresse aux volutions du salaire dun mme individu au cours de sa carrire, il
est difficile de croire que les termes derreur, qui est li aux dterminants non observs du
salaire, ne sont pas corrls entre eux au cours du temps. Un "choc" sera vraisemblablement
persistant : on parlera alors dautocorrlation.

31
Exemple : processus AR(1)

On se place dans le cadre dun modle o les perturbations suivent un processus autor-
gressif dordre 1 not AR(1).

yt = xt + ut , t = 1, . . . , T
ut = ut1 + t || > 1
E(t /X) = 0, V (t /X) = 2 , cov(t , t0 /X) = 0, t 6= t0

Pour que le processus des perturbations soit stationnaire au second ordre (t, E(ut /X) =
m, V (ut /X) = 2 , cov(ut , uth ) = (h)), on pose la condition initiale :
0
u0 = p avec 0 = 0, (0 ) = 2 , ov(0 , t ) = 0, t > 0
1 2

On montre alors que la matrice de variance - covariance des perturbations (u1 , ..., uT ) scrit :

2 ... T 1

1
1 T 2
2 ..

 2 ..
V (u/X) = . .
1 2
.

..

1
T 1 1

Lide est quun choc exogne un moment donn, a un effet persistant mais dcroissant
exponentiellement avec le temps.

4.3.2 test de lhypothse dautocorrlation dans le cas du modle


AR(1)
Pour ce modle, tester labsence dautocorrlation revient tester : H0 : = 0 contre H1 :
6= 0
Le test le plus frquemment utilis est celui de Durbin-Watson, reposant sur la statistique :

T (ut ut1 )2
d = t=2 T 2
t=1 ut

Cette statistique est lie asymptotiquement au paramtre par la relation suivante :

p lim dT = 2(1 )

Par consquent :
si est nul (absence dautocorrlation), d est proche de 2,
si est proche de 1 (forte autocorrlation positive), d est proche de 0
si est proche de -1 (forte autocorrlation ngative), d est proche de 4
La loi de probabilit de la statistique d est difficile tablir car elle dpend des rsidus
estims et donc des valeurs prises par les variables explicatives du modle. Durbin et Watson
ont nanmoins estim deux lois, qui encadrent la loi de d sous lhypothse nulle.
Sous lhypothse H0 : = 0, il existe deux statistiques, de et du , qui encadrent toujours d :

d` < d < du ,

et dont la loi ne dpend que de T et K.

32
Test de H0 : = 0 contre Ha : > 0
Si d est proche de 2 lhypothse H0 est accepte. Si d est en revanche trop faible lhypothse
on pourrait dterminer le fractile d ()
nulle est rejete. Si on connaissait la loi d0 de d,
de cette loi permettant de conclure au rejet ou lacceptation de lhypothse H0 de non-
autocorrlation pour un test au seuil .

P (d0 < d? ()) =

Ne connaissant pas la loi asymptotique de d on dtermine les fractiles correspondants d` ()


de dl et du () de du

P (dl < dl ()) =


P (du < du ()) =

Comme
d l < d0 < du

On a
dl () < d () < du ()

Si d est infrieure d` (), alors d < d () : on refuse H0


Si d est suprieure du (), alors d > d () : on accepte H0
Si d` < d < du , on se trouve dans la zone dite inconclusive : le test ne permet pas de
conclure au rejet ou lacceptation de H0 .
La pratique courante consiste inclure la zone inconclusive dans la zone de rejet de lhy-
pothse H0 pour se garantir contre le risque daccepter tort labsence dautocorrlation.
Lamplitude de la zone inconclusive, du d` , est dautant plus importante que le nombre T
dobservations est faible et que le nombre de variables explicatives est important.

Mise en oeuvre sous SAS

Il suffit dajouter loption /DW pour obtenir la valeur du durbin Watson :


proc reg data = nom_de_table;
model y = x1 x2 . . . xK /DW ;
run ;

4.4 Estimateur optimal dans le cadre du modle gnra-


lis
Il est thoriquement possible dobtenir un estimateur optimal dans le cadre du modle linaire
"gnralis". Il suffit de remarquer quen multipliant tous les vecteurs par linverse de la
matrice de variance-covariance des perturbations (on dit quon "sphricise" le modle), on
est ramen au modle linaire classique (voir annexe B pour les dtails).
Lestimateur des moindres carrs appliqus ce modle "sphricis", quon appelle estimateur
des moindres carrs gnraliss, est donc sans biais, et optimal parmi les sans biais.
Malheureusement, ce rsultat soulve un nouveau problme : la matrice de variance-covariance
des perturbations est justement inconnue, et il nest donc en pratique jamais possible desti-
mer directement lestimateur des moindres carrs gnraliss. Il faut donc dans une premire
tape utiliser un estimateur de cette matrice de variance-covariance. On peut alors "sph-
riciser" le modle partir de cette estimation : on parle de modle "quasi-gnralis", et

33
lestimateur de associ est dit estimateur des moindres carrs quasi gnraliss. Mais ce
nouvel estimateur nest a priori pas optimal.
En pratique, pour les deux cas prsents ci dessus :
correction de lhtroscedasticit Si on a trouv une autocorrlation du type : i2 =
2 f (X), on peut tranformer le modle par :
p
1/ f (x) [Y = X + u]

(donc en utilisant les nouvelles variables yi = yi et xi = xi )


f (xi ) f (xi )
Le nouveau modle :
V (ui /X) = 2
est homoscdastique.
En pratique, en labsence de variables "videntes", on pourra par exemple obtenir cette
fonction en rgressant le log du carr des rsidus estims par une premire tape MCO sur
les variables explicatives.

log(u2i ) = 0 + 1 x1i + . . . + K xKi + vi

Et on utilise lexp de la valeur prdite par cette quation.


Remarque : lhtroscdasticit peut dcouler parfois dun problme de spcification du
modle. Passer en log peut parfois aider...
autocorrlation des rsidus Pour tenir compte de lautocorrlation des rsidus dans le
cadre de modle AR(1), on utilise des modles "quasi-diffrencis", qui reposent sur une
estimation de . Lestimateur de Prais Watson est prsent ici. il sagit dun estimateur en
plusieurs tapes :
estimation par MCO du modle yt = xt + ut , t = 1, ..., T
calcul des rsidus estims : ut = yt xt mco
estimation de par application des mco au modle :

ut = ut1 + t , t = 2, ..., T

soit
Tt=2 ut ut1
=
Tt=2 u2t1

p donnes transformes (y compris le vecteur unit, transform en x0) :


calcul des
y1 = p1 2 y1 et yt = yt yt1 , t = 2, ..., T
X1 = p1 2 X1 et Xt = xt Xt1 , t = 2, ..., T
1 = 1 2 et x0
x0 t = 1 , t = 2, ..., T
estimation des MCO du modle transform sans constante
Lestimateur ainsi obtenu est convergent et asymptotiquement aussi efficace que les-
timateur des MCG2 .
Mise en oeuvre sous sas
Dans une premire rgression, on peut rcuprer les rsidus avec loption output :
proc reg data = nom_de_table;
model y = x1 x2 . . . xK ;
output out = matable2 r = monres;
run ;
on cre une nouvelle table avec le rsidu retard (ut1 ) :
data=matable2 ; set matable2 ; resret=lag(monres) ; run ;
2 Remarque : le modle sphricis correspond "presque" au modle dit quasi-diffrenci o les observations

p
sont remplaces par yt yt1 , t = 2...T . Le "presque" concerne la premire observation, qui elle scrit :
1 2 y 1 .
Il est alors tentant de supprimer cette premire observation, et de travailler uniquement sur le modle
quasi -diffrenci, qui scrit de manire plus simple. Certains tests, comme la procdure de Cochran et
Orcutt (CORC) ou de Durbin par exemple, en sont des exemples.

34
on obtient avec la rgression

proc reg data = matable2 ;model monres = resret ;run ;

On cre les variables transformes :

data = matable2 ; set matable2 ;


if t = 1 then x0 = sqrt(1 ) ;else x0 = 1 ;
if t = 1 then ytilde = sqrt(1 )y ;else ytilde = (1 ) y ;
et idem pour toutes les variables explicatives...
run ;
On fait finalement la rgression (en remplaant la constante - option /noint par la
variable transforme x0) :
proc reg data = nom_de_table;
model ytilde = x0 xtilde1 xtilde2 . . . xtildeK /noint;
output out = matable2 r = monres;
run ;

35
Chapitre 5

Problmes de spcification du
modle

Ce chapitre sintresse aux problmes de spcifications du modle. Ils sont de plusieurs


ordres. Le choix des variables explicatives est important. Il est lgitime de sinterroger sur
les consquences d"oublier" certaines caractristiques importantes, ou linverse dintro-
duire des variables "inutiles" dans le modle. Les variables observables ne sont pas toujours
bien mesures : ces problmes de mesure peuvent avoir des effets sur la qualit des estima-
tions. Enfin, le fait de recourir une spcification linaire peut tre questionn.

5.1 choix des variables explicatives


5.1.1 omission dune variable explicative
Que deviennent les estimations lorsquune variable explicative importante est oublie, ou
inobserve ? Comme on va le voir, cela pose des problmes importants.
Pour fixer les ides, supposons que la variable dpendante dpend de deux caractristiques,
x1 et x2 . Le "vrai" modle est donc :

y = 0 + 1 x1 + 2 x2 + u

Supposons que seule x1 soit disponible dans nos donnes. On estime donc :

y = 0 + 1 x1 + v

Comme on va le voir, mme lorsque lon ne sintresse qu leffet de la variable x1 sur y,


lomission de cette variable peut avoir des consquences importantes ds lors quelle est
galement corrle avec x1 . On montre en effet que :

E(1 ) = 1 + 2 x2 x1

o x2 x1 est le coefficient de la rgression de x2 sur x1 .

Le paramtre de la rgression de x1 sur y est donc biais.

Dmonstration. On rappelle que le coefficient estim par les mco peut scrire dans ce cas
simple : P
(x1i x1 )yi
1 = P
(x1i x1 )2

36
Si on remplace y par sa "vraie" valeur, on trouve
P P
(x1i x1 )ui (x1i x1 )x2i
1 = 1 + P + 2 P
(x1i x1 )2 (x1i x1 )2

Donc mme si E(u/X) = 0, le coefficient 1 sera biais.

5.1.2 introduction dune variable "en trop"


Supposons linverse du cas prcdent quon a ajout une variable "en trop" dans le modle
(on "surspcifie" le modle), cest--dire une variable qui en ralit na pas de "vraie" relation
avec la variable dpendante. Pour fixer les ides, on suppose quon estime un modle :

y = 0 + 1 x1 + 2 x2 + v

mais que x2 na en ralit pas deffet sur la variable y, une fois contrls les effets de x1 :2 = 0.
La bonne nouvelle est que les estimateurs des autres paramtres sont toujours non biaiss,
tant que la proprit de non corrlation avec les rsidus est toujours vrifie. Cela signifie quen
esprance, les estimateurs convergent vers le vrai paramtre (cest dire que lestimation de
1 estim dans le modle "surspcifi" convergera vers 1 , tandis que
hatbeta2 vers 0.

Dmonstration. Dans lestimation par les moindres carrs du modle linaire obtenu en uti-
lisant x1 ET x2 , on a toujours : = (X 0 X)1 X 0 Y avec X = (e, X1 , X2 ). Le "vrai" modle
peut scrire :
y = 0 + 1 x1 + 0x2 + u
Donc :
E(/X) = + (X 0 X)1 X 0 E(u/X) =

0
si E(u/X) = 0. Ici le vrai vecteur de paramtre = 1 .
0

Attention nanmoins si la variable supplmentaire est trs corrle avec les "vraies" variables
explicatives. Dans ce cas, la variance des estimateurs risque daugmenter. On rappelle que :

2
V (1 /X) =
N (1 R12 )Vemp (Xk )

Avec R12 coefficient de la dtermination de x1 sur x2 . Si les deux variables sont trs corrles,
ce coefficient sera proche de 1 : on perdra donc en prcision dans lestimation de x1 .

5.1.3 Erreur de mesure sur les variables


Un problme se pose galement lorsque les variables dont on dispose sont mesures avec
erreur, ou quelles ne sont que des "proxy" de la variable qui nous intresse vraiment.
Supposons par exemple quon sintresse un modle simple :

y = 0 + 1 x + u o E(u/x) = 0

Mais que la variable x est mesure avec erreur. On observe en ralit x = x + e. On suppose
que le terme derreur e nest pas corrl avec la "vraie" valeur x : E(e/x) = 0 ni avec la

37
perturbation du "vrai" modle u. Mme dans ce cas favorable, lestimateur par les moindres
carrs de leffet de x sera biais.
En effet, en pratique on rgresse y sur x , le coefficient 1 estim est donc :
P
(x x )yi
1 = P i
(xi x )2

Or y = 0 + 1 x + u = 0 + 1 x + u 1 e donc :
P P
(xi x + ei e)ui (xi x + ei e)ei
1 = 1 + P P
(xi x )2 (xi x )2
En utilisant les hypothses sur les termes derreur, on a alors :
e2
E(1 /x) = 1
(e2 + x2 )2
o e et x sont respectivement les carts-types du terme derreur de mesure e et de la vraie
variable x. Il est important de noter que dans ce cas le biais est toujours ngatif. Le problme
derreur de mesure se traduit toujours par une sous-estimation du paramtre. Par ailleurs,
de manire assez intuitive, il est dautant plus lev que la variance du terme derreur est
grande relativement celle du paramtre.

5.1.4 simultanit
Un autre problme peut se poser lorsque la causalit entre la variable explique et la variable
explicative nest pas univoque : lexemple "canonique" est le lien entre la demande dun bien
y et son prix p. Une quation de demande va ainsi scrire
y = d p + xd bd + ud
Il est cependant difficile de sarrter l. En effet, il est vraisemblable quil existe galement
une quation doffre du bien y, galement fonction du prix
y = s p + xs bs + us
et le prix est la fonction qui quilibre ces deux fonctions.

1
p= (xd bd xs bs + ud us )
s + d
Un choc de demande ud aura donc vraisemblablement un impact sur le prix p. Cela signifie
donc que E(ud ) 6= 0, et que le paramtre estim par les moindres carrs ordinaires sera biais.

5.2 choix entre deux modles


Plus gnralement, on peut se demander, en cas de deux modles "thoriques" concurrents,
lequel est le plus pertinent. Le problme peut souvent se ramener tester si, entre deux mo-
dles lis deux ensembles de variables explicatives (x1 , x2 , . . .) pour le modle 1 et (z1 , z2 , . . .)
pour le modle 2, lequel est le plus vraisemblable.
Plusieurs cas peuvent se prsenter :
les modles sont emboits, cest--dire que toutes les variables dun des modles sont
comprises dans lautre. Par exemple :(z1 , z2 , . . .) (x1 , x2 , . . .). Dans ce cas, il suffit de
faire un test de Fisher de nullit jointe des variables "surnumraires". Lhypothse nulle
dans ce cas correspond au modle 2, tandis que lhypothse alternative correspond au
modle 1.

38
lorsque les deux ensembles sont disjoints, on peut se ramener un surmodle qui com-
prend toutes les variables explicatives des deux modles, et se ramener au cas prcdent.
Dans ce cas nanmoins, il est possible dtre confront une indtermination. En fait, deux
tests de Fisher sont possibles, dont lhypothse nulle est commune (le surmodle est vrai),
mais qui dont lhypothse alternative est le modle 1 dans un cas, le modle 2 dans lautre.
dans certains cas, passer par un surmodle nest pas optimal : par exemple, si lon veut
modliser la consommation en fonction du revenu et quon hsite entre deux modlisations
fonctionnelles : y = a + bR + cR2 ou y = dlog(R). Il est probable que passer par un sur-
modle (y = a + bR + cR2 + dlog(R)) ne donnera pas des rsultats interprtables, car les
variables dpendantes sont trop lies. On regardera dans ce cas le pouvoir explicatif du
modle avec le coefficient de dtermination. Pour tenir compte du fait que les deux modles
nont pas le mme nombre de variables, on utilisera le R2 ajust (voir chapitre 2).
attention ceci nest vrai que pour des modles qui sintressent exactement la mme
variable dpendante (i.e il nest pas possible de comparer un modle o elle est exprime en
niveau et un autre o elle est en logarithme). Dans lexemple ci-dessus, il ny a aucun sens
utiliser le coefficient de dtermination (qui donne la part de la variance de la variable
dpendante explique par le modle) pour des variables dpendantes diffrentes (donc de
variance totale diffrente).

5.3 adquation de la forme linaire


La forme linaire de la dpendance entre la variable y et ses dterminants X a t introduite
de manire ad hoc, et on peut sinterroger sur sa pertinence. En ralit, cette formulation
nest pas trs contraignante, dans la mesure o il est souvent possible de sy ramener au
prix de quelques transformations des variables dintrt. Par exemple, lorsque lon cherche
calculer llasticit de la production lun de ses facteurs, on raisonne plutt en taux de
croissance. La thorie peut guider dans le choix de la forme fonctionnelle.
De mme, il est possible que leffet dune variable prsente des convexits (par exemple, le
salaire progresse trs vite avec lanciennet au dbut, mais le rythme de croissance se ralentit
ensuite), ou quil existe des effets croiss (leffet du diplme sur le salaire nest pas le mme
pour les hommes et les femmes par exemple). L encore, il suffit dintroduire dans le modle
linaire des variables supplmentaires, obtenues par exemple en croisant deux dimensions.
En revanche, le problme est plus complexe quand la variable explique a a priori une distri-
bution particulire, par exemple lorsquil sagit dune variable de dure, ou dune variable de
comportement (par nature non continue). Le prochain chapitre sintresse plus ce dernier
cas.

39
Chapitre 6

Variables dpendantes
dichotomiques

6.1 Introduction
Dans les chapitres prcdents, les variables utilises taient implicitement supposes conti-
nues. Cependant, on sintresse souvent des variables qualitatives, qui sont discrtes : di-
plme obtenu, risque de dfaillance dune entreprise, comportement dachat de tel ou tel
produit...
Utiliser des variables explicatives de ce type ne pose pas de problme particulier. En re-
vanche, les choses sont un peu plus compliques lorsque cest la variable dpendante Y qui
est discrte. On va sintresser ici la spcification et lestimation de modles o la variable
dpendante est une variable binaire, appele encore variable dichotomique : y 0, 1.

6.2 Expression gnrale du modle


Soit donc une variable dpendante Y qui prend les valeurs 1 ou 0. Dans ce modle, la variable
dintrt sera la probabilit dobserver yi = 1, conditionnellement des variables explicatives :
Xi . Plus prcisment, on va supposer que cette probabilit scrit sous la forme :

P (yi = 1/Xi ) = G(0 + 1 x1 + . . . + K xK )

o G est une fonction continue, positive, comprise entre 0 et 1. En pratique les modles de
choix discret sont spcifis en utilisant deux fonctions de rpartition :
, la fonction de rpartition de la loi normale :
Z z
G(z) = (t)dt = (z)

o (t) = 1 exp( 12 t2 ). On a donc dans ce cas


2

P (y = 1/X) = (X)

Un tel modle est appel Modle Probit.


F , la fonction logistique
1
F (z) =
1 + exp(z)

40
Dans ce cas
1
P (y = 1/X) = F (X) =
1 + exp(xi b)
Un tel modle est appel Modle Logit

6.2.1 Interprtation en terme de variable latente


Les modles variables dpendantes discrtes sont souvent introduits par le biais dune
variable latente, cest--dire une variable inobserve mais qui dtermine compltement la
ralisation de la variable indicatrice tudie. Par exemple, on peut supposer quune personne
adopte un comportement lorsque son utilit dpasse un seuil qui varie selon ses caractris-
tiques (observables ou non).
Formellement, on suppose quil existe une variable y , appele variable latente associe
au modle, telle que y = 1[y >0] , et on postule la dpendance linaire de cette variable
latente avec les explicatives sous la forme : y = X + u.
On a alors :
y = 1 y > 0 X + u > 0
y est la variable latente associe au modle.
Si on suppose que le rsidu u intervenant dans modlisation de la variable latente suit une
loi normale (resp. logistique) et quil est indpendant des variables explicatives, on obtient le
modle Probit (resp. Logit).

6.2.2 Interprtation des rsultats : effet marginal dune variation


dune variable explicative x
Il est plus difficile que dans le modle linaire dinterprter, ou tout au moins de quantifier,
leffet dune variable explicative sur notre variable dpendante. Nanmoins, comme on va le
voir, il est simple den connatre le sens.
De P (y = 1/X) = G(X), on dduit en effet :

p(y = 1/X)
= g(X)k
Xk
o g est la fonction de densit de la fonction de rpartition G (i.e sa drive).
Le problme de cette formulation est que leffet marginal de la variable xk est "local" : il
dpend de la valeur de lensemble des covariables. Cependant, comme G est une fonction
strictement croissante, g(z) > 0 pour tout z. Donc leffet de la variable explicative Xk sur la
probabilit P (Y = 1/X) sera du signe de k .
Par ailleurs leffet relatif de deux variables continues xk et xl scrit simplement k /k et ne
dpend donc pas de X.

6.3 Estimation des modles dichotomiques


Les modles dichotomiques sestiment par le maximum de vraisemblance. On fait lhypothse
que les observations sont indpendantes.
Si P (yi = 1/xi ) = G(xi ), la probabilit dobserver yi pour un individu peut scrire comme

P (yi /xi ) = P (yi = 1|xi )yi [1 P (yi = 1/xi )]1yi


= G(xi )yi [1 G(xi )]1yi

41
La log-vraisemblance dobserver (yi , Xi ) scrit donc en fonction du paramtre :

i () = yi log[G(Xi )] + (1 yi )log[1 G(Xi )])


P
La log-vraisemblance de lchantillon total scrit alors : = i i . Lestimateur du maxi-
mum de vraisemblance est alors le vecteur de paramtre qui maximise la log vraisem-
blance. On peut calculer galement sa variance. La log vraisemblance tant non linaire, il
nest pas possible de donner une expression analytique simple de ces estimateurs, et leur cal-
cul se fait gnralement par la mise en oeuvre dun algorithme doptimisation. On trouvera en
annexe les quations du premier ordre permettant de dterminer lestimateur, et lexpression
de sa variance.

6.4 Mise en oeuvre de tests simples dans le cas dun mo-


dle dichotomique
On voque ici les quivalents des tests tudis dans le cadre du modle linaire. On peut
montrer que lestimateur par maximum de vraisemblance de (respectivement son cart-
type) suit une loi normale (respectivement une loi du 2 ).

6.4.1 test de la nullit dun coefficient


On peut montrer que la statistique de Wald :

W = j j2 2 (1)

converge asymptotiquement vers une loi du 2 un degr de libert sous lhypothse nulle
H0 : j = 01 . Si on teste H0 : j = 0 contre Ha :j 6= 0, la rgion critique de rejet du test au
niveau sera :
2 1/2
W = { k2 > N K1 }
k

6.4.2 test dun ensemble de contraintes linaires


Si on veut tester maintenant lhypothse nulle H0 : = r contre Ha : 6= r, on utilise de
mme la statistique :
F = (R r)0 (R r)R(V R0
qui suit un 2 sous lhypothse nulle.

6.5 Mise en oeuvre sous sas


Les modles variables dichotomiques peuvent tre mis en application avec la proc Logis-
tique de sas. La syntaxe en est :

Proc Logistic data= matable;


model y=x1 x2 . . . ;
run ;
Par dfaut, la procdure estime un modle Logit. On peut ajouter une option probit pour
estimer un tel modle.
1 il serait galement possible dutiliser une statistique de Student. On prfre prsenter la statistique de

Wald, dusage plus courant en maximum de vraisemblance, et utilise par SAS.

42
Comme pour la procdure REG, les tests dhypothses linaires scrivent simplement en
fonction des variables correspondantes. Par exemple, la commande pour tester 1 + 3 = 1
scrira : test x1 + x3 = 1 ;

6.6 Remarque : le modle probabilits linaires


On peut sinterroger sur les proprits de lestimation si la on estime directement un modle
linaire en xi :
E(yi /xi ) = P (yi = 1/xi ) = xi

Le modle peut alors tre estim par les MCO.


En dpit de sa simplicit attractive, ce choix de modlisation prsente nanmoins des incon-
vnients importants.
Problme de cohrence, puisquil ne peut contraindre P (yi = 1|xi ) = xi appartenir
lintervalle [0, 1].
Problme destimation : le modle dichotomique est toujours htroscdastique. De yi2 = yi ,
on dduit :

V (yi /xi ) = E(yi2 /xi ) E(yi /xi )2 = E(yi /xi ) E(yi /xi )2
= E(yi /xi )[1 E(yi /xi )] = G(xi )[1 G(xi )]

en consquence, comme montr dans le chapitre 4, lestimateur de la variance des moindres


carrs ordinaires est biais, et il nest pas possible deffectuer des tests directement.

43
Annexe A
le thorme de Frisch-Waugh
Le thorme de Frisch-Waugh est une proprit algbrique de lestimateur des moindres carrs
qui explicite linterdpendance des coefficients de diffrentes variables dans une rgression.
Thorme
Dans la rgression de Y sur un ensemble de variables explicatives X, si X se dcompose en
deux sous-ensembles X1 et X2 : X = (X1 , X2 ), les coefficients des variables X1 peuvent tre
obtenus indirectement en rgressant la variable dpendante Y sur les rsidus MX2 X1 des
rgressions des variables X1 sur les variables explicatives X2 :

1 = ((MX2 X1 )0 MX2 X1 )1 (MX2 X1 )0 Y

on peut alors retrouver les coefficients des variables X2 en rgressant la partie inexplique
Y X1 1 sur X2 :
2 = (X20 X2 )1 X20 (Y X1 1 )
avec MX2 = IN X2 (X20 X2 )1 X20

Dmonstration. Les coefficients de la rgression de Y sur X = (X1 , X2 ) satisfont

X10 (Y X1 1 X2 2 ) = 0
X20 (Y X1 1 X2 2 ) = 0

De la deuxime quation on tire directement la deuxime partie du thorme

2 = (X20 X2 )1 X20 (Y X1 1 )

Lorsque lon rintroduit cette expression dans la premire quation il vient

X10 (Y X1 1 X2 (X20 X2 )1 X20 (Y X1 1 )) = 0 soit X10 MX2 (Y X1 1 ) = 0

soit X10 MX2 (Y MX2 X1 1 ) = 0 car MX 2 est un projecteur et MX


2
2 = MX 2 do lexpression
de 1 .

44
Annexe B
Estimateur des moindres carrs gnraliss
On se place dans le cadre du modle gnralis du chapitre 5. On va voir quen appliquant
au modle linverse de la matrice de variance-covariance, on peut se ramener aux modles
linaires classiques.

Sphricisation

Comme est dfinie positive, elle est diagonalisable dans le groupe orthogonal. Autrement
dit, il existe une matrice carre H dordre n telle que = HDH 0 avec D matrice diagonale
coefficients diagonaux strictement positifs et H 0 = H 1 . On peut donc dfinir pour tout
, = HD H 0 avec
d1
..
. (0)
D =


.
(0) . .


d
n
Le modle linaire gnralis peut alors se mettre sous la forme du modle linaire de la faon
suivante :
1 1 1
2 Y = 2 X + 2 u
1
Y = 2 y

1
Si on pose X = 2 X , on obtient le modle "sphricis" :
1
u = 2 u

Y = X + u

On a
0
H1 : X 0 X = X 0 1/2 1/2 X = X 0 1 X inversible

H2 : E[U X] = E[1/2 U/1/2 X] = 1/2 E[U/X] = 0


H3 : E[U U 0 X] = E[1/2 U U 0 V /1/2 X] = 1/2 E[U U 0 /X]1/2 = 2 IN

On retrouve donc le cadre du modle linaire vu au chapitre 2 : les proprits de lestimateur


des moindres carrs ordinaires se transposent ce nouvel estimateur.

Estimateur des moindres carrs gnraliss

Le meilleur estimateur linaire sans biais de est lestimateur des moindres carrs ordinaires
sur le modle sphricis
M CG = (X 0 X)1 X 0 Y = (X 0 1 X)1 X 0 1 y

M CG est appel estimateur des moindres carrs gnraliss (MCG).

1. Lestimateur des MCG est sans biais : E[M CG /X] =


2. Lestimateur des MCG a pour matrice de variance V(M CG |X) = 2 (X 0 1 X)1
Par ailleurs, on peut dfinir lestimateur des moindres carrs gnraliss de 2 ... 2 =
e e
ky Xk2
N K1
Si on se place sous lhypothse de normalit des rsidus, u N (0, 2 ), on a les lois
(" distance finie") des deux estimateurs M CG et 2 : M CG N (, 2 (X 0 1 X)1 )
2
et (N K) 2 2 (N K)

45
Annexe C
Lestimateur du maximum de vraisemblance dans le cas du mo-
dle dichotomique
Lestimateur du maximum de vraisemblance
P est le vecteur de paramtre qui maxi-
mise la log vraisemblance = i yi log[G(Xi )] + (1 yi )log[1 G(Xi )]).

Conditions de 1er ordre pour la maximisation :

Lestimateur du maximum de vraisemblance est dfini par :


N
" #
log LN X g(xi ) g(xi )
= yi + (1 yi ) x0i = 0
i=1 G(xi ) 1 G(xi )

soit
N
log LN X g(xi )
= [yi G(xi )] x0i = 0
i=1 G(xi )[1 G(xi )]
Ces quations sont en gnral non linaires et ncessitent la mise en oeuvre dun algo-
rithme doptimisation.
Pour le modle Logit on a simplement
N
log LN X
= [yi F (xi )]x0i = 0
b Logit i=1

Pour le modle Probit on a simplement


N
log LN X (xi )
= [yi (xi )] x0i = 0
b i=1 (xi )[1 (xi )]

Matrice de variance-covariance de

La matrice de variance covariance asymptotique est gale


  2 1   1
log L log L log L
Vas () = E = E
0 0

Elle peut tre estime partir des drives secondes values en :


  1
2 log L yi , xi ,
Vas () =
0

46
Bibliographie

[1] Behaghel L. (2006), Lire lconomtrie, collection Repres, La Dcouverte, Paris


[2] Gouriroux C. et Monfort A. (1996), Statistique et Modles Economtriques, Economica
[3] Greene, W. (2003) Econometric Analysis, New York : MacMillan
[4] Wooldridge J. (2003), Introductory Econometrics, A Modern Approach, South-Western

47