Académique Documents
Professionnel Documents
Culture Documents
M. TCHAKOUNTE NJODA
FSEG, Université de Ngaoundéré
Email : econometricien@gmail.com
2015
1
1) Intitulé du cours
Introduction à l’économétrie
Code : EC 301
Heures : 40 (cours magistral), 10 (TD), 10 (PT) ; crédits : 4
Unités d’enseignement fondamentales
Module UEF12 Economie et Econométrie
2) Objectif du cours
3) Plan de cours
4) Bibliographie
La théorie économique fait des hypothèses qui sont principalement de nature qualitative. Par
exemple, toutes choses restant inchangées, une réduction du prix d'un bien devrait augmenter
la quantité demandée de ce produit. Mais la théorie elle-même ne fournit aucune mesure
numérique de cette relation. (C’est le travail de l’économétricien de fournir de telles mesures
ou estimations numériques).
3
Première partie : Régressions simples
Comme pour chaque valeur donnée de R devrait correspondre une infinité de valeurs de C,
l’on est amené à considérer la valeur moyenne de C, appelée espérance de C. Pour cette
raison, on écrit E C | R f R .
2) Spécification
4
3) Terme d’erreurs
Le terme d’erreur ou terme aléatoire ou perturbation représente tous les facteurs qui affectent
la variable endogène, mais qui ne sont pas explicitement pris en compte.
H2 : Les valeurs de x pour un échantillon donné ne doivent pas être identiques. Si toutes les
valeurs de x étaient identiques, alors xi x et il serait impossible de calculer 1 et donc 0 .
H3 : Le modèle de régression est linéaire au moins par rapport aux paramètres ; ce qui signifie
que les paramètres n’apparaissent pas avec des puissances.
H4 : Le modèle de régression est correctement spécifié. Par exemple, on n’utilise pas une
droite en lieu et place d’une courbe.
H8 : En associant H6 et H7, on peut dire que le terme d’erreur suit une loi normale, soit
i ~ N 0, 2 .
H9 : Les erreurs sont indépendantes ou non corrélées entre elles : E i i' 0 , si i i’.
1) Ajustement linéaire
La détermination des estimateurs peut se faire à partir de l’ajustement linéaire (Cf. statistique
descriptive). L'ajustement linéaire est la recherche de la « meilleure » droite résumant la
structure du nuage de points qui représente les données.
variable endogène y
Mi(xi, yi)
yi yˆi ˆ0 ˆ1 xi
ˆi
yˆi
̂ 0
x xi variable exogène x
i yi 0 1xi . (1-3)
2) Résolution analytique
La résolution analytique par la méthode des MCO qui consiste à minimiser la somme des
erreurs au carré est la suivante :
n n
i2 yi 0 1 xi Q i2 yi 0 1 xi . Le problème revient à minimiser Q,
2 2
i 1 i 1
6
Dérivons Q par rapport à 0 et 1, afin de trouver le minimum (valeur optimale) de Q :
Q n n
2 yi 0 1 xi 1 2 yi 0 1 xi .
0 i 1 i 1
Q
2 yi 0 1 xi xi 2 xi yi 0 xi 1 xi2
n n
1 i 1 i 1
n n n n
2 yi ˆ0 ˆ1 xi 0 yi ˆ0 ˆ1 xi 0
i 1 i 1 i 1 i 1
n n n n
2 xi yi ˆ0 xi ˆ1 xi2 0 xi yi ˆ0 xi ˆ1 xi2 0
i 1 i 1 i 1 i 1
Ce qui donne
n n
yi nˆ0 ˆ1 xi
i 1 i 1
n n n
Les deux équations à deux inconnues du système (1-4) sont appelées « équations normales »
(Cf. gujarati, p. 58 ; bourbonnais, p. 19).
1 n 1 n
Soit
n i 1
yi y
et x xi ;
n i 1
la première équation normale s’écrit
1 n 1 1 n
encore yi nˆ0 ˆ1 xi y ˆ0 ˆ1 x . On tire le premier estimateur :
n i 1 n n i 1
n xi ˆ1 xi2
n n
n n n n n
n n n n
xi yi y ˆ1 x nx ˆ1 xi2
i 1 i 1
xi yi nxy ˆ1 xi2 ˆ1nx 2
i 1 i 1
n n
ˆ1 xi2 nx 2 xi yi nxy .
i 1 i 1
x y i i
nxy
ˆ1 i 1
n
. (1-6)
x
i 1
2
i
nx 2
7
n
x x y
i i
y n
ˆ1 x x 0.
i 1 2
n
, si i
(1-7)
x x
2 i 1
i
i 1
Cas particuliers :
-Si 0 0 , le modèle (1-2) devient yi 1 xi i (et le système (1-4) se réduit à une seule
n
n n x y i i n
équation) xi yi ˆ1 xi2 et donc ˆ1 i 1
n
avec x 2
i 0.
x
i 1 i 1 2 i 1
i
i 1
n
x x y
i i
y
-Si xi '0 '1 yi i , alors '0 x '1 y et ˆ '1 i 1
n
, pour
y y
2
i
i 1
n
y y 0.
2
i
i 1
3) Exemples
yt 186206,9 et
t 1
x
t 1
t 277055, 4 . On détermine ensuite la moyenne de xt et yt :
1 1
y
n
yt 186206,9 4047,97609 4048 ;
46
1 1
x xt 277055, 4 6022,94348 6023 .
n 46
8
n
x x y
i i
y
199
ˆ1 i 1
0, 72183
n
144363865, 71
x x
2
i
i 1
̂ 0 valeur estimée de 0
ˆ0 y ˆ1 x 4048 0,72183 6022,9 299,59131 .
Les erreurs estimées encore appelées résidus peuvent encore être calculées à chaque période à
l’aide de la formule : ˆt yˆt 299,59131 0, 72183xt .
NB : On peut être en présence d’un modèle non-linéaire (par rapport aux variables), par
exemple le modèle log-linéaire (Cf. Gujarati, p. 159). Soit le modèle sous forme
exponentielle : yi Axi1 ei . Ce modèle est utilisé pour estimer l’élasticité dans des fonctions
de type Cobb-Douglas à un facteur (relation de court terme, car le capital est supposé
constant). Prenons le logarithme : log yi log A 1 log xi i . Posons Yi log yi ,
0 log A et X i log xi ; on retrouve donc le modèle (1-2) yi 0 1 xi i .
Les propriétés statistiques des estimateurs des MCO sont de trois ordres : elles concernent la
linéarité, l’absence de biais et la convergence. Nous utilisons l’indice t.
(x t x )( yt y )
xt x
ˆ1 t 1
n
. Posons wt n
, on tire
(x
t 1
t x) 2
(x
t 1
t x) 2
n n n n n n
ˆ1 wt ( yt y ) wt yt y wt wt yt ; car w t 0 y wt 0 . Etant donné
t 1 t 1 t 1 t 1 t 1 t 1
9
que wt est une pondération, une quantité exogène et non aléatoire, l’estimateur ̂1 est linéaire
par rapport à yt .
1 n ( xt x )(yt y ) 1 n ( xt x ) yt
ˆ0 yt x t 1
n
yt x t n1 . En effet,
n t 1 n t 1
(xt 1
t x) 2
(x
t 1
t x) 2
n n n
( xt x )(yt y ) ( xt x ) yt y ( xt x ) .
t 1 t 1 t 1
Or
n n n
n n
(x
t 1
t x ) xt x
t 1 t 1 nt 1
xt nx nx nx 0 . Par la suite,
1 . Posons v 1 x xt x ; il vient ˆ v y . D’où ˆ est
n n
ˆ0 x n t
x x
yt t
n n 0 t t 0
t 1 n
2
t 1
( xt x ) ( xt x ) 2
t 1 t 1
(x t x )( yt y )
ˆ1 t 1
n
, si l’on remplace yt y donné précédemment dans l’expression de
(xt 1
t x) 2
̂1 , on obtient
n n n
xt x 1 xt x t 1 ( xt x ) 2 ( xt x ) t
ˆ1 t 1
n
ˆ1 t 1
n
t 1
(x
t 1
t x )2 (xt 1
t x )2
n n
(x t x ) t x t x t n
ˆ1 1 t 1
n
ˆ1 1 t 1
n
, car x t x0
(x (x
t 1
t x) 2
t x) 2
t 1 t 1
n
xt x n
xt x 0 . Comme wt n
, on peut écrire ˆ1 1 wt t (1-9).
(x
t 1 t 1
t x )2
t 1
10
n
n
Prenons l’espérance E ˆ1 E 1 wt t E 1 E wt t
t 1 t 1
n
E ˆ1 1 wt E t . Selon H6: E t 0 , d’où E ˆ1 1 . Donc ̂1 est sans
t 1
biais.
y ˆ0 ˆ1 x
En ce qui concerne ̂ 0 , on sait avec (1-5) et (1-8) que
y 0 1 x
En retranchant (1-8) de (1-5), 0 ˆ0 0 ˆ1 x 1 x et ˆ0 0 ˆ1 1 x
(1-10).
Prenons l’espérance
E ˆ0 E 0 ˆ1 1 x E 0 xE ˆ1 1 E .
n
n
Considérons l’équation (1-9), ˆ1 1 wt t ; la variance est V ˆ1 V 1 wt t .
t 1 t 1
Sachant que 1 est une constante qui ne dépend pas de t et que par propriété (Cf. Gujarati, p.
n
811), V(a + X) = V(X), on en déduit V ˆ1 V wt t . Si wt et t sont indépendants
t 1
n
V ˆ1 V wt t ; en effet V(X + Y) = V (X) + V (Y). La quantité wt étant composée
t 1
d’éléments exogènes non-aléatoires (par propriété, V(aX) = a2V (X), on a
n
n n (x x )2
t
V ˆ1 wt2V t . Selon H7, V t 2 , donc V ˆ1 wt2 2 t 1
2
2 .
t 1 t 1 n
2
( xt x )
t 1
2
On trouve V ˆ1 n (1-11).
(x
t 1
t x) 2
11
1 n 2
V ˆ0 x 2V ˆ1 2 V t
n t 1
ˆ
V 0 x
2
n
1 n
n2
V t car les erreurs
(x
t 1
t x )2
t 1
1
2 2
n 2 x
sont indépendantes. V ˆ0 x 2 n
V ˆ0 2 n
n2 n 2
(x
t 1
t x) 2
t 1
( xt x )
n
2 xt2
(1-12). On montre que V ˆ0 n t 1
n
(1-13).
2
( xt x )
t 1
1 2
n
n
Soit (1-11), V ˆ1
1 n
; lorsque n , (x x )
t
2
,
n
i 1
( xt x ) 2
t 1
1 n
n i 1
( xt x ) 2 V x , d’où V ˆ1 0 , car 2 est une valeur finie. Donc
1 2
lim V ˆ1 n n
1
0.
n
n ( xt x ) 2
t 1
2
Soit (1-13), lorsque n ,
n
0 et lim V ˆ0 0 .
n
-Variances minimales
Voir démonstration dans Gujarati, p. 95.
2) Propriétés numériques
Les différentes propriétés numériques des estimateurs des MCO peuvent être consultées dans
Gujarati, pp. 59-61.
12
Chapitre 2. Tests de signification de Fisher et de Student
Après l’estimation de l’équation de régression simple, deux questions se posent: le modèle
estimé est-il approprié ? Les coefficients estimés sont-ils significatifs ? Pour y répondre, on
utilise deux tests : les tests de Fisher et Student.
n n
SCE = Somme Carrée Expliquée SCE yˆi yˆi yi y , car yˆ t y Cf.
2 2
i 1 i 1
Gujarati, p. 60 ou TD.
n n
SCT = Somme Carrée Totale SCT yi y yi2 ny 2 .
2
i 1 i 1
n n n
SCT = SCE + SCR yi y yi y yi yˆi .
2 2 2
i 1 i 1 i 1
Cela signifie que la variabilité totale (SCT) est égale à la variabilité expliquée (SCE) à
laquelle il faut ajouter la variabilité résiduelle (SCR). Dans cette équation d’analyse de la
variance, plus SCE est proche de SCT, plus SCR 0, et plus l’ajustement du nuage de points
par la droite des MCO est meilleur.
Le coefficient de détermination est le pourcentage de la somme totale des carrés expliquée par
SCT SCR SCE
l’équation estimée de la régression ; il est noté par r2. Soit r 2 (Cf.
SCT SCT
n n
( yˆi y )2 ˆ i
2
x x y y
i i x y nxy i i
Cov x, y
r2 r i 1
i 1
, avec
n n
n 2 2
n
2
x y
( x x ) . ( y y )
i
2
i
2
xi nx
yi ny
2
i 1 i 1 i 1 i 1
1 r 1.
NB
-corrélation ne signifie pas causalité. Autrement dit, s’il existe un lien entre deux variables,
cela ne veut pas dire que l’une est la « cause » de l’autre.
-Même en présence d’une r2 « élevé », le modèle de régression ne peut pas être considéré
comme significatif ; il faut pour cela qu’un test soit réalisé.
Le test de Fisher (basé sur la distribution de Fisher) repose sur les deux hypothèses :
H 0 : 1 0
H1 : 1 0
Si on rejette l’hypothèse H0 (éventualité souhaité, car les tests sont généralement construit de
manière à rejeter H0) à un seuil fixé, on va en conclut que 1 0 , et que les deux variables
x et y ont une relation statistiquement significative. Dans l’exemple du chapitre 1, la
propension marginale à consommer sera considérée comme étant significativement différente
de 0.
Mais, si accepte (on ne peut pas rejeter) H0, le modèle yt 0 1 xt t devient :
yt 0 t et y ne dépend plus de x.
CME SCE
Le rapport , qui représente la statistique du test, est appelé formule du Fisher
CMR SCR
n 2
empirique F* ou Fisher calculé Fcal.
SCE
On montre que F 1 ~ F 1, n 2 dl. En effet, il s’agit du rapport de loi du khi-deux
SCR
n 2
sur leur degré de liberté respective (voir Gujarati, p. 145 et Bourbonnais, p. .36).
14
Exemple d’application 1 : Considérons les données du tableau 2.6, p. 46 de Gujarati repris au
tableau 3.2, p. 79, qui mettent en relation le salaire moyen (y) et le nombre d’années d’études
(x).
Questions : 1) Calculer ˆ0 et ̂1 . 2) Calculer SCE, SCR et SCT. 3) Trouver le r2 et en déduire
r. 4) Construire le tableau ANOVA. 5) Procéder au test de Fisher au seuil de 5 % et 1 %.
Solution : Soit yi 0 1 xi i
1) Calcule de ˆ et ̂ 0 1
n
x x y
i i
y
Les formules de calcul sont : ˆ0 y ˆ1 x et ˆ1 i 1
n
.
x x
2
i
i 1
On dresse le tableau 3.2 (à deux blocs) dans Gujarati, p. 79. Le 1er bloc donne :
Obs. y x xi-x (1) yi-y (2) xi2 (1)(2)
1 4,4567 6 −6 −4,218 36 25,308
2 5,77 7 −5 −2,9047 25 14,5235
3 5,9787 8 −4 −2,696 16 10,784
4 7,3317 9 −3 −1,343 9 4,029
5 7,3182 10 −2 −1,3565 4 2,713
6 6,5844 11 −1 −2,0903 1 2,0903
7 7,8182 12 0 −0,8565 0 0
8 7,8351 13 1 −0,8396 1 −0,8396
9 11,0223 14 2 2,3476 4 4,6952
10 10,6738 15 3 1,9991 9 5,9973
11 10,8361 16 4 2,1614 16 8,6456
12 13,615 17 5 4,9403 25 24,7015
13 13,531 18 6 4,8563 36 29,1378
Somme 112,7712 156 0 0 182 131,7856
1 n 1
Ensuite, on calcule des éléments intervenant dans les formules : y yi 112, 7712
n i 1 13
n
1 156
y 8,67470 ; x xi
131, 7856
x 12 . On tire ˆ1 0, 7240967 et
n i 1 13 182
ˆ 8, 674708 0, 7240967 12 0, 01445 .
0
i 1
n n
SCR yi yˆi 9,83017 , car yˆi ˆ0 ˆ1 xi et SCR yi ˆ0 ˆ1 xi
2 2
.
i 1 i 1
ˆ t
2
9,83017
r2 1 n
t 1
1 0,9065 ; r r 2 0,9065 0,9521 .
( y y) 2 105,1183
t
t 1
15
Source de variation Somme des carrées Degré de liberté Carrés moyens
Régression ( xi ) 95,4255 1 95,4255
Résidu ( ˆi ) 9,83017 11 0,893651818
Total 105,1183 12 -
Voir Gujarati, p. 126.
Exemple d’application 2 : Cf. Gujarati, exemple 3.1, page 81. A lire et faire à la maison.
Exemple d’application 3 : Cf. Gujarati, exemple 3.2, page 81. A lire et faire à la maison.
loi normale, alors ̂1 1 sera normalement distribuée, puisque combinaison linéaire de i
n
dans w i i . Il en va également de même pour ̂ 0 0 avec l’équation (1-10). Voir
i 1
gujarati, p. 100.
Cependant, dans la pratique, i est inconnue, et à plus forte raison sa variance V i 2
qui intervient dans le calcul de la variance (et donc de l’écart-type) de chacun de nos
estimateurs des MCO.
Dès lors, le seul moyen est d’estimer 2 par ˆ 2 . Comme cette dernière dépend du résidu,
écrivons ˆ y yˆ ; si estimé s’écrit yˆ ˆ ˆ x , il vient :
i i i i 0 1 i
x x x x .
n
ˆ ˆ1 1 2 i ˆ1 1
2 2 2
2
i i i i Sachant que
t 1
n n
xi x
ˆ1 1 wi i wi i où wi n
(x
i 1 i 1
i x )2
i 1
n n
ˆ1 1 (x x ) (x x )
i 1
i
2
i 1
i i .
(x x )
n n n n
(x x )
n n
i ˆ1 1
2 2
2
i
i 1 i 1
n 2 n n
Prenons l’espérance E ˆi2 E i ˆ1 1 ( xi x ) 2 .
2
i 1 i 1 i 1
2
n n n
L’espérance étant linéaire, E ˆt2 E t ( xt x ) 2 E ˆ1 1 . Or on sait
2
t 1 t 1 t 1
2
E ˆ1 1 V ˆ1
2
avec (1-11) que n
. On tire
(x
i 1
i x) 2
n n 2
E ˆi2 E i 2 . Développons le terme comme dans Bourbonnais, p. 25 et
i 1 i 1
2 n
26 : E i E i2 2 i 2 E i2 2 t 2
n n n n
i 1 i 1 i 1 i 1 i 1
n
n
n
E i2 2 n n 2 E i2 2n 2 n 2 E i2 n .
i 1 i 1 i 1
n 2 n 2 1 n n 2
1 n
2
E i i E i i E i E i
n
2
i 1 i 1 i 1 n i 1 i 1 n i 1
n 2
Sachant avec H7 que E i2 2 , on a E i n 2 E 1 2 n .
1 2
i 1 n
D’après H9, E i i' 0 , si i i’ ; ainsi, seuls les E i vont subsister. Par conséquent,
2 2
n 2 1
E i n 2 n 2 n 2 2 . Revenons à la formule initiale
i 1 n
n
E ˆi2 n 2 2 2 n 2 2 2 .
i 1
n
En conséquence E SCR E ˆi2 n 2 2 . En d’autres termes, si l’on considère que
i 1
n
1
ˆ 2
n 2 i 1
ˆi2 , ce qui est simplement l’estimateur de la variance du terme d’erreurs, alors
17
ˆ1 1
Soit par exemple ~ N 0,1 (Voir gujarati, p. 100). Dans cette formule, ˆ0 et ̂1 sont
ˆ
1
2
connus, mais ̂ est inconnu, avec ˆ V ˆ1 n
. Remplaçons ˆ 2 dans
(x x )
1 1
2
i
i 1
ˆ 1 ˆ1 1 ˆ1 1
V ˆ1 . Le nouveau rapport 1
ˆ ˆ
est égal à
ˆ 2
n
.
1
n ˆ i
2
(x x )
i 1
i
2 i 1
n2
n
(x x )
i 1
i
2
ˆ1 1
1
2 n
ˆ1 1
( x x )2
i ˆ
i 1 N
1
. Le numérateur N suit une loi normale centrée
n n D
ˆi 1
i
2
ˆi 1
i
2
n 2
2
n 2
2
réduite. Le dénominateur est la racine carrée d’une loi de khi-deux sur son degré de liberté
N ˆ 1 ˆ
n 2 . Autrement dit, T n 2 dl. Au total, 1 ~ N 0,1 , mais 1 1 T n 2
D ˆ ˆ ˆ
1 1
Solution : Cette question est très importante en économétrie, car à travers elle, l’on s’interroge
sur la contribution de la variable exogène revenu = x à l’explication de la variable endogène
consommation = y.
On peut formuler le problème à l’aide de la théorie des tests par les hypothèses sur 1 :
H 0 : 1 0
H 1 : 1 0
18
ˆ1 1
Pour conduire ce test bilatéral, on considère le rapport : ~ T n 2 dl. Sous H0 , cette
ˆ ˆ
1
ˆ 0 ˆ1
statistique devient : 1 t*ˆ ; où t *ˆ est appelé le « ratio de Student ». dans ce ratio,
ˆ ˆ ˆ ˆ 1 1
1 1
n ˆ t
2
SCR
x x 276,82 . Calculons ˆ 2
2 t 1
, avec n = 46 et SCR = SCT –
n2 n2
t
t 1
n n
SCE ; SCR ( yi y ) 2 ˆ12 ( xi x ) 2
i 1 i 1
1
soit ˆ ˆ V ˆ1 0, 004439381 . t*ˆ
0, 72183
0, 004439381
1
162,5969926 .
Student (Gujarati, p. 879) et peut se calculer dans Excel (microsoft) en faisant : fonction
statistiques loi.student.inverse.bilatérale, on choisit la probabilité 0,05 et le dl= 44, et on
valide ; on obtient 2,01536.
t*ˆ 162,5969926 t70,025 2, 01536 , d’où la règle de décision : rejet de H0. Ce rejet signifie
1
Exemple d’application 2 : Le taux d’augmentation dans le salaire horaire moyen par rapport à
l’éducation est-il significativement différent de 0 ?
NB : Répondre à l’aide de l’intervalle de confiance à 95 % et interpréter. (Cf. Gujarati, p. 109-
111).
19
Chapitre 3. Analyse des résidus, diagnostic des observations,
prévision
I. Analyse des résidus
L’analyse des résidus ˆt est une étape importante pour savoir si l’hypothèse de normalité
(H8) sur t est respectée. Il existe plusieurs tests de normalité basés sur les résidus.
C’est un graphique simple qui est utilisé pour décrire la répartition de la fonction de densité
de probabilité de la variable résidu. Sur l’axe horizontal on représente les résidus divisés en
intervalles d’égales mesures, et sur l’axe vertical, on indique les fréquences. L’histogramme
de l’exemple 2, chapitre 2 est représenté dans Gujarati, p. 131, figure 5.7. Si l’on superpose
mentalement la courbe d’une distribution normale sur cette figure, on verra que les résidus ne
sont pas parfaitement normalement distribués.
Le test de normalité de Jarque et Bera permet de vérifier si les résidus suivent effectivement
une loi normale. Il s’agit d’un test asymptotique, réservé uniquement aux grands échantillons
(n ). Soit JB, la statistique de Jarque-Bera :
S 2 K 3 2
JB n
24
, (3-1).
6
Pour une variable normalement distribuée, le coefficient d'asymétrie doit être égal à zéro et le
kurtosis (qui mesure la hauteur ou la largeur de la distribution normale) doit être égale à 3. En
général, on a
3
1 n ˆi ˆ 1 n
n
S ; où ˆ est l’estimateur biaisé de l’écart type de t : ˆ (ˆi ˆ ) 2 .
n i 1 ˆ i 1
4
1 n ˆi ˆ
K
n i 1 ˆ
.
n
On montre que ˆ 0 ; en effet, partant de 2 yi ˆ0 ˆ1 xi 0 (Cf. chapitre 1) et sachant
i 1
n n
1 n
que ˆi yi ˆ0 ˆ1 x , on a 2 ˆi 0 ˆi 0 ˆi 0 , d’où le résultat ˆ 0 .
i 1 i 1 n i 1
Règle de décision : Si JB calculé est supérieur à la valeur lue dans la table de la loi de Khi-
deux à 2 degrés de liberté et à un seuil connu, on rejette l’hypothèse nulle et on conclut que
les erreurs ne sont pas normalement distribuées.
S 2 K 3 2
Solution : La statistique JB n
24
. Calcul de JB.
6
obs residu carré (e/s) =(1) (1)*(1)*(1) (1)*(1)*(1)*(1)
1 0,1266 0,0160 0,1466 0,0031 0,0005
2 0,7158 0,5123 0,8289 0,5696 0,4722
3 0,2004 0,0402 0,2321 0,0125 0,0029
4 0,8293 0,6877 0,9604 0,8858 0,8507
5 0,0917 0,0084 0,1062 0,0012 0,0001
6 -1,3662 1,8665 -1,5822 -3,9609 6,2670
7 -0,8565 0,7336 -0,9919 -0,9760 0,9681
8 -1,5637 2,4452 -1,8109 -5,9389 10,7549
9 0,8994 0,8089 1,0416 1,1300 1,1771
10 -0,1732 0,0300 -0,2006 -0,0081 0,0016
11 -0,7350 0,5402 -0,8512 -0,6167 0,5250
12 1,3198 1,7419 1,5285 3,5709 5,4580
13 0,5117 0,2618 0,5926 0,2081 0,1233
Somme 0,0000 9,6928 - -5,1192 26,6013
Moyenne 0,0000 0,7456 - -0,3938 2,0463
sig chapo 0,86348176 S= K=
13 0,02584471 0,03790138
JB= 0,82869925
4
1 n ˆi 1 n ˆi ˆ
3
1 n 2
ˆ ˆi 0,38634 ; S 0,3937 ; K 2,04625 ; et
n i 1 n i 1 ˆ n i 1 ˆ
JB 13 0,025844712 0,037901384 0,828699249 .
Pour 0,05 , la valeur du Khi-deux à 2 degrés de liberté donne 5,99. Etant donné que
JB calculé JB lu, on accepte H0: les résidus ne sont pas normaux.
Le résidu standardisé est défini comme le résidu divisé par son écart type :
résidu i
Résidu standardisé au point i = ; mais sur le plan pratique, on utilise
écart type du résidu i
ˆi 1 (x i x ) 2
plutôt la formule ; où le levier au point i, hii n , hii 0,1 .
ˆ 1 hii n
(x i x )
i 1
2
21
Cette transformation (division par 1 hii ) permet d’intégrer l’influence des données
exogènes dans le calcul du résidu standardisé. En effet, plus la variable exogène x est loin du
centre des données mesuré par la moyenne x , plus le levier sera élevé.
Par ailleurs, on montre que ce résidu standardisé « corrigé » suit une loi N(0, 1). Dans ce cas,
les résidus standardisés dont la valeur absolue est supérieure à 3,29 (nous pouvons utiliser 3
comme approximation) sont préoccupants ; ces résidus sont considérés comme des outliers ou
valeurs aberrantes. Ces dernières indiquent une défaillance du modèle.
Un résidu studentisé est calculé en divisant le résidu par une estimation de son écart type, qui
lui-même est calculé en excluant l'observation. Pour cette raison, ce résidu est parfois qualifié
de résidu studentisé externe, tandis que le résidu analysé précédemment (paragraphe 2 ci-
dessus) prend le nom de résidu studentisé interne.
Le résidu supprimé studentisé est calculé en utilisant les résidus jackknifés (définis comme
ˆi ,i yˆi yˆi ,i , où yˆi ,i sont les valeurs prédites par l'équation de régression estimée en
ˆi ,i ˆ
excluant yi ) ; il est donc calculé comme suit: RS , où , i est encore appelé
ˆ ,i 1 hii
erreur quadratique moyenne de l'ajustement calculée en supprimant l'observation i.
Si une observation a un résidu studentisé supérieur à 3 (en valeur absolue), on peut l'appeler
valeur aberrante. En général, les résidus étudiés seront plus efficaces pour détecter les
observations y périphériques que les résidus standardisés.
Plusieurs critères permettent de quantifier l’influence des observations sur l’ajustement des
MCO.
a) La Dcook
yˆ yˆ
2
h
2
i i ,i
1 ˆi ,i hii
Dcooki i 1
ii
2
RS 2 ,
k 1 ˆ2,i k 1 ˆ ,i 1 hii k 11 hii
Les opinions divergent quant aux valeurs de seuil à utiliser pour repérer les points très
influents. Une directive opérationnelle simple est que Dcooki 1 a été suggéré par Cook lui-
même en 1982. D'autres ont indiqué que Dcooki 4 / n . Cependant, cette mesure de distance
ne permet pas toujours d'identifier correctement les observations influentes.
22
b) Le Dffits
Une autre mesure d’influence d’un point dans une régression est le DFFITS, défini par la
formule suivante:
yˆ yˆi,i hii
Dffitsi i RS .
ˆ ,i hii 1 hii
Une valeur de | DFFITS | > 1 indique que la ieme observation a une influence dans les
échantillons de taille petite n 30 , et les valeurs de | DFFITS | > 2(k+1)/n sont des
problèmes potentiels dans les grands échantillons.
Une valeur pour DFBETAS est calculée pour chaque paramètre du modèle séparément par la
formule :
ˆk ˆk,i
Dfbetaski , où et ckk une des composantes de la variance de ˆ .
ˆ ,i ckk
Ainsi, DFBETA mesure la différence dans chaque estimation de paramètre avec et sans le
point influent. Il y a un DFBETA pour chaque point et chaque observation (s'il y a n points et
k variables, il y a n·k DFBETAs)
En général, les valeurs élevées de DFBETAS indiquent des observations qui ont une influence
sur l’estimation d’un paramètre donné. D’après Belsley, Kuh et Welsch (1980), DFBETAS>
2 indiquent des observations qui ont une influence sur l'estimation d'un paramètre donné. Le
seuil recommandé en fonction de la taille est 2 / n.
La statistique covratio est un résumé pratique de l'influence d'un point de données sur les
variances des paramètres du modèle. Elle est aussi considérée comme le rapport entre le
déterminant de la matrice de covariance avec l’observation i supprimée et le déterminant de la
matrice de covariance pour le modèle complet:
k
ˆ 2 1
Covratioi ,2i .
ˆ 1 hii
Si une observation est influente, cela ne signifie pas automatiquement qu’on doit la retirer de
l’ensemble des observations, on doit plutôt vérifier les raisons de cette situation ; par exemple,
en qu’il n’y a pas d’erreur qui aurait pu survenir lors de la collecte de l’information statistique
ou lors de la saisie. Si l’influence provient d’un grand levier, alors il serait souhaitable de
recueillir d’autres données afin de combler le vide entre le centre du nuage de points (ou
centroïde) et l’observation influente.
23
En général, il n’est pas conseillé de soustraire les observations influentes d’un jeu de données.
Il y a cependant des exceptions:
-Erreur de mesure ou de saisie : il convient de corriger l’observation au lieu de l’éliminer.
-Observation très peu représentative du reste des observations et de la population en général.
-Valeurs mesurées scientifiquement peu plausibles.
Dans certains cas, une simple transformation de variable peut grandement réduire l’influence
des données.
III. Prévision
Soit ŷ ˆ0 ˆ1 x ; si la valeur de la variable explicative x est connue en p (avec p n), à
savoir x , la prévision à cette date sera: yˆ ˆ ˆ x .
p p 0 1 p
-Première méthode
Prenons l’espérance E yˆ p y p E ˆ0 0 E ˆ1 1 x p E p . En se référant aux
hypothèses du modèle, on aura E yˆ p y p 0 , ce d’autant plus que E p E p i 0 ,
E ˆ0 0 0 et E ˆ1 1 0 (Cf. chapitre 1, section 3). L’espérance du terme d’erreur
associée à la prévision est nulle. Donc E yˆ p y p ; on dit que la prévision est sans biais.
Soit e p yˆ p y p ˆ0 0 ˆ1 1 x p p . Remplaçons ̂ 0 0 par sa valeur
ˆ0 0 ˆ1 1 x . Cela donne :
e p ˆ1 1 x ˆ1 1 x p p x ˆ1 1 ˆ1 1 x p p
ˆ1 1 x p x p .
Calculons la variance
2
V e p V yˆ p y p E e p
E ˆ1 1 x p x p
2
A
24
E A2 2 p2
E A2 E 2 E p2 E ... .
E A E ˆ1 1 x p x x p x E ˆ1 1 .
2 2 2
2
2 2
Or E ˆ1 1
V ˆ1 = . Donc E A x x .
2 2 2
n n p
( xi x )
i 1
2
(x x )
i 1
i
2
2
n
i 2
D’autre part, E E i 1 E i2 ; espérance d’une somme=somme des
n
2
n i 1 n
espérances (et espérance d’un produit = produit des espérances) pour les variables aléatoires
2 2
indépendantes. Cela donne E 2 n .
n2 n
Ensuite, E p E t par hypothèse.
2 2 2
Enfin, les autres termes de cette relation représentés par (…) sont des produits croisés avec
ou p dont les espérances sont nulles par hypothèse.
2 2
En conséquence, V e p xp x
2
n
2
(x x ) 2 n
i
i 1
1 xp x
2
V e p 2 1 n .
n 2
i 1
( xi x )
On remarque dans cette formule que la variance de l’erreur de prévision est fonction entre
autres de l’écart quadratique x p x entre la variable exogène prévue et la moyenne de
2
cette même variable. Cela signifie que plus la valeur prévue de la variable exogène x p
s’éloigne de la moyenne x , plus le risque d’erreur sera important.
n n
la prévision yˆ p converge vers y p ceteris paribus.
yˆ p y p
chapitre 2, ~ T n 2 dl.
1 xp x
2
ˆ 1 n
n 2
t 1
( xt x )
En fin de compte, l’intervalle de prévision pour un niveau 1 connu s’écrit
1 xp x
2
y p yˆ p tn/22 .ˆ 1 n .
n 2
t 1
( xt x )
26
Première partie : Régressions multiples
La méthode des MCO exige que l’on choisisse les estimateurs de manière à minimiser :
n n
yi 0 1 x1i 2 x2i Q .
2 2
i
i 1 i 1
2 yi ˆ ˆ x ˆ x x 0
0 1 1i 2 2 i 2 i x2 i yi ˆ
0 x2 i ˆ
1 x1 i x 2 i ˆ
2 x22i 0
i 1 i 1 i 1 i 1 i 1
n n n n n
2 yi ˆ0 ˆ1 x1i ˆ2 x2i x1i 0 x1i yi ˆ0 x1i ˆ1 x1i ˆ2 x1i x2i 0 (4-2)
2
i 1 i 1 i 1 i 1 i 1
n n n n n
Ces trois équations sont appelées équations normales (Cf. chapitre 1, section 2). La dernière
équation du système peut s’écrire :
n n n n
ˆ ˆ x ˆ x , où y 1 1 n
i 1
yi n ˆ ˆ
0 1 1i
i 1
x ˆ
2 2i
i 1
x y 0 1 1 2 2 i 1 n
n i 1
y , x
i 1
x1i , et
1 n
x2 x2i . D’où l’on tire :
n i 1
ˆ y ˆ x ˆ x .
0 1 1 2 2 (4-3)
27
Si l’on remplace la valeur de ˆ0 obtenue en (4-3) dans les deux autres équations du système
n n n
(4-2), cela donne x1i yi nx1 y ˆ1 x1 ˆ2 x2 ˆ1 x12i ˆ2 x1i x2i 0 ;
i 1 i 1 i 1
ensuite
n n n
x
i 1
2i yi nx2 y ˆ1 x1 ˆ2 x2 ˆ1 x1i x2i ˆ2 x22i 0 . Il s’agit alors de résoudre le
i 1 i 1
1i i 1 1i 2 x1i x2 i n 2 x1 x2
x y nx y ˆ
x 2
n ˆ x 2 ˆ
ˆ
1 1 1
i 1 i 1 i 1
n n n
x y nx y ˆ
i 1
2i i 2 1 1i 2 i
i 1
x x n ˆ x x ˆ
1 2 1 2 x2 i n 2 x2
i 1
2 ˆ 2
n
ˆ
n
2 ˆ
n
x1i yi nx1 y 1 x1i nx1 2 x1i x2i nx1 x2
2
i 1 i 1 i 1
n (4-4)
x y nx y ˆ x x nx x ˆ x 2 nx 2
n n
i 1
2i i 2 1 1i 2 i
i 1
1 2
2 2i
i 1
2
En résolvant le nouveau système d’équations, on tire les valeurs respectives suivantes (p. 193
Gujarati) :
n 2 2
n
n n
x2i nx 2 x y
1t i nx 1
y x x
1i 2i nx1 2 x2 i yi nx2 y
x
ˆ1 i 1 t 1 i 1 i 1
2
, (4-5)
n
n
n
x1i nx1 x2i nx2 x1i x2i nx1 x2
2 2 2 2
i 1 i 1 i 1
n
2
n
n
n
x1i nx1 x2i yi nx2 y x1i x2i nx1 x2 x1i yi nx1 y
2
ˆ2 i 1 i 1 i 1 i 1
2
(4-6)
n
n
n
x1i nx1 x2i nx2 x1i x2i nx1 x2
2 2 2 2
i 1 i 1 i 1
n n n n
Avec S11 x1i x1 x1i x1 x12i nx12 ; S12 x1i x2i nx1 x2 ; S22 x22i nx22 ;
i 1 i 1 i 1 i 1
n n
S1 y x1i y1 nx1 y ; et S 2 y x2i y1 nx2 y . (4-11)
i 1 i 1
28
Interprétation : ̂1 (respectivement ̂ 2 ) représente une estimation d’un changement de y suite
à un changement d’une unité de x1 (respectivement x2 ) lorsque l’autre variable indépendante
est constante. (Cf. p. 191 Gujarati)
y1 1 x11 x21 xk 1 0 1
y2 1 x12 x22 xk 2 1 2
2
Soit, Y ; ; ; et . (4-14)
yt 1 x1i x2i xki i
yn 1 x1n x2 n xkn k n
Y X . (4-15)
n,1 n,k 1 k 1,1 n,1
2)- Estimation
29
n
Min i2 Min ' Min Y ' Y MinQ . Avec ' la transposée du vecteur .
i 1
Notons que :
1
n
' 1 , 2 ,..., n 2 12 22 n2 i2 . (4-16)
i 1
n
Il s’agit donc d’un scalaire, ce qui n’est pas le cas pour ' qui est une matrice (Cf. équation
4-26). Développons Q :
Q Y ' Y Y 'Y Y ' ' 'Y ' ' . (4-17)
1,1 1,1 1,1 1,1
Ainsi, Q est un scalaire. Sachant qu’un scalaire est égal à sa transposée, on peut écrire
Y ' ' 'Y . Dans ce cas, il vient Q Y 'Y 2 ' 'Y ' ' . Etant donné que
' 2 , on tire Q Y 'Y 2 ' 'Y 2 ' . Pour minimiser cette fonction par
rapport à , on différencie Q par rapport à et on l’annule :
Q ˆ 0 ' ˆ 'Y .
2 ' Y 2 ' (4-18)
Ces équations normales peuvent être développées de la façon suivante:
n x1i x2i xki ˆ0 yi
ˆ
1i 1i 1i 2i 1i ki 1 x1i yi
2
x x x x x x
x2i x2i x1i x22i x2i xki ˆ2 x2i yi (4-19)
x
ki xki x1i xki x2i xki ˆk xki yi
2
Il vient finalement :
ˆ ' 1 'Y . (4-20)
Le modèle estimé est alors donné par :
yˆi ˆ0 ˆ1 x1i ˆ2 x2i ... ˆk xki . (4-21)
Exercice d’application 1 : Exemple illustratif 7.1 dans Gujarati, p. 198. Le tableau des
données se trouve à la page 168 (tableau 6.4). On définit: CM = Child Mortality = yi ; PGNP
=Per Capita GNP = x1i ; FLR = Female Literacy Rate = x2i. Le modèle à estimer s’écrit
yi 0 1 x1i 2 x2i i .
Solution:
S S S S S S S S
ˆ0 y ˆ1 x1 ˆ2 x2 ; ˆ1 22 1 y 12 2 y ; ˆ2 11 2 y 12 1 y ; où S11S22 S122 . Avec
n n n n
S11 x1i x1 x1i x1 x12i nx12 ; S12 x1i x2i nx1 x2 ; S22 x22i nx22 ;
i 1 i 1 i 1 i 1
n n
S1 y x1i y1 nx1 y ; et S 2 y x2i y1 nx2 y .
i 1 i 1
30
n n
Le calcul des valeurs moyennes donnent: y
i 1
i 9056 y 141,5 ; x
i 1
1i 890
n
x1 101, 25 ; et x
i 1
2i 3 x2 51,1875 . En ce qui concerne les valeurs centrées et
̂ 2
5 ˆ 2, 23158573 .
2
ˆ0
On se sert de la formule : ˆ ˆ ' 1 ' Y . Calculons ' 1 .
1
ˆ2
n
x1i x2i 64
' x1i x1i x1i x2i ' .
2
x 210
2i x1i x2i x22i
0, 07711482 0, 00000009 0, 00120373
' 0, 00000009 0, 0000000023 0, 0000000648 .
1
X 1iYi
1
ˆ1 X 12i X X
Dans ce cas, ˆ ' 'Y
1 1i 2 i
, avec
ˆ X 1i X 2i 2i i
X 2
2 2 i X Y
X ji x ji xi , ij 1, 2 , et Y yi y les valeurs centrées.
1
S1 y
ˆ S11
En fait,
S12
. (4-22)
S21 S22 S2 y
31
1
ˆ 468053300 1199
265 5319170
265 42693,75 101868
1199
Prenons E
l’espérance :
ˆ E E ' 1 ' ' 1 ' E ( ) .
Or par
Avant de montrer que les estimateurs sont convergents, calculons les variances-covariances
des coefficients de régression. Compte tenu du format de ̂ :
ˆ E
ˆ E ' .
2
V ˆ
ˆ (4-25)
ˆ0 0
ˆ
En effet,
ˆ 1 1 , tandis que
ˆ ' ˆ
0 0 , ˆ1 1 ,
, ˆk k .
ˆ
k k
Donc V
ˆ E ' 1 ' . ' 1 ' '
32
V
ˆ E ' 1 ' . ' ' 1 , car la matrice ' 1 est symétrique.
ˆ E ' ' ' ' . D’où, puisque x est exogène
V
1 1
ˆ ' ' E ' ' .
V
1 1
Rappelons que ' est un scalaire (voir relation 4-13) ; mais ' est une matrice. En effet,
1
2 11 1 2 1 n
21 2 2 2 n
' 1 2 i n
. (4-26)
i
n 1 n 2 n n
n
E 11 E 1 2 E 1 n
E 21 E 2 2 E 2 n
E '
.
E n 1 E n 2 E n n
ˆ ˆ 2 ' 1 .
V (4-28)
ˆ 0 et les estimateurs
Lorsque le nombre des observations tend vers l’infini, V
convergent ( ̂ vers ) à condition que les variables exogènes ne tendent pas à devenir
colinéaires.
33
Chapitre 5. Tests statistiques
Dans ce chapitre, on va procéder à la mise en œuvre des tests statistiques de base (tests de
Student et de Fisher), mais aussi à d’autres tests complémentaires dus à l’élargissement du
modèle.
I. Test de Fisher
Le test de Fisher permet de vérifier la significativité globale d’un modèle.
n ˆ n
SCE 1S1 y 2 S 2 y ; en fait, SCE 1 x1i yi nx1 y 2 x2i yi nx2 y .
ˆ ˆ ˆ
i 1 i 1
n n
SCR ˆi2 yi yˆi ˆ1S1 y ˆ2 S 2 y ;
2
i 1 i 1
SCR ˆ i
2
n 3 ˆ 2
R 1
2
1 i 1
1 . (5-2)
n
n 1 y2
i i
SCT
2
y ˆ
y
i 1
où ryx1 = coefficient de corrélation simple entre y et x1, et ryx2 et rx1x2 sont définis de manière
analogue.
Les coefficients de corrélation partielle ont des valeurs comprises entre -1 et +1 (comme le
font les coefficients de corrélation simple), ont le signe du paramètre estimé correspondant et
sont utilisés pour déterminer l'importance relative des différentes variables explicatives dans
une régression multiple.
Le tableau d’analyse de la variance (ANOVA) est donné ci-dessous (p. 235, Gujarati).
34
Source de variation Somme des carrés Degré de Carrés Fisher
liberté moyens
Régression, c’est-à-dire SCE ˆ1S1 y ˆ2 S 2 y 2 SCE/2 CME/
x1 et x2 CMR
R2 SCT
Résidus n n-3 SCR/n -3 -
SCR ˆi2
i 1
1 R 2 SCT
Total n n-1 - -
SCT ( yi y ) 2
i 1
F*
MCE
ˆ1S1 y ˆ2 S2 y / 2
. (5-4)
n
MCR
ˆi / n 3
2
i 1
Dans ce cadre, on peut tester les hypothèses
H0 : 1 2 0
H1 : 1 2 0 .
Sous l’hypothèse nulle 1 2 0 , on montre que F * suit une loi de Fisher à 2 et (n-3)
degrés de liberté.
SCE / 2 R2 / 2
Le Fisher empirique peut encore s’exprimer comme : F *
SCR / n 3 1 R 2 / n 3
. (5-5)
Si la valeur de F définie en (5-4) et (5-5) excède la valeur critique F lue dans la table de loi
(de Fisher) au seuil de signification de %, on rejette H0. Alternativement, si la p value du F
observé est suffisamment faible, on peut rejeter H0.
En présence de régression multiple et sous forme matricielle, la variabilité totale (SCT) est
égale à la variabilité expliquée (SCE) + la variabilité des résidus (SCR).
Y Y ' Y Y Yˆ Y ' Yˆ Y ˆ 'ˆ ;
SCR
SCT SCE
y1 y yˆ1 y
y y yˆ y
avec Y Y 2
et Y Y
ˆ 2
.
yn y yˆ n y
On calcule le coefficient de détermination multiple
(5-7) R 2
Yˆ Y ' Yˆ Y 1
ˆ ' ˆ
, (5-6)
Y Y ' Y Y Y Y ' Y Y
35
et R sa racine carré, le coefficient de corrélation multiple.
Remarques :
i) Si k = 0, on a R 2 R 2 .
ii) Si k > 0, on a R 2 R 2 .
iii) Si n , R 2 R 2 .
Exemple d’application 1 : Utiliser les données de l’exemple 7.1 de Gujarati pour calculer le
coefficient de détermination et le coefficient de détermination ajusté. Construire le tableau
ANOVA et effectuer le test de Fisher au seuil de 5 %.
257362, 4
Solution : Gujarati, p. 234 : R2 0,7077 et R 2 0,6981 .
363
36
Le tableau d’analyse de la variance se présente comme suit (Gujarati, p. 240).
Source de Somme des Degrés de Carrés moyens F de Fisher
variation carrés liberté
Régression 257 362,4 2 128 681,2 73,8325
Résidu 106 315,6 61 1 742,88
Total 363 678 63
F* = Fcal = 128 681,2 / 1 742,88 = 73,83. Au seuil de 5 %, F(2, 60) = 3,15. Puisque Fcal
Flu, on rejette H0.
Exemple d’application 2 : Gujarati, reprendre l’exemple 7.5, p. 213, et calculer le R2 (p. 243);
faire le test de Fisher (p. 243).
D’un intérêt pratique très important pour l’économiste, ces tests sont au nombre de quatre.
Les restrictions et contraintes souhaitées ou envisagées sur les coefficients sont-elles justifiées
et validées par l’estimation économétrique ?
Peut-on considérer le modèle comme étant stable sur la totalité de la période ou bien doit-on
considérer d’autres sous-périodes distinctes d’estimation (changement structurel du modèle) ?
La spécification du modèle est la même, mais les valeurs estimées des coefficients pour les
deux échantillons sont différentes.
Tous les tests précédents (par analyse de la variance) se ramènent à un test unique, tel que les
éléments du vecteur des coefficients vérifient un ensemble de q contraintes linéaires :
H0 : R r
H1 : R r
Le Fisher empirique F *
Rˆ r ' R X ' X 1
.
R '
1
(5-10)
Rˆ r / q
SCR / n k 1
On rejette H0 si le F* est supérieur au F lu à q et n − k degrés de liberté.
La variance des erreurs est inconnue. On doit l’estimer par les résidus ˆ Y Yˆ , où Yˆ ˆ.
ˆ Y ' 1 ' Y I ' 1 ' Y .
Il vient, sous forme matricielle ˆ Y
Calculons ˆ ' ˆ ˆi2 ' ' . On sait que M est une matrice idempotente de degré 2 :
i
Prenons l’espérance E ˆ ' ˆ E mii' i i' mii ' E ( i i' ) . Or par hypothèse, les
i i' i i'
2
i i'
résidus sont indépendants et ne varient pas : E i i'
0 i i'
38
Ainsi,
E ˆ ' ˆ 2 mii , puisque tous les éléments hors diagonales sont nuls.
i
E ˆ ' ˆ 2Tr , où Tr = trace de la matrice.
On appelle trace d’une matrice carrée A, le scalaire noté Tr A égal à la somme des éléments
n
de la diagonale (principale) de A : Tr A aii .
i 1
Tr Tr I ' ' .
1
Ainsi, L’opérateur trace étant linéaire,
Tr Tr I n Tr ' ' . Comme Tr AB Tr BA , il vient :
1
Tr Tr I n Tr ' ' Tr I n Tr I k 1 .
1
Ce qui donne Tr n (k 1) . De ce fait : E ˆ ' ˆ ˆ2 n k 1 .
ˆ ' ˆ
Par conséquent, ˆ2 ; (5-11)
n k 1
où ˆ 2 est un estimateur non biaisé pour 2 .
En remplaçant la variance de l’erreur par son estimateur, on obtient
ˆ ˆ V
ˆ ˆ 2 ' 1 .
(5-12)
ˆ
L’hypothèse de normalité des erreurs implique que ~ N 0,1 .
n n
ˆ i
2
ˆ i
2
ˆ2
On sait avec (5-11) que ˆ2 i 1
; donc i 1
n k 1 2 ~ 2 n k 1 dl , somme
n k 1 2
de carrés d’une variable aléatoire normale . Il en résulte que :
ˆ
~ T n k 1 dl , (5-13)
ˆ ˆ
car il s’agit d’un rapport d’une variable aléatoire normale sur la racine carrée d’une variable
aléatoire suivant une loi de Khi-deux.
Dans le cas particulier du modèle de régression à deux variables explicatives (k = 2), on aura :
ˆ0 0 ˆ1 1 ˆ 2
, et 2 ~ T n 3 dl .
ˆ ˆ ˆ ˆ ˆ ˆ
0 1 2
-Cas général
-Cas particulier : 0
Pour savoir si une variable explicative figurant dans un modèle est réellement contributive
pour expliquer la variable endogène, il convient de tester si son coefficient de régression est
significativement différent de zéro pour un seuil choisi. Dans ce cas, sous H0, on aura :
ˆ
t *ˆ ; (5-15)
ˆ ˆ
et la règle de décision citée ci-dessus s’applique.
L’intervalle de confiance pour les paramètres à un seuil 1 100% est donné par :
ˆ t / 2 .ˆ .
n k 1 ˆ
Dans cette formule, on connait le numérateur : ˆ1 0,8019 , ˆ2 0,38136 et ˆ3 0, 03713
. Le terme constant n’est pas concerné. Pour calculer ˆ ˆ , il faut connaitre ˆ 2 , car d’après ((5-
ˆ ˆ
12) V ˆ ˆ 2 ' 1 ; or ˆ2 ' SCR . Le calcul de SCR figure au tableau 2,
n k 1 14 3 1
67, 45
Bourbonnais, p. 58 : SCR = 67,45. Il vient ˆ2 6, 745 .
10
20,16864 0,015065 -0,23145 -0,07617
ˆ 0,015065 0,013204 0,001194 -0,00094
V 6, 745
-0,23145 0,001194 0,003635 0,000575
-0,07617 -0,00094 -0,000575 0,000401
Les variances des coefficients concernés se trouvent sur la première diagonale :
ˆ 2ˆ 6, 745 0, 013 0, 087 ˆ ˆ ˆ 2ˆ 0,087 0, 29 .
1 1 1
40
ˆ ˆ 6,745 0,0036 0,024 0,15 .
2
Calculons maintenant les trois ratios de Student et comparerons les à la valeur lue à 5 % dans
la table de loi t100,05/2 2, 228 .
0,8019 0,38136 0, 03713
t*ˆ 2, 75 ; t*ˆ 2,53 et t*ˆ 0, 60 .
1
0, 29 2
0,15 3
0, 05
La comparaison ( t *ˆ et t*ˆ t100,05/2 ) implique que 1 et 2 sont significativement différentes
1 2
Remarque :
-Si une variable explicative n’est pas contributive à l’explication d’un phénomène, on doit la
retirer du modèle et procéder à une nouvelle estimation.
-On aurait pu répondre à la question de départ en calculant les intervalles de confiance de
chacun des coefficients (voir bourbonnais, p. 65).
Student à (n-k) dl, où ˆ ˆ1 ˆ2 V ˆ1 ˆ2 avec
V ˆ1 ˆ2 V ˆ1 V ˆ2 2C ov ˆ1 , ˆ2 .
ˆ 2 S12 ˆ , ˆ r12 , avec r 2 S12 .
2 2 2
En fait, Cov ˆ1 , ˆ2 ; on a aussi Cov
S11S 22 S122 1 2
S12 1 r122 12
S11S22
Si t cal est supérieur à la valeur critique t (lu) à un seuil de signification donné, on rejette
l’hypothèse nulle.
41
Chapitre 6. Analyse de la spécification du modèle
L’analyse de la spécification du modèle permet de s’assurer que le modèle est adapté au
problème étudié. Plusieurs étapes de vérification sont nécessaires.
Selon Robert Hall, David Lilien et Johnston Jack (1995) l'estimation correcte de Jarque et
nk 2 1
Bera avec l'analyse de régression multiple est: JB S K 3 .
2
6 4
ˆi SCR
Le résidu standardisé est défini tel que ; avec ˆ et
ˆ 1 H i n k 1
H i xi X ' X xi' le levier. La somme des éléments de la première diagonale de la matrice H
1
n
est égale au nombre de paramètres estimés du modèle : H i 1
i k 1 . Le levier d’une
2 k 1
observation i est anormalement élevé s’il est supérieur à .
n
Le résidu standardisé suit une loi de Student à n – k – 1 degrés de liberté. Si, par exemple, les
résidus standardisés sont compris dans l’intervalle tn0,025
k 1 , on ne suspecte pas de valeurs
(x 1i x1 )(x 2i x2 )
que ̂1 1 2 21 , où 21 i 1
n
(Cf. Gujarati, pp. 471, 519 et 520).
(x
i 1
1i x1 ) 2
ˆ 2
- V ˆ1 n
est un estimateur biaisé de la vraie variance de ̂1 , car ˆ 2 n’est pas
(x
i 1
2i x2 ) 2
correctement estimée.
ˆ 2
Examinons de près les variances de ̂1 et ̂1 : V ˆ1 n
et
(x
i 1
1i x1 ) 2
ˆ 2
V ˆ1 n
(Cf. Gujarati, p. 194). Sachant que V ˆ1 est biaisée, alors
1 r (x1i x1 )
2
12
2
i 1
ne l’est pas :
que V ˆ1
Si 0 r122 1 (cas fréquent), V ˆ1 V ˆ1 . Donc, bien que ̂1 soit biaisé, sa
variance est la plus faible.
Si r122 0 , c’est-à-dire si x1i et x2i ne sont pas corrélées, ̂1 est sans biais et
V ˆ1 V ˆ1 . Mais ̂ 0 est biaisé.
Conclusion : Il ne faut jamais exclure une variable dans un modèle, sans tenir compte de la
théorie économique.
Le sur-ajustement d’un modèle résulte de l’inclusion d’une variable de trop. Soit le vrai
modèle yi 0 1 x1i i ; mais on n’a plutôt estimé yi 0 1 x1i 2 x2i i . Cette
situation se traduit par une erreur de spécification du fait de la prise en considération d’une
variable non indispensable x2i . Les conséquences peuvent être :
-Les estimateurs des MCO des paramètres du modèle « incorrect » sont sans biais et
convergent.
- ˆ 2 est correctement estimée.
-Les procédures de tests d’hypothèses et les intervalles de confiance demeurent valides.
-Les ̂ sont généralement inefficients, car leurs variances sont le plus souvent plus élevées
que celles des ˆ du vrai modèle.
43
ˆ 2 ˆ 2
Soient
V ˆ1 n
et V ˆ1 n
; leur rapport s’écrit
(x
i 1
1i x1 ) 2
1 r (x1i x1 )
2
12
i 1
2
V ˆ1
, pour 0 r122 1 . On a V ˆ1 V ˆ1 . L’inclusion de x2i provoque un
1
V 1 ˆ 1 r12
2
Conclusion : Vaut mieux inclure une variable non-nécessaire dans un modèle que d’en
exclure une variable importante. Cependant, cette inclusion peut se solder par la
multicolinéarité (Cf. chapitre 10).
Exemple d’application 1 : Reprendre les données de la page 168, tableau 6.4 de Gujarati.
Questions : 1)- Régresser la mortalité infantile sur le produit national moyen et le taux de
fertilité global. 2)- Reprendre la régression en supprimant la seconde variable explicative. 3)-
Calculer 21 (régression de deux variables explicatives). 4)- Tirer ̂1 des trois résultats
précédents.
Exemple d’application 2 : Reprendre l’exemple 7.4 de Gujarati. Procéder au test RESET, pp.
480-481.
44
III. Erreurs de mesure
a)- Erreur de mesure de la variable dépendante
ˆ v2 ˆ 2 ˆ u2
modèle 2 : V ˆ n
n
. La seconde variance est plus grande que la
(x x )
i 1
i
2
(x x )
i 1
i
2
première.
Supposons que wi a pour espérance 0, est indépendante en séries, et n’est pas corrélée avec
i . On montre que zi est cependant corrélée avec xi :
Cov zi , x i E zi E zi xi E xi E i wi wi E i wi E wi2
Cov zi , x i E wi2 w2 0 . Les estimateurs des MCO seront biaisés et non-
convergents.
45
2)- Les critères d’information
-Le Critère d’Information d’Akaïke (en anglais Akaike’s Information Criterion (AIC)):
In AIC
2k
In
SCR
, où ln (AIC) = log naturel de AIC et 2k/n = facteur de
n n
pénalité.
-Le Critère d’Information de Schwarz (SIC) : In SIC In n In
k SCR
, où [(k/n) ln
n n
n]= facteur de pénalité.
NB : Ces deux critères sont plus populaires. Plus ils sont faibles, plus le modèle est
intéressant.
SCR
-Le Critère d’Information de Mallows (MC) : MC 2 n 2 p , où p est le nombre de
ˆ
régresseurs.
V. Prévision
1)- Cas de modèle à deux variables explicatives
Soit l’équation de régression estimée yˆi ˆ0 ˆ1 x1i ˆ2 x2i et considérons la valeur prévue
y p de yi . Etant donné les valeurs respectives x1 p de x1i et x2 p de x2i , on peut écrire la
prévision estimée telle que yˆ p ˆ0 ˆ1 x1 p ˆ2 x2 p et modèle (4-1) devient
y p 0 1 x1 p 2 x2 p p . En conséquence, si la prévision se fait avec erreur, l’erreur de
prévision sera e p yˆ p y p ˆ0 0 ˆ1 1 x1 p ˆ2 2 x2 p p .
Comme E ˆ0 0 , E ˆ1 1 , E ˆ2 2 et E p sont tous égaux à zéro, on aura donc
E yˆ p y p 0 . Ainsi, la prévision est sans biais.
n
ˆ2 S22 ˆ2 ˆ2 S11 ˆ2
avec
V ˆ1
S11S22 S122
S11 1 r122
;
V ˆ2
S11S22 S122
S22 1 r122
; et
Pour x1 p x1 et x2 p x2 , on a V ep 2 1 ; et lorsque n , V e p 2 .
1
n
D’autre part, l’intervalle de prévision s’écrit y p yˆ p tn/32ˆ e p , avec ˆ ep V e p .
46
2)- Généralisation au modèle à plusieurs variables explicatives
Le modèle linéaire général estimé est la suivante yˆt ˆ0 ˆ1 x1t ˆ2 x2t ˆk xkt . La
prévision pour un horizon p donné s’écrit yˆt h ˆ0 ˆ1 x1t h ˆ2 x2t h ˆk xkt h . Sachant
que y p 0 1 x1 p 2 x2 p p , l’erreur de prévision est ep yˆ p y p .
Considérant que les hypothèses traditionnelles sont vérifiées, la prévision estimée yˆ p est sans
biais, puisque e p yˆ p y p ˆ1 1 ˆ1 1 x1 p ˆ2 2 x2 p
ˆk k xkp p ;
ce qui implique que E e p 0 , car E ˆ 0 et E p 0 .
Sous une forme linéaire, la variance de l’erreur de prévision est alors égale
2 k k
à V e p V yˆ p y p 2 xip xi x jp x j Cov ˆi , ˆ j ; où i, j 1, 2, , k .
n i 1 j 1
Sous forme matricielle, cela donne (voir Bourbonnais, p. 82 et Gujarati, p. 862):
x1 p x1
x x
2
V e p 1 kp ' kp ; avec p
1 ' 1 2p 2
, le vecteur des valeurs
n
xkp xk
(centrées) prévues des variables explicatives.
Comme pour le modèle à deux variables explicatives, la variance de l’erreur de prévision est
d’autant plus faible que :
- les valeurs prévues des variables explicatives se rapprochent de leurs moyennes ;
- la variance résiduelle est faible.
L’erreur de prévision e p étant distribuée selon une loi normale N 0, e2p , en remplaçant la
variance théorique 2 par la variance empirique ˆ 2 dans l’expression V e p , l’on en déduit
yˆ p y p yˆ p y p
que ~ T n k 1 dl ou ~ T n k 1 dl .
ˆ ep 1
1/ 2
n
47
Chapitre 7. Modèle à équations multiples
I. La nature des modèles à équations multiples ou équations simultanées
Exemple 1 : Le prix P d’un bien et la quantité Q à l’équilibre sont déterminés par l’intersection
des courbes d’offre et de demande de ce bien (Cf. microéconomie 1). Donc, si les courbes d’offre
et de demande sont linéaires et si l’on ajoute les termes stochastiques d’erreurs 1t et 2t , on peut
écrire :
Fonction de demande : Qtd 0 1Pt 1t ; 1 0 (7-1)
Fonction d’offre : Qts 0 1Pt 2t ; 1 0 (7-2)
Condition d’équilibre : Qtd Qts ; (7-3)
où Q = quantité demandée ; Q = quantités offertes ; t = temps ; et les et sont les paramètres.
t
d
t
s
A priori, 1 est supposé être négatif (courbe de demande décroissante), et 1 est supposé positif
(courbe d’offre croissante).
P et Q sont des variables dépendantes liées ou jointes. Si par exemple, 1t dans l’équation (7-1)
change à cause d’un changement dans les autres facteurs affectant Qtd (ces facteurs peuvent être
le revenu, la richesse, et les goûts et préférences), la courbe de demande va se déplacer vers le
haut si 1t et vers le bas si 1t 0 (voir Gujarati, pp. 674-675).
Du fait de cette dépendance simultanée entre P et Q, 1t et Pt dans l’équation (7-1) d’une part et
2t et Pt dans l’équation (7-2) d’autre part, ne peuvent pas être indépendants. Par conséquent, une
régression simple sur chaque équation du système ci-dessus viole une importante hypothèse du
modèle de régression linéaire classique, l’hypothèse H10 d’absence de corrélation entre variable
explicative et terme d’erreur.
La méthode des MCO ne peut donc pas être utilisée pour estimer une équation simple faisant
partie d’un système d’équations simultanées (si une ou plusieurs variables explicatives sont
corrélées avec le terme d’erreurs dans cette équation), car les estimateurs obtenus seront non-
convergents.
Supposons que l’on veuille estimer les paramètres de ce modèle. Admettons que E t 0 ,
E t2 2 , E t t ' 0 (si t t ' ) et Cov I t , t 0 , lesquelles sont les hypothèses du modèle
classique de régression linéaire.
48
Pour prouver que Yt et t sont corrélées, on substitue l’équation (7-4) dans l’équation (7-5) pour
1 1
obtenir Yt 0 1Yt t It Yt 0 It t (7-6).
1 1 1 1 1 1
1
Prenons l’espérance E Yt 0 I t ; (7-7)
1 1 1 1
car E t 0 et I t est exogène. En réalité, I t est prédéterminé (car sa valeur est fixée à
t
l’avance). En soustrayant (7-7) dans l’équation 1 de (7-6) il en résulte que Yt E Yt ; en
1 1
plus, t E t t ; donc Cov Yt , t E Yt E Yt t E t
Cov Yt , t
E t2 2
. (7-8)
1 1 1 1
Etant donné que 2 est positive, la covariance entre Y et ε donnée dans (7-8) est différente de
0, 1 0 . Donc Yt et t dans l’équation (7-4) sont supposées corrélées, ce qui viole
l’hypothèse H10 du modèle de régression linéaire classique selon laquelle les erreurs sont
indépendantes ou au moins non corrélées avec les variables explicatives.
Pour montrer que l’estimateur des MCO ̂1 est un estimateur non-convergent de 1 du fait de la
Ct C Yt Y C Y Y
n n
t t
corrélation entre Yt et t , soit ˆ1 t 1
t 1
. Si l’on y substitue Ct de
Y Y Y Y
n n
2 2
t t
t 1 t 1
l’équation (7-4), on obtient :
0 1Yt t Yt Y Y Y
n n
t t
ˆ1 t 1
1 t 1
; (7-9)
Y Y Y Y
n n
2 2
t t
t 1 t 1
Yt Yt Y Y Y Y Y
n n
t t
Y Y 0 et
n
car t
t 1
t 1
1.
Y Y Y Y
n n
2 2
t 1
t t
t 1 t 1
Y Y
t
ˆ
Prenons l’espérance de (7-9): E 1 1 E
Yt Y
2
t
. Malheureusement, on ne peut pas
Y Y
évaluer E
t t
puisque l’opérateur espérance est un opérateur linéaire. [notons que
Yt Y
2
49
E A / B E A / E B , voir Gujarati, p. 809]. Mais intuitivement, il doit être clair que, à moins
Y Y
que le terme E
t t
soit égale à zéro, ̂1 est un estimateur biaisé de 1 .
Yt Y
2
2
Dans le second terme, le numérateur de (7-10) est égale à la covariance et sa valeur est .
1 1
Le dénominateur est égale à la variance Y2 par conséquent (7-10) devient
2 1 1 2
p lim ˆ1 1 2 1 1
Y
.
1 1 Y2
Etant donné que 0 1 1 et que 2 et Y2 sont toutes deux positives, p lim ˆ1 est toujours
supérieur à 1 ; autrement dit la valeur ̂1 surestime le vrai 1 . En conclusion, ̂1 est un
estimateur biaisé.
A partir des équations structurelles, on peut tirer les variables endogènes et déduire les
équations de la forme réduite et les coefficients réduits associés. Une équation de la forme
réduite est une équation dans laquelle la variable endogène s’exprime uniquement en termes
de variables prédéterminées (les exogènes et les endogènes retardées) et de perturbations
aléatoires.
Les coefficients de la forme réduite tels que 1 et 3 , sont appelés multiplicateurs d’impact
ou multiplicateurs de court terme, car ils mesurent l’impact immédiat sur la variable endogène
d’un changement d’une unité dans la valeur de la variable exogène.
Etant donné que seules les variables prédéterminées et la perturbation aléatoire apparaissent à
la partie droite de ces équations, et puisque les variables prédéterminées ne sont pas corrélées
avec le terme perturbateur, la méthode des MCO peut être appliquée pour estimer les
coefficients des équations de la forme réduite. A partir de ces coefficients estimés, on peut
calculer les coefficients structurels (les β). Cette procédure est connue sous le nom des
Moindres Carrés Indirect (MCI).
Une condition nécessaire (mais non suffisante) d’identification, connue sous le nom de
condition d’ordre, peut être établie sous deux manières différentes suivante :
La condition de rang peut être formulée de la manière suivante : Dans un modèle contenant M
équations à M variables endogènes, une équation est identifiée si et seulement si au moins un
déterminant non nul d’ordre (M – 1) (M – 1) peut être construit à partir des coefficients des
variables (endogènes et prédéterminées) exclus de cette équation particulière, mais inclus
dans les autres équations du modèle.
51
3)- Méthodes d’estimation
Les méthodes d’estimation dans le cadre des équations simultanées sont fonction du critère
d’identifiabilité du modèle (Cf. Gujarati, chapitre 20, p. 711).
• Si le modèle est sous-identifiable ; pas d’estimation possible.
• Dans le cas d’un modèle juste ou sur-identifiable, on distingue la méthode à employer
équation par équation, selon le critère d’identifiabilité :
-Si l’équation est juste identifiée : On applique les Moindres Carrés Indirects (MCI) ou les
Doubles Moindres Carrés (DMC).
-Si l’équation est sur-identifiée : On applique les DMC.
Le test de simultanéité permet savoir si le regresseur (endogène) est corrélé avec le terme
d’erreur. Une version du test d’erreur de spécification de Hausman (voir gujarati, pp. 703-704)
peut être utilisée pour tester le problème de spécification.
52
Chapitre 8. Modèles avec variables qualitatives
Une variable qualitative peut intervenir dans un modèle sous forme de variable à expliquer ou
de variable explicative.
La variable dépendante est fréquemment influencée, non seulement par les variables
quantitatives mesurables (i.e. le revenu, la production, les prix, les coûts, le poids, la
température, etc.), mais également par des variables qui sont essentiellement qualitatives, ou
d’échelle nominale par nature, telles que le sexe, le niveau d’études, la couleur, la religion, la
nationalité, la région géographique, les bouleversements politiques, ou l’affiliation aux partis.
Pour symboliser ou quantifier ces attributs, on peut construire des variables artificielles qui
prennent des valeurs 1 ou 0, la valeur 1 indiquant la présence (ou la possession) de cet attribut
et 0 indiquant son absence. Par exemple le chiffre 1 dans le cas du sexe peut indiquer qu’une
personne est femelle et 0, que la personne est male. Les variables qui prennent les valeurs 0 et
1 sont appelées « variables dummies ».
Les variables dummies peuvent être incorporées dans les modèles de régression simplement
comme toute variable quantitative. Un modèle de régression peut contenir des régresseurs qui
sont toutes exclusivement dummies, ou qualitatives, par nature. De tels modèles sont appelés
modèles d’analyse de la variance (ANOVA).
On veut vérifier si les dépenses de fidèles varient suivant les trois régions géographiques du
Grand-Nord.
Les dépenses moyennes des trois régions sont respectivement 238(=2 142/9) pour l’Extrême-
Nord, 438,666 (=2 632/6) pour le Nord, et 522,8 (=2 614/5) pour l’Adamaoua. Ces montants
semblent différents ; mais sont ils statistiquement différents les uns des autres ? Avant de
répondre à la question, présentons d’abord les résultats de l’estimation du modèle (8-1) sur la
base des données. Le modèle a deux variables explicatives ; en appliquant les
S22 S1 y S12 S2 y ˆ S11S2 y S12 S1 y , on obtient :
formules ˆ0 y ˆ1 D1i ˆ2 D2i , ˆ1 et
S11S22 S122 S11S22 S122
2
ˆ1
1182,6
2,7 15,6 3844,8
284,8
4 2,7
2
13,5
ˆ2
4 415,6 2,7 1 1135,8
84,133
4 2,7
2
13,5
ˆ0 369, 4 284,8 0, 45 84,133 0,3 522,8 .
54
Calculs préliminaires (suite)
(1)(1) (2)(2) (1)(2) (1)(3) (2)(3) (3)(3)
0,3025 0,09 -0,165 -138,82 75,72 63705,76
0,3025 0,09 -0,165 -144,32 78,72 68853,76
0,3025 0,09 -0,165 -144,87 79,02 69379,56
0,3025 0,09 -0,165 -79,97 43,62 21141,16
0,3025 0,09 -0,165 -46,42 25,32 7123,36
0,3025 0,09 -0,165 -51,92 28,32 8911,36
0,3025 0,09 -0,165 -15,07 8,22 750,76
0,3025 0,09 -0,165 -17,82 9,72 1049,76
0,3025 0,09 -0,165 -11,22 6,12 416,16
0,2025 0,49 -0,315 -5,67 8,82 158,76
0,2025 0,49 -0,315 -0,27 0,42 0,36
0,2025 0,49 -0,315 -40,77 63,42 8208,36
0,2025 0,49 -0,315 -33,57 52,22 5565,16
0,2025 0,49 -0,315 -40,32 62,72 8028,16
0,2025 0,49 -0,315 -66,42 103,32 21785,76
0,2025 0,09 0,135 -70,47 -46,98 24523,56
0,2025 0,09 0,135 -69,57 -46,38 23901,16
0,2025 0,09 0,135 -75,42 -50,28 28089,76
0,2025 0,09 0,135 -70,92 -47,28 24837,76
0,2025 0,09 0,135 -58,77 -39,18 17056,36
4,95 4,2 -2,7 -1182,6 415,6 403486,8
Le modèle estimé que l’on peut retenir s’écrit :
yˆt 522,8 284,8D1i 84,133D2i
se 34,581 43,13 46,823 (8-5)
t 15,118 6, 603 1, 797 R 2 0, 748
Comme le montrent ces résultats, la dépense moyenne des fidèles de l’Adamaoua est de
522,8, celle des fidèles de l’Extrême Nord est plus faible de 284,8, et celle des fidèles du Nord
est très faible de 84,133.
Pour répondre à la question de départ (à savoir si les différences de dépenses constatées sont
statistiquement significatives), il suffit de vérifier si chaque coefficient de pente est
statistiquement différent de 0. Comme on peut le voir de la régression (8-5), le coefficient du
Nord n’est pas statistiquement significatif au seuil de 5 % alors que celui de l’Extrême Nord
est significatif au seuil de 1 %. Par conséquent, la conclusion est que d’un point de vue
statistique, la dépense moyenne des fidèles de l’Adamaoua et du Nord est identique, mais la
dépense moyenne de l’Extrême Nord est statistiquement inférieure.
Pour distinguer entre les trois régions de l’exemple précédent, on a utilisé uniquement deux
variables dummies, D1 et D2 . Si une variable qualitative a m catégories, il faut introduire
seulement (m – 1 variables). Sinon on tombera dans la trappe de variable dummy.
Si l’on désire introduire autant de variables dummy que de catégories, il convient d’éliminer
la constante pour ne pas tomber dans la trappe de variable dummy.
Supposons que l’on veuille étudier la décision de participation de la force de travail des
adultes de sexe masculin. Comme un adulte est soit employé ou non, la participation de la
force de travail est une décision de type oui ou non. Donc la variable réponse, ou régressant,
peut prendre seulement deux valeurs, disons, 1 si la personne participe à la force de travail et
0 s’il ne participe pas. En d’autres termes, le régressant est une variable « binaire » ou
« dichotomique ».
Dans les modèles où y est qualitatif, on cherche à trouver la probabilité d’un évènement, tels
que par exemple la participation de la force de travail, le vote pour un candidat, etc. en
conséquence, les modèles de régression à réponse qualitative sont souvent connus sous le nom
de modèles probabilistes. Comment estimer ces modèles ? Une première façon est d’utiliser
les MCO.
Admettons que E i 0 , comme d’habitude (pour obtenir des estimateurs sans biais), on a
E yi | xi E yi | xi E 0 1 xi 0 1 xi . (8-9)
56
On voit que yi suit une distribution de Bernoulli. On obtient : E yi 0 1 Pi 1 Pi Pi
. (8-10)
L’espérance (8-9) devient E yi | xi 0 1 xi Pi . Puisque la probabilité Pi doit être
comprise entre 0 et 1, on note la restriction 0 E yi | xi 1 . On peut montrer que le MPL
pose plusieurs problèmes :
-Les erreurs ne suivent pas une loi normale: Comme yi , les erreurs i prennent aussi deux
valeurs ; c’est-à-dire qu’elles ont aussi une distribution de Bernoulli. Soit i yi 0 1 xi .
La distribution de probabilité de i est
i probabilité
Si yi 1 1 0 1 xi Pi
Si yi 0 0 1 xi 1 Pi
-La variance des erreurs est hétéroscédastique: Cette variance n’est pas constante
(homoscédastique), mais dépend de i. On peut vérifier que V i Pi Pi 2 . En effet
V i E i2 E 2 i ; comme E i 0 ,
V E
n
i i
2
i
2
P i 1 0 1 xi Pi 0 1 xi 1 Pi . Sachant avec (8-
i 1
V i 1 Pi 1 Pi Pi Pi 2 1 Pi Pi Pi 2 Pi 2 1 Pi Pi .
Soit le modèle yi* 0 1 xi i , avec yi* une variable latente, c’est-à-dire une variable
continue non observable et représentative du phénomène étudié. Par exemple, la richesse
(observable) d’un individu peut être expliquée par le fait qu’il soit propriétaire ou non de son
appartement (non observable). Si la variable observée se note yi , alors
1
si yi* 0 l'individu est propriétaire
yi
0 ailleurs, c'est-à-dire yi* 0
Dans le cas où la distribution est logistique, on peut encore écrire Pi telle que
57
1 1
Pi E y 1| xi 0 1 xi
. Puisque Zi 0 1 xi , on a Pi ; multiplions le
1 e 1 e Zi
e Zi
numérateur et le dénominateur par e Zi pour avoir Pi . Cette équation représente la
1 e Zi
fonction de répartition logistique. Tandis que Zi est compris entre – et + , Pi est compris
entre 0 et 1 ; en plus, Pi est non linéaire. Ce qui signifie que nous ne pouvons pas utiliser les
MCO pour en estimer les paramètres.
1
Pour rendre Pi linéaire, soit 1 Pi . Le rapport des deux probabilités contraires est
1 e Zi
Pi 1 e Zi Pi
Zi
e Zi , où est le ratio de chances (ou ratio de cotes) en faveur de
1 Pi 1 e 1 Pi
l’événement succès. Par exemple, si Pi 0,8 , cela signifie que la cote (la chance) est de 4
P 0,8
contre 1 en faveur de l’évènement succès. En effet, 1 Pi 1 0,8 0, 2 i 4.
1 Pi 0, 2
P
Prenons le logarithme de ce ratio Li Log i Z i 0 1 xi . L est appelé Logit. Pour
1 Pi
P
des raisons d’estimations, prenons de Li : Li Log i 0 1 xi i . (8-11)
1 Pi
Dans le second cas, on peut utiliser la méthode des Moindres Carrés Pondérés (ou MCO
appliqués sur des données transformées). Dans le premier cas, l’estimation par les MCO est
infaisable. On doit faire appel à la méthode du maximum de vraisemblance (Maximum-
Likelihood (ML) method) avec la formule :
LogLi 1 Log P i 0 1 xi yi 0 Log P i 0 1 xi yi , où
1 et 0 indiquent la somme de toutes les probabilités pour les points de données où yi
égale 1 et 0, respectivement, ˆ0 et ̂1 étant choisis de manière à maximiser la fonction de
log-vraisemblance.
Exemple d’application 1 : Voir exercice 8.23 et 8.25, pp. 199-200 dans Salvatore.
59