Vous êtes sur la page 1sur 59

Cours d’introduction à l’économétrie

M. TCHAKOUNTE NJODA
FSEG, Université de Ngaoundéré
Email : econometricien@gmail.com

2015

1
1) Intitulé du cours

Introduction à l’économétrie
Code : EC 301
Heures : 40 (cours magistral), 10 (TD), 10 (PT) ; crédits : 4
Unités d’enseignement fondamentales
Module UEF12 Economie et Econométrie

2) Objectif du cours

L’objectif du cours est d’initier les étudiants aux méthodes fondamentales de


l’économétrie qui permettent de mesurer les relations entre des phénomènes
économiques, sociologiques, sur la base d’observations des faits réels ; donner
un contenu empirique aux théories économiques afin de vérifier leur plausibilité.

3) Plan de cours

Première partie : Régressions simples


Chapitre 1. Modèles à une variable explicative
Chapitre 2. Tests de signification de Fisher et de Student
Chapitre 3. Analyse des résidus, diagnostic des observations, prévision

Deuxième partie : Régressions multiples


Chapitre 4. Modèles à plusieurs variables explicatives
Chapitre 5. Tests statistiques
Chapitre 6. Analyse de la spécification du modèle
Chapitre 7. Modèles à équations multiples
Chapitre 8. Modèles avec variables qualitatives

Troisième partie : Relâchement des hypothèses


Chapitre 9. Multicolinéarité des variables explicatives
Chapitre 10. Hétéroscédasticité de la variance des erreurs
Chapitre 11. Autocorrélation des erreurs
Chapitre 12. Problèmes de modélisation économétrique

4) Bibliographie

-Bourbonnais, R. (2015), Econométrie – Cours et Exercices Corrigés, 9ème éd.


Dunod.
-Gujarati, D. N. and Porter, D. C. (2009), Basic Econometrics, 5th ed., McGraw
Hill.
-Hill, R. C., Griffiths W.E. and Lim, G. C. (2011), Principles of Econometrics,
John Wiley & Sons.
-Wooldridge, M. J. (2012), Introductory Econometrics: A Modern Approach,
5th ed., Thompson South Western.
2
Introduction générale

De manière simplifiée, l’économétrie signifie « mesure de l’économie ». Bien que la mesure


représente un volet important de l'économétrie, la portée de cette science est beaucoup plus
vaste. En effet, l'économétrie est un mélange de théorie économique, d'économie
mathématique, de statistique économique et de statistique mathématique. (Cf. Gujarati, p. 2).

La théorie économique fait des hypothèses qui sont principalement de nature qualitative. Par
exemple, toutes choses restant inchangées, une réduction du prix d'un bien devrait augmenter
la quantité demandée de ce produit. Mais la théorie elle-même ne fournit aucune mesure
numérique de cette relation. (C’est le travail de l’économétricien de fournir de telles mesures
ou estimations numériques).

L'économie mathématique a pour rôle d'exprimer la théorie économique sous forme


mathématique (équations) sans tenir compte de la mesurabilité ou de la vérification empirique
de la théorie. L'économétricien utilise souvent les équations mathématiques proposées par
l'économiste mathématicien, mais les place sous une forme telle qu'il se prête à des tests
empiriques.

Les statistiques économiques concernent particulièrement la collecte, le traitement et la


présentation de données économiques sous forme de graphiques et de tableaux. Les
statistiques ainsi collectées constituent les données brutes du travail économétrique.

Les statistiques mathématiques fournissent de nombreux outils utilisés en économie. Mais,


l’économétricien a souvent besoin de méthodes spéciales en raison du caractère unique de la
plupart des données économiques qui ne sont pas générées à la suite d’une expérience
contrôlée. L’économétricien dépend généralement des données qui ne peuvent pas être
contrôlées directement.

La méthodologie économétrique traditionnelle suit les étapes suivantes :

1. Énoncé de la théorie ou de l’hypothèse.


2. Spécification du modèle mathématique découlant de la théorie.
3. Spécification du modèle économétrique.
4. Obtention des données.
5. Estimation des paramètres du modèle économétrique.
6. Test d'hypothèses.
7. Prévision ou prédiction.
8. Utilisation du modèle à des fins de politique économique.
(Cf. Gujarati, p. 3 et 9).

L'économétrie peut être divisée en deux grandes catégories: l'économétrie théorique et


l'économétrie appliquée. Dans ce cours, l'accent est mis sur l'économétrie appliquée.

3
Première partie : Régressions simples

Chapitre 1. Modèle à une variable explicative


Une variable explicative, encore appelée variable indépendante ou variable exogène,
contribue à l’explication d’une autre variable appelée variable expliquée (ou à expliquer),
variable dépendante, variable endogène (Cf. Gujarati, p. 21). Pour mesurer ou quantifier cette
contribution, on procède par estimation à l’aide de la méthode :
-des Moindres Carrés Ordinaires (MCO), en anglais Ordinary Least Squares (OLS) ;
-du maximum de vraisemblance (Maximum Likelihood (ML));
-des moments, etc.
Dans ce cours, on se sert de la méthode des MCO pour estimer les paramètres ou coefficients
du modèle.

I. La construction d’un modèle économétrique


1)- Exemple de modèle

La fonction de consommation keynésienne stipule que la consommation dépend du revenu :


C  f  R  ; où C = consommation = variable dépendante et R = revenu = variable explicative.
Sous une forme linéaire, on a :
C  C0  cR , (1-1)
avec c = propension à consommer (comprise entre 0 et 1) et C0 = consommation
incompressible ou autonome. Plus précisément, c et C0 sont les paramètres ou coefficients du
modèle qui doivent être estimés.

Comme pour chaque valeur donnée de R devrait correspondre une infinité de valeurs de C,
l’on est amené à considérer la valeur moyenne de C, appelée espérance de C. Pour cette
raison, on écrit E  C | R   f  R  .

2) Spécification

En fonction des données disponibles, on distingue 3 types de spécification :

-Le modèle en coupes transversales (cross-section en anglais) ou coupes instantanées. Ici,


les données sont observées au même instant et concernent les valeurs prises par les variables
pour plusieurs individus ou agents économiques. Dans ce cas, on peut considérer la
consommation et le revenu pour un échantillon de 30 individus en 2015. Notre modèle (1-1)
devient: E  Ci | Ri   C0  cRi ; i =1, 2, 3,…, 30.
-Le modèle en séries temporelles (times series en anglais) ou séries chronologiques : C’est le
cas le plus fréquent en économétrie. Les variables représentent des phénomènes observés à
intervalles de temps réguliers, comme par exemple l’année. Par rapport au cas précédent, on
peut prendre l’exemple de la consommation et du revenu annuels du Cameroun de 1960 à
2020, soit 61 années. Le modèle s’écrit alors E  Ct | Rt   C0  cRt ; t = 1960, 1961,…, 2020.
-Le modèle en données de panel, parfois appelées données longitudinales : C’est simplement
une combinaison des deux formes précédentes. Par exemple, la consommation et le revenu
pour les pays de la CEMAC sur plusieurs années.

4
3) Terme d’erreurs

Le terme d’erreur ou terme aléatoire ou perturbation représente tous les facteurs qui affectent
la variable endogène, mais qui ne sont pas explicitement pris en compte.

II. Hypothèses du modèle économétrique


Considérons le modèle de régression linéaire simple spécifié en coupes transversales
E  yi | xi    0  1 xi , avec yi  Ci , xi  Ri , C0  0 et c  1 . Lorsque les variables ont des
valeurs qui représentent les moyennes, on peut écrire simplement :
yi  0  1 xi   i , (1-2)
pour i = 1,2, …, n ; (n est le nombre d’observations) avec  i l’erreur (inconnue).

On distingue 10 hypothèses relatives respectivement à la variable explicative, au modèle et au


terme d’erreur (Cf. Gujarati, pp. 62-68 ou Bourbonnais, p. 17).

1) Hypothèses sur la variable explicative

Hypothèse 1 ou H1 : La variable explicative x (et même la variable expliquée) est observée


sans erreur ; autrement dit, x est non aléatoire.

H2 : Les valeurs de x pour un échantillon donné ne doivent pas être identiques. Si toutes les
valeurs de x étaient identiques, alors xi  x et il serait impossible de calculer 1 et donc 0 .

2) Hypothèses sur le modèle

H3 : Le modèle de régression est linéaire au moins par rapport aux paramètres ; ce qui signifie
que les paramètres n’apparaissent pas avec des puissances.

H4 : Le modèle de régression est correctement spécifié. Par exemple, on n’utilise pas une
droite en lieu et place d’une courbe.

H5 : Le nombre d’observations doit être supérieur au nombre de paramètres à estimer.

3) Hypothèses sur le terme d’erreurs

H6 : L’espérance mathématique des erreurs est nulle ; on écrit E   i   0 , i .

H7 : La variance du terme d’erreurs est constante et finie ; c’est-à-dire


V   i   E  i  E  i    E  i  0  E  i2    2 .
2 2

H8 : En associant H6 et H7, on peut dire que le terme d’erreur suit une loi normale, soit
 i ~ N  0,  2  .

H9 : Les erreurs sont indépendantes ou non corrélées entre elles : E   i i'   0 , si i  i’.

H10 : La variable explicative est indépendante du terme d’erreur : Cov   i , xi   0 .


(Si deux variables aléatoires X et Y sont indépendantes, alors Cov(X, Y) = 0).
5
III. Estimation du modèle par la méthode des MCO
A l’aide des informations chiffrées sur les variables x et y, on veut déterminer les coefficients
1 et 0 . La méthode des MCO utilise les données de l’échantillon pour fournir les valeurs
des estimateurs (paramètres) qui minimisent la somme des erreurs (ou écarts) au carré entre
les valeurs observées de la variable dépendante y et les valeurs estimées ŷ de cette variable
dépendante.

1) Ajustement linéaire

La détermination des estimateurs peut se faire à partir de l’ajustement linéaire (Cf. statistique
descriptive). L'ajustement linéaire est la recherche de la « meilleure » droite résumant la
structure du nuage de points qui représente les données.

Si à chaque élément d’un échantillon, on associe les mesures xt et yt de deux caractères, on


obtient une statistique à deux dimensions. Ajuster ou régresser le nuage de points revient à
déterminer une droite d'équation yˆi  ˆ0  ˆ1 xi (où ̂ 0 et ̂1 sont les estimateurs de chacun
des coefficients 0 et 1 ) aussi proche que possible de l’ensemble des points M i sur la figure
ci-dessous. Une telle droite est appelée droite de régression estimée.

variable endogène y
Mi(xi, yi)
yi yˆi  ˆ0  ˆ1 xi
ˆi
yˆi

̂ 0

x xi variable exogène x

La présence d’erreurs conduit à écrire l’équation (1-2) yi  0  1 xi   i telle que :

 i  yi  0  1xi . (1-3)

2) Résolution analytique

La résolution analytique par la méthode des MCO qui consiste à minimiser la somme des
erreurs au carré est la suivante :
n n
 i2   yi   0  1 xi   Q    i2    yi   0  1 xi  . Le problème revient à minimiser Q,
2 2

i 1 i 1

une fonction de second degré.

6
Dérivons Q par rapport à 0 et 1, afin de trouver le minimum (valeur optimale) de Q :
Q n n
  2  yi  0  1 xi  1  2  yi  0  1 xi  .
0 i 1 i 1

Q
  2  yi  0  1 xi   xi   2  xi yi  0 xi  1 xi2 
n n

1 i 1 i 1

NB : dérivée d’une somme=somme des dérivées.

Annulons les dérivées ; on obtient

 
n n n n
2 yi  ˆ0  ˆ1 xi  0   yi   ˆ0  ˆ1  xi  0
i 1 i 1 i 1 i 1

 
n n n n
2 xi yi  ˆ0 xi  ˆ1 xi2  0   xi yi  ˆ0  xi  ˆ1  xi2  0
i 1 i 1 i 1 i 1

NB : L’opérateur  est linéaire.

Ce qui donne
n n

 yi  nˆ0  ˆ1  xi
i 1 i 1
n n n

 xi yi  ˆ0  xi  ˆ1  xi2


i 1 i 1 i 1
(1-4)

Les deux équations à deux inconnues du système (1-4) sont appelées « équations normales »
(Cf. gujarati, p. 58 ; bourbonnais, p. 19).

1 n 1 n
Soit 
n i 1
yi y
et x   xi ;
n i 1
la première équation normale s’écrit

1 n 1 1 n
encore  yi  nˆ0  ˆ1  xi  y  ˆ0  ˆ1 x . On tire le premier estimateur :
n i 1 n n i 1

ˆ0  y  ˆ1 x . (1-5)

Remplaçons cette valeur de ˆ0 dans la seconde équation normale ; on a:

    n  xi  ˆ1  xi2
n n
n n n n n

 xi yi  y  ˆ1 x  xi  ˆ1  xi2   xi yi  y  ˆ1 x


i 1 i 1 i 1 i 1 i 1 i 1

 
n n n n
  xi yi  y  ˆ1 x nx  ˆ1  xi2 
i 1 i 1
 xi yi  nxy  ˆ1  xi2  ˆ1nx 2
i 1 i 1

  n n
 ˆ1   xi2  nx 2    xi yi  nxy .
 i 1  i 1

x y i i
 nxy
ˆ1  i 1
n
. (1-6)
x
i 1
2
i
 nx 2

On montre aussi (Cf. gujarati, p. 58 ; bourbonnais, p. 19) que :

7
n

  x  x  y
i i
 y n
ˆ1  x  x  0.
i 1 2
n
, si i
(1-7)
x  x 
2 i 1
i
i 1

Cas particuliers :

-Si  0  0 , le modèle (1-2) devient yi  1 xi   i (et le système (1-4) se réduit à une seule
n

n n x y i i n
équation)   xi yi  ˆ1  xi2 et donc ˆ1  i 1
n
avec x 2
i  0.
x
i 1 i 1 2 i 1
i
i 1
n

  x  x  y
i i
 y
-Si xi   '0   '1 yi   i , alors  '0  x   '1 y et ˆ '1  i 1
n
, pour
 y  y 
2
i
i 1
n

 y  y  0.
2
i
i 1

3) Exemples

Exemple d’application 1 : Le tableau 1.1 de Gujarati p. 6 donne des informations sur la


consommation et le revenu de 1960 à 2005 aux USA. Utiliser les formules (1-5) et (1-7) pour
trouver les valeurs estimées de  0 et 1 .

Solution : Trois étapes sont nécessaires

Première étape : calculs préliminaires


Soit PCE = y et GDP = x ; on commence par trouver les sommes de xt et yt :
46 46

 yt  186206,9 et
t 1
x
t 1
t  277055, 4 . On détermine ensuite la moyenne de xt et yt :

1 1
y
n
 yt  186206,9   4047,97609 4048 ;
46
1 1
x   xt   277055, 4   6022,94348 6023 .
n 46

Deuxième étape : calcul des valeurs centrées


On calcule les valeurs centrées en faisant xt  x et yt  y , on trouve leurs produits
individuels et croisés, et on prend la somme :
-produits individuels :   yt  y   144363865, 71 et   xt  x   276609000,82 .
2 2

-produits croisés :  x t  x  yt  y   199  .

Troisième étape : on trouve enfin les valeurs recherchées


ˆ1  valeur estimée de 1

8
n

  x  x  y
i i
 y
199 
ˆ1  i 1
  0, 72183
n
144363865, 71
 x  x 
2
i
i 1

̂ 0  valeur estimée de  0
ˆ0  y  ˆ1 x  4048  0,72183  6022,9  299,59131 .

La fonction de consommation estimée s’écrit yˆt  299,59131  0, 72183xt

Commentaire : L’ordonnée à l’origine ou constante évaluée à 299,59131 donne la valeur de


yˆt lorsque xt  0 . La pente de la droite est égale à 0,72183 ; ce qui signifie que si x change
ou varie d’un montant x , la variation de y sera y  0,72183x . Par exemple, si le revenu
de l’américain augmente de 1 dollar pendant la période d’étude, sa consommation augmentera
de 0,72183 dollar.

Les erreurs estimées encore appelées résidus peuvent encore être calculées à chaque période à
l’aide de la formule : ˆt  yˆt  299,59131  0, 72183xt .

Exemple d’application 2 : A faire à la maison ; voir Bourbonnais, pp. 20-21.

NB : On peut être en présence d’un modèle non-linéaire (par rapport aux variables), par
exemple le modèle log-linéaire (Cf. Gujarati, p. 159). Soit le modèle sous forme
exponentielle : yi  Axi1 ei . Ce modèle est utilisé pour estimer l’élasticité dans des fonctions
de type Cobb-Douglas à un facteur (relation de court terme, car le capital est supposé
constant). Prenons le logarithme : log yi  log A  1 log xi   i . Posons Yi  log yi ,
0  log A et X i  log xi ; on retrouve donc le modèle (1-2) yi  0  1 xi   i .

Exemple d’application 3 : voir Gujarati, exemple 6.3, p. 161.

IV. Propriétés des estimateurs des MCO


1) Propriétés statistiques

Les propriétés statistiques des estimateurs des MCO sont de trois ordres : elles concernent la
linéarité, l’absence de biais et la convergence. Nous utilisons l’indice t.

a)- Les estimateurs ˆ0 et ̂1 sont linéaires

Commençons la démonstration par ̂1 . On sait avec la formule (1-7) que


n

 (x t  x )( yt  y )
 xt  x 
ˆ1  t 1
n
. Posons wt  n
, on tire
 (x
t 1
t  x) 2
 (x
t 1
t  x) 2

n n n n n n
ˆ1   wt ( yt  y )   wt yt  y  wt   wt yt ; car w t  0  y  wt  0 . Etant donné
t 1 t 1 t 1 t 1 t 1 t 1

9
que wt est une pondération, une quantité exogène et non aléatoire, l’estimateur ̂1 est linéaire
par rapport à yt .

Ensuite, prenons ˆ0 . On sait avec (1-5) que ˆ0  y  ˆ1 x ;


n n

1 n  ( xt  x )(yt  y ) 1  n ( xt  x ) yt
ˆ0   yt  x t 1
n
  yt  x t n1 . En effet,
n t 1 n t 1
 (xt 1
t  x) 2
 (x
t 1
t  x) 2

n n n

 ( xt  x )(yt  y )   ( xt  x ) yt  y  ( xt  x ) .
t 1 t 1 t 1
Or
n n n
n n
 (x
t 1
t  x )   xt   x 
t 1 t 1 nt 1
xt  nx  nx  nx  0 . Par la suite,

 
1     . Posons v  1  x  xt  x  ; il vient ˆ  v y . D’où ˆ est
n n

ˆ0     x n t
x x
 yt t
n n 0  t t 0
t 1  n
 2 

t 1
( xt  x ) ( xt  x ) 2

 t 1  t 1

aussi fonction linéaire de yt .

b)- Les estimateurs ˆ0 et ̂1 sont sans biais

Un estimateur ˆ est dit sans biais ou sans erreur, si E ˆ   .  


Considérons la relation (1-2); en sommant par rapport à t et en divisant par n cela
1 n 1 n 1 n 1 n
donne  yt    0  1  xt    t  y  1 x  0   (1-8).
n t 1 n t 1 n t 1 n t 1

Retranchons membre à membre (1-8) de (1-2) ; on obtient


yt  y  0  0  1 xt  1x   t    1  xt  x     t    . Sachant que
n

 (x t  x )( yt  y )
ˆ1  t 1
n
, si l’on remplace yt  y donné précédemment dans l’expression de
 (xt 1
t  x) 2

̂1 , on obtient
n n n

  xt  x   1  xt  x     t     1  ( xt  x ) 2   ( xt  x )   t   
ˆ1  t 1
n
 ˆ1  t 1
n
t 1

 (x
t 1
t  x )2  (xt 1
t  x )2
n n

 (x t  x )  t     x t  x t n
 ˆ1  1  t 1
n
 ˆ1  1  t 1
n
, car  x t x0
 (x  (x
t 1
t  x) 2
t  x) 2

t 1 t 1
n
 xt  x  n
   xt  x   0 . Comme wt  n
, on peut écrire ˆ1  1   wt  t (1-9).
 (x
t 1 t 1
t  x )2
t 1

10
 n
  n 
 
Prenons l’espérance E ˆ1  E  1   wt  t   E  1   E   wt  t 
 t 1   t 1 
n

 
 E ˆ1  1   wt E   t  . Selon H6: E   t   0 , d’où E  ˆ1   1 . Donc ̂1 est sans
t 1
biais.

 y  ˆ0  ˆ1 x
En ce qui concerne ̂ 0 , on sait avec (1-5) et (1-8) que 
 y   0  1 x  
En retranchant (1-8) de (1-5), 0  ˆ0  0  ˆ1 x  1 x   et ˆ0   0   ˆ1  1  x  
(1-10).
Prenons l’espérance
E  ˆ0   E   0   ˆ1  1  x     E   0    xE  ˆ1  1   E    .

Puisque E  0   0 , E  ˆ1  1   0 et E      E   t   0 , cela aboutit à E  ˆ0    0


1
n
CQFD.

c-) Les estimateurs ˆ0 et ̂1 sont convergents

-Détermination des variances

 n

 
n
Considérons l’équation (1-9), ˆ1  1   wt  t ; la variance est V ˆ1  V  1   wt  t  .
t 1  t 1 
Sachant que 1 est une constante qui ne dépend pas de t et que par propriété (Cf. Gujarati, p.
 n 
811), V(a + X) = V(X), on en déduit V ˆ1  V   wt  t    . Si wt et  t sont indépendants
 t 1 
n

 
V ˆ1   V  wt  t  ; en effet V(X + Y) = V (X) + V (Y). La quantité wt étant composée
t 1
d’éléments exogènes non-aléatoires (par propriété, V(aX) = a2V (X), on a
n

n n  (x  x )2
   
t
V ˆ1   wt2V   t  . Selon H7, V   t    2 , donc V ˆ1   wt2 2  t 1
2
 2 .
t 1 t 1  n
2 
  ( xt  x ) 
 t 1 
 2
On trouve V ˆ1    n (1-11).
 (x
t 1
t  x) 2

Soit ˆ0   0   ˆ1  1  x   donné en (1-10) ; prenons la variance :


     
V ˆ0  V   0  ˆ1  1 x     V  0   V  ˆ1  1 x   V    , si les éléments de la
  
variance sont 2 à 2 indépendants. On a V ˆ0  V  ˆ1  1 x   V    , puisque 
1 n 
V a  0, si a est une constante.    
V ˆ0  x 2V ˆ1  1  V    t  
 n t 1 

11
1  n   2
   
V ˆ0  x 2V ˆ1  2 V    t
n  t 1
ˆ
  V 0  x  
2
n

1 n
n2 
V   t  car les erreurs

 (x
t 1
t  x )2
t 1

 
 1 
   
2 2
n 2 x
sont indépendantes. V ˆ0  x 2 n
    V ˆ0   2   n 
n2 n 2 
 (x
t 1
t  x) 2
 t 1
( xt  x )

 n

 2   xt2 
(1-12). On montre que V ˆ0      n t 1
n 
 (1-13).
2 
 
( xt  x )
t 1


-Convergence des estimateurs


Puisque les estimateurs ˆ0 et ̂1 sont sans biais, il suffit, pour qu’ils soient convergents, que
   
V ˆ0  0 et V ˆ1  0 .
n  n 

1 2

  n 
n
Soit (1-11), V ˆ1 
1 n
; lorsque n  ,  (x  x )
t
2
,

n
i 1
( xt  x ) 2
t 1

1 n

n i 1
 
( xt  x ) 2  V  x  , d’où V ˆ1  0 , car  2 est une valeur finie. Donc

1 2

 
lim V ˆ1  n n
1
 0.

n
n  ( xt  x ) 2

t 1

Soit (1-12), lorsque n   ,


1
n
 0, n
1
 0 et lim V ˆ0  0 .  
 (x
t 1
t  x) 2
n 

 2
Soit (1-13), lorsque n   ,
n
 0 et lim V ˆ0  0 .  
n 

-Variances minimales
Voir démonstration dans Gujarati, p. 95.

2) Propriétés numériques

Les différentes propriétés numériques des estimateurs des MCO peuvent être consultées dans
Gujarati, pp. 59-61.

12
Chapitre 2. Tests de signification de Fisher et de Student
Après l’estimation de l’équation de régression simple, deux questions se posent: le modèle
estimé est-il approprié ? Les coefficients estimés sont-ils significatifs ? Pour y répondre, on
utilise deux tests : les tests de Fisher et Student.

I. Test de signification de Fisher


Le test de signification de Fisher découle du tableau d’analyse de la variance. L’analyse de la
variance (en anglais ANOVA pour Analysis Of Variance) permet de juger de la qualité du
modèle. Elle repose sur une équation dite « équation d’analyse de la variance ».

1)- Equation d’analyse de la variance

L’équation d’analyse de la variance a pour origine la relation définissant le résidu. Soit


ˆi  yi  yˆi ; on peut définir :
n n
SCR = Somme Carrée des Résidus  SCR   ˆi2    yi  yˆi  .
2
(2-1)
i 1 i 1

 
n n
SCE = Somme Carrée Expliquée  SCE   yˆi  yˆi    yi  y  , car yˆ t  y Cf.
2 2

i 1 i 1

Gujarati, p. 60 ou TD.
n n
SCT = Somme Carrée Totale  SCT    yi  y    yi2  ny 2 .
2

i 1 i 1
n n n
SCT = SCE + SCR    yi  y     yi  y     yi  yˆi  .
2 2 2

i 1 i 1 i 1
Cela signifie que la variabilité totale (SCT) est égale à la variabilité expliquée (SCE) à
laquelle il faut ajouter la variabilité résiduelle (SCR). Dans cette équation d’analyse de la
variance, plus SCE est proche de SCT, plus SCR 0, et plus l’ajustement du nuage de points
par la droite des MCO est meilleur.

2)- Coefficient de détermination et coefficient de corrélation simple

Le coefficient de détermination est le pourcentage de la somme totale des carrés expliquée par
SCT  SCR SCE
l’équation estimée de la régression ; il est noté par r2. Soit r 2   (Cf.
SCT SCT
n n

 ( yˆi  y )2  ˆ i
2

Gujarati, p. 75-78). On a aussi r 2  i 1


n
 1 n
i 1
, avec 0  r 2  1.
( y  y)
i 1
i
2
( y  y)
i 1
i
2

Sa racine carrée représente le coefficient de corrélation linéaire simple :


n n

  x  x  y  y 
i i  x y  nxy i i
Cov  x, y 
r2  r  i 1
 i 1
 , avec
n n
 n 2 2 
n
2
 x y
 ( x  x ) . ( y  y )
i
2
i
2
  xi  nx 
 yi  ny 
2

i 1 i 1  i 1  i 1 
1  r  1.

Si r  1 , on parle de corrélation positive ; x et y augmentent ou diminue ensemble (ou


simultanément).
13
Si r  1 , on parle de corrélation négative ; lorsque x (respectivement y) augmente, y
(respectivement x) diminue.
Si r  0 , x et y sont non-corrélées ; il n’y a aucune relation entre les valeurs des deux
variables.

NB
-corrélation ne signifie pas causalité. Autrement dit, s’il existe un lien entre deux variables,
cela ne veut pas dire que l’une est la « cause » de l’autre.
-Même en présence d’une r2 « élevé », le modèle de régression ne peut pas être considéré
comme significatif ; il faut pour cela qu’un test soit réalisé.

3)- Tableau d’analyse de la variance et test de Fisher

Le tableau ANOVA (Cf. Gujarati, p. 125 et Bourbonnais, p. 34) est le suivant.


Source de Somme des carrées Degré de liberté Carrés
variation moyens
Régression n n 1 SCE
SCE   ( yˆi  y ) 2  ˆ12  ( xi  x ) 2 (il y a 1 variable CME  1
( xi ) i 1 i 1
indépendante)
Résidu ( ˆi ) n
n2 SCR
SCR   ˆi2 (on a estimé 2 paramètres ou CMR   n  2 
i 1
2 variables servent à
l’estimation)
Total n n
1+(n-2) = n  1 -
SCT   ( yi  y ) 2   yi2  ny 2 (on perd 1 dl en calculant y
i 1 i 1

Le test de Fisher (basé sur la distribution de Fisher) repose sur les deux hypothèses :
H 0 : 1  0
H1 : 1  0
Si on rejette l’hypothèse H0 (éventualité souhaité, car les tests sont généralement construit de
manière à rejeter H0) à un seuil  fixé, on va en conclut que 1  0 , et que les deux variables
x et y ont une relation statistiquement significative. Dans l’exemple du chapitre 1, la
propension marginale à consommer sera considérée comme étant significativement différente
de 0.
Mais, si accepte (on ne peut pas rejeter) H0, le modèle yt  0  1 xt   t devient :
yt  0   t et y ne dépend plus de x.
CME SCE
Le rapport  , qui représente la statistique du test, est appelé formule du Fisher
CMR SCR
 n  2
empirique F* ou Fisher calculé Fcal.
SCE
On montre que F  1 ~ F 1, n  2  dl. En effet, il s’agit du rapport de loi du khi-deux
SCR
 n  2
sur leur degré de liberté respective (voir Gujarati, p. 145 et Bourbonnais, p. .36).

Si F*  F lu dans la table de Fisher pour un seuil  fixé, on rejette l’hypothèse nulle. De


même, si la valeur p ou p-valeur (voir Gujarati, p. 122) est suffisamment faible, on rejette H0.

14
Exemple d’application 1 : Considérons les données du tableau 2.6, p. 46 de Gujarati repris au
tableau 3.2, p. 79, qui mettent en relation le salaire moyen (y) et le nombre d’années d’études
(x).
Questions : 1) Calculer ˆ0 et ̂1 . 2) Calculer SCE, SCR et SCT. 3) Trouver le r2 et en déduire
r. 4) Construire le tableau ANOVA. 5) Procéder au test de Fisher au seuil de 5 % et 1 %.

Solution : Soit yi  0  1 xi   i
1) Calcule de ˆ et ̂ 0 1
n

  x  x  y
i i
 y
Les formules de calcul sont : ˆ0  y  ˆ1 x et ˆ1  i 1
n
.
x  x 
2
i
i 1

On dresse le tableau 3.2 (à deux blocs) dans Gujarati, p. 79. Le 1er bloc donne :
Obs. y x xi-x (1) yi-y (2) xi2 (1)(2)
1 4,4567 6 −6 −4,218 36 25,308
2 5,77 7 −5 −2,9047 25 14,5235
3 5,9787 8 −4 −2,696 16 10,784
4 7,3317 9 −3 −1,343 9 4,029
5 7,3182 10 −2 −1,3565 4 2,713
6 6,5844 11 −1 −2,0903 1 2,0903
7 7,8182 12 0 −0,8565 0 0
8 7,8351 13 1 −0,8396 1 −0,8396
9 11,0223 14 2 2,3476 4 4,6952
10 10,6738 15 3 1,9991 9 5,9973
11 10,8361 16 4 2,1614 16 8,6456
12 13,615 17 5 4,9403 25 24,7015
13 13,531 18 6 4,8563 36 29,1378
Somme 112,7712 156 0 0 182 131,7856
1 n 1
Ensuite, on calcule des éléments intervenant dans les formules : y   yi  112, 7712
n i 1 13
n
1 156
 y  8,67470 ; x   xi 
131, 7856
 x  12 . On tire ˆ1   0, 7240967 et
n i 1 13 182
ˆ  8, 674708  0, 7240967 12  0, 01445 .
0

D’où la droite de régression estimée : yˆi  0,01445  0,7240967xi .


2) Calcul de SCE, SCR et SCT
n
SCE  ˆ12   xi  x    0, 7240967   182  95, 4255
2 2

i 1

 
n n
SCR    yi  yˆi   9,83017 , car yˆi  ˆ0  ˆ1 xi et SCR   yi  ˆ0  ˆ1 xi
2 2
.
i 1 i 1

SCT = SCE + SCR = 105,1183.


3) Calcul de r2 et de r.
n

 ˆ t
2
9,83017
r2  1 n
t 1
 1  0,9065 ; r  r 2  0,9065  0,9521 .
( y  y) 2 105,1183
t
t 1

4) Construction du tableau ANOVA

15
Source de variation Somme des carrées Degré de liberté Carrés moyens
Régression ( xi ) 95,4255 1 95,4255
Résidu ( ˆi ) 9,83017 11 0,893651818
Total 105,1183 12 -
Voir Gujarati, p. 126.

5) Procédons au test de Fisher au seuil de 5 % et 1 %


Le test de Fisher repose sur les deux hypothèses :
H 0 : 1  0
H1 : 1  0
SCE CME 95, 4255
La formule du Fisher empirique est   F*   108,3026 .
SCR CMR 0,8811
 n  2
-Pour un seuil de 5 %, le Fisher lu = F(1, 11) = 4,54.
- Pour un seuil de 1 %, le Fisher lu = F(1, 11) = 9,65.
Au vu de ce qui précède, on rejette l’hypothèse nulle (car Fcal Flu à 5 et 1%), et on conclut
que le modèle est globalement significatif.

Exemple d’application 2 : Cf. Gujarati, exemple 3.1, page 81. A lire et faire à la maison.

Exemple d’application 3 : Cf. Gujarati, exemple 3.2, page 81. A lire et faire à la maison.

II. Test de signification de Student


Le test de Student permet de vérifier si les coefficients sont individuellement significatifs.

1)- L’hypothèse de normalité des erreurs et ses implications

Au chapitre 1, section 2, on a vu (H8) que  i ~ N  0,  2  . On a également montré à la section


n n
4 (équation 1-9) que ˆ1  1   wi i  ˆ1  1   wi i . Cela signifie que si  i suit une
i 1 i 1

loi normale, alors  ̂1  1  sera normalement distribuée, puisque combinaison linéaire de  i
n
dans w i i . Il en va également de même pour  ̂ 0   0  avec l’équation (1-10). Voir
i 1
gujarati, p. 100.
Cependant, dans la pratique,  i est inconnue, et à plus forte raison sa variance V   i    2
qui intervient dans le calcul de la variance (et donc de l’écart-type) de chacun de nos
estimateurs des MCO.
Dès lors, le seul moyen est d’estimer  2 par ˆ 2 . Comme cette dernière dépend du résidu,
écrivons ˆ  y  yˆ ; si estimé s’écrit yˆ  ˆ  ˆ x , il vient :
i i i i 0 1 i

ˆi   0  1 xi   i  ˆ0  ˆ1 xi , puisque yi  0  1 xi   i .


 
 ˆi  0  1 xi   i  y  ˆ1 x  ˆ1 xi , car ˆ0  y  ˆ1 x .
 ˆi  0  1 xi   i  y  ˆ1  xi  x  . Insérons l’équation (1-8) y  1 x  0   et
   
arrangeons ˆi    i     1  ˆ1  xi  x    i     ˆ1  1  xi  x  . Elevons au carré et
prenons la somme
16
 
n 2
 ˆi2    i     ˆ1  1  xi  x  comme (a-b)2 = a2-2ab+b2 ;
i 1
 

  x  x   x  x  .
n

 ˆ        ˆ1  1  2   i    ˆ1  1
2 2 2
2
i i i i Sachant que
t 1
n n
 xi  x 
ˆ1  1   wi i   wi   i    où wi  n

 (x
i 1 i 1
i  x )2
i 1
n n


 ˆ1  1   (x  x )   (x  x )  
i 1
i
2

i 1
i i  .

     (x  x )
n n n n

 ˆi2    i     ˆ1  1  ( xi  x )2  2 ˆ1  1


2 2 2
2
Donc i
t 1 i 1 i 1 i 1

   (x  x )
n n
    i     ˆ1  1
2 2
2
i
i 1 i 1

   
 
n 2 n n
Prenons l’espérance E   ˆi2   E    i     ˆ1  1  ( xi  x ) 2  .
2

 i 1   i 1 i 1 
   2
 
n n n
L’espérance étant linéaire, E   ˆt2   E     t       ( xt  x ) 2 E ˆ1  1 . Or on sait
2

 t 1   t 1  t 1
 2

E ˆ1  1   V ˆ1   
2
avec (1-11) que n
. On tire
 (x
i 1
i  x) 2

 n   n 2
E   ˆi2   E     i       2 . Développons le terme comme dans Bourbonnais, p. 25 et
 i 1   i 1 
 2    n 
26 : E     i      E     i2  2 i   2   E    i2  2   t    2 
n n n n

 i 1   i 1   i 1 i 1 i 1 
 n
  n
  n

 E    i2  2 n  n 2   E    i2  2n 2  n 2   E    i2  n  .
 i 1   i 1   i 1 
 n 2   n 2 1 n   n 2
1  n 
2

 E    i     i   E   i     i     E  i   E    i 
n
2

 i 1 i 1   i 1 n  i 1   i 1 n  i 1 
 n 2
Sachant avec H7 que E   i2    2 , on a E     i      n 2  E  1   2    n  .
1 2

 i 1  n
D’après H9, E   i i'   0 , si i  i’ ; ainsi, seuls les E   i     vont subsister. Par conséquent,
2 2

 n 2 1
E     i      n 2  n 2  n 2   2 . Revenons à la formule initiale
 i 1  n
 n 
E   ˆi2   n 2   2   2  n 2  2 2 .
 i 1 
 n 
En conséquence E  SCR   E   ˆi2    n  2   2 . En d’autres termes, si l’on considère que
 i 1 
n
1
ˆ 2  
n  2 i 1
ˆi2 , ce qui est simplement l’estimateur de la variance du terme d’erreurs, alors

on aura E ˆ 2    2 . En conclusion, ˆ 2 est un estimateur sans biais de  2 .

17
ˆ1  1
Soit par exemple ~ N  0,1 (Voir gujarati, p. 100). Dans cette formule, ˆ0 et ̂1 sont
 ˆ
1

 2
connus, mais  ̂ est inconnu, avec  ˆ  V ˆ1    n
. Remplaçons ˆ 2 dans
 (x  x )
1 1
2
i
i 1

ˆ  1 ˆ1  1 ˆ1  1
 
V ˆ1 . Le nouveau rapport 1
ˆ ˆ
est égal à
ˆ 2

n
.
1
n  ˆ i
2

 (x  x )
i 1
i
2 i 1
n2
n

 (x  x )
i 1
i
2

Divisons les deux membres de ce quotient par  ̂ pour obtenir


1

ˆ1  1
 
 1 
 2  n 
ˆ1  1
 ( x  x )2 
 i   ˆ
 i 1  N
 1
 . Le numérateur N suit une loi normale centrée
n n D
 ˆi 1
i
2
 ˆi 1
i
2

   n  2
2
   n  2
2

réduite. Le dénominateur est la racine carrée d’une loi de khi-deux sur son degré de liberté
N ˆ  1 ˆ  
 n  2  . Autrement dit, T  n  2  dl. Au total, 1 ~ N  0,1 , mais 1 1 T  n  2 
D  ˆ ˆ ˆ
1 1

. Le même raisonnement peut être fait en considérant le coefficient ˆ0 et de manière


ˆ   0
analogue, on aura 0 ~ T  n  2  dl.
ˆ ˆ
0

2)- Mise en œuvre du test de Student

Exemple d’application 1 : La propension marginale à consommer calculée dans l’exemple 1


du chapitre 1 est-elle significativement égale à zéro au seuil de 5 % ?

Solution : Cette question est très importante en économétrie, car à travers elle, l’on s’interroge
sur la contribution de la variable exogène revenu = x à l’explication de la variable endogène
consommation = y.
On peut formuler le problème à l’aide de la théorie des tests par les hypothèses sur 1 :
H 0 : 1  0
H 1 : 1  0

18
ˆ1  1
Pour conduire ce test bilatéral, on considère le rapport : ~ T  n  2  dl. Sous H0 , cette
ˆ ˆ
1

ˆ  0 ˆ1
statistique devient : 1   t*ˆ ; où t *ˆ est appelé le « ratio de Student ». dans ce ratio,
ˆ ˆ ˆ ˆ 1 1
1 1

on connait déjà ˆ1  0, 72183 .


ˆ2
Il convient donc de calculer ˆ ˆ  V ˆ1    n
. On a
 (x  x )
1
2
t
t 1
n

n  ˆ t
2
SCR
x  x   276,82 . Calculons ˆ 2  
2 t 1
, avec n = 46 et SCR = SCT –
n2 n2
t
t 1
n n
SCE ; SCR   ( yi  y ) 2  ˆ12  ( xi  x ) 2
i 1 i 1

SCR=144 363 815,71– (0,72183)2276 609 000,82 = 239 863,31. On a donc


239863,31
ˆ 2   5451, 43887 .
44
ˆ2 5451, 43887
 
V ˆ1  n 
,82
 0, 0000197081 ;
 ( xt  x )
t 1
2

1
 
soit ˆ ˆ  V ˆ1  0, 004439381 . t*ˆ 
0, 72183
0, 004439381
1
 162,5969926 .

La règle de décision pour un seuil se déduit du ratio de Student et de la lecture de la table de


loi. Selon Gujarati, p. 118, tableau 5.1, pour un test bilatéral :
ˆ1
-Si t*ˆ   tn/22 , on rejette l’hypothèse H0. Dans ce cas, le coefficient 1 est
1
ˆ ˆ
1

significativement différent de zéro.


ˆ1
- Si tˆ 
*
 tn/22 , on accepte H0.
1
ˆ ˆ
1

Dans l’exemple, on connait t *ˆ ; on doit lire tn/22  t44


0,025
. Sa valeur se lit dans la table de loi de
1

Student (Gujarati, p. 879) et peut se calculer dans Excel (microsoft) en faisant : fonction 
statistiques  loi.student.inverse.bilatérale, on choisit la probabilité 0,05 et le dl= 44, et on
valide ; on obtient 2,01536.
t*ˆ  162,5969926  t70,025  2, 01536 , d’où la règle de décision : rejet de H0. Ce rejet signifie
1

concrètement que la propension marginale à consommer est significativement différente de 0,


et que la variable revenu est bien explicative de la variable consommation.

Exemple d’application 2 : Le taux d’augmentation dans le salaire horaire moyen par rapport à
l’éducation est-il significativement différent de 0 ?
NB : Répondre à l’aide de l’intervalle de confiance à 95 % et interpréter. (Cf. Gujarati, p. 109-
111).

Exemple d’application 3 : Voir exercice No 4, Bourbonnais, pp. 36-39.

19
Chapitre 3. Analyse des résidus, diagnostic des observations,
prévision
I. Analyse des résidus

L’analyse des résidus ˆt est une étape importante pour savoir si l’hypothèse de normalité
(H8) sur  t est respectée. Il existe plusieurs tests de normalité basés sur les résidus.

1)- L’histogramme des résidus

C’est un graphique simple qui est utilisé pour décrire la répartition de la fonction de densité
de probabilité de la variable résidu. Sur l’axe horizontal on représente les résidus divisés en
intervalles d’égales mesures, et sur l’axe vertical, on indique les fréquences. L’histogramme
de l’exemple 2, chapitre 2 est représenté dans Gujarati, p. 131, figure 5.7. Si l’on superpose
mentalement la courbe d’une distribution normale sur cette figure, on verra que les résidus ne
sont pas parfaitement normalement distribués.

2)- Test de Jarque et Bera

Le test de normalité de Jarque et Bera permet de vérifier si les résidus suivent effectivement
une loi normale. Il s’agit d’un test asymptotique, réservé uniquement aux grands échantillons
(n  ). Soit JB, la statistique de Jarque-Bera :

 S 2  K  3 2 
JB  n  
24 
, (3-1).
 6

avec n la taille de l’échantillon (supposée élevée), S le Skewness ou coefficient d’asymétrie de


Fisher, et K le Kurtosis ou coefficient d’aplatissement de Fisher.

Pour une variable normalement distribuée, le coefficient d'asymétrie doit être égal à zéro et le
kurtosis (qui mesure la hauteur ou la largeur de la distribution normale) doit être égale à 3. En
général, on a

3
1 n  ˆi  ˆ  1 n
n
S   ; où ˆ est l’estimateur biaisé de l’écart type de  t : ˆ  (ˆi  ˆ ) 2 .
n i 1  ˆ  i 1

4
1 n  ˆi  ˆ 
K  
n i 1  ˆ 
.

 
n
On montre que ˆ  0 ; en effet, partant de 2 yi  ˆ0  ˆ1 xi  0 (Cf. chapitre 1) et sachant
i 1
n n
1 n
que ˆi  yi  ˆ0  ˆ1 x , on a 2 ˆi  0   ˆi  0   ˆi  0 , d’où le résultat ˆ  0 .
i 1 i 1 n i 1

Puisque, en présence d’une loi normalement distribuée, S = 0 et K = 3, le test JB est un test


d’hypothèses joint de S et K égaux respectivement à 0 et 3. Le test repose sur les hypothèses
suivantes :
H0 : les résidus sont normaux (S = 0 et K = 3) ;
H1 : les résidus ne sont pas normaux (S  0 et K  3).
20
Sous l’hypothèse nulle selon laquelle les résidus sont normalement distribués, la statistique de
Jarque-Bera suit une loi de Khi-deux à 2 dl.

Règle de décision : Si JB calculé est supérieur à la valeur lue dans la table de la loi de Khi-
deux à 2 degrés de liberté et à un seuil  connu, on rejette l’hypothèse nulle et on conclut que
les erreurs ne sont pas normalement distribuées.

Exemple d’application 1 : Tester l’hypothèse de normalité des résidus issus de la relation


salaire-éducation, avec  = 0.

 S 2  K  3 2 
Solution : La statistique JB  n  
24 
. Calcul de JB.
 6
obs residu carré (e/s) =(1) (1)*(1)*(1) (1)*(1)*(1)*(1)
1 0,1266 0,0160 0,1466 0,0031 0,0005
2 0,7158 0,5123 0,8289 0,5696 0,4722
3 0,2004 0,0402 0,2321 0,0125 0,0029
4 0,8293 0,6877 0,9604 0,8858 0,8507
5 0,0917 0,0084 0,1062 0,0012 0,0001
6 -1,3662 1,8665 -1,5822 -3,9609 6,2670
7 -0,8565 0,7336 -0,9919 -0,9760 0,9681
8 -1,5637 2,4452 -1,8109 -5,9389 10,7549
9 0,8994 0,8089 1,0416 1,1300 1,1771
10 -0,1732 0,0300 -0,2006 -0,0081 0,0016
11 -0,7350 0,5402 -0,8512 -0,6167 0,5250
12 1,3198 1,7419 1,5285 3,5709 5,4580
13 0,5117 0,2618 0,5926 0,2081 0,1233
Somme 0,0000 9,6928 - -5,1192 26,6013
Moyenne 0,0000 0,7456 - -0,3938 2,0463
sig chapo 0,86348176 S= K=

13 0,02584471 0,03790138
JB= 0,82869925

4
1 n  ˆi  1 n  ˆi  ˆ 
3
1 n 2
ˆ   ˆi  0,38634 ; S      0,3937 ; K     2,04625 ; et
n i 1 n i 1  ˆ  n i 1  ˆ 
JB  13 0,025844712  0,037901384   0,828699249 .
Pour   0,05 , la valeur du Khi-deux à 2 degrés de liberté donne 5,99. Etant donné que
JB calculé  JB lu, on accepte H0: les résidus ne sont pas normaux.

3)- Résidu standardisé

Le résidu standardisé est défini comme le résidu divisé par son écart type :
résidu i
Résidu standardisé au point i = ; mais sur le plan pratique, on utilise
écart type du résidu i
ˆi 1 (x i  x ) 2
plutôt la formule ; où le levier au point i, hii   n , hii   0,1 .
ˆ  1  hii n
 (x i  x )
i 1
2

21
Cette transformation (division par 1  hii ) permet d’intégrer l’influence des données
exogènes dans le calcul du résidu standardisé. En effet, plus la variable exogène x est loin du
centre des données mesuré par la moyenne x , plus le levier sera élevé.

Par ailleurs, on montre que ce résidu standardisé « corrigé » suit une loi N(0, 1). Dans ce cas,
les résidus standardisés dont la valeur absolue est supérieure à 3,29 (nous pouvons utiliser 3
comme approximation) sont préoccupants ; ces résidus sont considérés comme des outliers ou
valeurs aberrantes. Ces dernières indiquent une défaillance du modèle.

3)- Résidu studentisé

Un résidu studentisé est calculé en divisant le résidu par une estimation de son écart type, qui
lui-même est calculé en excluant l'observation. Pour cette raison, ce résidu est parfois qualifié
de résidu studentisé externe, tandis que le résidu analysé précédemment (paragraphe 2 ci-
dessus) prend le nom de résidu studentisé interne.
Le résidu supprimé studentisé est calculé en utilisant les résidus jackknifés (définis comme
ˆi ,i  yˆi  yˆi ,i , où yˆi ,i sont les valeurs prédites par l'équation de régression estimée en
ˆi ,i ˆ
excluant yi ) ; il est donc calculé comme suit: RS  , où  , i est encore appelé
ˆ ,i 1  hii
erreur quadratique moyenne de l'ajustement calculée en supprimant l'observation i.

Si une observation a un résidu studentisé supérieur à 3 (en valeur absolue), on peut l'appeler
valeur aberrante. En général, les résidus étudiés seront plus efficaces pour détecter les
observations y périphériques que les résidus standardisés.

II. Mesure de l’influence des observations

1)- Influence sur l’ajustement

Plusieurs critères permettent de quantifier l’influence des observations sur l’ajustement des
MCO.

a) La Dcook

Si nous retirons un point de l'échantillon, l'équation de la droite de régression change. Les


points qui ont le plus d’influence produisent le plus grand changement dans l’équation de la
droite de régression. Une mesure de cette influence est appelée distance de Cook. Pour le
ième point de l’échantillon, la distance de Cook est définie par
n

  yˆ  yˆ 
2
 h 
2
i i ,i
1  ˆi ,i  hii
Dcooki  i 1
    ii
2
 RS 2 ,
 k  1 ˆ2,i  k  1  ˆ ,i   1  hii    k  11  hii 

avec k le nombre de variables explicatives.

Les opinions divergent quant aux valeurs de seuil à utiliser pour repérer les points très
influents. Une directive opérationnelle simple est que Dcooki  1 a été suggéré par Cook lui-
même en 1982. D'autres ont indiqué que Dcooki  4 / n . Cependant, cette mesure de distance
ne permet pas toujours d'identifier correctement les observations influentes.

22
b) Le Dffits

Une autre mesure d’influence d’un point dans une régression est le DFFITS, défini par la
formule suivante:
yˆ  yˆi,i hii
Dffitsi  i  RS .
ˆ ,i hii 1  hii

Une valeur de | DFFITS | > 1 indique que la ieme observation a une influence dans les
échantillons de taille petite  n  30  , et les valeurs de | DFFITS | > 2(k+1)/n sont des
problèmes potentiels dans les grands échantillons.

2)- Influence sur les coefficients estimés : le Dfbétas

Une valeur pour DFBETAS est calculée pour chaque paramètre du modèle séparément par la
formule :
ˆk  ˆk,i
Dfbetaski  , où et ckk une des composantes de la variance de ˆ .
ˆ  ,i ckk

Ainsi, DFBETA mesure la différence dans chaque estimation de paramètre avec et sans le
point influent. Il y a un DFBETA pour chaque point et chaque observation (s'il y a n points et
k variables, il y a n·k DFBETAs)

En général, les valeurs élevées de DFBETAS indiquent des observations qui ont une influence
sur l’estimation d’un paramètre donné. D’après Belsley, Kuh et Welsch (1980), DFBETAS>
2 indiquent des observations qui ont une influence sur l'estimation d'un paramètre donné. Le
seuil recommandé en fonction de la taille est 2 / n.

3)- Influence sur la performance des estimateurs : le ratio de covariance

La statistique covratio est un résumé pratique de l'influence d'un point de données sur les
variances des paramètres du modèle. Elle est aussi considérée comme le rapport entre le
déterminant de la matrice de covariance avec l’observation i supprimée et le déterminant de la
matrice de covariance pour le modèle complet:
k
 ˆ 2   1 
Covratioi    ,2i   .
 ˆ   1  hii 

Belsley, Kuh et Welsch (1980) suggèrent que les observations avec


Covratioi  1  3  k  1 / n
peuvent être considérées comme étant influentes.

4)- Traitement de données influentes

Si une observation est influente, cela ne signifie pas automatiquement qu’on doit la retirer de
l’ensemble des observations, on doit plutôt vérifier les raisons de cette situation ; par exemple,
en qu’il n’y a pas d’erreur qui aurait pu survenir lors de la collecte de l’information statistique
ou lors de la saisie. Si l’influence provient d’un grand levier, alors il serait souhaitable de
recueillir d’autres données afin de combler le vide entre le centre du nuage de points (ou
centroïde) et l’observation influente.

23
En général, il n’est pas conseillé de soustraire les observations influentes d’un jeu de données.
Il y a cependant des exceptions:
-Erreur de mesure ou de saisie : il convient de corriger l’observation au lieu de l’éliminer.
-Observation très peu représentative du reste des observations et de la population en général.
-Valeurs mesurées scientifiquement peu plausibles.

Dans certains cas, une simple transformation de variable peut grandement réduire l’influence
des données.

III. Prévision

Soit ŷ  ˆ0  ˆ1 x ; si la valeur de la variable explicative x est connue en p (avec p  n), à
savoir x , la prévision à cette date sera: yˆ  ˆ  ˆ x .
p p 0 1 p

1)- Propriétés de la prévision

a)- La prévision est sans biais

-Première méthode

L’erreur de prévision s’écrit ep  yˆ p  y p . Cela donne :


 
e p  ˆ0  ˆ1 x p   0  1 x p   p 
 ˆ0  ˆ1 x p  0  1 x p   p
   
 ˆ0   0  ˆ1  1 x p   p .

   
Prenons l’espérance E  yˆ p  y p   E ˆ0  0  E ˆ1  1 x p  E  p  . En se référant aux
hypothèses du modèle, on aura E  yˆ p  y p   0 , ce d’autant plus que E   p   E   p i   0 ,

   
E ˆ0   0  0 et E ˆ1  1  0 (Cf. chapitre 1, section 3). L’espérance du terme d’erreur
associée à la prévision est nulle. Donc E  yˆ p   y p ; on dit que la prévision est sans biais.

-Deuxième méthode : A lire dans Bourbonnais, pp. 39-40.

b) La prévision est convergente

   
Soit e p   yˆ p  y p   ˆ0  0  ˆ1  1 x p   p . Remplaçons  ̂ 0  0  par sa valeur
ˆ0   0     ˆ1  1  x . Cela donne :
      
e p    ˆ1  1 x  ˆ1  1 x p   p   x ˆ1  1  ˆ1  1 x p     p 
 
 ˆ1  1  x p  x      p .

Calculons la variance
2
 
V  e p   V  yˆ p  y p   E  e p   
 E  ˆ1  1  x p  x      p 
2

 
 A 
24
 E  A2   2   p2  
 E  A2   E   2   E   p2   E ... .

Calculons chaque espérance :

 
E  A  E  ˆ1  1  x p  x     x p  x  E ˆ1  1 .  
2 2 2
2

 
 2  2

Or E ˆ1  1   
 V ˆ1 = . Donc E  A  x  x .
2 2 2
n n p

 ( xi  x )
i 1
2
 (x  x )
i 1
i
2

2
 n 
 i   2 
D’autre part, E     E  i 1    E  i2  ; espérance d’une somme=somme des
n
2

 n  i 1 n 
 
espérances (et espérance d’un produit = produit des espérances) pour les variables aléatoires
 2  2
indépendantes. Cela donne E   2   n  .
n2 n
Ensuite, E   p   E   t     par hypothèse.
2 2 2

Enfin, les autres termes de cette relation représentés par (…) sont des produits croisés avec 
ou  p dont les espérances sont nulles par hypothèse.
 2  2
En conséquence, V  e p    xp  x  
2
n
  2 
 (x  x ) 2 n
i
i 1

 
 1  xp  x  
2

V  e p    2 1   n .
 n 2 


i 1
( xi  x ) 

On remarque dans cette formule que la variance de l’erreur de prévision est fonction entre
autres de l’écart quadratique  x p  x  entre la variable exogène prévue et la moyenne de
2

cette même variable. Cela signifie que plus la valeur prévue de la variable exogène x p
s’éloigne de la moyenne x , plus le risque d’erreur sera important.

Notons en particulier que la variance la plus faible est obtenue pour x p  x et x p  x  0 :


 1  1
dans ce cas, V  e p    2 1   , et lorsque n   ,  1    1 et V  e p     . On dit que
2

 n  n
la prévision yˆ p converge vers y p ceteris paribus.

2)- L’intervalle de prévision

Soit x p une valeur particulière ou une valeur donnée de la variable dépendante x et


yˆ p  ˆ0  ˆ1 x p l’équation de régression estimée.
25
L’erreur correspondant à la prévision étant donnée précédemment par
   
e p  yˆ p  y p  ˆ0  0  ˆ1  1 x p   p , si la loi des  p est normale (Cf. chapitre 1), il en

sera de même de la loi de  ̂ 0   ̂   


 0 , 1 1 et donc  yˆ p  y p  . Il en résulte
  
  1  x p  x  
2

que  yˆ p  y p  ~ N 0,  2 1   n   . Ainsi, à l’instar des résultats obtenus au


  n 2 
 

 ( xt  x )  

 t 1

yˆ p  y p
chapitre 2, ~ T  n  2  dl.
 
 1  xp  x  
2

ˆ  1   n 
 n 2 


t 1
( xt  x ) 

En fin de compte, l’intervalle de prévision pour un niveau 1   connu s’écrit
 
 1  xp  x  
2

y p  yˆ p  tn/22 .ˆ  1   n .
 n 2 


t 1
( xt  x ) 

Exemple d’application 2 : Construire un intervalle de prévision à 95 % pour le salaire horaire


y sur le d’année x = 20.

Solution : L’intervalle de prévision s’écrit y p  yˆ p  tn/22ˆ ep , où


 
 1  xp  x  
2

ˆ e p  V  e p   ˆ2 1   n  . Partant de yˆi  0, 0144  0, 7248 xi , on calcule la


 n 2 


t 1
( xt  x ) 

prévision yˆ p  0,0144  0,7248  20  , car x p  20 . Donc y p  14, 4656 .
La valeur lu de Student tn/22  t11  2, 201 .
 1  20  12  
2

ˆ ep  0,893652 1     1, 2766457  1,12988746 .


 13 182 
 
L’intervalle de prévision devient y p  14, 4656  2, 2011,12988746  
y p  14, 4656  2, 48688234 et IPy p  11,9787;6,95248 . On est sûr à 95 % que la vraie
prévision se trouve dans cet intervalle.

Exemple d’application 3 : A faire la maison, Bourbonnais, pp. 41-42.

26
Première partie : Régressions multiples

Chapitre 4. Modèle à plusieurs variables explicatives


I. Estimation de modèle à deux variables explicatives
Considérons le modèle suivant
yi  0  1 x1i  2 x2i   i , (4-1)
pour i  1, 2,..., n et n = nombre d’observations ;
avec yi = valeur moyenne de la variable à expliquer de l’individu i, x1i = valeur de la variable
explicative 1 de l’individu i, et x2i = valeur de la variable explicative 2 de l’individu i.
0 , 1, et 2 = paramètres du modèle ; et  i = erreur de spécification.

Les 10 hypothèses faites au chapitre 1 section 2 restent valables ici.

La méthode des MCO exige que l’on choisisse les estimateurs de manière à minimiser :
n n

    yi   0  1 x1i   2 x2i   Q .
2 2
i
i 1 i 1

Si l’on différencie Q par rapport aux coefficients 0 , 1, et 2 , on obtient :


Q n
  2  yi  0  1 x1i   2 x2i   x2i 
 2 i 1
Q n
  2  yi  0  1 x1i   2 x2i   x1i 
1 i 1
Q n
  2  yi  0  1 x1i   2 x2i  1
0 i 1

Annulons les équations du système précédent et prenons le somme de chaque terme:


 n
 
n n n n

 2  yi  ˆ  ˆ x  ˆ x  x   0
 0 1 1i 2 2 i 2 i  x2 i yi  ˆ
 0  x2 i  ˆ
1  x1 i x 2 i   ˆ
2  x22i  0
 i 1 i 1 i 1 i 1 i 1


 
n n n n n

2 yi  ˆ0  ˆ1 x1i  ˆ2 x2i  x1i   0   x1i yi  ˆ0  x1i  ˆ1  x1i  ˆ2  x1i x2i  0 (4-2)
2

 i 1 i 1 i 1 i 1 i 1

 
n n n n n

2 yi  ˆ0  ˆ1 x1i  ˆ2 x2i  0


 i 1

i 1
yi   ˆ0  ˆ1  x1i  ˆ2  x2i  0
i 1 i 1 i 1

Ces trois équations sont appelées équations normales (Cf. chapitre 1, section 2). La dernière
équation du système peut s’écrire :
n n n n
ˆ  ˆ x  ˆ x , où y  1 1 n
i 1
yi  n ˆ  ˆ
0 1  1i
i 1
x  ˆ
 2  2i
i 1
x  y   0 1 1 2 2  i 1 n
n i 1
y , x 
i 1
x1i , et

1 n
x2   x2i . D’où l’on tire :
n i 1
ˆ  y  ˆ x  ˆ x .
0 1 1 2 2 (4-3)

27
Si l’on remplace la valeur de ˆ0 obtenue en (4-3) dans les deux autres équations du système

 
n n n
(4-2), cela donne  x1i yi  nx1 y  ˆ1 x1  ˆ2 x2  ˆ1  x12i  ˆ2  x1i x2i  0 ;
i 1 i 1 i 1
ensuite

 
n n n

x
i 1
2i yi  nx2 y  ˆ1 x1  ˆ2 x2  ˆ1  x1i x2i  ˆ2  x22i  0 . Il s’agit alors de résoudre le
i 1 i 1

système à deux inconnues ̂1 et ˆ2 :


n n n

 1i i 1  1i 2  x1i x2 i  n 2 x1 x2
x y  nx y  ˆ
 x 2
 n ˆ x 2  ˆ
 ˆ
1 1 1
 i 1 i 1 i 1
n n n
 x y  nx y  ˆ
 
 i 1
2i i 2 1  1i 2 i
i 1
x x  n ˆ x x  ˆ
1 2 1 2  x2 i  n 2 x2
i 1
2 ˆ 2

 n
ˆ
n
2 ˆ 
n

 x1i yi  nx1 y  1   x1i  nx1    2   x1i x2i  nx1 x2 
2

 i 1  i 1   i 1 
 n (4-4)
 x y  nx y  ˆ  x x  nx x   ˆ  x 2  nx 2 
n n


i 1
2i i 2 1   1i 2 i
 i 1
1 2

2   2i
 i 1
2 

En résolvant le nouveau système d’équations, on tire les valeurs respectives suivantes (p. 193
Gujarati) :
 n 2 2 
n
  n  n 
  x2i  nx 2   x y
1t i  nx 1  
y   x x
1i 2i  nx1 2   x2 i yi  nx2 y 
x
ˆ1   i 1  t 1   i 1  i 1
2
, (4-5)
 n
 n
  n

  x1i  nx1   x2i  nx2     x1i x2i  nx1 x2 
2 2 2 2

 i 1  i 1   i 1 
 n
2 
n
  n
 n

  x1i  nx1   x2i yi  nx2 y     x1i x2i  nx1 x2   x1i yi  nx1 y 
2

ˆ2   i 1  i 1   i 1  i 1
2
 (4-6)
 n
 n
  n

  x1i  nx1   x2i  nx2     x1i x2i  nx1 x2 
2 2 2 2

 i 1  i 1   i 1 

On peut condenser les écritures (4-5) et (4-6) ci-dessus en notant :


S S S S
ˆ1  22 1 y 12 2 y , (4-8)

S S S S
et ˆ2  11 2 y 12 1 y ; (4-9)

où   S11S22  S122 . (4-10)

n n n n
Avec S11    x1i  x1  x1i  x1    x12i  nx12 ; S12   x1i x2i  nx1 x2 ; S22   x22i  nx22 ;
i 1 i 1 i 1 i 1
n n
S1 y   x1i y1  nx1 y ; et S 2 y   x2i y1  nx2 y . (4-11)
i 1 i 1

L’équation estimée de la régression multiple ou droite de régression estimée s’écrit :


yˆi  ˆ0  ˆ1 x1i  ˆ2 x2i . (4-12)

28
Interprétation : ̂1 (respectivement ̂ 2 ) représente une estimation d’un changement de y suite
à un changement d’une unité de x1 (respectivement x2 ) lorsque l’autre variable indépendante
est constante. (Cf. p. 191 Gujarati)

Quand le nombre de variables explicatives augmente, la procédure algébrique devient lourde


et difficile à mettre en œuvre. Il est alors préférable d’adopter la forme matricielle.

II. Estimation de modèle à plusieurs variables explicatives


1)- Présentation

Soit le modèle linéaire

yi  0  1 x1i  2 x2i  ...  k xki   i , (4-13)

Toutes les définitions et notations précédentes restent ici. En réécrivant le modèle,


observation par observation, on obtient :

Pour i = 1, y1  0  1 x11  2 x21   k xk1  1


Pour i = 2, y2  0  1 x12  2 x22   k xk 2   2

Pour i = n, yn  0  1 x1n  2 x2n   k xkn   n

 y1  1 x11 x21 xk 1   0   1 
       
 y2  1 x12 x22 xk 2   1  2 
     2   
Soit, Y    ;     ;     ; et     . (4-14)
 yt  1 x1i x2i xki     i 
       
       
 yn  1 x1n x2 n xkn   k  n 

Sous forme matricielle, (4-12) devient :

Y  X   . (4-15)
 n,1   n,k 1  k 1,1   n,1 

Remarques : Les hypothèses H1 à H10 tiennent encore, et on y ajoute une hypothèse


structurelle H11: il y a absence de colinéarité (combinaison linéaire) entre les variables
explicatives, cela implique que la matrice   '   est régulière et que la matrice inverse
 ' 
1
existe. On constate par ailleurs que la première colonne de la matrice X est composée
de 1 ; ce qui correspond au coefficient 0 des termes constants.

2)- Estimation

Soit le modèle (4-15) : Y        Y   . Pour estimer le vecteur  composé des


coefficients 0 , 1 , 2 ,..., k , on applique la méthode des MCO, à savoir :

29
n
Min i2  Min '   Min Y    ' Y     MinQ . Avec  ' la transposée du vecteur  .
i 1
Notons que :
 1 
 
 n
 '    1 ,  2 ,...,  n   2   12   22    n2    i2 . (4-16)
  i 1
 
n 
Il s’agit donc d’un scalaire, ce qui n’est pas le cas pour  ' qui est une matrice (Cf. équation
4-26). Développons Q :
Q  Y   ' Y    Y 'Y  Y '   '  'Y   '  '  . (4-17)
1,1  1,1  1,1  1,1 

Ainsi, Q est un scalaire. Sachant qu’un scalaire est égal à sa transposée, on peut écrire
Y '    '  'Y . Dans ce cas, il vient Q  Y 'Y  2 '  'Y   '  '  . Etant donné que
 '      2 , on tire Q  Y 'Y  2 '  'Y  2  '  . Pour minimiser cette fonction par
rapport à  , on différencie Q par rapport à  et on l’annule :
Q ˆ  0   '  ˆ   'Y .
 2 ' Y  2 '  (4-18)

Ces équations normales peuvent être développées de la façon suivante:
 n  x1i  x2i  xki   ˆ0    yi 
  ˆ   
  1i  1i  1i 2i  1i ki   1    x1i yi 
2
x x x x x x
  x2i  x2i x1i  x22i  x2i xki   ˆ2     x2i yi  (4-19)

    
 x   
  ki  xki x1i  xki x2i  xki   ˆk    xki yi 
2 

Il vient finalement :
ˆ    '  1  'Y . (4-20)
Le modèle estimé est alors donné par :
yˆi  ˆ0  ˆ1 x1i  ˆ2 x2i  ...  ˆk xki . (4-21)

Exercice d’application 1 : Exemple illustratif 7.1 dans Gujarati, p. 198. Le tableau des
données se trouve à la page 168 (tableau 6.4). On définit: CM = Child Mortality = yi ; PGNP
=Per Capita GNP = x1i ; FLR = Female Literacy Rate = x2i. Le modèle à estimer s’écrit
yi  0  1 x1i  2 x2i   i .

Solution:

1)- Méthode algébrique

S S S S S S S S
ˆ0  y  ˆ1 x1  ˆ2 x2 ; ˆ1  22 1 y 12 2 y ; ˆ2  11 2 y 12 1 y ; où   S11S22  S122 . Avec
 
n n n n
S11    x1i  x1  x1i  x1    x12i  nx12 ; S12   x1i x2i  nx1 x2 ; S22   x22i  nx22 ;
i 1 i 1 i 1 i 1
n n
S1 y   x1i y1  nx1 y ; et S 2 y   x2i y1  nx2 y .
i 1 i 1

30
n n
Le calcul des valeurs moyennes donnent: y
i 1
i  9056  y  141,5 ; x
i 1
1i  890 
n
x1  101, 25 ; et x
i 1
2i  3  x2  51,1875 . En ce qui concerne les valeurs centrées et

les produits croisés, Cf. résultats. Ces résultats sont :


ˆ1 
   5        ˆ  0, 00564649 .
   42     2   
1

 

̂ 2 
     5  ˆ  2, 23158573 .

2

ˆ0  141,5   0,00564649 1401,


 25   2, 2315857351,1875   263,641586 .

Le modèle estimé que l’on peut retenir s’écrit :


yˆi  263,641586  0,00564649x1i  2, 23158573x2i .

2)- Méthode matricielle


a)- Avec des données non-centrées

 ˆ0 
 
On se sert de la formule :  ˆ   ˆ     '  1   ' Y  . Calculons   '  1 .
1
 
 ˆ2 
 
 n

 x1i  x2i   64

  

 '     x1i  x1i  x1i x2i    '        .
2

 x   210 
 2i  x1i x2i  x22i   
 0, 07711482 0, 00000009 0, 00120373 
  '     0, 00000009 0, 0000000023 0, 0000000648  .

1

 0, 00120373 0, 0000000648 0, 00002529 



  yt      ˆ0   263, 641586 
    

 ' Y    x1t yt      , et il vient ˆ   ˆ    0, 005646659  .
   
1
  x y   361   ˆ   
   2   
 2t t  2, 23158573

a)- Avec des données centrées

   X 1iYi 
1
 ˆ1    X 12i  X X
Dans ce cas,  ˆ    '     'Y      
1 1i 2 i
   , avec
 ˆ    X 1i X 2i     2i i 
X 2

 2  2 i X Y
X ji  x ji  xi , ij  1, 2 , et Y  yi  y les valeurs centrées.

1
 S1 y 
ˆ   S11
En fait, 
S12 
   . (4-22)
 S21 S22   S2 y 

A partir des données chiffrées,

31
1
ˆ   468053300 1199

 265   5319170
 
   
 265 42693,75   101868
 1199  

 0, 00000002303541 0, 000000064799671 5319170


 
  
 0, 000000064799671 0, 000025290240308  101868
 
 0, 005646595 
 .
 2, 231585732 

Exercice d’application 2 : Bourbonnais, p. 55, exercice No 1 : Mise sous forme matricielle


d’un modèle et calcul des coefficients de régression. Questions 1 et 2.

Exercice d’application 3 : Gujarati, exemple 7.4, pp. 211-212.

III. Propriétés des estimateurs des MCO


1)- Les estimateurs sont linéaires et sans biais

ˆ    '  1  'Y . Les composantes du vecteur ̂ sont linéaires de Y.


Soit la relation (4-20) : 
Sachant que   '   est une matrice composée d’éléments essentiellement exogènes, on
1

obtient en posant (4-15) :


Y       ˆ    '  1  '       
ˆ    '  1  '       '  1  '  
ˆ    '  1   'X  B    '  1  '  

ˆ      '  1  '  .
 (4-23)

Prenons E 
l’espérance :  
ˆ  E     E   '  1  '       '  1  ' E ( ) .
 
Or par

hypothèse (H6), E ( )  0 ; ce qui implique que E  ˆ .  


(4-24)
On dit que l’estimateur est sans biais.

2)- Les estimateurs sont convergents

Avant de montrer que les estimateurs sont convergents, calculons les variances-covariances
des coefficients de régression. Compte tenu du format de ̂   :  
 
ˆ  E  
ˆ    E      ' .
2
V  ˆ  
ˆ  (4-25)
  
 ˆ0   0 
 
 ˆ  
En effet,   
ˆ    1 1 , tandis que
   ˆ   '   ˆ
0  0 , ˆ1  1 , 
, ˆk   k .
 
 ˆ   
 k k 

A partir de (4-23) ˆ      '  1  '  ,


 on a ˆ      '  1  ' .

Donc V   
 
ˆ  E   '  1  '   .   '  1  '   ' 
   
32
V        
ˆ  E   '  1  '   .  '    '  1  , car la matrice   '  1 est symétrique.

 
ˆ  E   '    '  '    '    . D’où, puisque x est exogène
V 

1 1

 
ˆ    '    ' E  '    '   .
V 
1 1

Rappelons que  ' est un scalaire (voir relation 4-13) ; mais  ' est une matrice. En effet,
 1 
 
2    11   1 2  1 n  

    21   2 2   2 n  
 '    1  2 i n  
 
. (4-26)
 i   
 
   n 1    n 2   n n  
 
n 
 E  11  E  1 2  E  1 n  
 
 E   21  E   2 2  E   2 n  
 E  '   
.
 
 E   n  1  E   n  2  E   n  n  

D’après les hypothèses H7 ( E   i i   E   i2    2 ) et H9 ( E   i i'   0 ), on a :


  2 0 0 
 
 0  2
0 
E  '    2 I . (4-27)
 
 
 0 0  2 
où I est une matrice unitaire (ou unité ou encore identité).

La relation (4-25) devient V    


ˆ   2   '  1  '    '  1 . En simplifiant, on obtient la
formule définissant la variance des estimateurs

 
ˆ   ˆ   2   '  1 .
V    (4-28)

ˆ  0 et les estimateurs
Lorsque le nombre des observations tend vers l’infini, V   
convergent ( ̂ vers  ) à condition que les variables exogènes ne tendent pas à devenir
colinéaires.

3)- Les estimateurs ont des variances minimales

Cf. Gujarati, p. 876 pour la démonstration.

Au total, ces estimateurs sont BLUE.

33
Chapitre 5. Tests statistiques
Dans ce chapitre, on va procéder à la mise en œuvre des tests statistiques de base (tests de
Student et de Fisher), mais aussi à d’autres tests complémentaires dus à l’élargissement du
modèle.

I. Test de Fisher
Le test de Fisher permet de vérifier la significativité globale d’un modèle.

1)- Cas de 2 variables explicatives

On a montré au chapitre 2, section 1, que le test de Fisher a pour origine l’équation


fondamentale d’analyse de la variance ; c’est-à-dire :
SCT = SCE + SCR, avec
n n
SCT  S yy   ( yi  y ) 2   yi2  ny 2 ;
i 1 i 1

 n  ˆ  n 
SCE  1S1 y   2 S 2 y ; en fait, SCE  1   x1i yi  nx1 y    2   x2i yi  nx2 y  .
ˆ ˆ ˆ
 i 1   i 1 
n n
SCR   ˆi2    yi  yˆi   ˆ1S1 y  ˆ2 S 2 y ;
2

i 1 i 1

Si l’on appelle R 2 le coefficient de détermination multiple, on aura :


ˆ S  ˆ2 S2 y
R 2  Ry2. x1x2  1 1 y . (5-1)
S yy
R2 peut également être calculé comme suit (voir note de page 197, Gujarati):
n

SCR  ˆ i
2
 n  3 ˆ 2
R  1
2
 1 i 1
 1 . (5-2)
n
 n  1  y2
 i i 
SCT

2
y ˆ
y
i 1

Le coefficient de corrélation partielle mesure la corrélation nette entre la variable dépendante


et une variable indépendante après avoir exclu l’influence commune des (c’est-à-dire en
maintenant constante les) autres variables indépendantes du modèle. Par exemple, ryx1.x2 est la
corrélation partielle entre y et x1, après avoir éliminé l'influence de x2 entre y et x1 :
ryx1  ryx 2 rx1x 2 ryx 2  ryx1rx1x 2
ryx1.x 2  et r  , (5-3)
 1  rx21x 2  1  ryx2 2   1  rx21x 2  1  ryx2 1 
yx 2.x1

où ryx1 = coefficient de corrélation simple entre y et x1, et ryx2 et rx1x2 sont définis de manière
analogue.

Les coefficients de corrélation partielle ont des valeurs comprises entre -1 et +1 (comme le
font les coefficients de corrélation simple), ont le signe du paramètre estimé correspondant et
sont utilisés pour déterminer l'importance relative des différentes variables explicatives dans
une régression multiple.

Le tableau d’analyse de la variance (ANOVA) est donné ci-dessous (p. 235, Gujarati).

34
Source de variation Somme des carrés Degré de Carrés Fisher
liberté moyens
Régression, c’est-à-dire SCE  ˆ1S1 y  ˆ2 S 2 y 2 SCE/2 CME/
x1 et x2 CMR
 R2 SCT
Résidus n n-3 SCR/n -3 -
SCR   ˆi2
i 1

  1  R 2  SCT
Total n n-1 - -
SCT   ( yi  y ) 2
i 1

La statistique de Fisher est le rapport entre les carrés moyens

F* 
MCE

 
ˆ1S1 y  ˆ2 S2 y / 2
. (5-4)
n
MCR
 ˆi /  n  3 
2

i 1
Dans ce cadre, on peut tester les hypothèses
H0 : 1  2  0
H1 : 1  2  0 .
Sous l’hypothèse nulle 1   2  0 , on montre que F * suit une loi de Fisher à 2 et (n-3)
degrés de liberté.
SCE / 2 R2 / 2
Le Fisher empirique peut encore s’exprimer comme : F *  
SCR /  n  3   1  R 2  /  n  3 
. (5-5)
Si la valeur de F définie en (5-4) et (5-5) excède la valeur critique F lue dans la table de loi
(de Fisher) au seuil de signification de  %, on rejette H0. Alternativement, si la p value du F
observé est suffisamment faible, on peut rejeter H0.

Exemple d’application 1 : Voir Salvatore, exercice 7.15, p. 170.

Exemple d’application 2 : Voir Salvatore, exercice 7.22, p. 172.

Exemple d’application 3 : Voir Salvatore, exercice 7.24, p. 173.

2)- Cas de plusieurs variables explicatives

En présence de régression multiple et sous forme matricielle, la variabilité totale (SCT) est
égale à la variabilité expliquée (SCE) + la variabilité des résidus (SCR).
 Y  Y  '  Y  Y    Yˆ  Y  '  Yˆ  Y  ˆ 'ˆ ;
SCR
SCT SCE

 y1  y   yˆ1  y 
y y  yˆ  y 
avec Y  Y   2
 et Y  Y  
ˆ 2
.
   
   
 yn  y   yˆ n  y 
On calcule le coefficient de détermination multiple

(5-7) R 2 
 
Yˆ  Y ' Yˆ  Y   1
ˆ ' ˆ
, (5-6)
Y  Y  ' Y  Y  Y  Y  ' Y  Y 

35
et R sa racine carré, le coefficient de corrélation multiple.

Si le nombre de variables explicatives augmente, R2 augmentera systématiquement. Pour tenir


compte de la réduction du degré de liberté qui en résulte, on calcule le coefficient de
détermination corrigé ou ajusté (du dl) R 2  Ra2 :
SCR / n  k  1 SCR  n  1 
R 2  Ra2  1   1  . (5-7)
SCT / n  1 SCT  n  k  1 
n 1
R 2  1  1  R 2  . (5-8)
n  k 1

Remarques :
i) Si k = 0, on a R 2  R 2 .
ii) Si k > 0, on a R 2  R 2 .
iii) Si n   , R 2  R 2 .

Le tableau ci-dessous présente l’analyse de la variance pour plusieurs variables explicatives.


Source de variation Somme des carrées Degré de liberté Carrées moyens
x1 , x2 ,..., xk  
SCE  Yˆ  Y ' Yˆ  Y  R S 2
 k
yy
SCE / k
q variables exogènes parmi k SCEq  ˆq 'ˆq  ˆ 'ˆ q SCEq / q
résidu SCR  ˆ ' ˆ  1  R 2  S yy
n-k-1 SCR /  n  k  1 
Total SCT  Y  Y  ' Y  Y   S yy n-1 -

La régression est jugée significative si la variabilité expliquée est significativement différente


de 0. Il s’agit donc de s’interroger sur la signification globale du modèle de régression, c’est-
à-dire de savoir si l’ensemble des variables explicatives a une influence sur la variable
expliquée. Le problème se résout à l’aide d’un test spécifique : le test de Fisher. La
formulation du test se fait de la manière suivante :
H0 : 1  2    k  0 (tous les coefficients sont nuls)  le modèle n’est pas significatif.
H1 : il existe au moins un coefficient non nul.
Le cas où l’hypothèse H0 est acceptée signifie qu’il n’existe aucune relation linéaire
significative entre la variable à expliquer et les variables explicatives (ou encore que la
somme des carrées expliquées SCE n’est pas significativement différente de 0).
Le Fisher empirique est
MCE SCE /  k  n  k  1 SCE n  k  1 SCE / SCT
F*    
MCR SCR /  n  k  1  k SCR k SCR / SCT
n  k  1 R2 R2 /  k 
 F*   . (5-9)
k 1  R2  1  R2  /  n  k  1 
Si F* F théorique à (k, n-k-1) dl à un seuil  choisi, on rejette l’hypothèse H0, le modèle est
globalement significatif. Mais si F*  F on accepte H0, pris globalement les coefficients sont
nuls.

Exemple d’application 1 : Utiliser les données de l’exemple 7.1 de Gujarati pour calculer le
coefficient de détermination et le coefficient de détermination ajusté. Construire le tableau
ANOVA et effectuer le test de Fisher au seuil de 5 %.

257362, 4
Solution : Gujarati, p. 234 : R2   0,7077 et R 2  0,6981 .
363
36
Le tableau d’analyse de la variance se présente comme suit (Gujarati, p. 240).
Source de Somme des Degrés de Carrés moyens F de Fisher
variation carrés liberté
Régression 257 362,4 2 128 681,2 73,8325
Résidu 106 315,6 61 1 742,88
Total 363 678 63
F* = Fcal = 128 681,2 / 1 742,88 = 73,83. Au seuil de 5 %, F(2, 60) = 3,15. Puisque Fcal 
Flu, on rejette H0.

Exemple d’application 2 : Gujarati, reprendre l’exemple 7.5, p. 213, et calculer le R2 (p. 243);
faire le test de Fisher (p. 243).

3)- Tests complémentaires à partir de la loi de Fisher

D’un intérêt pratique très important pour l’économiste, ces tests sont au nombre de quatre.

a)Introduction d’une ou plusieurs variables explicatives supplémentaires

L’ajout d’un bloc supplémentaire de variables explicatives améliore-t-il significativement la


qualité de l’ajustement ? En d’autres termes, quelle est la contribution marginale ou
incrémentale des variables explicatives ?

Exemple d’application 1 : Bourbonnais, p. 69, Exercice No 3, question 1.

Exemple d’application 2 : Gujarati, pp. 244-246.

b) Introduction de restrictions et de contraintes sur les coefficients

Les restrictions et contraintes souhaitées ou envisagées sur les coefficients sont-elles justifiées
et validées par l’estimation économétrique ?

Exemple d’application 1 : Bourbonnais, p. 69, Exercice No 3, question 3.

Exemple d’application 2 : Gujarati, exemple 8.3, p. 244.

c) Stabilité des coefficients du modèle dans le temps (test de Chow)

Peut-on considérer le modèle comme étant stable sur la totalité de la période ou bien doit-on
considérer d’autres sous-périodes distinctes d’estimation (changement structurel du modèle) ?
La spécification du modèle est la même, mais les valeurs estimées des coefficients pour les
deux échantillons sont différentes.

Exemple d’application 1 : Bourbonnais, p. 69, Exercice No 3, question 2.

Exemple d’application 2 : Gujarati, tableau 8.9, p. 255.

d) Augmentation de la taille de l’échantillon servant à estimer le modèle

Lorsque la taille de l’échantillon augmente (le nombre d’observations disponibles est


important), le modèle reste-il stable ? Ce test peut être ramené au test de Chow de stabilité des
coefficients sur des sous-périodes. Dans ce cas, l’estimation sur la première sous-période est
effectuée à partir de l’échantillon initial et l’estimation des autres sous-périodes à partir des
nouvelles observations.
37
e) Généralisation des tests par analyse de la variance

Tous les tests précédents (par analyse de la variance) se ramènent à un test unique, tel que les
éléments du vecteur des coefficients  vérifient un ensemble de q contraintes linéaires :
H0 : R   r
H1 : R   r

Le Fisher empirique F  *
 Rˆ  r  ' R  X ' X  1

.
R '

1

(5-10)
 Rˆ  r  / q
SCR /  n  k  1
On rejette H0 si le F* est supérieur au F lu à q et n − k degrés de liberté.

Exemple d’application 1 : Gujarati, exemple 8.4, pp. 253-254.

Exemple d’application 2 : Bourbonnais, exercice No 11, pp. 95-96.

II. Test de Student

Telle qu’établie à l’équation (4-28), la matrice  ̂ dépend de  2 qui elle-même influence le


test de Student. Il faut donc commencer par calculer la variance des erreurs.

1)- Variance estimée des erreurs

La variance des erreurs est inconnue. On doit l’estimer par les résidus ˆ  Y  Yˆ , où Yˆ   ˆ.
ˆ  Y     '  1  ' Y   I     '  1  ' Y .
Il vient, sous forme matricielle ˆ  Y  
 

En posant M  I     '    ' , on a ˆ  Y            . Le premier terme


1

   I     '    '        '    '        '     '    0 .


1 1 1
 
Donc ˆ   .

Calculons ˆ ' ˆ   ˆi2   '   '    . On sait que M est une matrice idempotente de degré 2 :
i

   . En plus,  '   = matrice symétrique. On tire ˆ ' ˆ   '  .


2

Appelons l’élément mii ' de M situé à l’intersection de la ligne i et de la colonne i’ :


 ˆi2   mii' i2   mii' i i'   mii' i i' .
i i i i ' i i'


  
Prenons l’espérance E ˆ ' ˆ  E   mii' i i'    mii ' E ( i i' ) . Or par hypothèse, les
 i i'  i i'

 
2
i  i'
résidus sont indépendants et ne varient pas : E  i i'   

0 i  i'

38
Ainsi,  
E ˆ ' ˆ   2  mii , puisque tous les éléments hors diagonales sont nuls.
i

 
E ˆ ' ˆ   2Tr    , où Tr = trace de la matrice.
On appelle trace d’une matrice carrée A, le scalaire noté Tr  A  égal à la somme des éléments
n
de la diagonale (principale) de A : Tr  A    aii .
i 1

Tr     Tr  I     '    ' .
1
Ainsi, L’opérateur trace étant linéaire,
 
Tr     Tr  I n   Tr     '    ' . Comme Tr  AB   Tr  BA  , il vient :
1
 
Tr     Tr  I n   Tr   '    '     Tr  I n   Tr  I k 1  .
1
 
 
Ce qui donne Tr     n  (k  1) . De ce fait : E ˆ ' ˆ  ˆ2  n  k  1 .
ˆ ' ˆ
Par conséquent, ˆ2  ; (5-11)
n  k 1
où ˆ 2 est un estimateur non biaisé pour  2 .
En remplaçant la variance de l’erreur par son estimateur, on obtient
ˆ ˆ V 
  
ˆ  ˆ 2   '  1 .
 (5-12)

2)- La statistique de Student

ˆ  
L’hypothèse de normalité des erreurs implique que ~ N  0,1 .

n n

 ˆ i
2
 ˆ i
2
ˆ2
On sait avec (5-11) que ˆ2  i 1
; donc i 1
  n  k  1 2 ~  2  n  k  1 dl , somme
n  k 1  2 
de carrés d’une variable aléatoire normale  . Il en résulte que :
ˆ  
~ T  n  k  1 dl , (5-13)
ˆ ˆ
car il s’agit d’un rapport d’une variable aléatoire normale sur la racine carrée d’une variable
aléatoire suivant une loi de Khi-deux.
Dans le cas particulier du modèle de régression à deux variables explicatives (k = 2), on aura :
ˆ0   0 ˆ1  1 ˆ   2
, et 2 ~ T  n  3 dl .
ˆ ˆ ˆ ˆ ˆ ˆ
0 1 2

A partir de ces relations, on peut développer un certain nombre de test de Student.

3)- Test d’égalité de paramètres

a) Test d’égalité d’un paramètre  avec une valeur donnée

-Cas général

Les hypothèses sont :


H0 :   
H1 :   
39
où  est une valeur donnée pouvant être égale à zéro.
ˆ  
Comme ~ T  n  k  1 dl , sous l’hypothèse H0 , cette relation devient :
ˆ ˆ
ˆ  
 t*ˆ ~ T  n  k  1 dl ; (5-14)
ˆ ˆ
où t *ˆ  ratio de Student.
La règle de décision est la suivante : Si t*ˆ  tn/k21 , alors on rejette H0,  est significativement
différent de  au seuil de  . Par contre, si t*ˆ  tn/k21 alors on accepte l’hypothèse H0, 
n’est pas significativement différent de  au seuil de  .

-Cas particulier :   0

Pour savoir si une variable explicative figurant dans un modèle est réellement contributive
pour expliquer la variable endogène, il convient de tester si son coefficient de régression est
significativement différent de zéro pour un seuil choisi. Dans ce cas, sous H0, on aura :
ˆ
 t *ˆ ; (5-15)
ˆ ˆ 
et la règle de décision citée ci-dessus s’applique.
L’intervalle de confiance pour les paramètres à un seuil 1     100% est donné par :
ˆ  t / 2 .ˆ .
n  k 1 ˆ

Exemple d’application 1 : Bourbonnais, p. 64, exercice No 2, questions 1 et 2.

Solution de la question 1 : Les hypothèses s’écrivent


H0 :   0
H1 :   0
ˆ
Pour répondre à la question, on se sert de la formule du ratio de Student (5-15): t  *
ˆ
.
1
ˆ ˆ
1

Dans cette formule, on connait le numérateur : ˆ1  0,8019 , ˆ2  0,38136 et ˆ3  0, 03713
. Le terme constant n’est pas concerné. Pour calculer ˆ ˆ , il faut connaitre ˆ 2 , car d’après ((5-
ˆ ˆ
12) V  ˆ  ˆ 2   '  1 ; or ˆ2   '   SCR . Le calcul de SCR figure au tableau 2,
 

n  k  1 14  3  1
67, 45
Bourbonnais, p. 58 : SCR = 67,45. Il vient ˆ2   6, 745 .
10
 20,16864 0,015065 -0,23145 -0,07617 
 
 
ˆ  0,015065 0,013204 0,001194 -0,00094 
V   6, 745
 -0,23145 0,001194 0,003635 0,000575 
 
 -0,07617 -0,00094 -0,000575 0,000401 
Les variances des coefficients concernés se trouvent sur la première diagonale :
ˆ 2ˆ  6, 745  0, 013  0, 087  ˆ ˆ  ˆ 2ˆ  0,087  0, 29 .
1 1 1

40
ˆ ˆ  6,745  0,0036  0,024  0,15 .
2

Et enfin ˆ ˆ  6,745  0,0004  0,0026  0,05 .


2

Calculons maintenant les trois ratios de Student et comparerons les à la valeur lue à 5 % dans
la table de loi t100,05/2  2, 228 .
0,8019 0,38136 0, 03713
t*ˆ   2, 75 ; t*ˆ   2,53 et t*ˆ   0, 60 .
1
0, 29 2
0,15 3
0, 05
La comparaison ( t *ˆ et t*ˆ  t100,05/2 ) implique que 1 et 2 sont significativement différentes
1 2

de zéro. Les variables explicatives concernées sont contributives à l’explication de y. Etant


donné que t *ˆ  t100,05/2 , on accepte l’hypothèse nulle selon laquelle 3  0 et la variable x3 ne
3

contribue aucunement à l’explication de y.

Remarque :
-Si une variable explicative n’est pas contributive à l’explication d’un phénomène, on doit la
retirer du modèle et procéder à une nouvelle estimation.
-On aurait pu répondre à la question de départ en calculant les intervalles de confiance de
chacun des coefficients (voir bourbonnais, p. 65).

Solution de la question 2 : voir Bourbonnais, p. 65.

Exemple d’application 2 : Considérer l’exemple 8.1, Gujarati, p. 234. Quelle est la


significativité statistique à 5 % du coefficient associé à la variable PGNP ? (réponse, p. 235).
Répondre à la question précédente par l’intervalle de confiance (réponse, p. 236).

b) Test d’égalité de plusieurs paramètres

On veut tester par exemple les hypothèses


H 0 : 1   2 ou 1   2  0
H1 : 1   2 ou 1   2  0
Ce qui signifie qu’en cas d’acceptation de H0, les 2 coefficients de pente 1 et  2 sont égaux.

Sous les hypothèses classiques, on montre que t* 


 
ˆ1  ˆ2   1   2 
suit une loi de
ˆ  ˆ  ˆ  1 2

 
Student à (n-k) dl, où ˆ  ˆ1  ˆ2   V ˆ1  ˆ2 avec
V  ˆ1  ˆ2   V  ˆ1   V  ˆ2   2C ov  ˆ1 , ˆ2  .
ˆ 2 S12 ˆ , ˆ    r12 , avec r 2  S12 .
 
2 2 2


En fait, Cov ˆ1 , ˆ2  ; on a aussi Cov 
S11S 22  S122 1 2
S12 1  r122 12
S11S22
Si t cal est supérieur à la valeur critique t (lu) à un seuil de signification donné, on rejette
l’hypothèse nulle.

Exemple d’application 1 : Exemple 8.2, p. 248 Gujarati, corrigé à la même page.

Exemple d’application 2 : Exercice No 2, question 3, p. 64 Bourbonnais, corrigé à la page 65.

41
Chapitre 6. Analyse de la spécification du modèle
L’analyse de la spécification du modèle permet de s’assurer que le modèle est adapté au
problème étudié. Plusieurs étapes de vérification sont nécessaires.

I. Analyse des résidus et des observations


Nous avons retenu au chapitre 3 que certains résidus peuvent être plus élevés que d’autres, et
certaines observations peuvent s’éloigner du nuage de points. Dans ces deux situations,
l’ajustement du modèle est affecté. L’analyse des résidus et des observations se fait en
utilisant une batterie d’outils dont quelques-uns sont considérés ci-dessous.

Selon Robert Hall, David Lilien et Johnston Jack (1995) l'estimation correcte de Jarque et
nk 2 1
Bera avec l'analyse de régression multiple est: JB  S   K  3   .
2

6  4 

ˆi SCR
Le résidu standardisé est défini tel que ; avec ˆ  et
ˆ  1  H i n  k 1
H i  xi  X ' X  xi' le levier. La somme des éléments de la première diagonale de la matrice H
1

n
est égale au nombre de paramètres estimés du modèle : H i 1
i  k  1 . Le levier d’une

2  k  1
observation i est anormalement élevé s’il est supérieur à .
n

Le résidu standardisé suit une loi de Student à n – k – 1 degrés de liberté. Si, par exemple, les
résidus standardisés sont compris dans l’intervalle tn0,025
 k 1 , on ne suspecte pas de valeurs

anormales pour un seuil de confiance 95 %.

De même, on calcule le résidu studentisé (externe), en excluant simplement l’observation i.

Exemple d’application 1 : Reprendre l’exemple sur la mortalité infantile, et procéder au test


de Jarque et Bera (ancienne formule), Gujarati, p. 237.

Exemple d’application 2 : Exercice No 2 dans Bourbonnais, p. 64, question 5.

II. Erreurs de spécification


Il existe au moins deux types d’erreurs de spécification qui ont des conséquences sur
l’ajustement du modèle.

1)- Sous-ajustement du modèle

Le sous-ajustement d’un modèle résulte de l’omission d’une ou plusieurs variables


explicatives significatives. Supposons que le vrai modèle est yi  0  1 x1i   2 x2i   i ;
mais pour une raison inconnue, on a plutôt estimé yi   0  1 x1i  vi , où  i et vi sont les
termes d’erreurs. Les conséquences de l’omission de la variable x2i sont :
-Si le coefficient de corrélation entre x1i et x2i , à savoir r12 est différent de zéro, alors ̂ 0 et
̂1 seront biaisés et inefficaces.
42
-Même si x1i et x2i ne sont pas corrélées, ̂ 0 sera biaisé ; mais ̂1 est sans biais. On montre
n

 (x 1i  x1 )(x 2i  x2 )
que ̂1  1   2 21 , où  21  i 1
n
(Cf. Gujarati, pp. 471, 519 et 520).
 (x
i 1
1i  x1 ) 2

ˆ 2
- V  ˆ1   n
est un estimateur biaisé de la vraie variance de ̂1 , car ˆ 2 n’est pas
 (x
i 1
2i  x2 ) 2
correctement estimée.

-Les tests d’hypothèses et les intervalles de confiance donneront de fausses conclusions.

ˆ 2
Examinons de près les variances de ̂1 et ̂1 : V  ˆ1   n
et
 (x
i 1
1i  x1 ) 2

ˆ 2
 
V ˆ1  n
(Cf. Gujarati, p. 194). Sachant que V  ˆ1  est biaisée, alors
 1  r   (x1i  x1 )
2
12
2

i 1

  ne l’est pas :
que V ˆ1
 Si 0  r122  1 (cas fréquent), V  ˆ1   V  ˆ1  . Donc, bien que ̂1 soit biaisé, sa
variance est la plus faible.
 Si r122  0 , c’est-à-dire si x1i et x2i ne sont pas corrélées, ̂1 est sans biais et
V  ˆ1   V  ˆ1  . Mais ̂ 0 est biaisé.

Conclusion : Il ne faut jamais exclure une variable dans un modèle, sans tenir compte de la
théorie économique.

2)- Sur-ajustement du modèle

Le sur-ajustement d’un modèle résulte de l’inclusion d’une variable de trop. Soit le vrai
modèle yi  0  1 x1i   i ; mais on n’a plutôt estimé yi   0  1 x1i   2 x2i   i . Cette
situation se traduit par une erreur de spécification du fait de la prise en considération d’une
variable non indispensable x2i . Les conséquences peuvent être :
-Les estimateurs des MCO des paramètres du modèle « incorrect » sont sans biais et
convergent.
- ˆ 2 est correctement estimée.
-Les procédures de tests d’hypothèses et les intervalles de confiance demeurent valides.
-Les ̂ sont généralement inefficients, car leurs variances sont le plus souvent plus élevées
que celles des ˆ du vrai modèle.

43
ˆ 2 ˆ 2
Soient  
V ˆ1  n
et V  ˆ1   n
; leur rapport s’écrit
 (x
i 1
1i  x1 ) 2
 1  r   (x1i  x1 )
2
12
i 1
2

V  ˆ1 
, pour 0  r122  1 . On a V  ˆ1   V  ˆ1  . L’inclusion de x2i provoque un
1

 
V 1 ˆ 1  r12
2

accroissement de V  ˆ1  et une imprécision de ̂1 .

Conclusion : Vaut mieux inclure une variable non-nécessaire dans un modèle que d’en
exclure une variable importante. Cependant, cette inclusion peut se solder par la
multicolinéarité (Cf. chapitre 10).

3)- Test des erreurs de spécification

Cas No 1 : Modèle sur-ajusté


-Appliquer le test de Student sur le (ou les) coefficient(s) de la (ou les) nouvelle(s) variable(s).
-Utiliser le test de Fisher pour vérifier si la nouvelle variable appartient parfaitement au
modèle.
NB : On ne doit en aucun cas se servir de ces tests pour bâtir itérativement un modèle.

Cas No 2 : Modèle sous-ajusté


-Examiner les résidus : Plus le modèle est bien ajusté, moins les résidus sont élevés en valeurs
absolues.
-Examiner la statistique de Durbin-Watson (Cf. chapitre 11). Si la valeur de celle-ci est
significative, on accepte l’hypothèse d’une mauvaise spécification du modèle.
-Appliquer le test RESET (Regression Specification Error Test) de Ramsey dont les étapes
sont les suivantes :
* Estimer le modèle ancien, puis calculer les valeurs de yˆ i .
* Estimer le modèle nouveau en utilisant yˆ i comme régresseurs.
* Si FRESET  F lu à un seuil  %, on accepte l’hypothèse selon laquelle le modèle est
mal spécifié. FRESET 
 Rnew
2
 Rold
2
 / Nombre de nouveaux régresseurs
 1  Rnew  /  n  nombre de paramètres dans le nouveau modèle 
2

-Appliquer le test du multiplicateur de Lagrange (A lire dans Gujarati, pp. 481-482).

Exemple d’application 1 : Reprendre les données de la page 168, tableau 6.4 de Gujarati.
Questions : 1)- Régresser la mortalité infantile sur le produit national moyen et le taux de
fertilité global. 2)- Reprendre la régression en supprimant la seconde variable explicative. 3)-
Calculer  21 (régression de deux variables explicatives). 4)- Tirer ̂1 des trois résultats
précédents.

Solution : 1)- La régression avec 2 variables explicatives donne


CM  263, 6416  0, 0056 PGNP  2, 2316 FLR (voir page 198). 2)- La régression avec 1
variable explicative est CM  157, 4244  0, 0114 PGNP (voir page 200). 3)- Le calcul de  21
= 0,00256 (vérifier). On obtient ˆ1  ˆ2ˆ21  0, 0056   2, 2316  0, 00256  0, 0111
valeur proche de celle obtenue dans le modèle incorrect à 1 variable explicative.

Exemple d’application 2 : Reprendre l’exemple 7.4 de Gujarati. Procéder au test RESET, pp.
480-481.

44
III. Erreurs de mesure
a)- Erreur de mesure de la variable dépendante

Considérons le modèle 1 : yi*     xi   i . Admettons que yi* n’est pas directement


observé et définissons la variable observable yi  yi*  ui , où ui représente l’erreur de mesure
de yi* . En conséquence, estimons plutôt yi      xi   i   ui  yi     xi    i  ui 
 yi     xi  vi (modèle 2), avec vi    i  ui  le terme d’erreur composite.

Pour simplifier, supposons que E   i   E  ui   0 , Cov  xi , ui   0 , Cov  xi ,  i   0 et


Cov   i , ui   0 .
Calcule des variances
ˆ 2
 
Modèle 1 : V ˆ  n ;
 (xi  x )
i 1
2

ˆ v2 ˆ 2  ˆ u2
 
modèle 2 : V ˆ  n
 n
. La seconde variance est plus grande que la
 (x  x )
i 1
i
2
 (x  x )
i 1
i
2

première.

b)- Erreur de mesure de la variable explicative

Soit le modèle 1 yi     xi*   i . Au lieu d’observer xi* , on observe plutôt xi  xi*  wi , où


wi représente l’erreur de mesure de xi* , et on estime donc yi      xi  wi    i 
yi     xi    i   wi   yi     xi  zi (modèle 2), avec vi   i   wi le terme
d’erreur composite.

Supposons que wi a pour espérance 0, est indépendante en séries, et n’est pas corrélée avec
 i . On montre que zi est cependant corrélée avec xi :
Cov  zi , x i   E  zi  E  zi    xi  E  xi    E   i   wi  wi  E   i wi   E    wi2  
Cov  zi , x i   E    wi2     w2  0 . Les estimateurs des MCO seront biaisés et non-
convergents.

Exemple d’application 1 : Exemple 13.2, erreur de mesure dans y, Gujarati, p. 485.

Exemple d’application 2 : Exemple 13.2, erreur de mesure dans x, Gujarati, p. 486.

IV. Critères de sélection de modèle


Il existe plusieurs critères permettant de sélectionner entre modèles concurrents.

1)- Les critères du R2

-Le coefficient de détermination : il comporte de nombreuses limites.


-Le coefficient de détermination ajusté : pour être utile dans la comparaison de modèle, la
variable à expliquer doit être la même.

45
2)- Les critères d’information

-Le Critère d’Information d’Akaïke (en anglais Akaike’s Information Criterion (AIC)):
In  AIC   
2k 
 In 
SCR 
  , où ln (AIC) = log naturel de AIC et 2k/n = facteur de
 n   n 
pénalité.
-Le Critère d’Information de Schwarz (SIC) : In  SIC   In  n   In 
k SCR 
 , où [(k/n) ln
n  n 
n]= facteur de pénalité.
NB : Ces deux critères sont plus populaires. Plus ils sont faibles, plus le modèle est
intéressant.
SCR
-Le Critère d’Information de Mallows (MC) : MC  2   n  2 p  , où p est le nombre de
ˆ
régresseurs.

V. Prévision
1)- Cas de modèle à deux variables explicatives

Soit l’équation de régression estimée yˆi  ˆ0  ˆ1 x1i  ˆ2 x2i et considérons la valeur prévue
y p de yi . Etant donné les valeurs respectives x1 p de x1i et x2 p de x2i , on peut écrire la
prévision estimée telle que yˆ p  ˆ0  ˆ1 x1 p  ˆ2 x2 p et modèle (4-1) devient
y p  0  1 x1 p   2 x2 p   p . En conséquence, si la prévision se fait avec erreur, l’erreur de

  
prévision sera e p  yˆ p  y p  ˆ0  0  ˆ1  1 x1 p  ˆ2   2 x2 p   p . 
     
Comme E ˆ0   0 , E ˆ1  1 , E ˆ2   2 et E   p  sont tous égaux à zéro, on aura donc
E  yˆ p  y p   0 . Ainsi, la prévision est sans biais.

En se referant aux développements faits au chapitre 3, paragraphe 3, sous-paragraphe b, on


montre que la variance de l’erreur de prévision est
 2
V  e p    2     
  x1 p  x1  V ˆ1  2  x1 p  x1  x2 p  x2  Cov ˆ1 , ˆ2   x2 p  x2  V ˆ2 ,  
2 2

n
ˆ2 S22 ˆ2 ˆ2 S11 ˆ2
avec  
V ˆ1 
S11S22  S122

S11  1  r122 
;  
V ˆ2 
S11S22  S122

S22  1  r122 
; et

ˆ2 S12 ˆ2 r122



Cov ˆ1 , ˆ2   
S11S22  S122 S12  1  r122 
; où r 2
12 
S122
S11S22
.

En effet, en présence de deux variables explicatives, la matrice des variances-covariances


1
ˆ   ˆ2   '  1  ˆ2  S11 S12  .
ˆ ˆ V 
s’écrit   S 
 21 S22 

Pour x1 p  x1 et x2 p  x2 , on a V  ep    2  1   ; et lorsque n   , V  e p    2 .
1
 n
D’autre part, l’intervalle de prévision s’écrit y p  yˆ p  tn/32ˆ e p , avec ˆ ep  V  e p  .

46
2)- Généralisation au modèle à plusieurs variables explicatives

Le modèle linéaire général estimé est la suivante yˆt  ˆ0  ˆ1 x1t  ˆ2 x2t   ˆk xkt . La
prévision pour un horizon p donné s’écrit yˆt  h  ˆ0  ˆ1 x1t  h  ˆ2 x2t  h   ˆk xkt  h . Sachant
que y p  0  1 x1 p   2 x2 p    p , l’erreur de prévision est ep  yˆ p  y p .

Considérant que les hypothèses traditionnelles sont vérifiées, la prévision estimée yˆ p est sans

    
biais, puisque e p  yˆ p  y p  ˆ1  1  ˆ1  1 x1 p  ˆ2   2 x2 p    
 ˆk   k xkp   p ;

 
ce qui implique que E  e p   0 , car E ˆ    0 et E   p   0 .

Sous une forme linéaire, la variance de l’erreur de prévision est alors égale
2 k k
 
à V  e p   V  yˆ p  y p    2      xip  xi  x jp  x j  Cov ˆi , ˆ j ; où i, j  1, 2, , k .
n i 1 j 1
Sous forme matricielle, cela donne (voir Bourbonnais, p. 82 et Gujarati, p. 862):
 x1 p  x1 
x  x 
2  
V  e p     1    kp   '    kp  ; avec  p  
1 ' 1 2p 2
, le vecteur des valeurs
 n   
 
 xkp  xk 
(centrées) prévues des variables explicatives.

Comme pour le modèle à deux variables explicatives, la variance de l’erreur de prévision est
d’autant plus faible que :
- les valeurs prévues des variables explicatives se rapprochent de leurs moyennes ;
- la variance résiduelle est faible.


L’erreur de prévision  e p  étant distribuée selon une loi normale N 0,  e2p , en remplaçant la
variance théorique  2 par la variance empirique ˆ 2 dans l’expression V  e p  , l’on en déduit
yˆ p  y p yˆ p  y p
que ~ T  n  k  1 dl ou ~ T  n  k  1 dl .
ˆ ep  1 
1/ 2

ˆ 1   'p   '    p 


1

 n 

Somme toute, l’intervalle de prévision au seuil 1   est donc y p  yˆ p  tn/k21ˆ ep .

Exemple d’application 1 : Exercice No 7 dans Bourbonnais, p. 83, question 2.

Exemple d’application 2 : Considérer l’exemple de la page 863, Gujarati, procéder à la


prévision résolue dans les pages 866 et 867.

47
Chapitre 7. Modèle à équations multiples
I. La nature des modèles à équations multiples ou équations simultanées
Exemple 1 : Le prix P d’un bien et la quantité Q à l’équilibre sont déterminés par l’intersection
des courbes d’offre et de demande de ce bien (Cf. microéconomie 1). Donc, si les courbes d’offre
et de demande sont linéaires et si l’on ajoute les termes stochastiques d’erreurs 1t et  2t , on peut
écrire :
Fonction de demande : Qtd   0  1Pt  1t ; 1  0 (7-1)
Fonction d’offre : Qts  0  1Pt   2t ; 1  0 (7-2)
Condition d’équilibre : Qtd  Qts ; (7-3)
où Q = quantité demandée ; Q = quantités offertes ; t = temps ; et les  et  sont les paramètres.
t
d
t
s

A priori, 1 est supposé être négatif (courbe de demande décroissante), et 1 est supposé positif
(courbe d’offre croissante).

P et Q sont des variables dépendantes liées ou jointes. Si par exemple, 1t dans l’équation (7-1)
change à cause d’un changement dans les autres facteurs affectant Qtd (ces facteurs peuvent être
le revenu, la richesse, et les goûts et préférences), la courbe de demande va se déplacer vers le
haut si 1t   et vers le bas si 1t  0 (voir Gujarati, pp. 674-675).

De manière similaire, un changement dans  2t (à cause de modifications dans les techniques de


production, restrictions sur les importations et les exportations, conditions météorologiques,
grève, etc.) provoque un déplacement de la courbe d’offre, ce qui affecte encore à la fois P et Q.

Du fait de cette dépendance simultanée entre P et Q, 1t et Pt dans l’équation (7-1) d’une part et
 2t et Pt dans l’équation (7-2) d’autre part, ne peuvent pas être indépendants. Par conséquent, une
régression simple sur chaque équation du système ci-dessus viole une importante hypothèse du
modèle de régression linéaire classique, l’hypothèse H10 d’absence de corrélation entre variable
explicative et terme d’erreur.

La méthode des MCO ne peut donc pas être utilisée pour estimer une équation simple faisant
partie d’un système d’équations simultanées (si une ou plusieurs variables explicatives sont
corrélées avec le terme d’erreurs dans cette équation), car les estimateurs obtenus seront non-
convergents.

II. Estimation par les MCO : la non-convergence des estimateurs


Exemple 2 : Considérons le modèle keynésien simplifié de détermination du revenu :
Fonction de consommation : Ct  0  1Yt   t ; 0  1  1 (7-4)
Identité de revenu : Yt  Ct  It ; 1  0 (7-5)
Où C = dépenses de consommation, Y = revenu, I = investissement (supposé exogène et égale à
l’épargne), S = épargne, t = temps,  terme stochastique d’erreur ; 0 et 1 = paramètres.

Supposons que l’on veuille estimer les paramètres de ce modèle. Admettons que E   t   0 ,
 
E  t2   2 , E   t  t '   0 (si t  t ' ) et Cov  I t ,  t   0 , lesquelles sont les hypothèses du modèle
classique de régression linéaire.

48
Pour prouver que Yt et  t sont corrélées, on substitue l’équation (7-4) dans l’équation (7-5) pour
 1 1
obtenir Yt  0  1Yt   t  It  Yt  0  It   t (7-6).
1  1 1  1 1  1
 1
Prenons l’espérance E Yt   0  I t ; (7-7)
1  1 1  1

car E   t   0 et I t est exogène. En réalité, I t est prédéterminé (car sa valeur est fixée à
t
l’avance). En soustrayant (7-7) dans l’équation 1 de (7-6) il en résulte que Yt  E Yt   ; en
1  1
plus,  t  E   t    t ; donc Cov Yt ,  t   E Yt  E Yt    t  E   t   

Cov Yt ,  t  
 
E  t2  2
. (7-8)
1  1 1  1

Etant donné que  2 est positive, la covariance entre Y et ε donnée dans (7-8) est différente de
0,  1  0 . Donc Yt et  t dans l’équation (7-4) sont supposées corrélées, ce qui viole
l’hypothèse H10 du modèle de régression linéaire classique selon laquelle les erreurs sont
indépendantes ou au moins non corrélées avec les variables explicatives.

Pour montrer que l’estimateur des MCO ̂1 est un estimateur non-convergent de 1 du fait de la

  Ct  C  Yt  Y   C Y  Y 
n n

t t
corrélation entre Yt et  t , soit ˆ1  t 1
 t 1
. Si l’on y substitue Ct de
 Y  Y   Y  Y 
n n
2 2
t t
t 1 t 1
l’équation (7-4), on obtient :

0  1Yt   t   Yt  Y   Y  Y  
n n

 t t
ˆ1  t 1
 1  t 1
; (7-9)
 Y  Y   Y  Y 
n n
2 2
t t
t 1 t 1

 Yt Yt  Y   Y  Y Y  Y 
n n

t t

 Y  Y   0 et
n
car t
t 1
 t 1
 1.
 Y  Y   Y  Y 
n n
2 2
t 1
t t
t 1 t 1

 Y  Y   
 t
ˆ
Prenons l’espérance de (7-9): E 1  1  E   
  Yt  Y  
2
t
 . Malheureusement, on ne peut pas
 
 Y  Y   
évaluer E 
 t t
 puisque l’opérateur espérance est un opérateur linéaire. [notons que
  Yt  Y  
2
 

49
E  A / B   E  A  / E  B  , voir Gujarati, p. 809]. Mais intuitivement, il doit être clair que, à moins
 Y  Y   
que le terme E 
 t t
 soit égale à zéro, ̂1 est un estimateur biaisé de 1 .
  Yt  Y  
2
 

Si la taille de l’échantillon augmente ( n   ), on se rapproche de la population ; ce faisant, on


aboutit au concept d’estimateur convergent. Dans cas la probabilité limite (Cf. Gujarati, p. 830
pour les 3 règles sur les probabilités limites) de ̂1 s’écrit
 Y  Y   
 t
 
p lim ˆ1  p lim  1   p lim 
  Yt  Y  2
t

 
 
  Yt  Y   t  / n 
 1  p lim  . (7-10)
  Yt  Y   / n 
 
2

  

 2
Dans le second terme, le numérateur de (7-10) est égale à la covariance et sa valeur est  .
1  1
Le dénominateur est égale à la variance  Y2 par conséquent (7-10) devient
 2 1    1   2 
 
p lim ˆ1  1   2 1  1 
Y
 .
1  1   Y2 

 
Etant donné que 0  1  1 et que  2 et  Y2 sont toutes deux positives, p lim ˆ1 est toujours
supérieur à 1 ; autrement dit la valeur ̂1 surestime le vrai 1 . En conclusion, ̂1 est un
estimateur biaisé.

III. Le problème d’identification


Les équations qui apparaissent dans les exemples 1 et 2 précédents sont (connues comme) des
équations structurelles ou des équations de comportement parce qu’elles sont des portraits de
la structure (d’un modèle économique) d’une économie ou le comportement des agents
économiques. Les  et β sont connus comme des coefficients ou paramètres structurels.

A partir des équations structurelles, on peut tirer les variables endogènes et déduire les
équations de la forme réduite et les coefficients réduits associés. Une équation de la forme
réduite est une équation dans laquelle la variable endogène s’exprime uniquement en termes
de variables prédéterminées (les exogènes et les endogènes retardées) et de perturbations
aléatoires.

Reconsidérons le modèle keynésien de détermination du revenu du paragraphe 2. Dans ce


modèle C et Y sont les variables endogènes ; et I est traitée comme une variable endogène.
Les deux équations sont des équations structurelles (la seconde étant une identité).

Si la première équation est substituée dans la seconde, on obtient


Yt  0  1It  wt , (7-11)
 1 
où  0  0 ; 1  ; et wt  t .
1  1 1  1 1  1
50
Si l’on substitue la valeur de Y donnée en (7-11) dans C de (7-4), on obtient une autre
équation de la forme réduite :
Ct  2  3 It  wt , (7-12)
 
où  2  0 ;  3  1 .
1  1 1  1

Les coefficients de la forme réduite tels que 1 et 3 , sont appelés multiplicateurs d’impact
ou multiplicateurs de court terme, car ils mesurent l’impact immédiat sur la variable endogène
d’un changement d’une unité dans la valeur de la variable exogène.

Etant donné que seules les variables prédéterminées et la perturbation aléatoire apparaissent à
la partie droite de ces équations, et puisque les variables prédéterminées ne sont pas corrélées
avec le terme perturbateur, la méthode des MCO peut être appliquée pour estimer les
coefficients  des équations de la forme réduite. A partir de ces coefficients estimés, on peut
calculer les coefficients structurels (les β). Cette procédure est connue sous le nom des
Moindres Carrés Indirect (MCI).

IV. Règles ou conditions d’identification


Les conditions d’identification se déterminent équation par équation. Soient M = nombre de
variables endogènes dans le modèle ; m = nombre de variables endogènes dans une équation ;
K = nombre de variables prédéterminées dans le modèle y compris la constante ; k = nombre
de variables prédéterminées dans une équation.

1)- Condition d’ordre

Une condition nécessaire (mais non suffisante) d’identification, connue sous le nom de
condition d’ordre, peut être établie sous deux manières différentes suivante :

Définition 1 : Soit un modèle de M équations simultanées ; pour qu’une équation soit


identifiée, elle doit exclure au moins M – 1 variables (endogènes ou prédéterminées)
apparaissant dans le modèle. Si elle exclut exactement M – 1 variables, l’équation est juste
identifiée. Si elle exclut plus de M – 1 variables, l’équation est sur identifiée.

Définition 2 : Dans un modèle à M équations simultanées ; pour qu’une équation soit


identifiée, le nombre de variables prédéterminées exclues dans une équation ne doit pas être
inférieur au nombre de variables endogènes inclut dans cette équation moins 1, c’est-à-dire :
K – k  m – 1. Si K – k = m – 1, l’équation est juste identifiée ; mais si K – k  m – 1, elle est
sur-identifiée.

Si l’on se réfère à l’exemple 1, le modèle a deux variables endogènes P et Q, et aucune


variable prédéterminée. Pour être identifiée, chacune de ces équations doit exclure au moins
M – 1 = 1variable. Etant donné que tel n’est pas le cas, aucune équation n’est identifiée.

2)- Condition de rang

La condition de rang peut être formulée de la manière suivante : Dans un modèle contenant M
équations à M variables endogènes, une équation est identifiée si et seulement si au moins un
déterminant non nul d’ordre (M – 1) (M – 1) peut être construit à partir des coefficients des
variables (endogènes et prédéterminées) exclus de cette équation particulière, mais inclus
dans les autres équations du modèle.
51
3)- Méthodes d’estimation

Les méthodes d’estimation dans le cadre des équations simultanées sont fonction du critère
d’identifiabilité du modèle (Cf. Gujarati, chapitre 20, p. 711).
• Si le modèle est sous-identifiable ; pas d’estimation possible.
• Dans le cas d’un modèle juste ou sur-identifiable, on distingue la méthode à employer
équation par équation, selon le critère d’identifiabilité :
-Si l’équation est juste identifiée : On applique les Moindres Carrés Indirects (MCI) ou les
Doubles Moindres Carrés (DMC).
-Si l’équation est sur-identifiée : On applique les DMC.

V. Tests de simultanéité et d’exogénéite


1)- Test de simultanéité

Le test de simultanéité permet savoir si le regresseur (endogène) est corrélé avec le terme
d’erreur. Une version du test d’erreur de spécification de Hausman (voir gujarati, pp. 703-704)
peut être utilisée pour tester le problème de spécification.

En présence de simultanéité, la méthode des Doubles Moindres Carrés (DMC) ou Moindres


Carrés à 2 Etapes (MC2E) donne des estimateurs qui sont consistent et efficient.

2)- Test d’exogénéité

La responsabilité du chercheur est de spécifier quelles variables sont endogènes ou exogènes.


Cela dépend du problème étudié et des informations a priori dont il dispose. Le test de Hausman
peut encore être utilisé pour répondre à cette question.

Exemple d’application 1 : Exercice No 1 dans Bourbonnais, p. 225.

Exemple d’application 2 : Exercice No 10.2 dans Salvatore, p. 231.

52
Chapitre 8. Modèles avec variables qualitatives
Une variable qualitative peut intervenir dans un modèle sous forme de variable à expliquer ou
de variable explicative.

I. Modèles de régression avec variables explicatives dummies


1)- La nature des variables dummies

La variable dépendante est fréquemment influencée, non seulement par les variables
quantitatives mesurables (i.e. le revenu, la production, les prix, les coûts, le poids, la
température, etc.), mais également par des variables qui sont essentiellement qualitatives, ou
d’échelle nominale par nature, telles que le sexe, le niveau d’études, la couleur, la religion, la
nationalité, la région géographique, les bouleversements politiques, ou l’affiliation aux partis.

Pour symboliser ou quantifier ces attributs, on peut construire des variables artificielles qui
prennent des valeurs 1 ou 0, la valeur 1 indiquant la présence (ou la possession) de cet attribut
et 0 indiquant son absence. Par exemple le chiffre 1 dans le cas du sexe peut indiquer qu’une
personne est femelle et 0, que la personne est male. Les variables qui prennent les valeurs 0 et
1 sont appelées « variables dummies ».

Les variables dummies peuvent être incorporées dans les modèles de régression simplement
comme toute variable quantitative. Un modèle de régression peut contenir des régresseurs qui
sont toutes exclusivement dummies, ou qualitatives, par nature. De tels modèles sont appelés
modèles d’analyse de la variance (ANOVA).

2)- Modèles ANOVA

Exemple d’application 1 : Les dépenses moyennes yi (par jour en dirhams) de 20 voyageurs


du Grand-Nord pour un pèlerinage dépendent uniquement de leur lieu de résidence ( D1i = 1 si
le fidèle réside à l’Extrême-Nord, 0 ailleurs ; D2i =1 si le fidèle réside au Nord, 0 ailleurs).

Dépenses D1i D2i Dépenses D1i D2i


117 1 0 370 0 1
107 1 0 460 0 1
106 1 0 444 0 1
224 1 0 459 0 1
285 1 0 517 0 1
275 1 0 526 0 0
342 1 0 524 0 0
337 1 0 537 0 0
349 1 0 527 0 0
382 0 1 500 0 0

On veut vérifier si les dépenses de fidèles varient suivant les trois régions géographiques du
Grand-Nord.

Réponse : Considérons le modèle de régression suivant :

yi  0  1D1i  2 D2i   i . (8-1)


53
Supposons que le terme d’erreurs de satisfait les hypothèses des MCO (et notamment
E  i   0 ) :

E  yi | D1i  1, D2i  0    0  1 (8-2) représente la contribution moyenne de l’Extrême-Nord ;


E  yi | D1i  0, D2i  1   0   2 (8-3) la contribution moyenne du Nord ; et
E  yi | D1i  0, D2i  0    0 (8-4) la contribution moyenne de l’Adamaoua.

Les dépenses moyennes des trois régions sont respectivement 238(=2 142/9) pour l’Extrême-
Nord, 438,666 (=2 632/6) pour le Nord, et 522,8 (=2 614/5) pour l’Adamaoua. Ces montants
semblent différents ; mais sont ils statistiquement différents les uns des autres ? Avant de
répondre à la question, présentons d’abord les résultats de l’estimation du modèle (8-1) sur la
base des données. Le modèle a deux variables explicatives ; en appliquant les
S22 S1 y  S12 S2 y ˆ  S11S2 y  S12 S1 y , on obtient :
formules ˆ0  y  ˆ1 D1i  ˆ2 D2i , ˆ1  et 
S11S22  S122 S11S22  S122
2

ˆ1 
   1182,6
    2,7  15,6  3844,8

 284,8
  4    2,7 
2
13,5

ˆ2 
 4 415,6   2,7  1  1135,8

 84,133
  4    2,7 
2
13,5
ˆ0  369, 4  284,8  0, 45  84,133  0,3  522,8 .

Calculs préliminaires pour la détermination des coefficients


i yi D1i D2i D1i  D1 (1) D2i  D2 (2) yi  y (3)
1 117 1 0 0,55 -0,3 -252,4
2 107 1 0 0,55 -0,3 -262,4
3 106 1 0 0,55 -0,3 -263,4
4 224 1 0 0,55 -0,3 -145,4
5 285 1 0 0,55 -0,3 -84,4
6 275 1 0 0,55 -0,3 -94,4
7 342 1 0 0,55 -0,3 -27,4
8 337 1 0 0,55 -0,3 -32,4
9 349 1 0 0,55 -0,3 -20,4
10 382 0 1 -0,45 0,7 12,6
11 370 0 1 -0,45 0,7 0,6
12 460 0 1 -0,45 0,7 90,6
13 444 0 1 -0,45 0,7 74,6
14 459 0 1 -0,45 0,7 89,6
15 517 0 1 -0,45 0,7 147,6
16 526 0 0 -0,45 -0,3 156,6
17 524 0 0 -0,45 -0,3 154,6
18 537 0 0 -0,45 -0,3 167,6
19 527 0 0 -0,45 -0,3 157,6
20 500 0 0 -0,45 -0,3 130,6
Somme 7 388 9 6 - - -
Moyenne 369,4 0,45 0,3

54
Calculs préliminaires (suite)
(1)(1) (2)(2) (1)(2) (1)(3) (2)(3) (3)(3)
0,3025 0,09 -0,165 -138,82 75,72 63705,76
0,3025 0,09 -0,165 -144,32 78,72 68853,76
0,3025 0,09 -0,165 -144,87 79,02 69379,56
0,3025 0,09 -0,165 -79,97 43,62 21141,16
0,3025 0,09 -0,165 -46,42 25,32 7123,36
0,3025 0,09 -0,165 -51,92 28,32 8911,36
0,3025 0,09 -0,165 -15,07 8,22 750,76
0,3025 0,09 -0,165 -17,82 9,72 1049,76
0,3025 0,09 -0,165 -11,22 6,12 416,16
0,2025 0,49 -0,315 -5,67 8,82 158,76
0,2025 0,49 -0,315 -0,27 0,42 0,36
0,2025 0,49 -0,315 -40,77 63,42 8208,36
0,2025 0,49 -0,315 -33,57 52,22 5565,16
0,2025 0,49 -0,315 -40,32 62,72 8028,16
0,2025 0,49 -0,315 -66,42 103,32 21785,76
0,2025 0,09 0,135 -70,47 -46,98 24523,56
0,2025 0,09 0,135 -69,57 -46,38 23901,16
0,2025 0,09 0,135 -75,42 -50,28 28089,76
0,2025 0,09 0,135 -70,92 -47,28 24837,76
0,2025 0,09 0,135 -58,77 -39,18 17056,36
4,95 4,2 -2,7 -1182,6 415,6 403486,8
Le modèle estimé que l’on peut retenir s’écrit :
yˆt  522,8  284,8D1i  84,133D2i
se   34,581  43,13  46,823 (8-5)
t 15,118  6, 603  1, 797  R 2  0, 748
Comme le montrent ces résultats, la dépense moyenne des fidèles de l’Adamaoua est de
522,8, celle des fidèles de l’Extrême Nord est plus faible de 284,8, et celle des fidèles du Nord
est très faible de 84,133.

Pour répondre à la question de départ (à savoir si les différences de dépenses constatées sont
statistiquement significatives), il suffit de vérifier si chaque coefficient de pente est
statistiquement différent de 0. Comme on peut le voir de la régression (8-5), le coefficient du
Nord n’est pas statistiquement significatif au seuil de 5 % alors que celui de l’Extrême Nord
est significatif au seuil de 1 %. Par conséquent, la conclusion est que d’un point de vue
statistique, la dépense moyenne des fidèles de l’Adamaoua et du Nord est identique, mais la
dépense moyenne de l’Extrême Nord est statistiquement inférieure.

3)- Précautions dans l’utilisation de variable dummy

Pour distinguer entre les trois régions de l’exemple précédent, on a utilisé uniquement deux
variables dummies, D1 et D2 . Si une variable qualitative a m catégories, il faut introduire
seulement (m – 1 variables). Sinon on tombera dans la trappe de variable dummy.

Si l’on désire introduire autant de variables dummy que de catégories, il convient d’éliminer
la constante pour ne pas tomber dans la trappe de variable dummy.

En d’autres termes, en supprimant la constante, et en allouant une variable dummy pour


chaque catégorie, on obtient directement les valeurs moyennes des différentes catégories.
Dans ce cas le modèle estimé est :
55
yˆt  238D1i  438, 6 D2i  522,8D3i
se   25, 755   31,568  34,581 (8-8)
t  9, 234  13,896  15,118  R 2  0,968

4)- Les modèles ANCOVA

Les modèles de régression mixtes contenant un mélange de variables (quantitatives et


qualitatives) sont appelés modèles d'analyse de covariance (en anglais Analysis Of
Covariance (ANCOVA)).

Exemple d’application 2 : Voir exemple 9.3, p. 284 dans Gujarati.

II. Modèles de régression avec variable expliquée dummy : Modèles a


réponse qualitative
1)- La nature de Modèles a réponse qualitative

Supposons que l’on veuille étudier la décision de participation de la force de travail des
adultes de sexe masculin. Comme un adulte est soit employé ou non, la participation de la
force de travail est une décision de type oui ou non. Donc la variable réponse, ou régressant,
peut prendre seulement deux valeurs, disons, 1 si la personne participe à la force de travail et
0 s’il ne participe pas. En d’autres termes, le régressant est une variable « binaire » ou
« dichotomique ».

Dans les modèles où y est qualitatif, on cherche à trouver la probabilité d’un évènement, tels
que par exemple la participation de la force de travail, le vote pour un candidat, etc. en
conséquence, les modèles de régression à réponse qualitative sont souvent connus sous le nom
de modèles probabilistes. Comment estimer ces modèles ? Une première façon est d’utiliser
les MCO.

2)- Le modèle de probabilité linéaire

Considérons le modèle de régression (1-2) yi  0  1 xi   i ; où x = revenu familial et y = 1


si la famille acquiert une maison et 0 sinon. Le modèle (1-2) ressemble à un modèle de
régression linéaire typique mais comme le régressant est binaire, ou dichotomique, il est
appelé Modèle de Probabilité Linéaire (MPL).

Admettons que E   i   0 , comme d’habitude (pour obtenir des estimateurs sans biais), on a
E  yi | xi   E  yi | xi   E   0  1 xi    0  1 xi . (8-9)

Dès lors, si Pi est la probabilité que yi  1 (c’est-à-dire l’évènement est réalisé), et 1  Pi la


probabilité que yi  0 (l’évènement n’est pas réalisé), la variable yi a la distribution (de
probabilité) suivante :
yi probabilité
1 Pi
0 1 P i
Total 1

56
On voit que yi suit une distribution de Bernoulli. On obtient : E  yi   0  1  Pi   1  Pi   Pi
. (8-10)
L’espérance (8-9) devient E  yi | xi    0  1 xi  Pi . Puisque la probabilité Pi doit être
comprise entre 0 et 1, on note la restriction 0  E  yi | xi   1 . On peut montrer que le MPL
pose plusieurs problèmes :

-Les erreurs ne suivent pas une loi normale: Comme yi , les erreurs  i prennent aussi deux
valeurs ; c’est-à-dire qu’elles ont aussi une distribution de Bernoulli. Soit  i  yi  0  1 xi .
La distribution de probabilité de  i est
i probabilité
Si yi  1 1  0  1 xi Pi
Si yi  0 0  1 xi 1  Pi

-La variance des erreurs est hétéroscédastique: Cette variance n’est pas constante
(homoscédastique), mais dépend de i. On peut vérifier que V   i   Pi  Pi 2 . En effet
 
V   i   E  i2  E 2   i  ; comme E   i   0 ,

V    E     
n

i i
2
i
2
 P   i   1   0  1 xi   Pi     0  1 xi   1  Pi  . Sachant avec (8-
i 1

10) que 0  1 xi  Pi , on tire V   i   1  Pi  Pi    Pi  1  Pi  


2 2

 
V   i   1  Pi  1  Pi  Pi  Pi 2   1  Pi  Pi  Pi 2  Pi 2  1  Pi  Pi .

3)- Les modèles Logit et Probit

Soit le modèle yi*  0  1 xi   i , avec yi* une variable latente, c’est-à-dire une variable
continue non observable et représentative du phénomène étudié. Par exemple, la richesse
(observable) d’un individu peut être expliquée par le fait qu’il soit propriétaire ou non de son
appartement (non observable). Si la variable observée se note yi , alors
1
 si yi*  0 l'individu est propriétaire
yi  

0 ailleurs, c'est-à-dire yi*  0

Soit Pi la probabilité que yi*  0 ; on a Pi  Pr ob  yi  1  Pr ob  yi*  0  


Pi  Pr ob   0  1 xi   i  0   Pi  Pr ob  i     0  1 xi   . Il vient
Pi  1  F  i     0  1 xi    1  F   Z i  , où Zi  0  1 xi et F est la distribution
cumulative de  i . Si la distribution de  i est symétrique, on aura donc Pi  F   0  1 xi  , car
1  F  Zi   F  Zi  .
La forme fonctionnelle de F dépendra des hypothèses faites à propos du terme d’erreurs  i . Si
la distribution cumulative de  i est de type logistique, on sera en présence du modèle Logit ;
mais si la distribution cumulative de  i est normale, on aura le modèle Probit.

Dans le cas où la distribution est logistique, on peut encore écrire Pi telle que

57
1 1
Pi  E  y  1| xi    0  1 xi 
. Puisque Zi  0  1 xi , on a Pi  ; multiplions le
1 e 1  e  Zi
e Zi
numérateur et le dénominateur par e Zi pour avoir Pi  . Cette équation représente la
1  e Zi
fonction de répartition logistique. Tandis que Zi est compris entre –  et + , Pi est compris
entre 0 et 1 ; en plus, Pi est non linéaire. Ce qui signifie que nous ne pouvons pas utiliser les
MCO pour en estimer les paramètres.

1
Pour rendre Pi linéaire, soit 1  Pi  . Le rapport des deux probabilités contraires est
1  e Zi
Pi 1  e Zi Pi
  Zi
 e Zi , où est le ratio de chances (ou ratio de cotes) en faveur de
1  Pi 1  e 1  Pi
l’événement succès. Par exemple, si Pi  0,8 , cela signifie que la cote (la chance) est de 4
P 0,8
contre 1 en faveur de l’évènement succès. En effet, 1  Pi  1  0,8  0, 2  i   4.
1  Pi 0, 2

 P 
Prenons le logarithme de ce ratio Li  Log  i   Z i   0  1 xi . L est appelé Logit. Pour
 1  Pi 
 P 
des raisons d’estimations, prenons de Li : Li  Log  i   0  1 xi   i . (8-11)
 1  Pi 

Pour estimer le modèle (8-11), on a besoin des valeurs de Li et xi . L’estimation proprement


dite dépend du type de données dont on dispose, et on en distingue deux types : les données
de niveau individuel (voir par exemple le tableau 15.1, p. 547 dans Gujarati) et les données
groupées (voir tableau 15.4, p. 556).

Dans le second cas, on peut utiliser la méthode des Moindres Carrés Pondérés (ou MCO
appliqués sur des données transformées). Dans le premier cas, l’estimation par les MCO est
infaisable. On doit faire appel à la méthode du maximum de vraisemblance (Maximum-
Likelihood (ML) method) avec la formule :

  
LogLi  1 Log  P  i   0  1 xi  yi     0 Log  P  i   0  1 xi  yi    , où 
1 et  0 indiquent la somme de toutes les probabilités pour les points de données où yi
égale 1 et 0, respectivement, ˆ0 et ̂1 étant choisis de manière à maximiser la fonction de
log-vraisemblance.

Remarques : L’utilisation de la méthode ML à de nombreuses conséquences


-Les valeurs des coefficients estimés ne sont plus directement interprétables. Seuls les signes
des coefficients indiquent si la variable agit positivement ou négativement sur la probabilité
Pi .
-Pour connaître la sensibilité de la variation d’une variable explicative sur la probabilité Pi , on
calcule les effets marginaux.
-La distribution des rapports du coefficient sur son erreur (ou écart) type appelés z- statistique
ne suit pas une loi de Student, mais la loi normale.
-La z -statistique s’interprète de manière classique à partir des probabilités critiques et permet
la tenue de tous les tests de significativité concernant les coefficients.
58
-Le coefficient de détermination R2 n’est pas interprétable en termes d’ajustement du modèle,
on utilise plutôt une statistique appelée le pseudo-R2 donnée par le Likelihood Ratio
Log  L 
Index (LRI), avec LRI  1  , où Log L = valeur de log-vraisemblance maximisée et
Log  L0 
Log L0 = valeur de log-vraisemblance maximisée dans un modèle avec seulement la
constante.
-Afin de tester la significativité globale du modèle, on utilise la statistique du ratio de
vraisemblance (Likelihood Ratio (LR) statistic); LR  2  Log  L   Log  L0   . La statistique
LR suit, sous l’hypothèse nulle H0 (que tous les coefficients hormis la constante sont nuls),
une distribution de χ2 à k degrés de liberté. Si LR calculé est supérieure au χ2 lu dans la table
pour un seuil , généralement de 5 %, on refuse H0, le modèle estimé comporte au moins une
variable explicative de significative.

Exemple d’application 1 : Voir exercice 8.23 et 8.25, pp. 199-200 dans Salvatore.

Exemple d’application 2 : Voir exercice No 1, p. 326 dans Bourbonnais.

59

Vous aimerez peut-être aussi