Vous êtes sur la page 1sur 37

Chapitre III:

Multicolinéarité et sélection
du modèle optimal

FEG Guelmim 2020/2021


Introduction
I. Corrélation partielle
 Définition
 Généralisation
 Relation entre coefficients de corrélation simple, partielle et
multiple
II. Multicolinéarité
 Conséquences de la multicolinéarité
 Tests de détection d’une multicolinéarité
 Comment remédier à la multicolinéarité ?
III. Sélection du modèle optimal
Introduction
• Lorsque l’économiste spécifie un modèle, il hésite à intégrer telle ou telle
variable explicative.

• Comment déterminer le mix optimal des variables explicatives ?

• On terme statistique, il choisit les variables explicatives qui maximisent


leur coefficient de corrélation avec la variable à expliquer, tout en étant les
moins corrélées entre elles.
Corrélation partielle
Exemple:
On cherche le lien existant entre d’une part la consommation d’électricité, et
d’autre part, les importations du pétroles et la consommation de glaces.

On constate que plus on consomme les glaces, moins on consomme


l’électricité et plus on importe le pétrole plus on consomme de l’électricité.

La consommation des glaces et de l’électricité sont liées au climat.


Pour mesurer véritablement la corrélation qui peut existe entre les deux
variables, il faut donc enlever l’influence du climat et calculer une corrélation
partielle: corrélation entre la consommation d’électricité et des glaces en
enlevant le climat
Corrélation partielle
• Définition :
Un coefficient de corrélation partielle mesure le lien
entre deux variables lorsque l’influence d’une ou
d’autres variables explicatives est retirée.
Corrélation partielle
• Généralisation :
Soit y une variable à expliquer, et x1, x2 et x3 des variables explicatives :

• 3 coefficients de corrélation simple.


• 6 coefficients de corrélation partielle de 1er ordre.
• 3 coefficients de corrélation simple de 2ème ordre.

Plus le coefficient de corrélation partielle d’une variable est élevé, plus la


contribution de cette variable est importante à l’explication globale du
modèle.
Corrélation partielle
• Le coefficient de corrélation partielle peut se calculer de plusieurs
manières à partir :
A) Du coefficient de corrélation simple
• Entre le résidu de la régression de la variable à expliquer sur le sous
ensemble des k−1autres variables explicatives,
• et le résidu de la régression de la variable explicative xi sur les k−1
variables explicatives.
B) Du t de Student
• Dans un modèle à k variables explicatives:

• cette relation n’est vérifiée que pour un coefficient de corrélation partielle


d’ordre k−1
Corrélation partielle
• Relation entre coefficients de corrélation simple, partielle et
multiple:
Dans le cas d’un modèle à une seule variable explicative x1:

Dans le cas de deux variables explicatives x1 et x2 :

est la proportion du résidu expliquée par la variable x2 seule


Corrélation partielle
• Cette dernière expression peut donc s’écrire:

• Cas de 3 variables :

• Cas de 4 variables:
Multicolinéarité
• Conséquences:
Nous pouvons citer trois effets principaux:

a) augmentation de la variance estimée de certains coefficients lorsque la colinéarité


entre les variables explicatives augmente (le t de Student diminue) ;

b) instabilité des estimations des coefficients des moindres carrés, des faibles
fluctuations concernant les données entraînent des fortes variations des valeurs
estimées des coefficients ;

c) en cas de multicolinéarité parfaite, la matrice X’X est singulière (le déterminant est
nul), l’estimation des coefficients est alors impossible et leur variance est infinie.
Multicolinéarité
• Tests de détection d’une multicolinéarité:
A) Test de Klein
Si , il y a présomption de multicolinéarité.

B) Test de Farrar et Glauber


Les étapes de test de F.G
- Calculer le déterminant de la matrice des coefficients de corrélation entre
les variables explicatives.

- Lorsque la valeur du déterminant D tend vers zéro, le risque de


multicolinéarité est important.
Multicolinéarité
-effectuer un test du χ2 , en posant les hypothèses suivantes :
H0 : D=1 (les séries sont orthogonales) ;
H1 : D<1 (les séries sont dépendantes).
La valeur empirique du ∗χ2 calculée à partir de l’échantillon est égale à :

où n est la taille de l’échantillon, K le nombre de variables explicatives (terme


constant inclus, K=k+1) et Ln le logarithme népérien.

Si lu dans la table à degrés de liberté et au seuil αchoisi,


alors l’hypothèse H0est rejetée, il y a donc présomption de multicolinéarité.
Multicolinéarité
Comment remédier à la multicolinéarité ?
• Augmenter la taille de l’échantillon : cette technique n’est efficace que si
l’ajout d’observations diffère significativement de celles figurant déjà dans
le modèle, sinon il y aura reconduction de la multicolinéarité.

• La « Ridge Regression »est une réponse purement numérique, il s’agit de


transformer la matrice X’X en (X’X+ cI ) où c est une constante choisie
arbitrairement qui, en augmentant les valeurs de la première diagonale,
réduit les effets « numériques » de la multicolinéarité.

• la seule parade vraiment efficace consiste à éliminer les séries explicatives


susceptibles de représenter les mêmes phénomènes et donc d’être
corrélées entre elles, ceci afin d’éviter l’effet de masque.
Sélection du modèle optimal
Nous allons examiner 4 méthodes qui vont nous permettre de retenir le
meilleur modèle, celui qui est composé des variables qui sont : les plus
corrélées avec la variable à expliquer et les moins corrélées entre elles.

• Toutes les régressions possibles


• L’élimination progressive (« Backward Elimination »)
• La sélection progressive (« Forward Regression »)
• La régression pas à pas (« Stepwise Regression »)
Sélection du modèle optimal
• Toutes les régressions possibles
 On estime toutes les régression possibles (2k −1possibilités)
 On choisit la régression dont le critère de Akaike ou de
Schwarz est minimale et qui comporte des variables
explicatives toutes significatives.
Sélection du modèle optimal
• L’élimination progressive (« Backward Elimination »)

 On estime le modèle complet à k variables explicatives


 On élimine de proche en proche les variables explicatives dont les t de
Student sont en dessous du seuil critique.

• La sélection progressive (« Forward Regression »)

 Première étape: on sélectionne la variable explicative dont le coefficient


de corrélation simple est le plus élevé avec la variable y, soit xi cette
variable
 Deuxième étape: calculer les coefficients de corrélation partielle r2yxj·xi pour
j ≠i et à retenir la variable explicative ayant le coefficient le plus élevé.
 La sélection s’arrête lorsque les t de Student des variables explicatives sont
inférieurs au seuil critique
Sélection du modèle optimal

• La régression pas à pas (« Stepwise Regression »)

 Cette procédure est identique à la précédente


 sauf qu’après avoir incorporé une nouvelle variable, on examine les t de
Student de chacune des variables et nous éliminons du modèle celle(s)
dont le t du Student est inférieur au seuil critique.
Chapitre IV:
Hétéroscédasticité et
autocorrélation des erreurs
Introduction

I. Méthode des moindre carrées généralisés

II. Hétéroscédasticité

III. Autocorrélation des erreurs


Introduction
• les hypothèses:
• H1 : le modèle est linéaire en xt
• H2 : les valeurs xt sont observées sans erreur.
• H3 :
• H4 :
• H5 :
• H6 :
La matrice des variances-covariances de l’erreur:
Méthode des moindre carrés généralisés
• Soit le modèle général:

est matrice n*n, symétrique, définie positive et de plein rang


La matrice n’est pas nécessairement diagonale.

• L’estimateur par la méthode des moindres carrés généralisés:

Le fait d’avoir des résidus corrélés et de l’hétéroscédasticité ne fait pas


perdre la propriété d’absence de biais Cependant, l’estimateur des MCO n’est
plus l’estimateur optimale
• Théorème: (Gauss-Markov) l’estimateur des MCG est le
meilleur ( au sens de la plus petite variance) estimateur linéaire
en y sans biais de .

• Le problème de ce résultats est que la matrice n’est pas toujours


connue.
• est constitué de n termes diagonaux et n(n-1)/2 terme extra
diagonaux.
• On peut formuler 2 hypothèses qui ne sont pas suffisant pour
pouvoir estimer mais réduisent le nombre de paramètres à
estimer
 la matrice est diagonale  hétéroscédasticité
 Tous les éléments diagonaux de sont égaux  Autocorrélation
II. Hétéroscédasticité
• Soit le modèle général:
• L’hypothèse H4 n’est pas vérifiée
• La matrice des erreurs est alors :

• Les variances des erreurs ne sont plus constantes sur la


première diagonale.
• Ce problème se rencontre plus fréquemment pour les
modèles spécifiés en coupe instantanée ou bien lorsque les
observations sont représentatives de moyennes.
Hétéroscédasticité
• La variance de l’erreur est alors liée aux valeurs de la variable
explicative
Hétéroscédasticité
Les conséquences de l’hétéroscédasticité:
• estimateur sans biais ;
• l’estimateur de MCO n’est plus à variance minimale
Les causes de l’hétéroscédasticité:
• lorsque les observations représentent des moyennes calculées
sur des échantillons de taille différente ;
• Effet taille: part du revenu disponible dépensé en loisirs
• Variables explicatives de la variance: Variable définit des
groupes dans la variable expliquée et ces groupes sont de
variances différentes (Productivité inobservée par niveau
d’éducation; Qualité inobservée d’un bien par niveau de prix;
Déterminants sociologiques du taux d’épargne par niveau de
revenu)
Hétéroscédasticité
Incidence et remèdes:
• L’ hétéroscédasticité influence les test de signification de plus
elle fausse les intervalles de prévision.
• Pour remédier à l’ hétéroscédasticité, on peut procéder selon
les cas: la transformation des variables ou prendre en compte
de l’ hétéroscédasticité à l’intérieur du modèle par le recours
aux MCG.
Hétéroscédasticité
Tests de détection d’hétéroscédasticité:
• Test d’égalité des variances ;
• Test de Goldfeld-Quandt ;
• Test de Gleisjer ;
• Test de White;
• Test de Park;
• Test de Breuch-Pagan-God frey;
• Test de Harvey;
• Test de Koenker-Basset;
• ….
Hétéroscédasticité
Test de Goldfeld-Quandt:
• Une des conditions d’application de ce test est que l’une des variables soit la
cause de l’hétéroscédasticité et que le nombre d’observations soit assez
grand (n>30)
• La démarche comporte 3 étapes:
 Ranger les données suivant l’ordre des valeurs croissantes de la variable
explicative xi
 Effectuer des régressions séparées, l’une pour les valeurs inférieurs de x i;
l’autre pour les valeurs supérieurs en omettant les observations
intermédiaires;
 Procéder à la régression sur les deux sous-échantillon, puis effectuer le test.
Sous l’hypothèse H0 d’homoscédasticité, on test le rapport
suit une loi de Fisher à ddl2 et ddl1 degrésde liberté.
Hétéroscédasticité
Test de White:
• il est fondé sur une relation significative entre le carré du résidu et une ou
plusieurs variables explicatives en niveau et au carré au sein d’une même
équation de régression.
• On applique une régression multiple de la variable y par les variables
explicatives.
• On effectuer une seconde régression où la variable dépendante est le
carré du résidu de la première régression et les variables explicatives sont
les variables explicatives de la première régression auxquelles on ajoute
les carrés de ces variables.
• Si l’un de ces coefficients de régression est significativement différent de 0,
alors on accepte l’hypothèse d’hétéroscédasticité.
Hétéroscédasticité
• Correction de l’hétéroscédasticité:
• L’estimateur BLUE du modèle hétéroscédastique est alors celui des MCG

• Il n’existe pas une méthodologie unique de correction. La démarche


générale se réduit à la détermination d’une transformation (régression
pondérée) relative aux données de la variable endogène et des variables
explicatives de façon à se ramener à un modèle homoscédastique.
Autocorrélation des erreurs

• Définition:
On parle d’autocorrélation des erreurs lorsque les erreurs sont
liées par un processus de reproduction.

Deux type d’autocorrélation sont généralement distingués:


• d’autocorrélation positive
• d’autocorrélation négative
Autocorrélation des erreurs

Cause d’autocorrélation des erreurs:


• L’absence d’une variable explicative significative dont l’implication
résiduelle permettrait de considérer que les erreurs suivent un Bruit
Blanc;
• Une mauvaise spécification du modèle
• un lissage par moyenne mobile ou une interpolation des données crée
une autocorrélation artificielle des erreurs due à l’usage de ces deux
opérateurs.
L’autocorrélation des erreurs se rencontre essentiellement dans les modèles
en série temporelle. Dans le cas de modèle spécifié en coupe instantanée, si
les observations ont été préalablement triées en fonction croissante (ou
décroissante) de la variable à expliquer.
Autocorrélation des erreurs

Détection:
Deux démarches sont possible: à partir d’une représentation graphique des
résidus ou par le test de Durbin-Watson (DW).
 Représentation graphique:
 Lorsque on a une succession positive ou négative des résidus, cette
reproduction entraine une autocorrélation positive.
Autocorrélation des erreurs
 Au contraire, si les résidus sont alternés; c’est-à-dire qu’il se produit des
fluctuations positives et négatives, on a une autocorrélation négative.
Autocorrélation des erreurs
 Test de Durbin-Watson ou autocorrélation d’ordre 1
Le test de Durbin et Watson (DW) permet de détecter une autocorrélation
des erreurs d’ordre 1 selon la forme :

Le test d’hypothèses est le suivant :


H0 :ρ=0
H1 :ρ ≠ 0
Pour tester l’hypothèse nulle H0, nous calculons la statistique de Durbin et
Watson:

Où sont les résidus de l’estimation du modèle.


Autocorrélation des erreurs
• De par sa construction, cette statistique varie entre 0 et 4.
• La lecture de la table permet de déterminer deux valeurs d1 et d2
comprises entre 0 et 2qui délimitent l’espace entre 0 et 4 selon le schéma
suivant:

nous sommes dans une zone d’indétermination, ou zone de doute, c’est-à-dire


que nous ne pouvons pas conclure dans un sens comme dans l’autre.
Autocorrélation des erreurs

Conditions d’utilisation:
• le modèle doit comporter impérativement un terme constant;
• la variable à expliquer ne doit pas figurer parmi les variables explicatives
(entant que variable retardée), il faut alors recourir à la statistique h de
Durbin;
• pour les modèles en coupe instantanée, les observations doivent être
ordonnées en fonction des valeurs croissantes ou décroissantes de la
variable à expliquer ou d’une variable explicative soupçonnée être la cause
de l’autocorrélation;
• le nombre d’observations doit être supérieur ou égal à 15

Vous aimerez peut-être aussi